如何编写和优化WordPress网站的Robots.txt

正文 乐搜网   2019-11-7   99



要知道WordPress robots.txt文件中的“Disallow”命令与页面头部的元描述noindex 的作用不完全相同。您的robots.txt会阻止抓取,但不一定不进行索引,网站文件(如图片和文档)除外。如果搜索引擎从其他地方链接,它们仍然可以索引您的“不允许爬取”的页面。

robots-preview-1024x536.png

因此,Prevent Direct Access Gold不再使用robots.txt禁止规则阻止您的网站页面进行搜索索引。相反,我们使用  noindex元标记,这也有助于谷歌和其他搜索引擎正确地在您的网站上为您的内容分发其入站链接值。

Yoast建议保持robots.txt干净  ,不要阻止包括以下任何内容:

  1. User-agent: *
  2. Disallow: /wp-admin/
  3. Allow: /wp-admin/admin-ajax.php
  4. Disallow: /wp-content/plugins/
  5. Disallow: /wp-includes/

WordPress也同意说理想的robots.txt 不应该禁止任何东西。事实上,  /wp-content/plugins/ 和  /wp-includes/ 目录包含您的主题和插件可能用于正确显示您的网站的图像,JavaScript或CSS文件。阻止这些目录意味着插件和WordPress的所有脚本,样式和图像被阻止,这使得Google和其他搜索引擎的抓取工具难以分析和理解您的网站内容。同样,你也不应该阻止你/wp-content/themes/

简而言之,禁止你的WordPress资源,上传和插件目录,许多人声称可以增强你的网站的安全性,防止任何目标易受攻击的插件被利用,但实际上可能弊大于利,特别是在SEO方面。或者,您应该卸载这些不安全的插件更实际些。

这就是我们默认从robots.txt中删除这些规则的原因。但是,您可能仍希望将它们包含在WordPress的Robots.txt内。

建议包含Sitemap文件

尽管Yoast强烈建议您直接手动将XML站点地图提交到Google Search Console和Bing网站管理员工具,但您仍可将sitemap添加到robots.txt,帮助搜索引擎快速爬取收录你的网站页面。

  1. Sitemap: https://www.momseo.com/post-sitemap.xml
  2. Sitemap: https://www.momseo.com/page-sitemap.xml
  3. Sitemap: https://www.momseo.com/author-sitemap.xml
  4. Sitemap: https://www.momseo.com/offers-sitemap.xml

Robots.txt的其他规则

出于安全,建议您阻止您的WordPress的readme.html,licence.txt和wp-config-sample.php文件访问,以便未经授权的人员无法检查并查看您正在使用的WordPress版本。

  1. User-agent: *
  2. Disallow: /readme.html
  3. Disallow: /licence.txt
  4. Disallow: /wp-config-sample.php

您还可以使用robots.txt对不同的搜索引擎爬虫定制不同的爬取规则,如下示例。

  1. # block Googlebot from crawling the entire website
  2. User-agent: Googlebot
  3. Disallow: /
  4. # block Bingbot from crawling refer directory
  5. User-agent: Bingbot
  6. Disallow: /refer/

这是如何阻止蜘蛛抓取WordPress搜索结果,强烈建议加入此规则:

  1. User-agent: *
  2. Disallow: /?s=
  3. Disallow: /search/

HostCrawl-delay 是您可能考虑使用的其他robots.txt指令,尽管不太受欢迎。第一个指令允许您指定网站的首选域(www或非www):

  1. User-agent: *
  2. #we prefer non-www domain
  3. host: yourdomain.com

下面的规则是用来告诉搜索引擎蜘蛛在每次抓取之前等待几秒钟。

  1. User-agent: *
  2. #please wait for 8 seconds before the next crawl
  3. crawl-delay: 8

完整的robots.txt

综上所述,我们建议WordPress的robots.txt内容编写为:

  1. User-agent: *
  2. Allow: /wp-admin/admin-ajax.php
  3. Disallow: /wp-admin/
  4. Disallow: /wp-login.php
  5. Disallow: /readme.html
  6. Disallow: /licence.txt
  7. Disallow: /wp-config-sample.php
  8. Disallow: /refer/
  9. Disallow: /?s=
  10. Disallow: /search/
  11. #we prefer non-www domain(填入你的网站域名首选域名,一般带www,请根据实际情况填写,部分搜索引擎不支持此规则,慎重添加)
  12. host: https://www.momseo.com
  13. #please wait for 8 seconds before the next crawl(填入你希望爬虫爬取页面的延迟秒数)
  14. crawl-delay: 8

温馨提示:上述完整的robots.txt仅供参考,请各位站长根据自己的实际情况编写内容,其中User-agent: *规则即对所有搜索引擎蜘蛛通用;Allow: 规则即允许爬取;Disallow: 规则即不允许爬取;host:规则用于指定网站首选域;crawl-delay:规则用于设定爬虫爬取时间间隔;Sitemap:规则用于设定网站的地图地址。

相关说明
1、本站大部分资源收集于网络以及网友投稿,本不保证资源的完整性以及安全性,请下载后自行测试。
2、本站所发布的一切非原创资源等仅限用于学习和研究目的;不得用于商业或者非法用途,否则,一切后果请用户自负。
3、本站非原创信息来自互联网收集,版权归原创作者所有,版权争议与本站无关,如有侵权请邮件与我们联系处理。我们会在三个工作日内予以清除。
4、所收取费用仅是收集整理费用,用来维系网站运营,性质为用户友情赞助,并非售卖文件费用,本站不对所实际的版权问题负法律责任。
5、根据2013年1月30日《计算机软件保护条例》为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。鉴于此,本站希望大家严格按此说明研究软件学习,如需商业运营请购买正版!由于未及时购买正版发生的侵权行为,与本站无关。
乐搜网 » 如何编写和优化WordPress网站的Robots.txt

发表评论

发表评论

正版源码,海量素材,专业课程应有尽有!

立即查看 了解详情