深圳网络推广公司介绍为什么需要优化robots文件
我知道你们有些人在想什么。为什么在这个世界上我想要搞乱其中任何一个?
这是你需要了解的内容。robots.txt文件的目的不是完全阻止搜索引擎中的网页或网站内容。
相反,你只是试图最大限度地提高其抓取预算的效率。你所做的只是告诉机器人他们不需要抓取不是为公众制作的页面。
以下是谷歌抓取预算如何运作的摘要。
它分为两部分:
抓取速度限制
抓取需求
爬网速率限制表示爬网程序可以对任何给定站点建立的连接数。这还包括提取之间的时间量。
快速响应的网站具有更高的抓取速度限制,这意味着他们可以与僵尸网络建立更多连接。另一方面,由于抓取而减慢的网站不会经常被抓取。
还会根据需求对网站进行抓取。这意味着热门网站会更频繁地被抓取。另一方面,即使未满足爬网速率限制,也不会经常抓取不常用或频繁更新的站点。
通过优化robots.txt文件,你可以更轻松地完成抓取工作。据谷歌称,这些是影响抓取预算的元素的一些示例:
会话标识符
分面导航
错误页面
被黑客入侵的网页
内容重复
无限空间和代理
低质量的内容
垃圾邮件
通过使用robots.txt文件禁止来自抓取工具的此类内容,可确保他们花费更多时间来发现和索引网站上的热门内容。
搜索引擎抓取工具会在左侧网站上花费更多时间,因此会占用更多抓取预算。但右侧的站点确保仅爬取顶级内容。
我相信你知道,重复内容对SEO有害。但有些时候,有必要在你的网站上。例如,有些人可能具有特定页面的打印机友好版本。这是重复的内容。因此,你可以通过优化robots.txt语法告诉机器人不要抓取适合打印的页面。