深圳推广公司介绍修改网站的robots内容
在大多数情况下,你通常不想太乱用这个。这不是你经常会改变的东西。
你想要在robots.txt文件中添加内容的唯一原因是,你的网站上有某些页面,你不希望机器人抓取并编制索引。
你需要熟悉用于命令的语法。因此,打开纯文本编辑器来编写语法。
我将介绍最常用的语法。
首先,你需要识别爬虫。这称为用户代理。
用户代理: *
上面的语法指的是所有搜索引擎抓取工具(谷歌,Yahoo,Bing等)
用户代理:谷歌bot
顾名思义,此值与谷歌的抓取工具直接对话。
识别出抓取工具后,你可以允许或禁止你网站上的内容。这是我们之前在Quick Sprout robots.txt文件中看到的一个示例。
用户代理: *
禁止:/ wp-content /
此页面用于WordPress的管理后端。因此,此命令会告知所有爬网程序(用户代理:*)不要抓取该页面。机器人没有理由浪费时间爬行。
所以,假设你想告诉所有机器人不要抓取你网站上的这个特定页面。http://www.yourwebsite.com/samplepage1/
语法如下所示:
用户代理: *
禁止:/ samplepage1 /
这是另一个例子:
不允许:/ *。gif $
这将阻止特定的文件类型(在本例中为.gif)。你可以参考谷歌的图表,了解更多常见规则和示例。
这个概念非常简单。
如果要从所有爬网程序(或特定爬网程序)中禁止站点上的页面,文件或内容,则只需找到正确的语法命令并将其添加到纯文本编辑器中。
完成命令编写后,只需将其复制并粘贴到robots.txt文件中即可。