什么是 `robots.txt` 文件
`robots.txt` 是一个纯文本文件,存放在网站的根目录下。它以特定的语法规则,告知搜索引擎爬虫哪些页面可以访问,哪些页面禁止访问。搜索引擎如百度、谷歌等都会遵循这一文件的规定。
`robots.txt` 文件的基本语法
1. 每一行包含一个指令或规则,以 `User-agent` 开始,后面跟着一个或多个空格,接着是爬虫的名称或类型。
2. 指令可以是 `Disallow` 或 `Allow`。`Disallow` 表示禁止爬虫访问的路径,`Allow` 表示允许爬虫访问的路径(通常不使用 `Allow`,因为默认未列出的路径是允许访问的)。
3. 使用正则表达式定义路径,支持通配符如星号()和问号(?)。
编写 `robots.txt` 的步骤
1. 确定需要与哪些搜索引擎交互:例如百度、谷歌等。
2. 确定网站中哪些页面或目录需要被索引,哪些需要被保护或隐藏。
3. 使用文本编辑器创建 `robots.txt` 文件,并放置在网站根目录下。
4. 根据需求编写 `User-agent` 和相应的指令。
`robots.txt` 文件的编写示例
```
# 禁止所有搜索引擎爬取 test1 文件夹下的内容
User-agent:
Disallow: /test1/
# 只允许百度爬虫访问 website 目录下的内容
User-agent: Baiduspider
Allow: /website/
# 针对特定爬虫的限制
User-agent: Googlebot
Disallow: /private/ # 禁止 Googlebot 访问 private 目录下的内容
```
注意事项
1. 使用简单易懂的语法和格式:确保文件没有语法错误和格式错误。
2. 更新频繁变化的网站内容时:如博客、新闻网站等,可以设置为允许爬虫频繁访问。
3. 保护敏感或私密确保不希望被搜索引擎索引的内容被正确禁止访问。
4. 定期检查并更新:随着网站结构和内容的变化,定期检查并更新 `robots.txt` 文件是必要的。
5. 避免过度限制:确保不要过于限制搜索引擎的访问,否则可能影响网站的搜索排名和流量。