如何利用 robots.txt 阻止 AI 爬虫抓取敏感数据?

当需要阻止AI爬虫抓取敏感数据时,可通过配置网站根目录下的robots.txt文件实现,核心是针对AI爬虫的User-Agent设置禁止访问规则。 首先,需明确目标AI爬虫的User-Agent标识。常见AI抓取工具通常会在请求头中包含特定标识,如“GPTBot”“ClaudeBot”等,可通过服务器日志或爬虫识别工具获取具体名称。 其次,在robots.txt中编写规则:先指定目标User-Agent(如“User-agent: GPTBot”),再用“Disallow: /敏感数据路径/”明确禁止访问的目录或文件,例如“Disallow: /internal-docs/”或“Disallow: /user-data.html”。若需阻止所有未明确允许的AI爬虫,可使用“User-agent: *”结合具体路径限制。 最后,确保robots.txt文件放置在网站根目录(如https://example.com/robots.txt),并通过工具测试规则有效性。建议定期检查AI爬虫的User-Agent更新,及时调整规则以覆盖新出现的抓取工具。


