指南
理解哪些规则是安全的、哪些风险较高,以及如何避免误拦影响收入的页面。
robots.txt 的作用应该是引导抓取,而不是一刀切地把爬虫挡在门外。
正式环境里的 robots.txt 应该帮助搜索引擎发现内容,而不是误伤收录。很多发布者把测试环境规则复制到正式环境,最终造成看不见的流量损失。
像 `ads.txt`、关键 HTML 页面以及 sitemap 引用这类资源,应保持公开可访问。若把这些也挡掉,即使站点其它部分正常,变现和收录检测也可能失败。