For the complete documentation index, see llms.txt. This page is also available as Markdown.

网站抓取治理:ImpactCINDAgent 说明

本文介绍如何识别、验证和控制 ImpactCINDAgent。

ImpactCINDAgent 是由 impact.com 运营的网络爬虫,用于验证合作伙伴和品牌网站上的页面是否正确使用 impact.com 跟踪,并且是否符合品牌协议。

如果您的网站参与了 impact.com 合作项目,ImpactCINDAgent 会定期抓取页面以:

  • 验证跟踪:确保跟踪链接和标签已正确安装并正常运行。

  • 检查合规性:检查页面内容是否与已发布的品牌安全和合规协议一致。

  • 报告:提取非个人元数据(标题、规范 URL、产品图片、SKU),为合作伙伴的报告提供支持。

  • 发现:执行更广泛的抓取,以发现尚未在平台中注册的域名上宣传已接入 impact.com 的品牌内容。

识别 ImpactCINDAgent

ImpactCINDAgent 会通过特定的 User-Agent 字符串来表明自己的身份。

完整 User-Agent 字符串:Mozilla/5.0 (compatible; ImpactCINDAgent) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36

验证请求

如果您需要确认某个请求确实来自 impact.com(而不是伪造的 User-Agent),请使用以下方法,按从低到高的权威性排序:

方法 1:IP 范围检查(高置信度)

确认请求的源 IP 是否位于这些由 impact.com 控制的范围内:

CIDR 范围:

  • 163.116.128.0/17

  • 162.10.0.0/17

  • 31.186.239.0/24

  • 8.39.144.0/24

  • 8.36.116.0/24

单个地址: 34.145.188.137, 35.245.212.57, 34.21.56.213, 34.48.90.233, 35.245.229.167, 34.150.151.151, 35.245.185.65, 35.188.242.212, 34.86.33.122, 34.145.224.193, 35.245.135.218, 35.221.1.178, 34.150.217.77, 107.175.80.80, 162.212.175.22, 107.172.69.119

方法 2:签名验证(最高置信度)

来自 ImpactCINDAgent 的每个请求都经过加密签名(参见 RFC 9421)。您可以依据我们的 公钥目录来验证签名。此实现基于 web-bot-auth 规范 ,该规范建立在 RFC 9421 规范之上。

预期行为:

  • 无头浏览:ImpactCINDAgent 使用真实的无头浏览器。它会发出一个 GET 请求,渲染页面,执行 JavaScript,并获取子资源(CSS/JS),以便像用户一样准确查看页面。

  • 截图:它可能会捕获截图用于内部合规审查。这些截图绝不会公开。

  • 重定向:它会跟随重定向,包括跨不同源的重定向。

  • 无破坏性操作:它不会提交表单、绕过 CAPTCHA/付费墙,也不会执行 POST/DELETE 请求。

控制访问

ImpactCINDAgent 会遵守 robots.txt 中专门针对 ImpactCINDAgent 或通配符的指令 *.

完全屏蔽

设置抓取速率

如果该爬虫影响了您的网站性能,请使用 Crawl-delay 指令。

速率限制与退避

如果您的服务器返回以下响应,ImpactCINDAgent 会自动降低请求速率:

  • HTTP 429(请求过多)

  • HTTP 503(服务不可用)

  • 它还会遵守 Retry-After 响应头(如果提供)。

最后更新于

这有帮助吗?