合作伙伴的网站抓取要求

作为合作伙伴,您可能需要采取某些步骤,例如配置 User-Agent 标识,以确保 impact.com 的受监管合规爬虫可以以编程方式访问并从您的网站检索数据,而不会中断且具有适当的授权。本指南主要面向负责管理网站访问和安全设置的开发人员、IT 管理员和技术团队。

如何允许 impact.com 的受监管合规机器人

作为合作伙伴,impact.com 的受监管合规机器人可能会监控您的网站,以确保特定内容符合您与品牌的协议。每个被监控的项目都需要单独访问您站点一次,因此具有大量被监控内容的网站将相应地收到更多请求。

如果限制了 impact.com 的受监管合规机器人(例如返回 HTTP 429 - 请求过多或 HTTP 403 - 禁止),我们可能无法审查和验证您的内容,这可能会影响合规可见性。

为确保监控不中断:

  • 使用提供的 User-Agent 将 impact.com 受监管合规机器人列入允许列表。

  • 避免阻止或限制来自 impact.com 受监管合规机器人的合法请求。

  • 使用请求头中包含的签名验证 impact.com 受监管合规机器人,以确认真实性并防止伪造。

  • 通过允许并验证 impact.com 受监管合规机器人,您有助于确保您的内容被准确审查并反映在 impact.com 系统中。

User-Agent 标识

我们的爬虫使用自定义 User-Agent 在网络请求期间识别自身。这使您作为合作伙伴能够将 impact.com 的合规流量与其他机器人和爬虫区分开来。

要列入允许列表的 User-Agent 字符串(请按示例完全使用):

Mozilla/5.0 (compatible;Impact.com Agent) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36

验证 impact.com 爬虫请求

为确认传入流量来自 impact.com 爬虫,每个请求都包含一个自定义的 HMAC 签名头:

X-Impact-Crawler-Signature: <hmac signature>

该签名允许您使用已知的密钥和共享算法对请求进行身份验证。它可确保请求源自 impact.com 且未被篡改。

chevron-right签名构造hashtag

签名构造

我们使用以下过程计算签名:

  • 密钥: /impact/crawler/signature/

  • 要签名的数据: User-Agent

  • HMAC 算法: HMAC-SHA256

  • 签名输出: 十六进制字符串

chevron-right如何验证(伪代码)hashtag
circle-exclamation

受监管合规监控的 IP 允许列表

为支持持续的受监管合规监控,请将以下 IP 地址范围列入允许列表。这可确保来自 impact.com 的流量不会被意外阻止,并且站点监控可以不间断地进行。

允许以下 IP 范围:

  • 163.116.128.0/17

  • 162.10.0.0/17

  • 31.186.239.0/24

  • 8.39.144.0/24

  • 8.36.116.0/24

我们建议更新您的防火墙或访问控制列表,以允许来自以下 impact.com IP 地址范围的传入流量。

circle-info

建议: 有关受监管合规监控和机器人访问的技术协作或问题, 联系支持arrow-up-right.

最后更新于

这有帮助吗?