目录导航
先来了解一下机器人
什么是机器人?
机器人是一种软件应用程序,被编程为执行某些任务。机器人是自动化的,这意味着它们根据指令运行,而无需人类用户每次都手动启动它们。机器人经常模仿或替代人类用户的行为。通常,他们会执行重复性任务,并且他们可以比人类用户更快地完成这些任务。
机器人通常在网络上运行;超过一半的互联网流量是机器人扫描内容、与网页交互、与用户聊天或寻找攻击目标。一些机器人很有用,例如为搜索索引内容的搜索引擎机器人或帮助用户的客户服务机器人。其他机器人是“坏的”并且被编程为闯入用户帐户,扫描网络以查找联系信息以发送垃圾邮件,或执行其他恶意活动。如果它连接到 Internet,则机器人将具有关联的IP 地址。
机器人可以是:
- 聊天机器人:通过编程响应来响应某些短语来模拟人类对话的机器人
- 网络爬虫(Googlebots):扫描整个互联网网页内容的机器人
- 社交机器人:在社交媒体平台上运行的机器人
- 恶意机器人:抓取内容、传播垃圾邮件内容或执行撞库攻击的机器人
什么是恶意机器人活动?

机器人的任何违反网站所有者意图、网站服务条款或网站Robots.txt机器人行为规则的自动操作都可能被视为恶意行为。试图进行网络犯罪(例如身份盗用或帐户接管)的机器人也是“坏”机器人。虽然其中一些活动是非法的,但机器人不必违反任何法律即可被视为恶意。
此外,过多的爬虫程序流量可能会淹没 Web 服务器的资源,从而减慢或停止尝试使用网站或应用程序的合法人类用户的服务。有时这是故意的,采取DoS或DDoS攻击的形式。
恶意机器人活动包括:
为了执行这些攻击并伪装攻击流量的来源,恶意机器人可能分布在一个僵尸网络中,这意味着机器人的副本在多个设备上运行,通常在设备所有者不知情的情况下。由于每台设备都有自己的 IP 地址,僵尸网络流量来自大量不同的 IP 地址,这使得识别和阻止恶意僵尸流量的来源变得更加困难。
公司如何阻止恶意机器人活动?
机器人管理解决方案能够通过机器学习从用户活动和有用的机器人活动中挑选出有害的机器人活动。Cloudflare Bot Management在不影响用户体验或阻止好的机器人的情况下阻止恶意行为。爬虫程序管理解决方案应该能够基于检测异常的行为分析来识别和阻止恶意爬虫程序,并且仍然允许有用的爬虫程序访问 Web 属性。
要了解有关设置机器人保护的更多信息,请参阅我们的开发人员文档。
Cloudflare推出的Friendly bots验证服务介绍

当有人在互联网上提到机器人时,你的第一反应是什么?
这可能是负面的。我们大多数人都会想起验证码、密码被盗或由恶意机器人引起的其他痛苦。
但事实是,互联网上有很多行为良好的机器人。其中包括 Google 的搜索爬虫和 Stripe 的支付机器人。在 Cloudflare,我们手动“验证”好的机器人,因此它们不会被阻止。我们的客户可以选择将任何经过验证的机器人列入白名单。不幸的是,新机器人的出现速度比我们验证它们的速度要快。所以今天我们宣布了一个解决方案:Friendly Bots。
让我们从一些背景开始。
机器人如何得到验证?
我们经常通过我们的公共表格找到好的机器人。任何人都可以提交机器人,但我们希望机器人操作员填写表格以向我们提供所需的信息。我们要求提供一些标准信息:您的机器人的名称、它的公共文档和它的用户代理(或正则表达式)。然后,我们要求提供有助于我们验证您的机器人的信息。常用的方法有四种:
IP 列表
向我们发送您的机器人使用的 IP 地址列表。这不一定是静态列表——您可以给我们一个动态页面,它会发生变化——只需向我们提供 URL,我们就会每天获取更新。这些 IP 必须公开记录并为您的机器人所独有。如果您提供共享 IP 地址(如代理服务使用的 IP 地址),我们的系统将检测风险并拒绝合作。我们希望避免意外允许其他流量。
rDNS
这个很有趣。您听说过DNS:互联网的电话簿,它有助于将域名映射到 IP 地址。rDNS反向工作,允许我们获取一个 IP 地址并推断出与之关联的域名。
换句话说:给我们一个主机名后缀,在许多情况下,我们将能够验证您的机器人的身份!
用户代理 + ASN 验证
在某些情况下,我们可以使用相同的用户代理验证始终来自同一网络(称为“ASN”)的机器人。请注意,我们不能总是这样做——流量变得更容易欺骗——但我们通常有足够的信心将其用作验证方法。
机器学习
这是最华而不实的方法。Cloudflare 每秒看到 32+ 百万个请求,我们已经能够将这些请求输入到可以准确描述优秀机器人的模型中。如果之前的验证方法对您不起作用,我们很有可能可以使用 ML 来发现您的机器人。但是我们需要足够的流量(数千个请求)来检测可用模式。

在花一些时间进行质量测试并确保一切安全之后,我们通常会在几周内批准 Verified Bot 请求。但如前所述,我们经常不得不为受信任的合作伙伴和更大的机器人保留这个过程,即使我们的很多用户仍然需要将他们的机器人列入白名单。
如果我的机器人不是一个庞大的全球服务怎么办?
我们保持警惕(以及我们的 Twitter 上的眼睛),所以我们知道人们想要他们自己的“个人”版本的验证机器人。
例如:假设您构建了自己的监控服务来抓取您的一些个人网站。验证这个机器人对我们来说没有意义,因为它不符合我们的任何标准:
- 服务于更广泛的互联网。
- 客观地表现出良好的行为。
- 遵守robots.txt等互联网标准。
这是你的机器人(对你来说,它可能很好!),但我们的其他用户可能会有不同的感受。想象一下,如果其他人的机器人可以随时进入您的基础设施!
这是另一个案例。也许 Cloudflare 已将特定代理标记为自动化,可能是因为人类和机器人混合使用该代理访问 Internet。您可能希望在不影响其他 Cloudflare 客户的情况下允许您网站上的此类流量。
最后,如果您在一家初创公司工作,您的公司可能会运行尚未达到我们要求的规模的自动化服务。但是您仍然需要一种将这些服务列入白名单的方法。
宣布友好的机器人
上面描述的机器人,尤其是常见的服务,还不错。他们应该处于不良和已验证之间的状态。他们很友好。
我们想出了一种非常酷的方法来帮助您管理它们。
我们的新功能 Friendly Bots 允许您借助 IP 列表、rDNS 等即时自动验证任何流量。

它的工作原理如下:在 Cloudflare 仪表板中,告诉我们您的机器人。您可以将我们指向一个公共 IP 列表,给我们一个主机名后缀,或者甚至选择其他方法,例如机器学习。Cloudflare 的任播网络允许我们在每个数据中心运行所有这些机制。这意味着您将获得高性能、安全且可扩展的机器人验证。
构建友好机器人集合并在您的站点之间共享它们,创建允许、速率限制或记录此类流量的自定义策略。您可能只想密切关注特定的机器人;没关系。响应选项非常灵活,可直接与我们的 Workers 平台集成。

过去,我们一直在努力验证没有大规模抓取网络的机器人。为什么?我们的系统依赖于经过验证的流量缓存,确保某些 IP 或其他数据在 Internet 上广泛表现出良好的行为。这意味着机器人有时很难验证它们是否没有向 Cloudflare 发出数千个请求。借助 Friendly Bots,我们消除了这一要求,引入了一种新的动态缓存,可针对有趣的项目进行优化。
下游利益
Friendly Bots 将简化您的仪表板体验。但我们想强调一些隐藏的下游好处:
更容易验证
诚然,要跟上 Internet 上所有优秀的机器人是一项挑战。为了验证机器人,我们依靠手动提交,这可能会在创建好的机器人后数周甚至数月内进行。友好的机器人将改变这一切。如果我们注意到我们的许多客户将特定的机器人列入了许可名单——例如,某个 IP 地址或主机名后缀,我们的系统将自动将该机器人排队以进行验证。我们可以智能地使用您的友好机器人来帮助 Cloudflare 的其他客户。
即时反馈
过去,用户一直对验证过程感到困惑。我需要为我的 IP 提供文件吗?我的用户代理呢:它会随着时间而改变吗?如果任何验证数据被破坏,我们可能需要数周时间来识别和修复。
情况不再如此。使用 Friendly Bots,我们几乎可以立即执行验证。因此,如果出现问题——也许您的 rDNS 验证使用了错误的主机名——您会立即知道,因为该机器人不会被列入白名单。无需再等待我们的支持团队的消息。
更好的采购
以前,我们要求机器人操作员(例如,谷歌)自己提交验证数据。如果有一个你想验证但不属于你的机器人,那么你就不走运了。
Friendly Bots 消除了对机器人操作员的依赖。任何可以找到识别信息的人都可以在他们的网站上注册一个机器人。
没有仲裁
如果刮板出现在您的网站上,这是一件好事吗?对某些人来说,是的,因为它是曝光。对其他人来说,不,因为该刮板可能会获取数据。这是我们在迄今为止提交的每个 Verified Bots 中都仔细考虑过的问题。
现在:这是您的选择。Friendly Bots 将控制权交给您,允许您在域级别对机器人进行分类。我们将继续在全球范围内验证机器人(当行为客观上良好时)。
Cloudflare 雷达
这是一个有趣的奖励:除了今天宣布的 Friendly Bots 之外,我们还对Cloudflare Radar进行了一些更改。
立即开始,您可以在 Radar中看到许多已验证机器人的列表。这真让人兴奋; 我们以前从未发布过这样的详细清单。

所有数据都是实时更新的。当我们验证新机器人时,它们将出现在雷达模块中。
我们也开始在我们的 Logs 产品中添加特定的 Verified Bots。您会将它们视为Bot Tags,因此如果请求来自 Pinterest 的机器人,则它可能包含字符串“pinterest”。
下一步是什么?
我们的团队很高兴能很快推出 Friendly Bots。我们预计影响将辐射整个机器人管理,减少误报,提高抓取能力,并总体稳定网站。

如果您有机器人管理并想尝试这个新功能,请告诉您的客户团队(我们一定会在早期访问期间将您包括在内)。您还可以继续告诉我们应该验证的机器人。
截至目前友好机器人排行榜
2022年3月18日
排行 | 机器人名称-机器人所有者-机器人类别 |
1 | GoogleBot Google Search Engine Crawler |
2 | BingBot Microsoft Search Engine Crawler |
3 | YandexBot Yandex Search Engine Crawler |
4 | Google AdsBot Google Advertising & Marketing |
5 | AhrefsBot Ahrefs Search Engine Optimization |
6 | DataDog Syntheric Bot DataDog Monitoring & Analytics |
7 | Google Image Proxy Google Page Preview |
8 | New Relic New Relic Monitoring & Analytics |
9 | Moz dotbot Moz Search Engine Optimization |
10 | PinterestBot Pinterest Social Media Marketing |
11 | Applebot Apple Search Engine Crawler |
12 | Google Images Google Search Engine Crawler |
13 | prerender Prerender, LLC Search Engine Optimization |
14 | BLEXBot WebMeUp Search Engine Optimization |
15 | SendGrid SendGrid Webhooks |
16 | Google AdSense Google Advertising & Marketing |
17 | Qualys Qualys Security |
18 | Google API Google Webhooks |
19 | Proximic ComScore Monitoring & Analytics |
20 | Amazonbot Amazon Accessibility |
21 | Ahrefs Site Audit Ahrefs Search Engine Optimization |
22 | Google Read Aloud Google Accessibility |
23 | UptimeRobot Uptimerobot Other |
24 | Grapeshot Grapeshot Advertising & Marketing |
25 | Pingdom Pingdom Monitoring & Analytics |
26 | Baidu Baidu Search Engine Crawler |
27 | Google Feed Fetcher Google Feed Fetcher |
28 | Bing Preview Microsoft Page Preview |
29 | Yahoo Mail Yahoo Page Preview |
30 | Sitex Sitex Monitoring & Analytics |
31 | Slackbot Slack Social Media Marketing |
32 | Bing Ads Microsoft Advertising & Marketing |
33 | Stripe Stripe Webhooks |
34 | StatusCake StatusCake Monitoring & Analytics |
35 | Detectify Detectify Security |
36 | ContentKing ContentKing Monitoring & Analytics |
37 | DuckDuckBot DuckDuckGo Search Engine Crawler |
38 | Botify Botify Search Engine Optimization |
39 | Better Uptime Better Up Time Monitoring & Analytics |
40 | Cốc Cốc Coccoc Search Engine Crawler |
41 | Brandwatch Brandwatch Social Media Marketing |
42 | Neevabot Neeva Search Engine Crawler |
43 | HetrixTools HetrixTools Inc Monitoring & Analytics |
44 | Sogou Sogou Search Engine Crawler |
45 | AddThis Addthis Search Engine Optimization |
46 | Yahoo Ad Monitoring Yahoo Advertising & Marketing |
47 | Amazon AdBot Amazon Advertising & Marketing |
48 | Exodus Exodus Accessibility |
49 | Internet Archive Internet Archive Academic Research |
50 | Feedly Feedly Feed Fetcher |
51 | Cxense Cxense Search Engine Optimization |
52 | Freshping freshworks Monitoring & Analytics |
53 | Linespider LINE Corporation Search Engine Crawler |
54 | Siteimprove Crawl Siteimprove Other |
55 | VaultPress VaultPress Security |
56 | FullStory Full Story Monitoring & Analytics |
57 | Yeti by Naver Naver Search Engine Crawler |
58 | Sentry Sentry Security |
59 | Let’s Encrypt Let’s Encrypt Other |
60 | Outbrain Outbrain Advertising & Marketing |
61 | Adyen Adyen Webhooks |
62 | Moz rogerbot Moz Search Engine Optimization |
63 | Yahoo Slurp Yahoo Search Engine Crawler |
64 | Splunk Splunk Monitoring & Analytics |
65 | Clickagy Clickagy Monitoring & Analytics |
66 | klaviyo https://www.hackklaviyo.hackcom/ Advertising & Marketing |
67 | LinkedInBot LinkedIn Search Engine Crawler |
68 | Google Videos Google Search Engine Crawler |
69 | webpagetest WebPagetest Monitoring & Analytics |
70 | Qwant Qwant Search Engine Crawler |
71 | Seznam Seznam Search Engine Crawler |
72 | Innologica Innologica Feed Fetcher |
73 | Automaton Automaton Monitoring & Analytics |
74 | Alexa Alexa Search Engine Crawler |
75 | ManageWP ManageWP Monitoring & Analytics |
76 | Apple App Site Association Apple Other |
77 | Alertsite by Smartbear Smartbear Monitoring & Analytics |
78 | Rackspace Rackspace Monitoring & Analytics |
79 | DataForSEO DataForSEO Search Engine Optimization |
80 | Taboola Taboola Advertising & Marketing |
81 | Slack Image Proxy Slack Page Preview |
82 | Iframely Iframely Page Preview |
83 | ZoomInfo ZoomInfo Advertising & Marketing |
84 | MSN Microsoft Search Engine Crawler |
85 | Nodeping Nodeping Monitoring & Analytics |
86 | SiteLock SiteLock Security |
87 | SEMrush SEMrush Search Engine Optimization |
88 | Skype Skype Page Preview |
89 | Feedbin Feedbin Feed Fetcher |
90 | Sucuri Sucuri Security |
91 | Integromat Integromat Other |
92 | Mojeek Mojeek Other |
93 | Alexa Archive Alexa Search Engine Crawler |
94 | PayPal PayPal Webhooks |
95 | Alexa Site Audit Alexa Search Engine Crawler |
96 | HostTracker HostTracker Monitoring & Analytics |
97 | NewsBlur NewsBlur Feed Fetcher |
98 | Google Schema Markup Testing Tool Google Monitoring & Analytics |
99 | Amazon Contxbot Amazon Advertising & Marketing |
100 | Revvim Revvim Search Engine Optimization |
转载请注明出处及链接