Cloudflare推出Friendly bots验证服务

Cloudflare推出Friendly bots验证服务

先来了解一下机器人

什么是机器人?

机器人是一种软件应用程序,被编程为执行某些任务。机器人是自动化的,这意味着它们根据指令运行,而无需人类用户每次都手动启动它们。机器人经常模仿或替代人类用户的行为。通常,他们会执行重复性任务,并且他们可以比人类用户更快地完成这些任务。

机器人通常在网络上运行;超过一半的互联网流量是机器人扫描内容、与网页交互、与用户聊天或寻找攻击目标。一些机器人很有用,例如为搜索索引内容的搜索引擎机器人或帮助用户的客户服务机器人。其他机器人是“坏的”并且被编程为闯入用户帐户,扫描网络以查找联系信息以发送垃圾邮件,或执行其他恶意活动。如果它连接到 Internet,则机器人将具有关联的IP 地址

机器人可以是:

什么是恶意机器人活动?

Cloudflare推出Friendly bots验证服务

机器人的任何违反网站所有者意图、网站服务条款或网站Robots.txt机器人行为规则的自动操作都可能被视为恶意行为。试图进行网络犯罪(例如身份盗用或帐户接管)的机器人也是“坏”机器人。虽然其中一些活动是非法的,但机器人不必违反任何法律即可被视为恶意。

此外,过多的爬虫程序流量可能会淹没 Web 服务器的资源,从而减慢或停止尝试使用网站或应用程序的合法人类用户的服务。有时这是故意的,采取DoSDDoS攻击的形式。

恶意机器人活动包括:

为了执行这些攻击并伪装攻击流量的来源,恶意机器人可能分布在一个僵尸网络中,这意味着机器人的副本在多个设备上运行,通常在设备所有者不知情的情况下。由于每台设备都有自己的 IP 地址,僵尸网络流量来自大量不同的 IP 地址,这使得识别和阻止恶意僵尸流量的来源变得更加困难。

公司如何阻止恶意机器人活动?

机器人管理解决方案能够通过机器学习从用户活动和有用的机器人活动中挑选出有害的机器人活动。Cloudflare Bot Management在不影响用户体验或阻止好的机器人的情况下阻止恶意行为。爬虫程序管理解决方案应该能够基于检测异常的行为分析来识别和阻止恶意爬虫程序,并且仍然允许有用的爬虫程序访问 Web 属性。

要了解有关设置机器人保护的更多信息,请参阅我们的开发人员文档

Cloudflare推出的Friendly bots验证服务介绍

Cloudflare推出Friendly bots验证服务

当有人在互联网上提到机器人时,你的第一反应是什么?

这可能是负面的。我们大多数人都会想起验证码、密码被盗或由恶意机器人引起的其他痛苦。

但事实是,互联网上有很多行为良好的机器人。其中包括 Google 的搜索爬虫和 Stripe 的支付机器人。在 Cloudflare,我们手动“验证”好的机器人,因此它们不会被阻止。我们的客户可以选择将任何经过验证的机器人列入白名单。不幸的是,新机器人的出现速度比我们验证它们的速度要快。所以今天我们宣布了一个解决方案:Friendly Bots。

让我们从一些背景开始。

机器人如何得到验证?

我们经常通过我们的公共表格找到好的机器人。任何人都可以提交机器人,但我们希望机器人操作员填写表格以向我们提供所需的信息。我们要求提供一些标准信息:您的机器人的名称、它的公共文档和它的用户代理(或正则表达式)。然后,我们要求提供有助于我们验证您的机器人的信息。常用的方法有四种:

IP 列表

向我们发送您的机器人使用的 IP 地址列表。这不一定是静态列表——您可以给我们一个动态页面,它会发生变化——只需向我们提供 URL,我们就会每天获取更新。这些 IP 必须公开记录并为您的机器人所独有。如果您提供共享 IP 地址(如代理服务使用的 IP 地址),我们的系统将检测风险并拒绝合作。我们希望避免意外允许其他流量。

rDNS

这个很有趣。您听说过DNS:互联网的电话簿,它有助于将域名映射到 IP 地址。rDNS反向工作,允许我们获取一个 IP 地址并推断出与之关联的域名。

换句话说:给我们一个主机名后缀,在许多情况下,我们将能够验证您的机器人的身份!

用户代理 + ASN 验证

在某些情况下,我们可以使用相同的用户代理验证始终来自同一网络(称为“ASN”)的机器人。请注意,我们不能总是这样做——流量变得更容易欺骗——但我们通常有足够的信心将其用作验证方法。

机器学习

这是最华而不实的方法。Cloudflare 每秒看到 32+ 百万个请求,我们已经能够将这些请求输入到可以准确描述优秀机器人的模型中。如果之前的验证方法对您不起作用,我们很有可能可以使用 ML 来发现您的机器人。但是我们需要足够的流量(数千个请求)来检测可用模式。

Cloudflare推出Friendly bots验证服务

在花一些时间进行质量测试并确保一切安全之后,我们通常会在几周内批准 Verified Bot 请求。但如前所述,我们经常不得不为受信任的合作伙伴和更大的机器人保留这个过程,即使我们的很多用户仍然需要将他们的机器人列入白名单。

如果我的机器人不是一个庞大的全球服务怎么办?

我们保持警惕(以及我们的 Twitter 上的眼睛),所以我们知道人们想要他们自己的“个人”版本的验证机器人。

例如:假设您构建了自己的监控服务来抓取您的一些个人网站。验证这个机器人对我们来说没有意义,因为它不符合我们的任何标准:

  1. 服务于更广泛的互联网。
  2. 客观地表现出良好的行为。
  3. 遵守robots.txt等互联网标准。

这是你的机器人(对你来说,它可能很好!),但我们的其他用户可能会有不同的感受。想象一下,如果其他人的机器人可以随时进入您的基础设施!

这是另一个案例。也许 Cloudflare 已将特定代理标记为自动化,可能是因为人类和机器人混合使用该代理访问 Internet。您可能希望在不影响其他 Cloudflare 客户的情况下允许您网站上的此类流量。

最后,如果您在一家初创公司工作,您的公司可能会运行尚未达到我们要求的规模的自动化服务。但是您仍然需要一种将这些服务列入白名单的方法。

宣布友好的机器人

上面描述的机器人,尤其是常见的服务,还不错。他们应该处于不良已验证之间的状态。他们很友好

我们想出了一种非常酷的方法来帮助您管理它们。

我们的新功能 Friendly Bots 允许您借助 IP 列表、rDNS 等即时自动验证任何流量。

Cloudflare推出Friendly bots验证服务

它的工作原理如下:在 Cloudflare 仪表板中,告诉我们您的机器人。您可以将我们指向一个公共 IP 列表,给我们一个主机名后缀,或者甚至选择其他方法,例如机器学习。Cloudflare 的任播网络允许我们在每个数据中心运行所有这些机制。这意味着您将获得高性能、安全且可扩展的机器人验证。

构建友好机器人集合并在您的站点之间共享它们,创建允许、速率限制或记录此类流量的自定义策略。您可能只想密切关注特定的机器人;没关系。响应选项非常灵活,可直接与我们的 Workers 平台集成。

Cloudflare推出Friendly bots验证服务

过去,我们一直在努力验证没有大规模抓取网络的机器人。为什么?我们的系统依赖于经过验证的流量缓存,确保某些 IP 或其他数据在 Internet 上广泛表现出良好的行为。这意味着机器人有时很难验证它们是否没有向 Cloudflare 发出数千个请求。借助 Friendly Bots,我们消除了这一要求,引入了一种新的动态缓存,可针对有趣的项目进行优化。

下游利益

Friendly Bots 将简化您的仪表板体验。但我们想强调一些隐藏的下游好处:

更容易验证

诚然,要跟上 Internet 上所有优秀的机器人是一项挑战。为了验证机器人,我们依靠手动提交,这可能会在创建好的机器人后数周甚至数月内进行。友好的机器人将改变这一切。如果我们注意到我们的许多客户将特定的机器人列入了许可名单——例如,某个 IP 地址或主机名后缀,我们的系统将自动将该机器人排队以进行验证。我们可以智能地使用您的友好机器人来帮助 Cloudflare 的其他客户。

即时反馈

过去,用户一直对验证过程感到困惑。我需要为我的 IP 提供文件吗?我的用户代理呢:它会随着时间而改变吗?如果任何验证数据被破坏,我们可能需要数周时间来识别和修复。

情况不再如此。使用 Friendly Bots,我们几乎可以立即执行验证。因此,如果出现问题——也许您的 rDNS 验证使用了错误的主机名——您会立即知道,因为该机器人不会被列入白名单。无需再等待我们的支持团队的消息。

更好的采购

以前,我们要求机器人操作员(例如,谷歌)自己提交验证数据。如果有一个你想验证但不属于你的机器人,那么你就不走运了。

Friendly Bots 消除了对机器人操作员的依赖。任何可以找到识别信息的人都可以在他们的网站上注册一个机器人。

没有仲裁

如果刮板出现在您的网站上,这是一件好事吗?对某些人来说,是的,因为它是曝光。对其他人来说,不,因为该刮板可能会获取数据。这是我们在迄今为止提交的每个 Verified Bots 中都仔细考虑过的问题。

现在:这是您的选择。Friendly Bots 将控制权交给您,允许您在域级别对机器人进行分类。我们将继续在全球范围内验证机器人(当行为客观上良好时)。

Cloudflare 雷达

这是一个有趣的奖励:除了今天宣布的 Friendly Bots 之外,我们还对Cloudflare Radar进行了一些更改。

立即开始,您可以在 Radar中看到许多已验证机器人的列表。这真让人兴奋; 我们以前从未发布过这样的详细清单。

Cloudflare推出Friendly bots验证服务

所有数据都是实时更新的。当我们验证新机器人时,它们将出现在雷达模块中。

我们也开始在我们的 Logs 产品中添加特定的 Verified Bots。您会将它们视为Bot Tags,因此如果请求来自 Pinterest 的机器人,则它可能包含字符串“pinterest”。

下一步是什么?

我们的团队很高兴能很快推出 Friendly Bots。我们预计影响将辐射整个机器人管理,减少误报,提高抓取能力,并总体稳定网站。

Cloudflare推出Friendly bots验证服务

如果您有机器人管理并想尝试这个新功能,请告诉您的客户团队(我们一定会在早期访问期间将您包括在内)。您还可以继续告诉我们应该验证的机器人。

截至目前友好机器人排行榜

2022年3月18日

排行机器人名称-机器人所有者-机器人类别
1  GoogleBot  Google  Search Engine Crawler  
2  BingBot  Microsoft  Search Engine Crawler  
3  YandexBot  Yandex  Search Engine Crawler  
4  Google AdsBot  Google  Advertising & Marketing  
5  AhrefsBot  Ahrefs  Search Engine Optimization  
6  DataDog Syntheric Bot  DataDog  Monitoring & Analytics  
7  Google Image Proxy  Google  Page Preview  
8  New Relic  New Relic  Monitoring & Analytics  
9  Moz dotbot  Moz  Search Engine Optimization  
10  PinterestBot  Pinterest  Social Media Marketing  
11  Applebot  Apple  Search Engine Crawler  
12  Google Images  Google  Search Engine Crawler  
13  prerender  Prerender, LLC  Search Engine Optimization  
14  BLEXBot  WebMeUp  Search Engine Optimization  
15  SendGrid  SendGrid  Webhooks  
16  Google AdSense  Google  Advertising & Marketing  
17  Qualys  Qualys  Security  
18  Google API  Google  Webhooks  
19  Proximic  ComScore  Monitoring & Analytics  
20  Amazonbot  Amazon  Accessibility  
21  Ahrefs Site Audit  Ahrefs  Search Engine Optimization  
22  Google Read Aloud  Google  Accessibility  
23  UptimeRobot  Uptimerobot  Other  
24  Grapeshot  Grapeshot  Advertising & Marketing  
25  Pingdom  Pingdom  Monitoring & Analytics  
26  Baidu  Baidu  Search Engine Crawler  
27  Google Feed Fetcher  Google  Feed Fetcher  
28  Bing Preview  Microsoft  Page Preview  
29  Yahoo Mail  Yahoo  Page Preview  
30  Sitex  Sitex  Monitoring & Analytics  
31  Slackbot  Slack  Social Media Marketing  
32  Bing Ads  Microsoft  Advertising & Marketing  
33  Stripe  Stripe  Webhooks  
34  StatusCake  StatusCake  Monitoring & Analytics  
35  Detectify  Detectify  Security  
36  ContentKing  ContentKing  Monitoring & Analytics  
37  DuckDuckBot  DuckDuckGo  Search Engine Crawler  
38  Botify  Botify  Search Engine Optimization  
39  Better Uptime  Better Up Time  Monitoring & Analytics  
40  Cốc Cốc  Coccoc  Search Engine Crawler  
41  Brandwatch  Brandwatch  Social Media Marketing  
42  Neevabot  Neeva  Search Engine Crawler  
43  HetrixTools  HetrixTools Inc  Monitoring & Analytics  
44  Sogou  Sogou  Search Engine Crawler  
45  AddThis  Addthis  Search Engine Optimization  
46  Yahoo Ad Monitoring  Yahoo  Advertising & Marketing  
47  Amazon AdBot  Amazon  Advertising & Marketing  
48  Exodus  Exodus  Accessibility  
49  Internet Archive  Internet Archive  Academic Research  
50  Feedly  Feedly  Feed Fetcher  
51  Cxense  Cxense  Search Engine Optimization  
52  Freshping  freshworks  Monitoring & Analytics  
53  Linespider  LINE Corporation  Search Engine Crawler  
54  Siteimprove Crawl  Siteimprove  Other  
55  VaultPress  VaultPress  Security  
56  FullStory  Full Story  Monitoring & Analytics  
57  Yeti by Naver  Naver  Search Engine Crawler  
58  Sentry  Sentry  Security  
59  Let’s Encrypt  Let’s Encrypt  Other  
60  Outbrain  Outbrain  Advertising & Marketing  
61  Adyen  Adyen  Webhooks  
62  Moz rogerbot  Moz  Search Engine Optimization  
63  Yahoo Slurp  Yahoo  Search Engine Crawler  
64  Splunk  Splunk  Monitoring & Analytics  
65  Clickagy  Clickagy  Monitoring & Analytics  
66  klaviyo  https://www.hackklaviyo.hackcom/  Advertising & Marketing  
67  LinkedInBot  LinkedIn  Search Engine Crawler  
68  Google Videos  Google  Search Engine Crawler  
69  webpagetest  WebPagetest  Monitoring & Analytics  
70  Qwant  Qwant  Search Engine Crawler  
71  Seznam  Seznam  Search Engine Crawler  
72  Innologica  Innologica  Feed Fetcher  
73  Automaton  Automaton  Monitoring & Analytics  
74  Alexa  Alexa  Search Engine Crawler  
75  ManageWP  ManageWP  Monitoring & Analytics  
76  Apple App Site Association  Apple  Other  
77  Alertsite by Smartbear  Smartbear  Monitoring & Analytics  
78  Rackspace  Rackspace  Monitoring & Analytics  
79  DataForSEO  DataForSEO  Search Engine Optimization  
80  Taboola  Taboola  Advertising & Marketing  
81  Slack Image Proxy  Slack  Page Preview  
82  Iframely  Iframely  Page Preview  
83  ZoomInfo  ZoomInfo  Advertising & Marketing  
84  MSN  Microsoft  Search Engine Crawler  
85  Nodeping  Nodeping  Monitoring & Analytics  
86  SiteLock  SiteLock  Security  
87  SEMrush  SEMrush  Search Engine Optimization  
88  Skype  Skype  Page Preview  
89  Feedbin  Feedbin  Feed Fetcher  
90  Sucuri  Sucuri  Security  
91  Integromat  Integromat  Other  
92  Mojeek  Mojeek  Other  
93  Alexa Archive  Alexa  Search Engine Crawler  
94  PayPal  PayPal  Webhooks  
95  Alexa Site Audit  Alexa  Search Engine Crawler  
96  HostTracker  HostTracker  Monitoring & Analytics  
97  NewsBlur  NewsBlur  Feed Fetcher  
98  Google Schema Markup Testing Tool  Google  Monitoring & Analytics  
99  Amazon Contxbot  Amazon  Advertising & Marketing  
100  Revvim  Revvim  Search Engine Optimization

from

转载请注明出处及链接

Leave a Reply

您的电子邮箱地址不会被公开。