恶意user-agent列表bad user agents list

恶意user-agent列表bad user agents list

为什么要发布此恶意user-agent列表?

恶意的机器人/攻击者通常使用这些user-agent对系统进行数据抓取,使用爬虫进行恶意访问,对网站进行攻击,很有必要把这些不好的user-agent排除在外,保障系统的稳定运行.

user-agent简介

用户代理(英语:user agent)在计算机科学中指的是代表用户行为的程序(软件代理程序)。例如,网页浏览器就是一个“帮助用户获取、渲染网页内容并与之交互”的用户代理;电子邮件阅读器也可以称作邮件代理。而在会话发起协议(SIP)中,用户代理指代的是一个通信会话的所有两个终端。

在很多场合,用户代理作为一个主从式架构的分布式计算系统中的通信所用网络传输协议的客户端而行为。特别是在超文本传输协议中指定要求发起请求的客户端软件要使用一个“User-Agent”请求表头,即使在客户端不由用户操纵的时候。SIP协议(基于HTTP)沿用了这一用法。

user-agent格式

根据Hypertext Transfer Protocol (HTTP/1.1): Semantics and Content. (页面存档备份,存于互联网档案馆)第5.5.3章和Hypertext Transfer Protocol — HTTP/1.1 (页面存档备份,存于互联网档案馆)第14.43章,用户代理的格式如下:

User-Agent = product *( RWS ( product / comment ) )

例如你的产品叫做WikiBrowser,你的用户代理字符串就可能是WikiBrowser/1.0 Gecko/1.0。“最重要的”产品组件被最先列出。这个字符串的部分如下所示:

字符串说明
WikiBrowser/1.0产品名称和版本
Gecko/1.0排版引擎和版本。

但不幸的是,在浏览器大战期间,很多网络服务器的配置只给被识别为某些版本的Mozilla的客户端发送需要高级功能的网页。

因此,为获取更好的网页,绝大多数网页浏览器使用的User-Agent值如下:

Mozilla/[版本号] ([系统和浏览器信息]) [平台] ([平台详细信息]) [扩展]。

例如,iPad上的Safari使用的就是下述user-agent:

Mozilla/5.0 (iPad; U; CPU OS 3_2_1 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Mobile/7B405

这个字符串的组成如下:

字符串说明
Mozilla/5.0Mozilla/5.0 是一个通用标记符号,用来表示与 Mozilla 兼容,这几乎是现代浏览器的标配。[4]
(iPad; U; CPU OS 3_2_1 like Mac OS X; en-us)浏览器所运行的系统的详细信息
AppleWebKit/531.21.10浏览器所使用的平台
(KHTML, like Gecko)浏览器平台的细节
Mobile/7B405被浏览器用于指示特定的直接由浏览器提供或者通过第三方提供的可用的增强功能。这方面的一个实例是Microsoft Live Meeting,它注册了一个扩展以使Live Meeting服务知道该软件是否已经安装上,这意味着它可以为加入会议提供一个简化的体验。

Firefox UA 字符串

查阅 Firefox 用户代理字符串参考来获取更多关于基于 Firefox 和 Gecko 渲染引擎的用户代理字符串的细节信息。Firefox 的用户代理字符串自身可以分为四部分:

Mozilla/5.0 (platform; rv:geckoversion) Gecko/geckotrail Firefox/firefoxversion

  • Mozilla/5.0 是一个通用标记符号,用来表示与 Mozilla 兼容,这几乎是现代浏览器的标配。
  • platform 用来说明浏览器所运行的原生系统平台(例如 Windows、Mac、Linux 或 Android),以及是否运行在手机上。搭载 Firefox OS 的手机仅简单地使用了 “Mobile” 这个字符串;因为 web 本身就是平台。注意 platform 可能会包含多个使用 “; ” 隔开的标记符号。参见下文获取更多的细节信息及示例。
  • rv:geckoversion 表示 Gecko 的发布版本号(例如  “17.0”)。在近期发布的版本中,geckoversion 表示的值与 firefoxversion 相同。
  • Gecko/geckotrail 表示该浏览器基于 Gecko 渲染引擎。
  • 在桌面浏览器中, geckotrail  是固定的字符串 “20100101” 。
  • Firefox/firefoxversion 表示该浏览器是 Firefox,并且提供了版本号信息(例如  “17.0”)。

示例

Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0
Mozilla/5.0 (Macintosh; Intel Mac OS X x.y; rv:42.0) Gecko/20100101 Firefox/42.0

Chrome UA 字符串

Chrome (或 Chromium/blink-based engines)用户代理字符串与 Firefox 的格式类似。为了兼容性,它添加了诸如 “KHTML, like Gecko” 和 “Safari” 这样的字符串。

恶意user-agent列表bad user agents list

示例

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36

Opera UA 字符串

现在,Opera 也是一款基于 blink 引擎的浏览器,这也是为什么它的 UA 看起来(和 Chrome 的)几乎一样的原因,不过,它添加了一个 “OPR/<version>“。

示例

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36 OPR/38.0.2220.41

使用 Presto 引擎的、更老的 Opera 浏览器使用:

Opera/9.80 (Macintosh; Intel Mac OS X; U; en) Presto/2.2.15 Version/10.00
Opera/9.60 (Windows NT 6.0; U; en) Presto/2.1.1

Safari UA 字符串

在这个示例中,这是 Safari 的移动版本的用户代理字符串。因为其中包含了单词 “Mobile” 。

示例

Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_1 like Mac OS X) AppleWebKit/603.1.30 (KHTML, like Gecko) Version/10.0 Mobile/14E304 Safari/602.1

Internet Explorer UA 字符串

示例

Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0)

爬虫和机器人的 UA 字符串

示例

Googlebot/2.1 (+http://www.google.com/bot.html)

user-agent欺骗

各种网页浏览器的流行程度在整个Web的历史上一直在变化,而且有些网站不是根据万维网联盟(W3C)或者互联网工程任务组(IETF)所制定的统一标准的方式设计,而是设计只能在特定浏览器下显示。 网站通常探测浏览器版本的代码,根据用户代理调整其页面设计。换句话说,在流行程度不高的浏览器上,即使它们可能有能力处理它,不会收到较复杂的内容,更甚者,在极端情况下,拒绝全部内容。因此,有很多浏览器有伪装或欺骗其标识字符串的功能,让服务器发送不同的内容。例如,Android上的浏览器识别自己为Safari以增加兼容性。

其它HTTP客户端程序,如下载管理器和离线网页浏览器,通常有能力更改用户代理字符串。

垃圾邮件机器人和网络爬虫经常使用假的用户代理。

在网页设计师中流行“任何浏览器可见”,鼓励开发者设计网页时,能让网页在任何浏览器都能有一样好的浏览结果。

用户代理欺骗的结果之一是可能令收集到的网页浏览器的使用分布不准确。需要注意,用户代理欺骗可能违反某些法律法规、损害他人利益。

项目地址:

GitHub:https://github.com/mitchellkrogza/nginx-ultimate-bad-bot-blocker/blob/master/_generator_lists/bad-user-agents.list

01h4x.com
360Spider
404checker
404enemy
80legs
ADmantX
AIBOT
ALittle\ Client
ASPSeek
Abonti
Aboundex
Aboundexbot
Acunetix
AfD-Verbotsverfahren
AhrefsBot
AiHitBot
Aipbot
Alexibot
AllSubmitter
Alligator
AlphaBot
Anarchie
Anarchy
Anarchy99
Ankit
Anthill
Apexoo
Aspiegel
Asterias
Atomseobot
Attach
AwarioRssBot
AwarioSmartBot
BBBike
BDCbot
BDFetch
BLEXBot
BackDoorBot
BackStreet
BackWeb
Backlink-Ceck
BacklinkCrawler
Badass
Bandit
Barkrowler
BatchFTP
Battleztar\ Bazinga
BetaBot
Bigfoot
Bitacle
BlackWidow
Black\ Hole
Blackboard
Blow
BlowFish
Boardreader
Bolt
BotALot
Brandprotect
Brandwatch
Buck
Buddy
BuiltBotTough
BuiltWith
Bullseye
BunnySlippers
BuzzSumo
CATExplorador
CCBot
CODE87
CSHttp
Calculon
CazoodleBot
Cegbfeieh
CensysInspect
CheTeam
CheeseBot
CherryPicker
ChinaClaw
Chlooe
Citoid
Claritybot
Cliqzbot
Cloud\ mapping
Cocolyzebot
Cogentbot
Collector
Copier
CopyRightCheck
Copyscape
Cosmos
Craftbot
Crawling\ at\ Home\ Project
CrazyWebCrawler
Crescent
CrunchBot
Curious
Custo
CyotekWebCopy
DBLBot
DIIbot
DSearch
DTS\ Agent
DataCha0s
DatabaseDriverMysqli
Demon
Deusu
Devil
Digincore
DigitalPebble
Dirbuster
Disco
Discobot
Discoverybot
Dispatch
DittoSpyder
DnBCrawler-Analytics
DnyzBot
DomCopBot
DomainAppender
DomainCrawler
DomainSigmaCrawler
DomainStatsBot
Domains\ Project
Dotbot
Download\ Wonder
Dragonfly
Drip
ECCP/1.0
EMail\ Siphon
EMail\ Wolf
EasyDL
Ebingbong
Ecxi
EirGrabber
EroCrawler
Evil
Exabot
Express\ WebPictures
ExtLinksBot
Extractor
ExtractorPro
Extreme\ Picture\ Finder
EyeNetIE
Ezooms
FDM
FHscan
FemtosearchBot
Fimap
Firefox/7.0
FlashGet
Flunky
Foobot
Freeuploader
FrontPage
Fuzz
FyberSpider
Fyrebot
G-i-g-a-b-o-t
GT::WWW
GalaxyBot
Genieo
GermCrawler
GetRight
GetWeb
Getintent
Gigabot
Go!Zilla
Go-Ahead-Got-It
GoZilla
Gotit
GrabNet
Grabber
Grafula
GrapeFX
GrapeshotCrawler
GridBot
HEADMasterSEO
HMView
HTMLparser
HTTP::Lite
HTTrack
Haansoft
HaosouSpider
Harvest
Havij
Heritrix
Hloader
HonoluluBot
Humanlinks
HybridBot
IDBTE4M
IDBot
IRLbot
Iblog
Id-search
IlseBot
Image\ Fetch
Image\ Sucker
IndeedBot
Indy\ Library
InfoNaviRobot
InfoTekies
Intelliseek
InterGET
InternetSeer
Internet\ Ninja
Iria
Iskanie
IstellaBot
JOC\ Web\ Spider
JamesBOT
Jbrofuzz
JennyBot
JetCar
Jetty
JikeSpider
Joomla
Jorgee
JustView
Jyxobot
Kenjin\ Spider
Keybot\ Translation-Search-Machine
Keyword\ Density
Kinza
Kozmosbot
LNSpiderguy
LWP::Simple
Lanshanbot
Larbin
Leap
LeechFTP
LeechGet
LexiBot
Lftp
LibWeb
Libwhisker
LieBaoFast
Lightspeedsystems
Likse
LinkScan
LinkWalker
Linkbot
Linkdexbot
LinkextractorPro
LinkpadBot
LinksManager
LinqiaMetadataDownloaderBot
LinqiaRSSBot
LinqiaScrapeBot
Lipperhey
Lipperhey\ Spider
Litemage_walker
Lmspider
Ltx71
MFC_Tear_Sample
MIDown\ tool
MIIxpc
MJ12bot
MQQBrowser
MSFrontPage
MSIECrawler
MTRobot
Mag-Net
Magnet
Mail.RU_Bot
Majestic-SEO
Majestic12
Majestic\ SEO
MarkMonitor
MarkWatch
Mass\ Downloader
Masscan
Mata\ Hari
MauiBot
Mb2345Browser
MeanPath\ Bot
Meanpathbot
Mediatoolkitbot
MegaIndex.ru
Metauri
MicroMessenger
Microsoft\ Data\ Access
Microsoft\ URL\ Control
Minefield
Mister\ PiX
Moblie Safari
Mojeek
Mojolicious
MolokaiBot
Morfeus\ Fucking\ Scanner
Mozlila
Mr.4x3
Msrabot
Musobot
NICErsPRO
NPbot
Name\ Intelligence
Nameprotect
Navroad
NearSite
Needle
Nessus
NetAnts
NetLyzer
NetMechanic
NetSpider
NetZIP
Net\ Vampire
Netcraft
Nettrack
Netvibes
NextGenSearchBot
Nibbler
Niki-bot
Nikto
NimbleCrawler
Nimbostratus
Ninja
Nmap
Not
Nuclei
Nutch
Octopus
Offline\ Explorer
Offline\ Navigator
OnCrawl
OpenLinkProfiler
OpenVAS
Openfind
Openvas
OrangeBot
OrangeSpider
OutclicksBot
OutfoxBot
PECL::HTTP
PHPCrawl
POE-Component-Client-HTTP
PageAnalyzer
PageGrabber
PageScorer
PageThing.com
Page\ Analyzer
Pandalytics
Panscient
Papa\ Foto
Pavuk
PeoplePal
Petalbot
Pi-Monster
Picscout
Picsearch
PictureFinder
Piepmatz
Pimonster
Pixray
PleaseCrawl
Pockey
ProPowerBot
ProWebWalker
Probethenet
Psbot
Pu_iN
Pump
PxBroker
PyCurl
QueryN\ Metasearch
Quick-Crawler
RSSingBot
RankActive
RankActiveLinkBot
RankFlex
RankingBot
RankingBot2
Rankivabot
RankurBot
Re-re
ReGet
RealDownload
Reaper
RebelMouse
Recorder
RedesScrapy
RepoMonkey
Ripper
RocketCrawler
Rogerbot
SBIder
SEOkicks
SEOkicks-Robot
SEOlyticsCrawler
SEOprofiler
SEOstats
SISTRIX
SMTBot
SalesIntelligent
ScanAlert
Scanbot
ScoutJet
Scrapy
Screaming
ScreenerBot
ScrepyBot
Searchestate
SearchmetricsBot
Seekport
SemanticJuice
Semrush
SemrushBot
SentiBot
SeoSiteCheckup
SeobilityBot
Seomoz
Shodan
Siphon
SiteCheckerBotCrawler
SiteExplorer
SiteLockSpider
SiteSnagger
SiteSucker
Site\ Sucker
Sitebeam
Siteimprove
Sitevigil
SlySearch
SmartDownload
Snake
Snapbot
Snoopy
SocialRankIOBot
Sociscraper
Sogou\ web\ spider
Sosospider
Sottopop
SpaceBison
Spammen
SpankBot
Spanner
Spbot
Spinn3r
SputnikBot
Sqlmap
Sqlworm
Sqworm
Steeler
Stripper
Sucker
Sucuri
SuperBot
SuperHTTP
Surfbot
SurveyBot
Suzuran
Swiftbot
Szukacz
T0PHackTeam
T8Abot
Teleport
TeleportPro
Telesoft
Telesphoreo
Telesphorep
TheNomad
The\ Intraformant
Thumbor
TightTwatBot
Titan
Toata
Toweyabot
Tracemyfile
Trendiction
Trendictionbot
True_Robot
Turingos
Turnitin
TurnitinBot
TwengaBot
Twice
Typhoeus
URLy.Warning
URLy\ Warning
UnisterBot
Upflow
V-BOT
VB\ Project
VCI
Vacuum
Vagabondo
VelenPublicWebCrawler
VeriCiteCrawler
VidibleScraper
Virusdie
VoidEYE
Voil
Voltron
WASALive-Bot
WBSearchBot
WEBDAV
WISENutbot
WPScan
WWW-Collector-E
WWW-Mechanize
WWW::Mechanize
WWWOFFLE
Wallpapers
Wallpapers/3.0
WallpapersHD
WeSEE
WebAuto
WebBandit
WebCollage
WebCopier
WebEnhancer
WebFetch
WebFuck
WebGo\ IS
WebImageCollector
WebLeacher
WebPix
WebReaper
WebSauger
WebStripper
WebSucker
WebWhacker
WebZIP
Web\ Auto
Web\ Collage
Web\ Enhancer
Web\ Fetch
Web\ Fuck
Web\ Pix
Web\ Sauger
Web\ Sucker
Webalta
WebmasterWorldForumBot
Webshag
WebsiteExtractor
WebsiteQuester
Website\ Quester
Webster
Whack
Whacker
Whatweb
Who.is\ Bot
Widow
WinHTTrack
WiseGuys\ Robot
Wonderbot
Woobot
Wotbox
Wprecon
Xaldon\ WebSpider
Xaldon_WebSpider
Xenu
YoudaoBot
Zade
Zauba
Zermelo
Zeus
Zitebot
ZmEu
ZoomBot
ZoominfoBot
ZumBot
ZyBorg
adscanner
archive.org_bot
arquivo-web-crawler
arquivo.pt
autoemailspider
backlink-check
cah.io.community
check1.exe
clark-crawler
coccocbot
cognitiveseo
com.plumanalytics
crawl.sogou.com
crawler.feedback
crawler4j
dataforseo.com
demandbase-bot
domainsproject.org
eCatch
evc-batch
facebookscraper
gopher
heritrix
instabid
internetVista\ monitor
ips-agent
isitwp.com
iubenda-radar
lwp-request
lwp-trivial
magpie-crawler
meanpathbot
mediawords
muhstik-scan
netEstate\ NE\ Crawler
oBot
page\ scorer
pcBrowser
plumanalytics
polaris\ version
probe-image-size
ripz
s1z.ru
satoristudio.net
scalaj-http
scan.lol
seobility
seocompany.store
seoscanners
seostar
serpstatbot
sexsearcher
sitechecker.pro
siteripz
sogouspider
sp_auditbot
spyfu
sysscan
tAkeOut
trendiction.com
trendiction.de
ubermetrics-technologies.com
voyagerx.com
webgains-bot
webmeup-crawler
webpros.com
webprosbot
x09Mozilla
x22Mozilla
xpymep1.exe
zauba.io
zgrab

转载请注明出处及链接

Leave a Reply

您的电子邮箱地址不会被公开。 必填项已用 * 标注