数据分析公司200万Instagram和TikTok用户数据泄露

目录导航

介绍

由首席研究员Anurag Sen领导的安全侦探网络安全团队发现了一个属于社交媒体分析网站 IGBlade.com 的不安全的 ElasticSearch 服务器。该服务器包含从 Instagram 和 TikTok 获取的数百万社交媒体资料的抓取数据。

IGBlade 收集社交媒体用户的数据，为其客户提供“对任何 Instagram 或 TikTok 帐户的深入见解”。
IGBlade 的服务器泄露了超过 260 万条社交用户帐户记录，相当于 3.6+GB 的数据。

这些记录包括屏幕截图和社交个人资料图片的链接以及其他形式的个人数据抓取——考虑到大多数社交媒体网站都禁止数据抓取，这是一个令人费解的发现。

我们不知道 IGBlade 抓取个人数据的原因，但我们必须强调，数据库中的所有数据都是公开可用的。

服务器的内容还指向了关于数据抓取方法有争议的使用的更广泛的辩论。

什么是IGBlade？

IGBlade 的 Instagram 和 TikTok 分析工具从数百万社交媒体帐户中收集超过 30 个数据指标的数据。IGBlade 然后将这些信息整合到一个可导航的社交帐户搜索引擎中，该引擎显示诸如粉丝增长、参与率和帐户历史等信息。

用户必须创建 IGBlade 帐户才能接收详细的数据洞察，例如数据可视化、人口统计数据和帐户报告。

用户在服务器上抓取的数据与每个用户对应的 IGBlade.com 页面的数据相同，并且数据库经常提供返回 IGBlade 的链接。

这就是我们如何知道数据库属于 IGBlade.com。您可以在下面的屏幕截图中看到指向 IGBlade 的链接的证据。

数据分析公司200万Instagram和TikTok用户数据泄露 — Kim Kardashian 的 Instagram 信息以及包含“IGBlade”的链接

泄露了什么？

IGBlade 的 ElasticSearch 服务器在没有任何密码保护或加密的情况下被公开暴露。结果，IGBlade 的数据库泄露了超过 260 万条记录，相当于 3.6+GB 的数据，这些文件提供了在 Instagram 和 TikTok 上抓取公共数据的证据。

具体来说，IGBlade 的服务器包含不同类型的社交帐户用户个人数据：

全名
用户名；比如 Instagram/TikTok handles
个人资料图片；在 IGBlade 上存储为屏幕截图或“照片链接”
“关于”信息；即每个用户的“bio”
电子邮件地址
电话号码（在某些情况下）；仅当个人资料上有数字时
位置数据；例如居住国和所在地（如果设为公开）

在服务器上也可以看到各种其他形式的用户数据，包括：

媒体计数；即在帐户上发布的照片/视频数量
关注人数和关注人数
参与率指标；对于用户帐户上的帖子

IGBlade 的服务器在发现时处于活动状态并正在更新。IGBlade 漏洞的规模表明，超过 200 万社交媒体用户可能会立即受到服务器泄露内容的影响。

我们也在服务器上发现了几个知名帐户的例子。著名的有影响力的人，例如美食博主、名人和社交媒体有影响力的人都出现了。

Alicia Keys、Ariana Grande、Kim Kardashian、Kylie Jenner 和 Loren Gray 等大型已验证名人账户的公开数据都被抓取并存储在 IGBlade 的开放式 ElasticSearch 服务器上。

您可以在下面的图片中看到缓存的个人资料图片屏幕截图、屏幕截图链接（指向个人资料图片）以及各种著名 Instagram 和 TikTok 帐户的其他个人数据集的证据。电话号码有时也很重要，特别是在被抓取的用户个人资料中提到该号码的情况下。

服务器的海量日志包含数百万社交媒体帐户的数据。您可以在以下屏幕截图中看到服务器大小和文档计数的证据。

IGBlade 的 ElasticSearch 没有适当的身份验证安全功能，任何发现服务器的人都可访问信息。

您可以在下表中找到 IGBlade 数据泄露的规模、规模和位置的完整细分。

泄露的记录数	2.6+ 万
受影响的用户数	2.6+ 万
违规规模	3.6+GB 数据
服务器位置	加拿大
公司位置	罗马尼亚

Safety Detectives 网络安全团队于 2021 年 6 月 20 日发现了 IGBlade 的开放式 ElasticSearch 服务器，但该服务器的内容显然自 2021 年 5 月 31 日以来已在互联网上公开。

我们于 2021 年 7 月 5 日联系了 IGBlade。IGBlade 在披露过程后迅速做出回应，并在同一天保护了 IGBlade 的数据库。

人们为什么使用社交抓取工具？

主要是营销人员和企业将 IGBlade 等社交分析工具用于广告目的。

更一般地说，数据抓取允许公司和个人扩大他们的成功，因为用户可以收集足够的数据洞察来规划有效的营销策略。

鉴于每个职业都依赖社交媒体趋势，网红营销人员和社交媒体经理从 IGBlade 等社交媒体分析工具中获益最多。

公司还收集关注者人口统计数据、增长数据和参与度数据，以监控（和改进）他们自己公司账户/网站的社交媒体表现。

黑客滥用数据抓取方法进行大规模网络攻击。

虽然 IGBlade 上的所有信息都是公开可用的，但将抓取的个人数据放在单个界面上是危险的。黑客可以立即访问用户照片、联系方式和位置数据，为大规模社会工程攻击、欺诈计划和虚假账户打开大门。

数据抓取直接违反了 Instagram 和 TikTok 的现场政策，可能不必要地将社交媒体用户置于网络攻击的危险之中。

数据抓取影响

IGBlade 的 ElasticSearch 服务器的内容可能会对公司及其跟踪的社交媒体用户产生重大影响。

对 IGBlade 的影响

在线抓取公开信息的数据并不违法，数据抓取者不会因其行为而面临法律制裁或惩罚。

但是，TikTok 或 Instagram 不允许数据抓取。

Instagram 的服务条款规定：“您不得从 Instagram 抓取、抓取或以其他方式缓存任何内容，包括但不限于用户个人资料和照片。”

TikTok 的服务条款还禁止“屏幕抓取”过程。

TikTok 声明：“[用户不得] 使用任何自动化系统或软件，无论是由第三方操作还是其他方式，从服务中提取任何数据用于商业目的（“屏幕抓取”）。”

最终，这些违规行为可能会让 IGBlade 在 Instagram 和 TikTok 上陷入大麻烦。这两个网站都可能禁止 IGBlade 使用其服务。

IGBlade 的商业模式依赖于对这些社交媒体网站的访问。因此，禁令可能会扰乱 IGBlade 的业务运营，如果 IGBlade 无法为客户提供价值，利润就会减少，用户也会离开。

对最终用户的影响

那些出现在暴露数据库中的人以及其他社交媒体用户可能会面临 IGBlade 服务器泄漏的破坏性影响。

IGBlade 将多种形式的公开个人数据放置在一台服务器中，暴露在黑客和网络犯罪分子的潜在威胁之下。

IGBlade 的服务器包含联系信息、位置数据、个人资料图像和其他形式的可公开获取的个人信息，这些信息可能会帮助黑客参与一些大规模发送的网络犯罪。

即时可访问的联系方式可能允许黑客采用恶意的社会工程攻击，例如批量邮件网络钓鱼活动。

黑客可以在 IGBlade 的服务器上快速收集数千个电子邮件地址。这些网络犯罪分子可以向每个泄露的帐户发送带有联系方式的网络钓鱼电子邮件，试图胁迫用户点击链接或泄露敏感的个人信息。

网络钓鱼者甚至可能会参考其他形式的个人数据来与接收者建立信任。

恶意文件可能会感染任何点击网络钓鱼链接的用户的设备，从而帮助网络犯罪分子进一步犯罪。

由于暴露的数据库中存储了大量的联系方式，因此也可能发生大规模的机器人电话诈骗。

Robocalls 可能试图以官方身份（例如，用户的银行）进行欺诈或胁迫受害者提供其他形式的个人数据。例如，robocall 可能会试图说服用户他们的银行帐户已被禁用，或者他们的身份已被盗。

说起来，服务器的内容也方便了虚假账户的创建。

黑客可以使用收集的帐户照片和信息来快速建立数千个假/机器人帐户，模仿社交媒体用户的个人资料。

这些帐户可能会吸引追随者，传播错误信息，并强迫用户进行其他诈骗或网络钓鱼攻击。

如果黑客也访问了服务器的内容，垃圾邮件营销活动也是一种可能性，黑客甚至可以使用泄露的个人资料链接/图片来训练 AI 面部识别算法。

数据抓取好吗？

一段时间以来，围绕数据抓取，尤其是社交媒体数据抓取的争论一直是一个话题。一方面，批评者认为这种做法对用户来说是危险的，而另一方面，数据经纪人认为公开抓取是好的并且完全合法。

许多人在实践中遇到的问题围绕着滥用数据抓取方法。

不幸的是，网络犯罪分子可以像营销人员或企业一样从抓取数据中获得同样的好处。数据抓取将每个用户的多个页面/社交媒体帐户中的数据集合并到单个服务器或平台中。这意味着网络犯罪分子可以在单一视图中快速浏览用户数据，而无需浏览多个网页。

数据抓取还可以让成千上万的用户即时访问信息，因为它们都存储在同一个地方。在数据库中导航日志比在社交媒体网站上的每个用户之间导航要快得多。

在这种情况下，网络犯罪分子可以将数据抓取用作“网络犯罪加速器”而不是“推动者”。数据抓取可以加快黑客犯罪活动的速度和范围。

犯罪滥用可能是许多社交媒体网站禁止在其平台上抓取公共数据的原因。还有一个事实是社交媒体用户无法对其页面进行编码以防止/禁止数据抓取机器人。

只要公司坚持抓取公共数据，人们就会继续争论这个话题。

对于许多人来说，仍然存在两个问题：社交媒体网站是否应该采取更多措施来阻止数据抓取？而且，在某些情况下，公共数据抓取首先应该合法吗？

如何防止数据泄露

社交媒体数据抓取不是典型的数据暴露。更糟糕的是，在大多数情况下，数据抓取是不可避免的。

但是，您可以采取一些措施来限制数据抓取以及您对数据抓取服务器和聚合数据库的接触：

检查您在社交媒体上的隐私设置。这意味着将您的个人资料设置为“私人”，以便只有朋友和可信赖的人才能查看您的信息和内容。
删除/阻止未知用户。未知的朋友和关注者应从您的帐户中删除并阻止。用户还应阻止任何发送可疑消息的帐户 – 匿名用户可能会窃取您的帐户。
筛选新的关注者/好友请求。大多数社交平台会在有人想要连接您的帐户时发送请求。如果您不认识连接的人或帐户有任何可疑之处，请拒绝连接请求。
限制您添加/发布到您的帐户的信息。作为最后的预防措施，用户应限制他们在社交帐户上提供的详细信息。这意味着应该避免在发布其他个人数据（例如您的地址）时使用不太详细的“关于”信息。用户还应将银行和健康信息远离社交媒体。

介绍