冒名顶替者域名是否会重新发布您的网站？

已发表: 2022-03-10

快速总结 ↬内容抓取是互联网上的生活事实。当您想到网络抓取时，您可能不会想到抓取工具会转身并立即在另一个网站上提供您的整个页面内容。但是，如果您的网站内容被重新发布怎么办？它可能已经在发生。

我们认为网络抓取是一种用于收集网络内容以进行信息分析的工具，有时会损害网站所有者的利益。例如，有人可能会通过网络抓取竞争对手零售网站的所有产品页面，以获取有关所提供产品和当前定价的信息，以试图获得竞争优势。

网络抓取可用于收集营销数据，例如识别广告活动的好关键字、识别博客文章的热门话题或识别重要博客和新闻网站中的影响者。制造商可能会搜索零售网站以确保遵守制造商广告定价 (MAP ) ，而安全审计员可能会搜索网站以查找隐私政策中的漏洞或违规行为。当然，抓取工具可以抓取您的网站以查找安全漏洞或暴露的联系人或销售线索详细信息。这些活动都不会导致将抓取的内容重新发布或交付给最终用户。

但是，在某些情况下，抓取的网页内容作为页面本身直接交付给访问者。正如我们将在下面看到的，这可以出于良性或不那么良性的原因进行。在最坏的情况下，这些可能是真正的冒名顶替者域，试图在不承认您内容的真实来源的情况下与真实用户互动。然而，即使在良性用例中，您也会对访问者的体验失去一些控制。当您的内容通过其他方式从其他服务器或平台交付时，可能会使您与用户建立的用户体验和商业关系面临风险。

您如何识别、跟踪和管理这种对您的业务造成的风险？我们探索如何在您的网站上使用网络分析或真实用户测量数据来深入了解任何重新发布您作品的冒名顶替者域。我们还描述了我们在 Akamai mPulse 中收集的真实数据中看到的最常见的内容重新发布类型，包括良性和有问题的，因此您知道要在数据中寻找什么。

如何追踪可疑活动

如果您刚开始想知道是否有人可能会重新发布您的网络内容，那么最简单的方法就是使用 Google 搜索。将您网站上感兴趣的页面中的十或十二个单词的句子复制到 Google 搜索栏中，将其放在双引号内，然后单击搜索。您应该希望在搜索结果中看到您自己的网站，但如果您在其他网站上找到与该句子完全匹配的内容，您可能会成为重新发布的受害者。这种方法显然有点特设。您也许可以编写一些 Google 搜索脚本来定期运行这些类型的检查。但是你检查了多少页？您如何可靠地选择重新发布不会修改的页面上的内容？如果重新发布的页面浏览量从未出现在 Google 的搜索结果中怎么办？

更好的方法是使用您已经通过网络分析或真实用户测量 (RUM )服务收集的数据。这些服务的功能和收集的数据深度差异很大。它们通常都被检测为 JavaScript 进程，通过标签或加载器代码片段加载到您网站的网页上。当服务确定页面浏览（和/或其他一些用户感兴趣的活动）已完成时，它会将数据“信标”发送回收集系统，然后在收集系统中进一步处理、聚合和存储数据以供将来使用分析。

为了帮助识别冒名顶替者域重新发布网页，您需要以下服务：

收集网站上每个页面视图的数据（理想情况下）；
收集页面视图的基本页面 HTML 资源的完整 URL ；
即使该基本页面 URL 中的主机名不是您的网站发布时使用的主机名，也接受信标；
允许您自己查询收集的数据和/或已经有旨在查找“冒名顶替者域”的数据查询。

跳跃后更多！继续往下看↓

重新发布网页时会发生什么？

当网页被抓取以作为完整页面视图传递给最终用户时，抓取器可能会修改内容。修改可能是广泛的。修改某些内容比其他内容更容易，虽然冒名顶替的域可能会更改文本或图像，但修改 JavaScript 可能是一个更具挑战性的提议。尝试对 JavaScript 进行修改可能会破坏页面功能、抑制正确呈现或出现其他问题。

对我们来说好消息是网络分析跟踪器或真实用户测量服务被检测为 JavaScript，许多冒名顶替的域不太可能尝试修改内容以删除它们，因为它可能会破坏页面。如果刮板没有故意删除您的网络分析或 RUM 服务的加载器片段代码或标签，一般来说，它们将成功加载并为页面视图生成信标——为您提供冒名顶替域活动的证据。

这是使用网络分析或 RUM 数据跟踪冒名顶替者域的关键。即使没有从您的平台或服务器提供任何页面内容，只要加载您用于分析或性能跟踪的 JavaScript 代码，您仍然可以获得有关页面视图的数据。

将数据转化为信息

现在您有了数据，您可以挖掘它来寻找冒名顶替者域的证据。最基本的是，这是一个数据库查询，它按页面 URL 中的每个主机名计算页面查看次数，类似于以下伪代码：

 results = query(""" select host, count(*) as count from $(tableName) where timestamp between '$(startTime)' and '$(endTime)' and url not like 'file:%' group by 1 order by 2 desc """);

结果中任何不是您的站点使用的主机名都是冒名顶替的域，值得调查。对于数据的持续监控，您可能希望对您在数据中看到并已识别的冒名顶替者域进行分类。

例如，重新发布整个网页的自然语言翻译服务使用的某些域可能如下所示：

 # Translation domains translationDomains = ["convertlanguage.com","dichtienghoa.com","dict.longdo.com", "motionpoint.com","motionpoint.net","opentrad.com","papago.naver.net","rewordify.com", "trans.hiragana.jp","translate.baiducontent.com","translate.goog", "translate.googleusercontent.com","translate.sogoucdn.com","translate.weblio.jp", "translatetheweb.com","translatoruser-int.com","transperfect.com","webtrans.yodao.com", "webtranslate.tilde.com","worldlingo.com"]

根据您的需要，您可能会构建“可接受”和“问题”域的数组，或者按功能或类型对冒名顶替者域进行分类。以下是您可能在真实数据中看到的最常见的冒名顶替者域类型。

良性再版

并非所有从第三方域提供的抓取网页都是恶意的。根据对广泛客户的 Akamai mPulse 数据的研究，来自冒名顶替者域的大多数页面视图实际上是网站访问者有意选择使用的服务。站点访问者可能能够享受他们发现无法访问的页面内容。在某些情况下，网站所有者本身的员工可能正在使用这些服务。

这里描述的主要类别绝不是详尽的。

自然语言翻译

最常见的冒名顶替者域是自然语言翻译服务使用的域。这些服务可以抓取网页，将页面上的编码文本翻译成另一种语言，并将修改后的内容交付给最终用户。

最终用户看到的页面将具有来自翻译服务顶级域的 URL（例如 translate.goog、translatoruser-int.com 或 translate.weblio.jp 等）。 rewordify.com 将页面上的英文文本更改为更简单的句子，以供初级英语人士使用。虽然您无法控制翻译质量或交付页面体验的性能，但可以肯定的是，大多数网站所有者不会认为这是商业风险或担忧。

自然语言翻译服务的屏幕截图，展示了从英语翻译成日语的新闻网站文章。 — 一种自然语言翻译服务，提供从英语翻译成日语的新闻网站文章。（大预览）

搜索引擎和 Web 存档缓存结果

另一种常见的冒名顶替者域是搜索引擎用于提供缓存结果或页面视图存档版本的域。通常，这些页面可能不再在网站上可用，但在第三方档案中可用。

您可能想了解这些页面查看的频率，并且更深入的分析可以确定最终用户在在线缓存和档案中寻找的具体内容。使用对在线缓存和档案的每个请求的完整 URL，您应该能够识别在这些类型的页面视图中最常出现的关键字或主题。

显示在 Google 搜索服务中缓存搜索结果上方的消息的示例屏幕截图。 — 显示在 Google 搜索服务中缓存搜索结果上方的消息。（大预览）

开发者工具

这些服务通常由您自己的员工使用，作为开发和运行您的网站的自然业务的一部分。典型的开发人员工具可能会抓取整个网页，分析其是否存在 JavaScript、XML、HTML 或 CSS 中的语法错误，并显示页面的标记版本供开发人员探索。

除了语法错误之外，工具还可能评估网站是否符合可访问性或其他法律要求的标准。在现实世界中看到的一些示例服务包括 codebeautify.org、webaim.org 和 jsonformatter.org。

内容发布工具

与开发人员工具非常相似的是您可以用来管理内容发布需求的工具。最常见的示例是 Google Ads 预览工具，它获取一个页面，对其进行修改以包含来自 Google 的广告标签和广告内容，然后将其显示给网站所有者以查看发布后的结果。

另一种内容发布工具是一种获取网页的服务，它根据数据库检查是否存在任何潜在的版权侵犯或剽窃，并显示带有标记的页面以识别任何潜在的违规内容。

在线服务的屏幕截图，它加载整个网页并突出显示页面中包含先前发布内容数据库中的文本的任何部分。 — 一个在线服务的示例，它加载整个网页并突出显示包含在先前发布的内容的数据库中找到的文本的页面的任何部分。（大预览）

转码器域

一些服务以改变的形式提供网页以提高性能或改进显示特性。这种类型最常见的服务是 Google Web Light。在移动网络连接速度较慢的 Android 操作系统设备上，Google Web Light 可在有限数量的国家/地区对网页进行转码，以减少多达 80% 的字节数，同时保留“大部分相关内容”，所有这些都以交付内容的名义进入Android Mobile浏览器要快得多。

其他转码器服务会修改页面内容以更改其呈现方式，例如 printwhatyoulike.com 删除广告元素以准备打印到纸上，marker.to 允许用户使用虚拟黄色荧光笔“标记”网页并与其他。虽然转码器服务可能是善意的，但作为网站所有者，您需要注意滥用（删除广告）和潜在的内容完整性问题。

本地保存的网页副本

虽然不常见，但我们确实在 Akamai mPulse 数据中看到信标，其中包含从file:// URL 提供的页面。这些是从保存到设备本地存储的先前查看的网页加载的页面视图。因为每个设备都可能有不同的文件系统结构，导致 URL 数据中有无限数量的“域”，所以尝试聚合这些模式通常是没有意义的。可以安全地假设网站所有者不会认为这是商业风险或担忧。

网络代理服务

可以接受的另一类冒名顶替者域是 Web 代理服务使用的域。假定的良性代理服务有两大子类别。一种是机构代理，例如大学图书馆系统订阅在线新闻出版物，以便授予学生访问权限。当学生查看该站点时，该页面可能从大学顶级域中的主机名传送。

可以安全地假设，如果这是他们商业模式的一部分，大多数出版商不会认为这是商业风险或担忧。其他主要类型的良性代理是旨在提供匿名性的网站，以便访问者可以在不被跟踪或识别的情况下消费网站内容。后一个子类别最常见的例子是anonymousbrowser.org 服务。这些服务的用户可能是善意的，也可能不是善意的。

恶意重新发布

虽然我们已经看到网页被抓取然后从另一个域交付可能存在良性原因（事实上，研究表明良性用例是迄今为止在 Akamai mPulse 真实用户测量数据中最常见的)，在某些情况下，刮板的意图是恶意的。 抓取的内容可用于以多种方式创收，从简单地将被盗内容伪装成自己的内容，到试图窃取凭证或其他机密。恶意用例可能会损害网站所有者和/或网站访问者。

广告抓取

在出版行业，广告收入对于网站的商业成败至关重要。当然，销售广告需要访问者想要消费的内容，一些不良行为者可能会发现窃取这些内容比自己创建内容更容易。 广告抓取工具可以从网站上收集整篇文章，然后使用全新的广告标签将它们重新发布到不同的顶级域上。如果抓取工具不够复杂，无法将内容与页面结构完全分离，例如包含核心页面 JavaScript 代码（包括用于 Web 分析或 RUM 服务的加载程序片段），您可以获得这些页面视图的数据信标。

网络钓鱼

网络钓鱼是一种欺诈性尝试，通过冒充受信任的站点，让用户泄露敏感或私人信息，例如访问凭证、信用卡号、社会保险号或其他数据。为了看起来尽可能真实，网络钓鱼站点通常是通过抓取它们旨在冒充的合法站点来构建的。同样，如果抓取工具不够复杂，无法将内容与页面结构完全分离，例如包含核心页面代码，包括用于 Web 分析或 RUM 服务的加载程序片段，您可以在 mPulse 中获取这些页面视图的信标。

一条典型的浏览器警报消息通知用户他们将要查看的网页是来自另一个网站的重新发布的内容，该内容已被更改以欺骗访问者与其进行交互，就好像它是合法的一样。（大预览）

浏览器或搜索劫持

网页可能会被抓取并使用包含浏览器或搜索劫持攻击代码的附加 JavaScript 重新发布。与诱使用户交出有价值数据的网络钓鱼不同，这种攻击试图更改浏览器设置。只需将浏览器的默认搜索引擎更改为指向攻击者从中获得附属搜索结果收入的搜索引擎，对于不良行为者来说可能是有利可图的。如果刮板不复杂，注入新的攻击代码但不更改预先存在的核心页面代码，包括您的网络分析或 RUM 服务的加载程序片段，您可以在 mPulse 中获取这些页面视图的信标。

付费墙或订阅绕过代理

一些服务声称可以帮助最终用户访问需要订阅才能查看的网站上的页面，而无需有效登录。对于某些内容发布者来说，订阅费可能是网站收入的重要组成部分。对于其他人来说，用户可能需要登录才能使用受年龄、公民身份、居住地或其他标准限制的内容。

绕过（或试图绕过）这些访问限制的代理服务会给您的企业带来财务和法律风险。主观上，其中许多服务似乎专门针对色情网站，但所有网站所有者都应该注意这些不良行为者。

带有付费墙的网站（访问者必须订阅并付费才能查看大部分内容）可能会显示给已达到免费内容限制的访问者的示例消息。一些内容再发布服务宣传绕过这些限制的能力。 — 带有付费墙的网站可能会向已达到免费内容限制的访问者显示的示例消息。一些内容再发布服务宣传绕过这些限制的能力。（大预览）

误传

除了试图从网络抓取中获利外，一些冒名顶替的域还可能被用来提供经过修改的内容，以故意传播错误信息、损害名誉或用于政治或其他目的。

管理结果

既然您有一种方法可以识别和跟踪冒名顶替者域重新发布您的网站的时间，那么接下来的步骤是什么？工具的价值取决于我们有效使用它们的能力，因此制定策略以使用冒名顶替者域跟踪解决方案作为业务流程的一部分非常重要。在高层次上，我认为这可以简化为关于三步管理流程的决策：

识别威胁，
优先考虑威胁，
修复威胁。

1. 通过定期报告识别威胁

一旦您开发了数据库查询以从您的网络分析或真实用户测量数据中提取潜在的冒名顶替者域数据，您需要定期查看数据。

作为一个起点，我会推荐一份可以快速浏览任何新活动的每周报告。每周报告似乎是在问题变得过于严重之前发现问题的最佳节奏。每日报告可能会让人觉得乏味，一段时间后就会变得容易忽略。每日数字也可能更具挑战性，因为您可以查看可能或可能不代表相关趋势的极少数页面浏览量。

另一方面，每月报告可能会导致问题持续太久才被发现。对于大多数网站来说，每周报告似乎是正确的平衡，并且可能是定期报告的最佳开始节奏。

2. 潜在威胁的分类

正如我们上面所考虑的，并非所有重新发布您的网站内容的冒名顶替者域在本质上都是恶意的或对您的业务造成关注。随着您对自己站点数据的格局获得经验，您可以通过对您知道并认为非恶意的域进行颜色编码或分隔来增强您的定期报告，以帮助您专注于未知、新的或已知的问题域最重要。

根据您的需要，您可能会构建“可接受”和“问题”域的数组，或者按功能或类型对冒名顶替者域进行分类（例如上面描述的“自然语言翻译”或“内容发布工具”类别）。每个站点都有不同的需求，但目标是将有问题的域与不相关的域分开。

3. 对不良行为者采取行动

对于您确定的每个有问题的类别，确定在决定如何应对威胁时要使用的参数：

在我们采取行动之前，最少的页面浏览量是多少？
升级的第一点是什么？谁对此负责？
企业内部的哪些利益相关者需要了解恶意活动以及何时？
所有利益相关者（高管、法律等）是否定期记录和审查要采取的行动？
当采取行动（例如向犯罪者或其服务提供商提交“DMCA 删除”通知或更新 Web 应用程序防火墙规则以尝试限制对内容窃贼的访问）时，这些行动的结果是否得到跟踪和确认？
随着时间的推移，这些行动的有效性将如何总结给执行业务领导者？

即使您未能成功压制网站内容的每一次恶意再版，您仍然应该建立一个可靠的流程来管理风险，就像对业务的任何其他风险一样。它将与您的业务合作伙伴、投资者、员工和贡献者产生信任和权威。

结论

在适当的情况下，您的网络分析或真实用户测量数据可以提供对冒名顶替域名世界的可见性，网络抓取工具使用这些域名在其服务器上重新发布您的网站内容。这些冒名顶替者域中的许多实际上是良性服务，它们可以帮助最终用户或以各种富有成效的方式帮助您。

在其他情况下，冒名顶替者域具有恶意动机，要么窃取内容以获取利润，要么以对您的业务或网站访问者造成伤害的方式操纵内容。 Web 分析或 RUM 数据是您的秘密武器，可帮助识别任何需要立即采取行动的潜在恶意冒名顶替者域，以及更好地了解更良性域的普遍性。您收集的数据利用 Web 分析或 RUM 服务作为访问者自己浏览器中的观察者的位置来查看您的平台监控和报告工具无法查看的内容。

随着时间的推移分析数据，您可以越来越多地了解冒名顶替者域及其意图，以便更好地告知您的企业它们对您的声誉和访问者的体验构成的风险，并开发和实施保护您的知识产权的机制。

进一步阅读 Smashing Magazine

使用功能策略保护您的网站
借助 Google 的帮助，让您的网站快速、可访问且安全
您需要了解的有关 OAuth2 和使用 Facebook 登录的信息
内容安全政策，你未来最好的朋友
反对网络上的隐私侵犯