冒名頂替者域名是否會重新發布您的網站?

已發表: 2022-03-10
快速總結 ↬內容抓取是互聯網上的生活事實。 當您想到網絡抓取時,您可能不會想到抓取工具會轉身並立即在另一個網站上提供您的整個頁面內容。 但是,如果您的網站內容被重新發布怎麼辦? 它可能已經在發生。

我們認為網絡抓取是一種用於收集網絡內容以進行信息分析的工具,有時會損害網站所有者的利益。 例如,有人可能會通過網絡抓取競爭對手零售網站的所有產品頁面,以獲取有關所提供產品和當前定價的信息,以試圖獲得競爭優勢。

網絡抓取可用於收集營銷數據,例如識別廣告活動的好關鍵字、識別博客文章的熱門話題或識別重要博客和新聞網站中的影響者。 製造商可能會搜索零售網站以確保遵守製造廣告定價 (MAP ) ,而安全審計員可能會搜索網站以查找隱私政策中的漏洞或違規行為。 當然,抓取工具可以抓取您的網站以查找安全漏洞或暴露的聯繫人或銷售線索詳細信息。 這些活動都不會導致將抓取的內容重新發布或交付給最終用戶。

但是,在某些情況下,抓取的網頁內容作為頁面本身直接交付給訪問者。 正如我們將在下面看到的,這可以出於良性或不那麼良性的原因進行。 在最壞的情況下,這些可能是真正的冒名頂替者域,試圖在不承認您內容的真實來源的情況下與真實用戶互動。 然而,即使在良性用例中,您也會對訪問者的體驗失去一些控制。 當您的內容通過其他方式從其他服務器或平台交付時,可能會使您與用戶建立的用戶體驗和商業關係面臨風險。

您如何識別、跟踪和管理這種對您的業務造成的風險? 我們探索如何在您的網站上使用網絡分析或真實用戶測量數據來深入了解任何重新發布您作品的冒名頂替者域。 我們還描述了我們在 Akamai mPulse 中收集的真實數據中看到的最常見的內容重新發布類型,包括良性和有問題的,因此您知道要在數據中尋找什麼。

如何追踪可疑活動

如果您剛開始想知道是否有人可能會重新發布您的網絡內容,那麼最簡單的方法就是使用 Google 搜索。 將您網站上感興趣的頁面中的十或十二個單詞的句子復製到 Google 搜索欄中,將其放在雙引號內,然後單擊搜索。 您應該希望在搜索結果中看到您自己的網站,但如果您在其他網站上找到與該句子完全匹配的內容,您可能會成為重新發布的受害者。 這種方法顯然有點特設。 您也許可以編寫一些 Google 搜索腳本來定期運行這些類型的檢查。 但是你檢查了多少頁? 您如何可靠地選擇重新發布不會修改的頁面上的內容? 如果重新發布的頁面瀏覽量從未出現在 Google 的搜索結果中怎麼辦?

更好的方法是使用您已經通過網絡分析或真實用戶測量 (RUM )服務收集的數據。 這些服務的功能和收集的數據深度差異很大。 它們通常都被檢測為 JavaScript 進程,通過標籤或加載器代碼片段加載到您網站的網頁上。 當服務確定頁面瀏覽(和/或其他一些用戶感興趣的活動)已完成時,它會將數據“信標”發送回收集系統,然後在收集系統中進一步處理、聚合和存儲數據以供將來使用分析。

為了幫助識別冒名頂替者域重新發佈網頁,您需要以下服務:

  • 收集網站上每個頁面視圖的數據(理想情況下);
  • 收集頁面視圖的基本頁面 HTML 資源的完整 URL
  • 即使該基本頁面 URL 中的主機名不是您的網站發佈時使用的主機名,也接受信標
  • 允許您自己查詢收集的數據和/或已經有旨在查找“冒名頂替者域”的數據查詢。
跳躍後更多! 繼續往下看↓

重新發佈網頁時會發生什麼?

當網頁被抓取以作為完整頁面視圖傳遞給最終用戶時,抓取器可能會修改內容。 修改可能是廣泛的。 修改某些內容比其他內容更容易,雖然冒名頂替的域可能會更改文本或圖像,但修改 JavaScript 可能是一個更具挑戰性的提議。 嘗試對 JavaScript 進行修改可能會破壞頁面功能、抑制正確呈現或出現其他問題。

對我們來說好消息是網絡分析跟踪器或真實用戶測量服務被檢測為 JavaScript,許多冒名頂替的域不太可能嘗試修改內容以刪除它們,因為它可能會破壞頁面。 如果刮板沒有故意刪除您的網絡分析或 RUM 服務的加載器片段代碼或標籤,一般來說,它們將成功加載並為頁面視圖生成信標——為您提供冒名頂替域活動的證據

這是使用網絡分析或 RUM 數據跟踪冒名頂替者域的關鍵。 即使沒有從您的平台或服務器提供任何頁面內容,只要加載您用於分析或性能跟踪的 JavaScript 代碼,您仍然可以獲得有關頁面視圖的數據。

將數據轉化為信息

現在您有了數據,您可以挖掘它來尋找冒名頂替者域的證據。 最基本的是,這是一個數據庫查詢,它按頁面 URL 中的每個主機名計算頁面查看次數,類似於以下偽代碼:

 results = query(""" select host, count(*) as count from $(tableName) where timestamp between '$(startTime)' and '$(endTime)' and url not like 'file:%' group by 1 order by 2 desc """);

結果中任何不是您的站點使用的主機名都是冒名頂替的域,值得調查。 對於數據的持續監控,您可能希望對您在數據中看到並已識別的冒名頂替者域進行分類。

例如,重新發布整個網頁的自然語言翻譯服務使用的某些域可能如下所示:

 # Translation domains translationDomains = ["convertlanguage.com","dichtienghoa.com","dict.longdo.com", "motionpoint.com","motionpoint.net","opentrad.com","papago.naver.net","rewordify.com", "trans.hiragana.jp","translate.baiducontent.com","translate.goog", "translate.googleusercontent.com","translate.sogoucdn.com","translate.weblio.jp", "translatetheweb.com","translatoruser-int.com","transperfect.com","webtrans.yodao.com", "webtranslate.tilde.com","worldlingo.com"]

根據您的需要,您可能會構建“可接受”和“問題”域的數組,或者按功能或類型對冒名頂替者域進行分類。 以下是您可能在真實​​數據中看到的最常見的冒名頂替者域類型。

良性再版

並非所有從第三方域提供的抓取網頁都是惡意的。 根據對廣泛客戶的 Akamai mPulse 數據的研究,來自冒名頂替者域的大多數頁面視圖實際上是網站訪問者有意選擇使用的服務。 站點訪問者可能能夠享受他們發現無法訪問的頁面內容。 在某些情況下,網站所有者本身的員工可能正在使用這些服務。

這裡描述的主要類別絕不是詳盡的。

自然語言翻譯

最常見的冒名頂替者域是自然語言翻譯服務使用的域。 這些服務可以抓取網頁,將頁面上的編碼文本翻譯成另一種語言,並將修改後的內容交付給最終用戶。

最終用戶看到的頁面將具有來自翻譯服務頂級域的 URL(例如 translate.goog、translatoruser-int.com 或 translate.weblio.jp 等)。 rewordify.com 將頁面上的英文文本更改為更簡單的句子,以供初級英語人士使用。 雖然您無法控制翻譯質量或交付頁面體驗的性能,但可以肯定的是,大多數網站所有者不會認為這是商業風險或擔憂。

自然語言翻譯服務的屏幕截圖,展示了從英語翻譯成日語的新聞網站文章。
一種自然語言翻譯服務,提供從英語翻譯成日語的新聞網站文章。 (大預覽)

搜索引擎和 Web 存檔緩存結果

另一種常見的冒名頂替者域是搜索引擎用於提供緩存結果或頁面視圖存檔版本的域。 通常,這些頁面可能不再在網站上可用,但在第三方檔案中可用。

您可能想了解這些頁面查看的頻率,並且更深入的分析可以確定最終用戶在在線緩存和檔案中尋找的具體內容。 使用對在線緩存和檔案的每個請求的完整 URL,您應該能夠識別在這些類型的頁面視圖中最常出現的關鍵字或主題。

顯示在 Google 搜索服務中緩存搜索結果上方的消息的示例屏幕截圖。
顯示在 Google 搜索服務中緩存搜索結果上方的消息。 (大預覽)

開發者工具

這些服務通常由您自己的員工使用,作為開發和運行您的網站的自然業務的一部分。 典型的開發人員工具可能會抓取整個網頁,分析其是否存在 JavaScript、XML、HTML 或 CSS 中的語法錯誤,並顯示頁面的標記版本供開發人員探索。

除了語法錯誤之外,工具還可能評估網站是否符合可訪問性或其他法律要求的標準。 在現實世界中看到的一些示例服務包括 codebeautify.org、webaim.org 和 jsonformatter.org。

內容髮布工具

與開發人員工具非常相似的是您可以用來管理內容髮布需求的工具。 最常見的示例是 Google Ads 預覽工具,它獲取一個頁面,對其進行修改以包含來自 Google 的廣告標籤和廣告內容,然後將其顯示給網站所有者以查看發布後的結果。

另一種內容髮布工具是一種獲取網頁的服務,它根據數據庫檢查是否存在任何潛在的版權侵犯或剽竊,並顯示帶有標記的頁面以識別任何潛在的違規內容。

在線服務的屏幕截圖,它加載整個網頁並突出顯示頁面中包含先前發佈內容數據庫中的文本的任何部分。
一個在線服務的示例,它加載整個網頁並突出顯示包含在先前發布的內容的數據庫中找到的文本的頁面的任何部分。 (大預覽)

轉碼器域

一些服務以改變的形式提供網頁以提高性能或改進顯示特性。 這種類型最常見的服務是 Google Web Light。 Google Web Light 在移動網絡連接速度較慢的 Android 操作系統設備上在有限數量的國家/地區提供,對網頁進行轉碼以減少多達 80% 的字節數,同時保留“大部分相關內容”,所有這些都以交付內容的名義進入Android Mobile瀏覽器要快得多。

其他轉碼器服務會修改頁面內容以更改其呈現方式,例如 printwhatyoulike.com 刪除廣告元素以準備打印到紙上,marker.to 允許用戶使用虛擬黃色熒光筆“標記”網頁並與其他。 雖然轉碼器服務可能是善意的,但作為網站所有者,您需要注意濫用(刪除廣告)和潛在的內容完整性問題。

本地保存的網頁副本

雖然不常見,但我們確實在 Akamai mPulse 數據中看到信標,其中包含從file:// URL 提供的頁面。 這些是從保存到設備本地存儲的先前查看的網頁加載的頁面視圖。 因為每個設備都可能有不同的文件系統結構,導致 URL 數據中有無限數量的“域”,所以嘗試聚合這些模式通常是沒有意義的。 可以安全地假設網站所有者不會認為這是商業風險或擔憂。

網絡代理服務

可以接受的另一類冒名頂替者域是 Web 代理服務使用的域。 假定的良性代理服務有兩大子類別。 一種是機構代理,例如大學圖書館系統訂閱在線新聞出版物,以便授予學生訪問權限。 當學生查看該站點時,該頁面可能從大學頂級域中的主機名傳送。

可以安全地假設,如果這是他們商業模式的一部分,大多數出版商不會認為這是商業風險或擔憂。 其他主要類型的良性代理是旨在提供匿名性的網站,以便訪問者可以在不被跟踪或識別的情況下消費網站內容。 後一個子類別最常見的例子是anonymousbrowser.org 服務。 這些服務的用戶可能是善意的,也可能不是善意的。

惡意重新發布

雖然我們已經看到網頁被抓取然後從另一個域交付可能存在良性原因(事實上,研究表明良性用例是迄今為止在 Akamai mPulse 真實用戶測量數據中最常見的),在某些情況下,刮板的意圖是惡意的。 抓取的內容可用於以多種方式創收,從簡單地將被盜內容偽裝成自己的內容,到試圖竊取憑證或其他機密。 惡意用例可能會損害網站所有者和/或網站訪問者。

廣告抓取

在出版行業,廣告收入對於網站的商業成敗至關重要。 當然,銷售廣告需要訪問者想要消費的內容,一些不良行為者可能會發現竊取這些內容比自己創建內容更容易。 廣告抓取工具可以從網站上收集整篇文章,然後使用全新的廣告標籤將它們重新發佈到不同的頂級域上。 如果抓取工具不夠複雜,無法將內容與頁面結構完全分離,例如包含核心頁面 JavaScript 代碼(包括用於 Web 分析或 RUM 服務的加載程序片段),您可以獲得這些頁面視圖的數據信標。

網絡釣魚

網絡釣魚是一種欺詐性嘗試,通過冒充受信任的站點,讓用戶洩露敏感或私人信息,例如訪問憑證、信用卡號、社會保險號或其他數據。 為了看起來盡可能真實,網絡釣魚站點通常是通過抓取它們旨在冒充的合法站點來構建的。 同樣,如果抓取工具不夠複雜,無法將內容與頁面結構完全分離,例如包含核心頁面代碼,包括用於 Web 分析或 RUM 服務的加載器片段,您可以在 mPulse 中獲取這些頁面視圖的信標。

一條典型的瀏覽器警報消息通知用戶他們將要查看的網頁是來自另一個網站的重新發布的內容,該內容已被更改以欺騙訪問者與其進行交互,就好像它是合法的一樣。
一條典型的瀏覽器警報消息通知用戶他們將要查看的網頁是來自另一個網站的重新發布的內容,該內容已被更改以欺騙訪問者與其進行交互,就好像它是合法的一樣。 (大預覽)

瀏覽器或搜索劫持

網頁可能會被抓取並使用包含瀏覽器或搜索劫持攻擊代碼的附加 JavaScript 重新發布。 與誘使用戶交出有價值數據的網絡釣魚不同,這種攻擊試圖更改瀏覽器設置。 只需將瀏覽器的默認搜索引擎更改為指向攻擊者從中獲得附屬搜索結果收入的搜索引擎,對於不良行為者來說可能是有利可圖的。 如果刮板不復雜,注入新的攻擊代碼但不更改預先存在的核心頁面代碼,包括您的網絡分析或 RUM 服務的加載程序片段,您可以在 mPulse 中獲取這些頁面視圖的信標。

付費牆或訂閱繞過代理

一些服務聲稱可以幫助最終用戶訪問需要訂閱才能查看的網站上的頁面,而無需有效登錄。 對於某些內容髮布者來說,訂閱費可能是網站收入的重要組成部分。 對於其他人來說,用戶可能需要登錄才能使用受年齡、公民身份、居住地或其他標準限制的內容。

繞過(或試圖繞過)這些訪問限制的代理服務會給您的企業帶來財務和法律風險。 主觀上,其中許多服務似乎專門針對色情網站,但所有網站所有者都應該注意這些不良行為者。

帶有付費牆的網站(訪問者必須訂閱並付費才能查看大部分內容)可能會顯示給已達到免費內容限制的訪問者的示例消息。一些內容再發布服務宣傳繞過這些限制的能力。
帶有付費牆的網站可能會向已達到免費內容限制的訪問者顯示的示例消息。 一些內容再發布服務宣傳繞過這些限制的能力。 (大預覽)

誤傳

除了試圖從網絡抓取中獲利外,一些冒名頂替的域還可能被用來提供經過修改的內容,以故意傳播錯誤信息、損害名譽或用於政治或其他目的。

管理結果

既然您有一種方法可以識別和跟踪冒名頂替者域重新發布您的網站的時間,那麼接下來的步驟是什麼? 工具的價值取決於我們有效使用它們的能力,因此制定策略以使用冒名頂替者域跟踪解決方案作為業務流程的一部分非常重要。 在高層次上,我認為這可以簡化為關於三步管理流程的決策:

  1. 識別威脅,
  2. 優先考慮威脅,
  3. 修復威脅。

1. 通過定期報告識別威脅

一旦您開發了數據庫查詢以從您的網絡分析或真實用戶測量數據中提取潛在的冒名頂替者域數據,您需要定期查看數據。

作為一個起點,我會推荐一份可以快速瀏覽任何新活動的每週報告。 每週報告似乎是在問題變得過於嚴重之前發現問題的最佳節奏。 每日報告可能會讓人覺得乏味,一段時間後就會變得容易忽略。 每日數字也可能更具挑戰性,因為您可以查看可能或可能不代表相關趨勢的極少數頁面瀏覽量。

另一方面,每月報告可能會導致問題持續太久才被發現。 對於大多數網站來說,每週報告似乎是正確的平衡,並且可能是定期報告的最佳開始節奏。

2. 潛在威脅的分類

正如我們上面所考慮的,並非所有重新發布您的網站內容的冒名頂替者域在本質上都是惡意的或對您的業務造成關注。 隨著您對自己網站的數據環境的了解,您可以通過顏色編碼或分隔您知道並認為無惡意的域來增強您的定期報告,以幫助您專注於未知的、新的或已知的問題域最重要。

根據您的需要,您可能會構建“可接受”和“問題”域的數組,或者按其功能或類型(例如上述“自然語言翻譯”或“內容髮布工具”類別)對冒名頂替者域進行分類。 每個站點都有不同的需求,但目標是將有問題的域與不相關的域分開。

3. 對不良行為者採取行動

對於您確定的每個有問題的類別,確定在決定如何應對威脅時要使用的參數:

  • 在我們採取行動之前,最少的頁面瀏覽量是多少?
  • 升級的第一點是什麼?誰對此負責
  • 企業內部的哪些利益相關者需要了解惡意活動以及何時?
  • 所有利益相關者(高管、法律等)是否定期記錄和審查要採取的行動?
  • 當採取行動(例如向犯罪者或其服務提供商提交“DMCA 刪除”通知或更新 Web 應用程序防火牆規則以嘗試限制對內容竊賊的訪問)時,這些行動的結果是否得到跟踪和確認?
  • 隨著時間的推移,這些行動的有效性將如何總結給執行業務領導者?

即使您未能成功壓製網站內容的每一次惡意再版,您仍然應該建立一個可靠的流程來管理風險,就像對業務的任何其他風險一樣。 它將與您的業務合作夥伴、投資者、員工和貢獻者產生信任和權威。

結論

在適當的情況下,您的網絡分析或真實用戶測量數據可以提供對冒名頂替域名世界的可見性,網絡抓取工具使用這些域名在其服務器上重新發布您的網站內容。 這些冒名頂替者域中的許多實際上是良性服務,它們可以幫助最終用戶或以各種富有成效的方式幫助您。

在其他情況下,冒名頂替者域具有惡意動機,要么竊取內容以獲取利潤,要么以對您的業務或網站訪問者造成傷害的方式操縱內容。 Web 分析或 RUM 數據是您的秘密武器,可幫助識別任何需要立即採取行動的潛在惡意冒名頂替者域,以及更好地了解更良性域的普遍性。 您收集的數據利用 Web 分析或 RUM 服務作為訪問者自己瀏覽器中的觀察者的位置來查看您的平台監控和報告工具無法查看的內容。

隨著時間的推移分析數據,您可以越來越多地了解冒名頂替者域及其意圖,以便更好地告知您的企業它們對您的聲譽和訪問者的體驗構成的風險,並開發和實施保護您的知識產權的機制。

進一步閱讀 Smashing Magazine

  • 使用功能策略保護您的網站
  • 借助 Google 的幫助,讓您的網站快速、可訪問且安全
  • 您需要了解的有關 OAuth2 和使用 Facebook 登錄的信息
  • 內容安全政策,您未來最好的朋友
  • 反對網絡上的隱私侵犯