詐欺師のドメインはあなたのウェブサイトを再公開していますか?

公開: 2022-03-10
簡単な要約↬コンテンツのスクレイピングはインターネット上での現実です。 Webスクレイピングについて考えるとき、おそらく、スクレイパーが向きを変えて、ページ全体のコンテンツ全体を別のWebサイトにすぐに提供することは考えないでしょう。 しかし、サイトのコンテンツが再公開されている場合はどうなるでしょうか。 それはすでに起こっているかもしれません。

Webスクレイピングは、情報分析の目的でWebコンテンツを収集するために使用されるツールであり、サイト所有者に損害を与える場合があると考えています。 たとえば、競合他社の小売サイトのすべての製品ページをWebスクレイピングして、提供されている製品と現在の価格に関する情報を収集し、競争力を獲得しようとする場合があります。

Webスクレイピングは、広告キャンペーンに適したキーワードの特定、ブログ投稿のトレンドトピックの特定、重要なブログやニュースサイトのインフルエンサーの特定などのマーケティングデータを収集するために使用できます。 メーカーは小売サイトをスクレイプしてメーカー広告価格( MAP )が遵守されていることを確認し、セキュリティ監査人はサイトをスクレイプしてプライバシーポリシーの脆弱性や違反を探す場合があります。 そしてもちろん、スクレーパーはサイトをスクレイプしてセキュリティの脆弱性を探したり、連絡先やセールスリードの詳細を公開したりする可能性があります。 これらのアクティビティのいずれも、スクレイピングされたコンテンツが再公開されたり、エンドユーザーに配信されたりすることはありません。

ただし、スクレイプされたWebページのコンテンツがページ自体として訪問者に直接配信される場合があります。 以下で説明するように、これは良性またはそれほど良性ではない理由で実行できます。 最悪のシナリオでは、これらは真の詐欺師ドメインであり、コンテンツの真のソースを認識せずに実際のユーザーと関わりを持ちます。 ただし、良性のユースケースでも、訪問者のエクスペリエンスをある程度制御できなくなります。 コンテンツが他のサーバーやプラットフォームから他の手段で配信されると、ユーザーエクスペリエンスとユーザーとの間に築き上げた商取引上の関係が危険にさらされる可能性があります。

ビジネスに対するこのリスクをどのように特定、追跡、および管理できますか? Web分析またはWebサイトの実際のユーザー測定データを使用して、作業を再公開する詐欺師のドメインに関する洞察を得る方法を探ります。 また、Akamai mPulseで収集した実世界のデータで見られる最も一般的なタイプのコンテンツの再公開についても説明します。これは、良性と問題の両方であるため、データで何を探すべきかがわかります。

疑わしいアクティビティを追跡する方法

誰かがあなたのウェブコンテンツを再公開しているのではないかと考え始めたばかりの場合、最も簡単な方法はGoogle検索です。 サイトの関心のあるページから10語または12語の文をGoogle検索バーにコピーし、二重引用符で囲んで、[検索]をクリックします。 うまくいけば、検索結果に自分のサイトが表示されるはずですが、他のサイトでその正確な文が一致していることがわかった場合は、再公開の犠牲になる可能性があります。 このアプローチは明らかに少しアドホックです。 これらの種類のチェックを定期的に実行するために、いくつかのGoogle検索をスクリプト化することができます。 しかし、何ページをチェックしますか? 再発行によって変更されないページのコンテンツを確実に選択するにはどうすればよいですか? また、再公開されたページビューがGoogleの検索結果に表示されない場合はどうなりますか?

より良いアプローチは、Web分析またはR eal U ser Measurement( RUM )サービスですでに収集しているデータを使用することです。 これらのサービスは、機能と収集されるデータの深さが大幅に異なります。 これらはすべて、通常、タグまたはローダーコードのスニペットを介してサイトのWebページに読み込まれるJavaScriptプロセスとして組み込まれています。 サービスは、ページビュー(および/または関心のある他のユーザーアクティビティ)が完了したと判断すると、データの「ビーコン」を収集システムに送り返し、収集システムでデータがさらに処理、集約され、将来のために保存されます。分析。

詐欺師のドメインによるWebページの再公開を特定するために必要なのは、次のようなサービスです。

  • サイトのすべてのページビューのデータを収集します(理想的には)。
  • ページビューのベースページHTMLリソースの完全なURLを収集します。
  • そのベースページのURLのホスト名が、サイトが公開されているホスト名でない場合でも、ビーコンを受け入れます。
  • 収集したデータを自分でクエリしたり、「詐欺師ドメイン」を見つけるように設計されたデータクエリをすでに持っている場合があります。
ジャンプした後もっと! 以下を読み続けてください↓

Webページが再公開されるとどうなりますか?

完全なページビューとしてエンドユーザーに配信されることを意図してWebページがスクレイピングされると、スクレーパーがコンテンツを変更する場合があります。 変更は広範囲に及ぶ可能性があります。 一部のコンテンツの変更は他のコンテンツよりも簡単です。詐欺師のドメインはテキストや画像を変更する可能性がありますが、JavaScriptの変更はより難しい提案になる可能性があります。 JavaScriptで変更を試みると、ページの機能が損なわれたり、適切なレンダリングが妨げられたり、その他の問題が発生したりする可能性があります。

私たちにとって良いニュースは、Web分析トラッカーまたは実際のユーザー測定サービスがJavaScriptとしてインストルメント化されており、ページを壊す可能性があるため、多くの詐欺師ドメインがコンテンツを変更して削除しようとする可能性が低いことです。 スクレーパーがWeb分析またはRUMサービスのローダースニペットコードまたはタグを意図的に削除しない場合、一般的に言えば、スクレーパーは正常に読み込まれ、ページビューのビーコンを生成します。これにより、詐欺師のドメインアクティビティの証拠が得られます

これは、Web分析またはRUMデータを使用して詐欺師ドメインを追跡するための鍵です。 プラットフォームまたはサーバーからページコンテンツが配信されない場合でも、分析またはパフォーマンス追跡に使用しているJavaScriptコードが読み込まれている限り、ページビューに関するデータを取得できます。

データを情報に変える

データができたので、詐欺師ドメインの証拠としてそれをマイニングできます。 最も基本的には、これは、次の擬似コードのように、ページURLの各ホスト名によるページビューの数をカウントするデータベースクエリです。

 results = query(""" select host, count(*) as count from $(tableName) where timestamp between '$(startTime)' and '$(endTime)' and url not like 'file:%' group by 1 order by 2 desc """);

あなたのサイトが使用しているものではない結果のホスト名は、詐欺師のドメインであり、調査する価値があります。 データを継続的に監視するには、データに表示され、特定された詐欺師のドメインを分類することをお勧めします。

たとえば、 Webページ全体を再公開するNatural Language Translationサービスで使用される一部のドメインは、次のようになります。

 # Translation domains translationDomains = ["convertlanguage.com","dichtienghoa.com","dict.longdo.com", "motionpoint.com","motionpoint.net","opentrad.com","papago.naver.net","rewordify.com", "trans.hiragana.jp","translate.baiducontent.com","translate.goog", "translate.googleusercontent.com","translate.sogoucdn.com","translate.weblio.jp", "translatetheweb.com","translatoruser-int.com","transperfect.com","webtrans.yodao.com", "webtranslate.tilde.com","worldlingo.com"]

ニーズに応じて、「許容可能な」ドメインと「問題のある」ドメインの配列を構築したり、機能やタイプによって詐欺師のドメインを分類したりできます。 以下は、実際のデータで見られる可能性のある最も一般的なタイプの詐欺師ドメインです。

良性の再発行

サードパーティのドメインから配信されたすべてのスクレイプされたWebページが悪意のあるものになるわけではありません。 幅広い顧客のAkamaimPulseデータを見ると、詐欺師ドメインからのほとんどのページビューは、実際にはサイト訪問者が意図的に使用することを選択しているサービスです。 サイト訪問者は、アクセスできないと思われるページコンテンツを楽しむことができる場合があります。 場合によっては、サイト所有者自身の従業員がサービスを利用している可能性があります。

ここで説明する主なカテゴリは、決して網羅的なものではありません。

自然言語翻訳

最も一般的な詐欺師ドメインは、自然言語翻訳サービスで使用されるドメインです。 これらのサービスは、Webページをスクレイプし、ページ上のエンコードされたテキストを別の言語に翻訳し、その変更されたコンテンツをエンドユーザーに配信できます。

エンドユーザーに表示されるページには、翻訳サービスのトップレベルドメイン(translate.goog、translatoruser-int.com、translate.weblio.jpなど)のURLが含まれます。 rewordify.comは、ページ上の英語のテキストを、英語を話す人を始めるためのより単純な文に変更します。 翻訳の品質や配信されたページエクスペリエンスのパフォーマンスを制御することはできませんが、ほとんどのサイト所有者はこれをビジネス上のリスクや懸念事項とは見なさないと考えて間違いありません。

英語から日本語に翻訳されたニュースWebサイトの記事を提示する自然言語翻訳サービスのスクリーンショット。
英語から日本語に翻訳されたニュースサイトの記事を紹介する自然言語翻訳サービス。 (大プレビュー)

検索エンジンとWebアーカイブのキャッシュ結果

詐欺師ドメインのもう1つの一般的なカテゴリは、検索エンジンがキャッシュされた結果またはアーカイブされたバージョンのページビューを配信するために使用するドメインです。 通常、これらはサイトでは利用できなくなった可能性があるが、サードパーティのアーカイブでは利用できるページになります。

これらのページビューの頻度について知りたい場合は、より詳細な分析により、エンドユーザーがオンラインキャッシュおよびアーカイブで探していたものの詳細を判断できます。 オンラインキャッシュとアーカイブに対して行われた各リクエストの完全なURLを使用すると、これらの種類のページビューで最も頻繁に取り上げられるキーワードまたはトピックを識別できるはずです。

Googleの検索サービスでキャッシュされた検索結果の上に表示されるメッセージのスクリーンショットの例。
キャッシュされた検索結果の上に表示されるメッセージは、Googleの検索サービスに表示されます。 (大プレビュー)

開発者ツール

これらのサービスは通常、サイトの開発と運営という自然なビジネスの一環として、自分の従業員によって使用されます。 一般的な開発者ツールは、Webページ全体をスクレイプし、JavaScript、XML、HTML、またはCSSの構文エラーを分析し、開発者が探索できるようにページのマークアップバージョンを表示します。

構文エラーに加えて、ツールは、アクセシビリティまたはその他の法的に必要な標準への準拠についてサイトを評価する場合もあります。 実世界で見られるサービスの例には、codebeautify.org、webaim.org、およびjsonformatter.orgが含まれます。

コンテンツ公開ツール

開発者ツールと非常によく似ているのは、コンテンツ公開のニーズを管理するために使用できるツールです。 最もよく見られる例は、Google広告プレビューツールです。このツールは、ページを取得し、Googleからの広告タグと広告コンテンツを含むようにページを変更し、サイト所有者に表示して、公開された場合の結果を確認します。

別の種類のコンテンツ公開ツールは、Webページをフェッチし、データベースに対して潜在的な著作権違反や盗用がないかどうかをチェックし、マークアップ付きのページを表示して、潜在的に問題のあるコンテンツを特定するサービスです。

Webページ全体をロードし、以前に公開されたコンテンツのデータベースで見つかったテキストを含むページの任意の部分を強調表示するオンラインサービスのスクリーンショット。
Webページ全体をロードし、以前に公開されたコンテンツのデータベースで見つかったテキストを含むページの任意の部分を強調表示するオンラインサービスの例。 (大プレビュー)

トランスコーダードメイン

一部のサービスは、パフォーマンスまたは表示特性を改善するために、変更された形式でWebページを配信します。 このタイプの最も一般的なサービスはGoogleWebLightです。 モバイルネットワーク接続が遅いAndroidOSデバイスで限られた数の国で利用できるGoogleWebLightは、コンテンツの配信という名目で「関連コンテンツの大部分」を維持しながら、ウェブページをトランスコードして最大80%少ないバイト数を配信しますAndroidモバイルブラウザにはるかに高速に。

他のトランスコーダーサービスは、ページコンテンツを変更してプレゼンテーションを変更します。たとえば、printwhatyoulike.comは、紙への印刷に備えて広告要素を削除し、marker.toを使用すると、ユーザーは仮想黄色蛍光ペンでWebページを「マークアップ」し、ページを共有できます。その他。 トランスコーダーサービスは意図的なものですが、悪用(広告の削除)と、サイト所有者として知っておく必要のあるコンテンツの整合性に関する潜在的な質問の両方が発生する可能性があります。

ローカルに保存されたWebページのコピー

一般的ではありませんが、 file:// URLから提供されたページを含むAkamaimPulseデータにビーコンが表示されます。 これらは、デバイスのローカルストレージに保存された以前に表示されたWebページからロードされたページビューです。 デバイスごとに異なるファイルシステム構造があり、URLデータに無限の数の「ドメイン」が含まれる可能性があるため、通常、これらをパターン用に集約しようとしても意味がありません。 サイトの所有者は、これをビジネス上のリスクや懸念事項とは見なさないと考えるのが安全です。

Webプロキシサービス

受け入れられる可能性のある詐欺師ドメインの別のカテゴリは、Webプロキシサービスによって使用されるドメインです。 推定される良性プロキシサービスには、2つの大きなサブカテゴリがあります。 1つは、学生の体へのアクセスを許可するためにオンラインニュース出版物を購読する大学図書館システムなどの機関のプロキシです。 学生がサイトを表示すると、大学のトップレベルドメインのホスト名からページが配信される場合があります。

ほとんどの出版社は、これがビジネスモデルの一部である場合、これをビジネスリスクまたは懸念事項とは見なさないと想定するのが安全です。 他の主要なタイプの良性プロキシは、訪問者が追跡または識別されることなくWebサイトのコンテンツを利用できるように、匿名性を提供することを目的としたサイトです。 後者のサブカテゴリの最も一般的な例は、anonymousbrowser.orgサービスです。 これらのサービスのユーザーは、善意である場合とそうでない場合があります。

悪意のある再発行

Webページがスクレイプされて別のドメインから配信されるのは良性の理由があることがわかっていますが(実際、調査によると、アカマイのmPulseの実際のユーザー測定データでは良性のユースケースが最も一般的に見られます。 )、確かにスクレーパーの意図が悪意のある場合があります。 スクレイピングされたコンテンツは、盗まれたコンテンツを自分のものとして単に渡すことから、資格情報やその他の秘密を盗もうとすることまで、さまざまな方法で収益を生み出すために使用できます。 悪意のある使用例は、サイト所有者および/またはサイト訪問者の両方に害を及ぼす可能性があります。

広告スクレイピング

出版業界では、広告収入はWebサイトの商業的成功または失敗にとって重要です。 もちろん、広告を販売するには、訪問者が消費したいコンテンツが必要であり、悪意のある人物の中には、自分でコンテンツを作成するよりも、そのコンテンツを盗む方が簡単な場合があります。 広告スクレーパーは、サイトから記事全体を収集し、まったく新しい広告タグを使用して別のトップレベルドメインに再公開できます。 スクレーパーがページ構造からコンテンツを完全に分離するほど洗練されていない場合、たとえば、Web分析またはRUMサービスのローダースニペットを含むコアページJavaScriptコードが含まれている場合、これらのページビューのデータのビーコンを取得できます。

フィッシング

フィッシングとは、信頼できるサイトになりすまして、アクセス資格情報、クレジットカード番号、社会保障番号、その他のデータなどの機密情報や個人情報をユーザーに公開させる不正な試みです。 可能な限り本物に見えるようにするために、フィッシングサイトは、偽装することを目的とした正当なサイトをスクレイピングすることによって構築されることがよくあります。 繰り返しになりますが、スクレーパーがコンテンツをページ構造から完全に分離するほど高度ではなく、たとえば、Web分析またはRUMサービスのローダースニペットを含むコアページコードが含まれている場合、mPulseでこれらのページビューのビーコンを取得できます。

表示しようとしているWebページが、訪問者を騙して正当なものであるかのように操作するように変更された別のWebサイトからの再公開されたコンテンツであることをユーザーに通知する一般的なブラウザアラートメッセージ。
表示しようとしているWebページが、訪問者を騙して正当なものであるかのように操作するように変更された別のWebサイトからの再公開されたコンテンツであることをユーザーに通知する一般的なブラウザアラートメッセージ。 (大プレビュー)

ブラウザまたは検索のハイジャック

Webページは、ブラウザまたは検索ハイジャック攻撃コードを含む追加のJavaScriptを使用してスクレイピングされ、再公開される可能性があります。 ユーザーが貴重なデータを放棄するように誘惑するフィッシングとは異なり、この種の攻撃はブラウザの設定を変更しようとします。 ブラウザのデフォルトの検索エンジンを変更して、攻撃者がアフィリエイト検索結果の収益を得るエンジンを指すようにするだけで、悪意のある攻撃者にとって有益になる可能性があります。 スクレーパーが洗練されておらず、新しい攻撃コードを挿入しているが、Web分析またはRUMサービスのローダースニペットを含む既存のコアページコードを変更していない場合は、mPulseでこれらのページビューのビーコンを取得できます。

ペイウォールまたはサブスクリプションバイパスプロキシ

一部のサービスは、有効なログインがなくても、サブスクリプションを表示する必要があるサイトのページにエンドユーザーがアクセスできるようにすることを主張しています。 一部のコンテンツ発行者にとって、サブスクリプション料金はサイト収益の非常に重要な部分になる可能性があります。 その他の場合、ユーザーが年齢、市民権、居住地、またはその他の基準によって制限されているコンテンツを消費するために、法令遵守を維持するためにログインが必要になる場合があります。

これらのアクセス制限を回避する(または回避しようとする)プロキシサービスは、ビジネスに経済的および法的リスクをもたらします。 主観的には、これらのサービスの多くは特にポルノサイトに焦点を当てているように見えますが、すべてのWebサイト所有者はこれらの悪意のある人物に注意を払う必要があります。

ペイウォールのあるWebサイト(ほとんどのコンテンツを表示するには、訪問者をサブスクライブして支払いを行う必要があります)が、無料コンテンツの制限に達した訪問者に表示されるメッセージの例。一部のコンテンツ再発行サービスは、これらの制限を回避する機能をアドバタイズします。
ペイウォールのあるWebサイトが、無料コンテンツの制限に達した訪問者に表示する可能性のあるメッセージの例。 一部のコンテンツ再発行サービスは、これらの制限を回避する機能をアドバタイズします。 (大プレビュー)

誤報

一部の詐欺師ドメインは、Webスクレイピングから利益を得ようとすることに加えて、誤った情報を故意に広めたり、評判を傷つけたり、政治的またはその他の目的で変更されたコンテンツを配信するために使用される場合があります。

結果の管理

詐欺師のドメインがWebサイトを再公開している時期を特定して追跡する方法ができたので、次のステップは何ですか? ツールは、それらを効果的に使用する能力と同じくらい価値があるため、ビジネスプロセスの一部として詐欺師ドメイン追跡ソリューションを使用するための戦略を開発することが重要です。 大まかに言えば、これは3段階の管理プロセスに関する意思決定に帰着すると思います。

  1. 脅威を特定し、
  2. 脅威に優先順位を付け、
  3. 脅威を修正します。

1.定期的なレポートによる脅威の特定

Web分析またはRealUserMeasurementデータから潜在的な詐欺師ドメインデータを抽出するデータベースクエリを開発したら、定期的にデータを確認する必要があります。

出発点として、新しいアクティビティをすばやくスキャンできる週次レポートをお勧めします。 週次レポートは、問題が深刻になる前に問題をキャッチするための最良のリズムのようです。 日報は退屈に感じ、しばらくすると無視しやすいものになるかもしれません。 懸念される傾向を表す場合とそうでない場合がある非常に少数のページビューを見ることができるため、1日の数値も解釈が難しい場合があります。

一方、月次報告では、問題が発生するまでに時間がかかりすぎる可能性があります。 週次レポートは、ほとんどのサイトにとって適切なバランスのようであり、定期的なレポートの開始のリズムとしてはおそらく最適です。

2.潜在的な脅威の分類

上記で検討したように、サイトのコンテンツを再公開するすべての詐欺師ドメインが必ずしも悪意のあるものであるとは限らず、ビジネスへの懸念もありません。 自分のサイトのデータの状況を経験するにつれて、既知のドメインを色分けまたは分離し、悪意のないものと見なして、未知、新規、または既知の問題のあるドメインに焦点を当てることで、定期的なレポートを強化できます。最も重要なのは。

ニーズに応じて、「許容可能な」ドメインと「問題のある」ドメインの配列を構築したり、機能やタイプ(上記の「自然言語翻訳」や「コンテンツ公開ツール」のカテゴリなど)によって詐欺師ドメインを分類したりできます。 サイトごとにニーズは異なりますが、目的は、問題のあるドメインを関係のないドメインから分離することです。

3.悪意のある人物に対して行動を起こす

特定した問題のあるカテゴリごとに、脅威への対応方法を決定するときに使用するパラメータを決定します。

  • アクションを実行する前の最小ページビュー数はいくつですか?
  • エスカレーションの最初のポイントは何ですか?誰がその責任を負いますか?
  • ビジネス内のどの利害関係者が悪意のある活動にいつ気付く必要がありますか?
  • 実行するアクションは、すべての利害関係者(エグゼクティブ、法務など)によって定期的に文書化され、レビューされていますか?
  • アクションが実行されたとき(違反者またはそのサービスプロバイダーに「DMCA削除」通知を提出したり、コンテンツ泥棒へのアクセスを制限しようとするWebアプリケーションファイアウォールルールを更新したりするなど) 、これらのアクションの結果は追跡および確認されますか?
  • これらのアクションの有効性は、時間の経過とともにエグゼクティブビジネスリーダーにどのように要約されますか?

サイトコンテンツの悪意のある再公開をすべて潰すことに失敗した場合でも、ビジネスに対する他のリスクと同様に、リスクを管理するための堅固なプロセスを構築する必要があります。 それはあなたのビジネスパートナー、投資家、従業員、そして貢献者との信頼と権威を生み出します。

結論

適切な状況では、Web分析または実際のユーザー測定データは、Webスクレイパーがサーバー上でサイトのコンテンツを再公開するために使用する、詐欺師ドメインの世界への可視性を提供できます。 これらの詐欺師ドメインの多くは、実際には、エンドユーザーを支援するか、さまざまな生産的な方法で支援する良性のサービスです。

その他の場合、詐欺師のドメインには、利益を得るためにコンテンツを盗んだり、ビジネスやサイト訪問者に害を及ぼす方法でコンテンツを操作したりするという悪意のある動機があります。 Web分析またはRUMデータは、即時のアクションを必要とする潜在的に悪意のある詐欺師ドメインを特定し、より良性のドメインの普及をよりよく理解するのに役立つ秘密兵器です。 収集するデータは、訪問者自身のブラウザーでのオブザーバーとしてのWeb分析またはRUMサービスの位置を利用して、プラットフォームの監視およびレポートツールでは不可能なことを確認します。

時間の経過とともにデータを分析することで、詐欺師のドメインとその意図についてより多くのことを学び、評判や訪問者の経験にもたらすリスクについてビジネスに情報を提供し、知的財産を保護するメカニズムを開発して実施することができます。

SmashingMagazineでさらに読む

  • 機能ポリシーでサイトを保護する
  • Googleの助けを借りて、サイトを高速、アクセス可能、安全にします
  • OAuth2とFacebookでのログインについて知っておくべきこと
  • コンテンツセキュリティポリシー、あなたの将来の親友
  • Web上でのプライバシー侵害に対する反発