Les domaines imposteurs rééditent-ils votre site Web ?
Publié: 2022-03-10Nous considérons le web scraping comme un outil utilisé pour récolter du contenu web à des fins d'analyse d'informations, parfois au détriment du propriétaire du site. Par exemple, quelqu'un peut gratter toutes les pages de produits du site de vente au détail d'un concurrent pour récolter des informations sur les produits proposés et les prix actuels afin d'essayer d'obtenir un avantage concurrentiel.
Le scraping Web peut être utilisé pour récolter des données marketing, telles que l'identification de bons mots-clés pour des campagnes publicitaires, l'identification de sujets tendance pour les articles de blog ou l'identification d'influenceurs dans des blogs et des sites d'actualités importants. Les fabricants peuvent extraire des sites de vente au détail pour s'assurer que la tarification annoncée par le fabricant ( MAP ) est respectée, et les auditeurs de sécurité peuvent extraire des sites pour rechercher des vulnérabilités ou des violations des politiques de confidentialité. Et bien sûr, les grattoirs pourraient gratter votre site pour rechercher des vulnérabilités de sécurité ou des coordonnées exposées de contacts ou de prospects. Aucune de ces activités n'entraînerait la republication ou la livraison du contenu récupéré aux utilisateurs finaux.
Il existe cependant des situations où le contenu de la page Web extrait est livré sous forme de page elle-même directement aux visiteurs. Comme nous le verrons ci-dessous, cela peut être fait pour des raisons bénignes ou moins bénignes. Dans le pire des cas, il peut s'agir de véritables domaines imposteurs, cherchant à interagir avec de vrais utilisateurs sans reconnaître la véritable source de votre contenu . Cependant, même dans des cas d'utilisation bénins, vous perdez un certain contrôle sur l'expérience du visiteur. Lorsque votre contenu est diffusé par d'autres moyens, à partir d'autres serveurs ou plates-formes, cela peut mettre en péril l'expérience utilisateur et la relation commerciale que vous avez construites avec vos utilisateurs.
Comment pouvez-vous identifier, suivre et gérer ce risque pour votre entreprise ? Nous explorons comment vous pouvez utiliser des analyses Web ou des données de mesure d'utilisateurs réels sur votre site Web pour obtenir un aperçu de tout domaine imposteur republiant votre travail. Nous décrivons également les types de republication de contenu les plus courants que nous voyons dans les données du monde réel que nous avons collectées dans Akamai mPulse, à la fois bénignes et problématiques, afin que vous sachiez ce qu'il faut rechercher dans vos données.
Comment suivre une activité suspecte
Si vous commencez tout juste à vous demander si quelqu'un pourrait republier votre contenu Web, la chose la plus simple à faire est une recherche Google. Copiez une phrase de dix ou douze mots d'une page qui vous intéresse sur votre site dans la barre de recherche Google, placez-la entre guillemets doubles et cliquez sur Rechercher. Vous devriez, espérons-le, voir votre propre site dans les résultats de recherche, mais si vous trouvez cette phrase exacte correspondant sur d'autres sites, vous pourriez être victime d'une republication . Cette approche est évidemment un peu ad-hoc. Vous pouvez peut-être créer des scripts de recherche Google pour exécuter périodiquement ce type de vérifications. Mais combien de pages consultez-vous ? Comment sélectionner de manière fiable le contenu des pages que la republication ne va pas modifier ? Et que se passe-t-il si les pages vues republiées n'apparaissent jamais dans les résultats de recherche de Google ?
Une meilleure approche consiste à utiliser les données que vous collectez déjà avec vos services d'analyse Web ou de mesure de l' utilisateur réel ( RUM ). Ces services varient considérablement dans leurs capacités et la profondeur des données collectées. Ils sont généralement tous instrumentés comme des processus JavaScript qui sont chargés sur les pages Web de votre site via une balise ou un extrait de code de chargeur. Lorsque le service détermine qu'une page consultée (et/ou une autre activité d'intérêt de l'utilisateur) est terminée, il renvoie une « balise » de données à un système de collecte, où les données sont ensuite traitées, agrégées et stockées pour l'avenir. Analyse.
Pour aider à identifier la republication de pages Web par des domaines imposteurs, ce que vous voulez, c'est un service qui :
- Collecte des données pour chaque page vue sur le site (idéalement);
- Collecte l'URL complète de la ressource HTML de la page de base de la vue de page ;
- Accepte les balises même si le nom d'hôte dans cette URL de page de base n'est pas celui sous lequel votre site est publié ;
- Vous permet d' interroger vous-même les données collectées et/ou a déjà des requêtes de données conçues pour trouver des "domaines imposteurs".
Que se passe-t-il lorsqu'une page Web est republiée ?
Lorsqu'une page Web est extraite avec l'intention d'être livrée sous la forme d'une vue de page complète à un utilisateur final, l'extracteur peut modifier le contenu. Les modifications peuvent être importantes. La modification de certains contenus est plus facile que d'autres, et bien qu'un domaine imposteur puisse modifier du texte ou des images, la modification de JavaScript peut être une proposition plus difficile. Les tentatives de modification de JavaScript peuvent interrompre la fonctionnalité de la page, empêcher un rendu correct ou présenter d'autres problèmes.
La bonne nouvelle pour nous est que les trackers d'analyse Web ou les services de mesure des utilisateurs réels sont instrumentés comme JavaScript et de nombreux domaines imposteurs sont peu susceptibles d'essayer de modifier le contenu pour les supprimer en raison des risques de casser la page. Si le grattoir ne supprime pas intentionnellement le code ou la balise de l'extrait de chargeur pour votre service d'analyse Web ou RUM, en général, ils se chargeront avec succès et généreront une balise pour la vue de la page, vous donnant la preuve de l'activité du domaine imposteur .
C'est la clé du suivi des domaines imposteurs avec des analyses Web ou des données RUM. Même si aucun contenu de la page n'est diffusé depuis votre plate-forme ou vos serveurs, tant que le code JavaScript que vous utilisez pour l'analyse ou le suivi des performances se charge, vous pouvez toujours obtenir des données sur l'affichage de la page.
Transformer les données en informations
Maintenant que vous avez des données, vous pouvez les extraire pour trouver des preuves de domaines imposteurs. À la base, il s'agit d'une requête de base de données qui compte le nombre de pages vues par chaque nom d'hôte dans l'URL de la page, quelque chose comme ce pseudocode :
results = query(""" select host, count(*) as count from $(tableName) where timestamp between '$(startTime)' and '$(endTime)' and url not like 'file:%' group by 1 order by 2 desc """);
Tout nom d'hôte dans les résultats qui n'est pas celui que votre site utilise est un domaine imposteur et mérite d'être étudié. Pour une surveillance continue des données, vous souhaiterez probablement catégoriser les domaines imposteurs que vous voyez dans les données et que vous avez identifiés.
Par exemple, certains domaines utilisés par les services de traduction en langage naturel qui republient des pages Web entières peuvent ressembler à ceci :
# Translation domains translationDomains = ["convertlanguage.com","dichtienghoa.com","dict.longdo.com", "motionpoint.com","motionpoint.net","opentrad.com","papago.naver.net","rewordify.com", "trans.hiragana.jp","translate.baiducontent.com","translate.goog", "translate.googleusercontent.com","translate.sogoucdn.com","translate.weblio.jp", "translatetheweb.com","translatoruser-int.com","transperfect.com","webtrans.yodao.com", "webtranslate.tilde.com","worldlingo.com"]
Selon vos besoins, vous pouvez créer des tableaux de domaines « acceptables » et « problèmes », ou classer les domaines imposteurs en fonction de leur fonction ou de leur type. Vous trouverez ci-dessous les types de domaines imposteurs les plus courants que vous pourriez voir dans les données du monde réel.
Réédition bénigne
Toutes les pages Web récupérées provenant d'un domaine tiers ne seront pas malveillantes. D'après l'examen des données d'Akamai mPulse sur un large éventail de clients, la plupart des vues de pages provenant de domaines imposteurs sont en fait des services qu'un visiteur du site choisit intentionnellement d'utiliser. Un visiteur du site peut être en mesure de profiter d'un contenu de page qu'il trouverait inaccessible. Dans certains cas, les services sont probablement utilisés par les employés du propriétaire du site lui-même.
Les principales catégories décrites ici ne sont en aucun cas exhaustives.
Traduction en langue naturelle
Les domaines imposteurs les plus courants sont ceux utilisés par les services de traduction en langage naturel. Ces services peuvent récupérer une page Web, traduire le texte codé de la page dans une autre langue et fournir ce contenu modifié à l'utilisateur final.
La page que l'utilisateur final voit aura une URL du domaine de premier niveau du service de traduction (comme translate.goog, translateuser-int.com ou translate.weblio.jp parmi beaucoup d'autres). rewordify.com change le texte anglais d'une page en phrases plus simples pour les anglophones débutants. Bien que vous n'ayez aucun contrôle sur la qualité des traductions ou les performances de l'expérience de la page livrée, il est prudent de supposer que la plupart des propriétaires de sites ne considéreraient pas cela comme un risque ou une préoccupation commerciale.
Moteur de recherche et résultats en cache des archives Web
Une autre catégorie courante de domaines imposteurs sont les domaines utilisés par les moteurs de recherche pour fournir des résultats mis en cache ou des versions archivées des pages vues. En règle générale, il s'agirait de pages qui pourraient ne plus être disponibles sur le site mais qui sont disponibles dans des archives tierces.
Vous voudrez peut-être connaître la fréquence de ces pages vues et une analyse plus approfondie pourrait déterminer les spécificités de ce que les utilisateurs finaux recherchaient dans les caches et les archives en ligne. Avec l'URL complète de chaque demande adressée aux caches et aux archives en ligne, vous devriez être en mesure d'identifier les mots clés ou les sujets qui figurent le plus souvent dans ces types de pages vues.
Outils de développement
Ces services seront généralement utilisés par vos propres employés dans le cadre de l'activité naturelle de développement et de gestion de votre site. Un outil de développement typique peut gratter une page Web entière, l'analyser pour détecter les erreurs de syntaxe dans JavaScript, XML, HTML ou CSS, et afficher une version balisée de la page pour que le développeur l'explore.
En plus des erreurs de syntaxe, les outils peuvent également évaluer la conformité d'un site avec l'accessibilité ou d'autres normes légalement requises. Certains exemples de services vus dans le monde réel incluent codebeautify.org, webaim.org et jsonformatter.org.
Outils de publication de contenu
Très similaires aux outils de développement, vous pouvez utiliser des outils pour gérer vos besoins de publication de contenu. L'exemple le plus courant est l'outil de prévisualisation Google Ads, qui récupère une page, la modifie pour inclure un tag d'emplacement publicitaire et le contenu publicitaire de Google, et l'affiche au propriétaire du site pour voir à quoi ressemblerait le résultat s'il était publié.
Un autre type d'outil de publication de contenu est un service qui récupère une page Web, la compare à des bases de données pour détecter toute violation potentielle du droit d'auteur ou tout plagiat , et affiche la page avec un balisage pour identifier tout contenu potentiellement offensant.
Domaines de transcodeur
Certains services fournissent une page Web sous une forme modifiée pour améliorer les performances ou les caractéristiques d'affichage. Le service le plus courant de ce type est Google Web Light. Disponible dans un nombre limité de pays sur les appareils Android OS avec des connexions de réseau mobile lentes, Google Web Light transcode la page Web pour fournir jusqu'à 80 % d'octets en moins tout en préservant une "majorité du contenu pertinent", le tout au nom de la diffusion du contenu. dans le navigateur Android Mobile beaucoup plus rapidement.
D'autres services de transcodeur modifient le contenu de la page pour changer sa présentation, par exemple printwhatyoulike.com supprime les éléments publicitaires en vue de l'impression sur papier, et marker.to permet à un utilisateur de "marquer" une page Web avec un surligneur jaune virtuel et de partager la page avec les autres. Bien que les services de transcodeur puissent être bien intentionnés, il existe un potentiel d'abus (suppression de la publicité) et de questions potentielles d'intégrité du contenu dont vous, en tant que propriétaire de site, devez être conscient.
Copies enregistrées localement des pages Web
Bien que cela ne soit pas courant, nous voyons des balises dans les données Akamai mPulse avec des pages servies à partir d'URL file://
. Il s'agit de pages vues chargées à partir d'une page Web précédemment consultée qui a été enregistrée sur le stockage local de l'appareil. Étant donné que chaque appareil peut avoir une structure de système de fichiers différente , ce qui entraîne un nombre infini de « domaines » dans les données d'URL, il n'est généralement pas logique d'essayer de les agréger pour les modèles. Il est prudent de supposer que les propriétaires de sites ne considéreraient pas cela comme un risque ou une préoccupation commerciale.
Services proxy Web
Une autre catégorie de domaines d'imposteurs qui peuvent être acceptables sont ceux utilisés par les services de proxy Web. Il existe deux grandes sous-catégories de services proxy présumés bénins. L'un est celui des mandataires institutionnels , comme un système de bibliothèque universitaire s'abonnant à une publication d'actualités en ligne afin d'accorder l'accès à son corps étudiant. Lorsqu'un étudiant consulte le site, la page peut être fournie à partir d'un nom d'hôte dans le domaine de premier niveau de l'université.
Il est prudent de supposer que la plupart des éditeurs ne considéreraient pas cela comme un risque ou une préoccupation commerciale si cela faisait partie de leur modèle commercial. L'autre grand type de proxies bénins sont les sites qui visent à offrir l'anonymat afin que les visiteurs puissent consommer le contenu d'un site Web sans être suivis ou identifiés. L'exemple le plus courant de cette dernière sous-catégorie est le service anonymebrowser.org. Les utilisateurs de ces services peuvent ou non être bien intentionnés.
Reproduction malveillante
Bien que nous ayons vu qu'il peut y avoir des raisons bénignes pour qu'une page Web soit supprimée puis livrée à partir d'un domaine alternatif (et en fait, la recherche montre que les cas d'utilisation bénins sont de loin les plus courants dans les données de mesure des utilisateurs réels d'Akamai mPulse ), il y a certainement des cas où les intentions des scrapers sont malveillantes. Le contenu scrapé peut être utilisé pour générer des revenus de diverses manières, du simple fait de faire passer le contenu volé pour le sien à la tentative de vol d'informations d'identification ou d'autres secrets. Les cas d'utilisation malveillants peuvent nuire à la fois au propriétaire du site et/ou au visiteur du site.
Récupération d'annonces
Dans le secteur de l'édition, les revenus publicitaires sont essentiels au succès ou à l'échec commercial des sites Web. Bien sûr, la vente d'annonces nécessite un contenu que les visiteurs souhaitent consommer, et certains acteurs malveillants peuvent trouver plus facile de voler ce contenu que de le créer eux-mêmes. Les grattoirs publicitaires peuvent récolter des articles entiers d'un site et les republier sur un domaine de premier niveau différent avec des balises publicitaires entièrement nouvelles. Si le grattoir n'est pas assez sophistiqué pour séparer complètement le contenu de la structure de la page, et inclut par exemple le code JavaScript de la page principale, y compris l'extrait de chargeur pour votre service d'analyse Web ou RUM, vous pouvez obtenir des balises de données pour ces pages vues.
Hameçonnage
L'hameçonnage est une tentative frauduleuse d'amener les utilisateurs à révéler des informations sensibles ou privées telles que des identifiants d'accès, des numéros de carte de crédit, des numéros de sécurité sociale ou d'autres données en usurpant l'identité d'un site de confiance. Pour paraître aussi authentiques que possible, les sites de phishing sont souvent construits en grattant le site légitime qu'ils visent à usurper . Encore une fois, si le grattoir n'est pas assez sophistiqué pour séparer complètement le contenu de la structure de la page, et inclut par exemple le code de la page principale, y compris l'extrait de chargeur pour votre service d'analyse Web ou RUM, vous pouvez obtenir des balises pour ces pages vues dans mPulse.
Piratage de navigateur ou de recherche
Une page Web peut être extraite et republiée avec du code JavaScript supplémentaire contenant un code d'attaque de détournement de navigateur ou de recherche. Contrairement au phishing, qui incite les utilisateurs à fournir des données précieuses, ce type d'attaque tente de modifier les paramètres du navigateur . Changer simplement le moteur de recherche par défaut du navigateur pour qu'il pointe vers celui à partir duquel l'attaquant tire des revenus des résultats de recherche d'affiliation pourrait être rentable pour un mauvais acteur. Si le scraper n'est pas sophistiqué, injectant un nouveau code d'attaque mais ne modifiant pas le code de page principal préexistant, y compris l'extrait de chargeur pour votre service d'analyse Web ou RUM, vous pouvez obtenir des balises pour ces pages vues dans mPulse.
Paywall ou proxy de contournement d'abonnement
Certains services prétendent aider les utilisateurs finaux à accéder aux pages sur des sites qui nécessitent des abonnements pour être visualisés sans avoir de connexion valide. Pour certains éditeurs de contenu, les frais d'abonnement peuvent représenter une part très importante des revenus du site. Pour d'autres, les connexions peuvent être tenues de rester en conformité légale pour que les utilisateurs consomment du contenu limité par l'âge, la citoyenneté, la résidence ou d'autres critères.
Les services proxy qui contournent (ou tentent de contourner) ces restrictions d'accès présentent des risques financiers et juridiques pour votre entreprise . Subjectivement, bon nombre de ces services semblent se concentrer spécifiquement sur les sites pornographiques, mais tous les propriétaires de sites Web devraient être à l'affût de ces mauvais acteurs.
Désinformation
En plus d'essayer de tirer profit du scraping Web, certains domaines d'imposteurs peuvent être utilisés pour fournir du contenu qui a été modifié de manière à diffuser intentionnellement des informations erronées, à nuire à des réputations ou à des fins politiques ou autres.
Gérer les résultats
Maintenant que vous disposez d'un moyen d'identifier et de suivre à quel moment les domaines imposteurs republient votre site Web, quelles sont les prochaines étapes ? Les outils sont aussi précieux que notre capacité à les utiliser efficacement, il est donc important de développer une stratégie pour utiliser une solution de suivi de domaine imposteur dans le cadre de vos processus commerciaux. À un niveau élevé, je pense que cela revient à prendre des décisions sur un processus de gestion en trois étapes :
- Identifier la menace,
- Prioriser la menace,
- Corrigez la menace.
1. Identifier les menaces grâce à des rapports réguliers
Une fois que vous avez développé les requêtes de base de données pour extraire les données de domaine d'imposteur potentiel à partir de vos données d'analyse Web ou de mesure de l'utilisateur réel, vous devez examiner les données régulièrement.
Comme point de départ, je recommanderais un rapport hebdomadaire qui peut être rapidement scanné pour toute nouvelle activité. Un rapport hebdomadaire semble être la meilleure cadence pour détecter les problèmes avant qu'ils ne deviennent trop graves. Un rapport quotidien peut sembler fastidieux et devenir quelque chose de facile à ignorer après un certain temps. Les chiffres quotidiens peuvent également être plus difficiles à interpréter, car vous pouvez consulter un assez petit nombre de pages vues qui peuvent ou non représenter une tendance préoccupante.
D'un autre côté, les rapports mensuels peuvent entraîner des problèmes qui durent trop longtemps avant d'être détectés. Un rapport hebdomadaire semble être le bon équilibre pour la plupart des sites et constitue probablement la meilleure cadence de départ pour un rapport régulier.
2. Catégorisation de la menace potentielle
Comme nous l'avons considéré ci-dessus, tous les domaines imposteurs republiant le contenu de votre site ne sont pas nécessairement de nature malveillante ou ne concernent pas votre entreprise. Au fur et à mesure que vous acquérez de l'expérience avec le paysage des données de votre propre site, vous pouvez améliorer vos rapports réguliers en codant par couleur ou en séparant les domaines que vous connaissez et que vous considérez comme non malveillants pour vous aider à vous concentrer sur les domaines problématiques inconnus, nouveaux ou connus qui comptent le plus.
Selon vos besoins, vous pouvez créer des tableaux de domaines « acceptables » et « problèmes », ou classer les domaines imposteurs en fonction de leur fonction ou de leur type (comme les catégories « traduction en langage naturel » ou « outils de publication de contenu » décrites ci-dessus). Chaque site aura des besoins différents, mais l'objectif est de séparer les domaines problématiques des domaines qui ne sont pas préoccupants.
3. Agissez contre les mauvais acteurs
Pour chacune des catégories problématiques que vous identifiez, déterminez les paramètres que vous souhaitez utiliser pour décider comment répondre à la menace :
- Quel est le nombre minimum de pages vues avant que nous n'agissions ?
- Quel est le premier point d'escalade et qui en est responsable ?
- Quelles parties prenantes au sein de l'entreprise doivent être informées de l'activité malveillante et quand ?
- Les actions à entreprendre sont-elles documentées et revues par toutes les parties prenantes (exécutifs, juridiques, etc.) sur une base régulière ?
- Lorsque des actions sont entreprises (telles que le dépôt d'un avis de "retrait DMCA" auprès du contrevenant ou de son fournisseur de services ou la mise à jour des règles du pare-feu d'application Web pour tenter de limiter l'accès aux voleurs de contenu), les résultats de ces actions sont-ils suivis et reconnus ?
- Comment l' efficacité de ces actions sera-t-elle résumée aux dirigeants d'entreprise dans le temps ?
Même si vous ne parvenez pas à écraser chaque republication malveillante du contenu de votre site, vous devez toujours mettre en place un processus solide pour gérer les risques comme tout autre risque pour l'entreprise. Cela générera de la confiance et de l'autorité auprès de vos partenaires commerciaux, investisseurs, employés et contributeurs.
Conclusion
Dans les bonnes circonstances, vos analyses Web ou vos données de mesure d'utilisateurs réels peuvent offrir une visibilité sur le monde des domaines imposteurs, utilisés par les grattoirs Web pour republier le contenu de votre site sur leurs serveurs. Bon nombre de ces domaines imposteurs sont en fait des services bénins qui aident les utilisateurs finaux ou vous aident de diverses manières productives.
Dans d'autres cas, les domaines imposteurs ont des motifs malveillants, soit pour voler du contenu à des fins lucratives, soit pour le manipuler de manière à nuire à votre entreprise ou au visiteur de votre site. L'analyse Web ou les données RUM sont votre arme secrète pour vous aider à identifier tout domaine imposteur potentiellement malveillant nécessitant une action immédiate , ainsi que pour mieux comprendre la prévalence des domaines les plus bénins. Les données que vous collectez tirent parti de la position du service d'analyse Web ou du service RUM en tant qu'observateur dans le navigateur du visiteur pour voir ce que vos outils de surveillance et de reporting de la plate-forme ne peuvent pas.
En analysant les données au fil du temps, vous pouvez en apprendre de plus en plus sur les domaines imposteurs et leurs intentions afin de mieux informer votre entreprise des risques qu'ils font peser sur votre réputation et l'expérience de vos visiteurs et de développer et d'appliquer des mécanismes pour protéger votre propriété intellectuelle.
Lectures complémentaires sur Smashing Magazine
- Protéger votre site avec la politique des fonctionnalités
- Rendez vos sites rapides, accessibles et sécurisés avec l'aide de Google
- Ce que vous devez savoir sur OAuth2 et la connexion avec Facebook
- Politique de sécurité du contenu, votre futur meilleur ami
- Repousser les atteintes à la vie privée sur le Web