Os domínios impostores estão publicando novamente seu site?

Publicados: 2022-03-10

Resumo rápido ↬ A raspagem de conteúdo é um fato da vida na Internet. Quando você pensa em web scraping, provavelmente não pensa nos scrapers virando e servindo imediatamente todo o conteúdo de sua página em outro site. Mas e se o conteúdo do seu site estiver sendo republicado? Pode já estar acontecendo.

Pensamos no web scraping como uma ferramenta usada para coletar conteúdo da web para fins de análise de informações, às vezes em detrimento do proprietário do site. Por exemplo, alguém pode raspar na web todas as páginas de produtos do site de varejo de um concorrente para coletar informações sobre os produtos oferecidos e os preços atuais para tentar obter uma vantagem competitiva.

A raspagem da Web pode ser usada para coletar dados de marketing, como identificar boas palavras-chave para campanhas publicitárias, identificar tópicos de tendências para postagens em blogs ou identificar influenciadores em blogs e sites de notícias importantes. Os fabricantes podem raspar sites de varejo para se certificar de que os Preços Publicados pelo Fabricante (MAP ) estão sendo respeitados, e os auditores de segurança podem raspar sites para procurar vulnerabilidades ou violações nas políticas de privacidade. E, claro, os raspadores podem raspar seu site para procurar vulnerabilidades de segurança ou detalhes expostos de contatos ou leads de vendas. Nenhuma dessas atividades resultaria na republicação do conteúdo copiado ou na entrega aos usuários finais.

Há situações, no entanto, em que o conteúdo da página da Web raspada é entregue como uma página em si diretamente aos visitantes. Como veremos a seguir, isso pode ser feito por razões benignas ou não tão benignas. Na pior das hipóteses, esses podem ser domínios verdadeiros impostores, buscando se envolver com usuários reais sem reconhecer a verdadeira origem do seu conteúdo . Mesmo em casos de uso benignos, no entanto, você perde algum controle sobre a experiência do visitante. Quando seu conteúdo é entregue por outros meios, de outros servidores ou plataformas, pode colocar em risco a experiência do usuário e o relacionamento comercial que você construiu com seus usuários.

Como você pode identificar, rastrear e gerenciar esse risco para o seu negócio? Exploramos como você pode usar análises da web ou dados reais de medição de usuários em seu site para obter informações sobre quaisquer domínios impostores que republicam seu trabalho. Também descrevemos os tipos mais comuns de republicação de conteúdo que vemos nos dados do mundo real que coletamos no Akamai mPulse, tanto benignos quanto problemáticos, para que você saiba o que procurar em seus dados.

Como rastrear atividades suspeitas

Se você está começando a se perguntar se alguém pode republicar seu conteúdo da web, a coisa mais fácil a fazer é uma pesquisa no Google. Copie uma frase de dez ou doze palavras de uma página de interesse em seu site na barra de pesquisa do Google, coloque-a entre aspas duplas e clique em Pesquisar. Espera-se que você veja seu próprio site nos resultados da pesquisa, mas se encontrar essa correspondência exata de frase em outros sites, poderá ser vítima de republicação . Esta abordagem é obviamente um pouco ad-hoc. Talvez você possa fazer um script de algumas pesquisas no Google para executar esses tipos de verificações periodicamente. Mas quantas páginas você verifica? Como você pode escolher com segurança o conteúdo das páginas que a republicação não vai modificar? E se as visualizações de página republicadas nunca chegarem aos resultados de pesquisa do Google?

Uma abordagem melhor é usar os dados que você já está coletando com seus serviços de análise da web ou R eal U ser M esurement ( RUM ). Esses serviços variam consideravelmente em seus recursos e na profundidade dos dados coletados. Todos eles geralmente são instrumentados como processos JavaScript que são carregados nas páginas da web do seu site por meio de uma tag ou snippet de código do carregador. Quando o serviço determina que uma visualização de página (e/ou alguma outra atividade de interesse do usuário) foi concluída, ele envia um “beacon” de dados de volta para um sistema de coleta, onde os dados são posteriormente processados, agregados e armazenados para uso futuro. análise.

Para ajudar a identificar a republicação de páginas da web por domínios impostores, o que você deseja é um serviço que:

Coleta dados para cada visualização de página no site (idealmente);
Coleta a URL completa do recurso HTML da página base da visualização de página;
Aceita beacons mesmo que o nome do host na URL da página base não seja aquele em que seu site está publicado;
Permite que você mesmo consulte os dados coletados e/ou já tenha consultas de dados projetadas para encontrar “domínios impostores”.

Mais depois do salto! Continue lendo abaixo ↓

O que acontece quando uma página da Web é republicada?

Quando uma página da Web é raspada com a intenção de ser entregue como uma visualização de página completa para um usuário final, o raspador pode modificar o conteúdo. As modificações podem ser extensas. Modificar alguns conteúdos é mais fácil do que outros e, embora um domínio impostor possa alterar o texto ou as imagens, modificar o JavaScript pode ser uma proposta mais desafiadora. Tentativas de modificação no JavaScript podem interromper a funcionalidade da página, inibir a renderização adequada ou apresentar outros problemas.

A boa notícia para nós é que rastreadores de análise da web ou serviços reais de medição de usuários são instrumentados como JavaScript e é improvável que muitos domínios impostores tentem modificar o conteúdo para removê-los devido aos riscos de quebrar a página. Se o raspador não remover intencionalmente o código ou a tag do snippet do carregador para sua análise da web ou serviço RUM, em geral, eles serão carregados com êxito e gerarão um beacon para a visualização da página, fornecendo evidências da atividade do domínio impostor .

Essa é a chave para rastrear domínios impostores com análise da web ou dados RUM. Mesmo que nenhum conteúdo da página seja entregue de sua plataforma ou servidores, desde que o código JavaScript que você está usando para análises ou acompanhamento de desempenho seja carregado, você ainda poderá obter dados sobre a visualização da página.

Transformando os dados em informações

Agora que você tem dados, você pode minerá-los para obter evidências de domínios impostores. No mais básico, esta é uma consulta de banco de dados que conta o número de visualizações de página por cada nome de host na URL da página, algo como este pseudocódigo:

 results = query(""" select host, count(*) as count from $(tableName) where timestamp between '$(startTime)' and '$(endTime)' and url not like 'file:%' group by 1 order by 2 desc """);

Qualquer nome de host nos resultados que não seja um que seu site usa é um domínio impostor e vale a pena investigar. Para o monitoramento contínuo dos dados, você provavelmente desejará categorizar os domínios impostores que você vê nos dados e identificou.

Por exemplo, alguns domínios usados pelos serviços de tradução de linguagem natural que republicam páginas da Web inteiras podem ter esta aparência:

 # Translation domains translationDomains = ["convertlanguage.com","dichtienghoa.com","dict.longdo.com", "motionpoint.com","motionpoint.net","opentrad.com","papago.naver.net","rewordify.com", "trans.hiragana.jp","translate.baiducontent.com","translate.goog", "translate.googleusercontent.com","translate.sogoucdn.com","translate.weblio.jp", "translatetheweb.com","translatoruser-int.com","transperfect.com","webtrans.yodao.com", "webtranslate.tilde.com","worldlingo.com"]

Dependendo de suas necessidades, você pode criar matrizes de domínios “aceitáveis” e “problemáticos” ou categorizar os domínios impostores por função ou tipo. Abaixo estão os tipos mais comuns de domínios impostores que você pode ver em dados do mundo real.

Reedição benigna

Nem todas as páginas da web extraídas de um domínio de terceiros serão maliciosas. Com base na análise dos dados do Akamai mPulse em um amplo espectro de clientes, a maioria das visualizações de página de domínios impostores são, na verdade, serviços que um visitante do site está intencionalmente escolhendo usar. Um visitante do site pode desfrutar do conteúdo da página que acharia inacessível. Em alguns casos, os serviços provavelmente estão sendo usados pelos funcionários do próprio proprietário do site.

As principais categorias descritas aqui não são de forma alguma exaustivas.

Tradução de linguagem natural

Os domínios impostores mais comuns são aqueles usados pelos serviços de tradução de linguagem natural. Esses serviços podem extrair uma página da Web, traduzir o texto codificado na página para outro idioma e entregar esse conteúdo modificado ao usuário final.

A página que o usuário final vê terá uma URL do domínio de nível superior do serviço de tradução (como translate.goog, translateuser-int.com ou translate.weblio.jp, entre muitos outros). rewordify.com altera o texto em inglês em uma página em frases mais simples para falantes de inglês iniciantes. Embora você não tenha controle sobre a qualidade das traduções ou o desempenho da experiência da página entregue, é seguro presumir que a maioria dos proprietários de sites não consideraria isso um risco ou preocupação comercial.

Uma captura de tela de um serviço de tradução de linguagem natural apresentando um artigo de um site de notícias traduzido do inglês para o japonês. — Um serviço de tradução em linguagem natural que apresenta um artigo de um site de notícias traduzido do inglês para o japonês. (Visualização grande)

Resultados em cache do mecanismo de pesquisa e do arquivo da Web

Outra categoria comum de domínios impostores são os domínios usados pelos mecanismos de pesquisa para fornecer resultados em cache ou versões arquivadas de visualizações de página. Normalmente, essas seriam páginas que podem não estar mais disponíveis no site, mas estão disponíveis em arquivos de terceiros.

Você pode querer saber sobre a frequência dessas visualizações de página e uma análise mais profunda pode determinar as especificidades do que os usuários finais estavam procurando nos caches e arquivos online. Com o URL completo de cada solicitação feita aos caches e arquivos online, você poderá identificar palavras-chave ou tópicos que aparecem com mais frequência nesses tipos de visualizações de página.

Uma captura de tela de exemplo da mensagem que aparece acima de um resultado de pesquisa em cache no serviço de pesquisa do Google. — A mensagem que aparece acima de um resultado de pesquisa em cache no serviço de pesquisa do Google. (Visualização grande)

Ferramentas de desenvolvimento

Esses serviços normalmente serão usados por seus próprios funcionários como parte do negócio natural de desenvolver e administrar seu site. Uma ferramenta de desenvolvedor típica pode extrair uma página da Web inteira, analisá-la quanto a erros de sintaxe em JavaScript, XML, HTML ou CSS e exibir uma versão marcada da página para o desenvolvedor explorar.

Além dos erros de sintaxe, as ferramentas também podem avaliar um site quanto à conformidade com acessibilidade ou outros padrões exigidos por lei. Alguns exemplos de serviços vistos no mundo real incluem codebeautify.org, webaim.org e jsonformatter.org.

Ferramentas de publicação de conteúdo

Muito semelhantes às ferramentas de desenvolvedor são ferramentas que você pode usar para gerenciar suas necessidades de publicação de conteúdo. O exemplo mais comumente visto é a ferramenta de visualização do Google Ads, que busca uma página, modifica-a para incluir uma tag de anúncio e conteúdo de anúncio do Google e a exibe ao proprietário do site para ver como ficaria o resultado se publicado.

Outro tipo de ferramenta de publicação de conteúdo é um serviço que busca uma página da Web, a verifica nos bancos de dados em busca de qualquer possível violação de direitos autorais ou plágio e exibe a página com marcação para identificar qualquer conteúdo potencialmente ofensivo.

Uma captura de tela de um serviço online que carrega uma página da Web em sua totalidade e destaca qualquer parte da página que contenha texto encontrado em bancos de dados de conteúdo publicado anteriormente. — Um exemplo de serviço online que carrega uma página da Web em sua totalidade e destaca qualquer parte da página que contenha texto encontrado em bancos de dados de conteúdo publicado anteriormente. (Visualização grande)

Domínios do transcodificador

Alguns serviços fornecem uma página da Web em formato alterado para desempenho aprimorado ou características de exibição aprimoradas. O serviço mais comum desse tipo é o Google Web Light. Disponível em um número limitado de países em dispositivos com sistema operacional Android com conexões de rede móvel lentas, o Google Web Light transcodifica a página da Web para fornecer até 80% menos bytes , preservando a “maioria do conteúdo relevante”, tudo em nome da entrega do conteúdo no navegador Android Mobile muito mais rápido.

Outros serviços de transcodificação modificam o conteúdo da página para alterar sua apresentação, por exemplo, printwhatyoulike.com remove elementos de publicidade em preparação para impressão em papel, e marker.to permite que um usuário “marque” uma página da web com um marcador amarelo virtual e compartilhe a página com outras. Embora os serviços de transcodificação possam ser bem-intencionados, há potencial para abuso (remoção de publicidade) e possíveis questões de integridade de conteúdo que você, como proprietário do site, precisa estar ciente.

Cópias de páginas da Web salvas localmente

Embora não seja comum, vemos beacons nos dados do Akamai mPulse com páginas servidas de URLs file:// . Essas são visualizações de página carregadas de uma página da Web visualizada anteriormente que foi salva no armazenamento local do dispositivo. Como cada dispositivo pode ter uma estrutura de sistema de arquivos diferente , resultando em um número infinito de “domínios” nos dados de URL, geralmente não faz sentido tentar agregá-los para padrões. É seguro assumir que os proprietários de sites não considerariam isso um risco ou preocupação comercial.

Serviços de proxy da Web

Outra categoria de domínios impostores que podem ser aceitáveis são aqueles usados por serviços de proxy da web. Existem duas grandes subcategorias de serviços de proxy benignos presumidos. Um deles são os proxies institucionais , como um sistema de biblioteca universitária assinando uma publicação de notícias online para conceder acesso ao seu corpo discente. Quando um aluno visualiza o site, a página pode ser entregue a partir de um nome de host no domínio de nível superior da universidade.

É seguro supor que a maioria dos editores não consideraria isso um risco ou preocupação comercial se fizer parte de seu modelo de negócios. O outro tipo principal de proxies benignos são sites que visam oferecer anonimato para que os visitantes possam consumir o conteúdo de um site sem serem rastreados ou identificados. O exemplo mais comum dessa última subcategoria é o serviço anonymousbrowser.org. Os usuários desses serviços podem ou não ser bem intencionados.

Republicação mal-intencionada

Embora tenhamos visto que pode haver razões benignas para que uma página da Web seja extraída e depois entregue a partir de um domínio alternativo (e, de fato, pesquisas mostram que casos de uso benignos são de longe os mais comumente vistos nos dados reais de medição do usuário do Akamai mPulse ), certamente há casos em que as intenções dos raspadores são maliciosas. O conteúdo raspado pode ser usado para gerar receita de várias maneiras, desde simplesmente passar o conteúdo roubado como próprio até a tentativa de roubar credenciais ou outros segredos. Casos de uso maliciosos podem prejudicar o proprietário do site e/ou o visitante do site.

Raspagem de anúncios

Na indústria editorial, a receita publicitária é fundamental para o sucesso ou fracasso comercial dos sites. É claro que vender anúncios requer conteúdo que os visitantes desejam consumir, e alguns agentes mal-intencionados podem achar mais fácil roubar esse conteúdo do que criá-lo. Os raspadores de anúncios podem coletar artigos inteiros de um site e publicá-los novamente em um domínio de nível superior diferente com tags de publicidade completamente novas. Se o scraper não for sofisticado o suficiente para separar totalmente o conteúdo da estrutura da página e, por exemplo, incluir o código JavaScript da página principal, incluindo o snippet do carregador para sua análise da web ou serviço RUM, você poderá obter beacons de dados para essas visualizações de página.

Phishing

Phishing é uma tentativa fraudulenta de fazer com que os usuários revelem informações confidenciais ou privadas, como credenciais de acesso, números de cartão de crédito, números de previdência social ou outros dados, fingindo ser um site confiável. Para parecerem o mais autênticos possível, os sites de phishing geralmente são criados a partir da extração do site legítimo que pretendem representar . Novamente, se o scraper não for sofisticado o suficiente para separar totalmente o conteúdo da estrutura da página e, por exemplo, incluir o código da página principal, incluindo o trecho do carregador para sua análise da web ou serviço RUM, você poderá obter beacons para essas visualizações de página no mPulse.

Uma mensagem de alerta típica do navegador informando ao usuário que a página da Web que eles estão prestes a ver é um conteúdo republicado de outro site que foi alterado para enganar o visitante a interagir com ela como se fosse legítima. (Visualização grande)

Sequestro de navegador ou pesquisa

Uma página da web pode ser copiada e republicada com JavaScript adicional que contém código de ataque de seqüestro de navegador ou pesquisa. Ao contrário do phishing, que tenta os usuários a entregar dados valiosos, esse tipo de ataque tenta fazer alterações nas configurações do navegador . Simplesmente alterar o mecanismo de pesquisa padrão do navegador para apontar para um que o invasor obtenha receita de resultados de pesquisa de afiliados pode ser lucrativo para um agente mal-intencionado. Se o scraper não for sofisticado, injetando um novo código de ataque, mas não alterando o código da página principal pré-existente, incluindo o trecho do carregador para sua análise da web ou serviço RUM, você poderá obter beacons para essas visualizações de página no mPulse.

Proxies de bypass de paywall ou assinatura

Alguns serviços afirmam ajudar os usuários finais a acessar páginas em sites que exigem assinaturas para visualização sem ter um login válido. Para alguns editores de conteúdo, as taxas de assinatura podem representar uma parcela muito significativa da receita do site. Para outros, os logins podem ser obrigados a permanecer em conformidade legal para que os usuários consumam conteúdo restrito por idade, cidadania, residência ou outros critérios.

Os serviços de proxy que ignoram (ou tentam contornar) essas restrições de acesso representam riscos financeiros e legais para seus negócios . Subjetivamente, muitos desses serviços parecem estar focados especificamente em sites pornográficos, mas todos os proprietários de sites devem estar atentos a esses maus atores.

Uma mensagem de exemplo que um site com um paywall (onde um visitante deve ser inscrito e pagar para visualizar a maior parte do conteúdo) pode exibir a um visitante que atingiu seu limite de conteúdo gratuito. Alguns serviços de republicação de conteúdo anunciam a capacidade de contornar essas limitações. — Uma mensagem de exemplo que um site com paywall pode exibir para um visitante que atingiu seu limite de conteúdo gratuito. Alguns serviços de republicação de conteúdo anunciam a capacidade de contornar essas limitações. (Visualização grande)

Desinformação

Além de tentar lucrar com a raspagem da web, alguns domínios impostores podem ser usados para fornecer conteúdo que foi modificado de forma a espalhar intencionalmente informações erradas, prejudicar reputações ou para fins políticos ou outros.

Gerenciando os resultados

Agora que você tem uma maneira de identificar e rastrear quando domínios impostores estão republicando seu site, quais são as próximas etapas? As ferramentas são tão valiosas quanto nossa capacidade de usá-las de forma eficaz, por isso é importante desenvolver uma estratégia para usar uma solução de rastreamento de domínio impostor como parte de seus processos de negócios. Em um nível alto, acho que isso se reduz a tomar decisões sobre um processo de gerenciamento de três etapas:

Identifique a ameaça,
Priorize a ameaça,
Corrija a ameaça.

1. Identificando ameaças por meio de relatórios regulares

Depois de desenvolver as consultas de banco de dados para extrair dados de domínio impostor em potencial de sua análise da web ou dados de medição real do usuário, você precisa examinar os dados regularmente.

Como ponto de partida, eu recomendaria um relatório semanal que pode ser rapidamente verificado para qualquer nova atividade. Um relatório semanal parece ser a melhor cadência para detectar problemas antes que eles se tornem muito graves. Um relatório diário pode parecer tedioso e se tornar algo fácil de ignorar depois de um tempo. Os números diários também podem ser mais difíceis de interpretar, pois você pode observar um número muito pequeno de visualizações de página que podem ou não representar uma tendência preocupante.

Por outro lado, relatórios mensais podem resultar em problemas que duram muito tempo antes de serem detectados. Um relatório semanal parece ser o equilíbrio certo para a maioria dos sites e é provavelmente a melhor cadência inicial para relatórios regulares.

2. Categorização da potencial ameaça

Como consideramos acima, nem todos os domínios impostores que republicam o conteúdo do seu site são necessariamente de natureza maliciosa ou uma preocupação para o seu negócio. À medida que você ganha experiência com o cenário dos dados do seu próprio site, você pode aprimorar seus relatórios regulares codificando por cores ou separando domínios que você conhece e considera não maliciosos para ajudá-lo a se concentrar nos domínios de problemas desconhecidos, novos ou conhecidos que importa mais.

Dependendo de suas necessidades, você pode criar matrizes de domínios “aceitáveis” e “problemáticos” ou categorizar os domínios impostores por função ou tipo (como as categorias “tradução de idioma natural” ou “ferramentas de publicação de conteúdo” descritas acima). Cada site terá necessidades diferentes, mas o objetivo é separar os domínios problemáticos dos domínios que não são preocupantes.

3. Agir contra os maus atores

Para cada uma das categorias problemáticas identificadas, determine os parâmetros que deseja usar ao decidir como responder à ameaça:

Qual é a contagem mínima de visualizações de página antes de agirmos?
Qual é o primeiro ponto de escalação e quem é responsável por ele?
Quais partes interessadas dentro da empresa precisam estar cientes da atividade maliciosa e quando?
As ações a serem tomadas são documentadas e revisadas por todas as partes interessadas (executivos, jurídicos, etc.) regularmente?
Quando ações são tomadas (como preencher um aviso de “Remoção de DMCA” com o infrator ou seu provedor de serviços ou atualizar as regras do Web Application Firewall para tentar limitar o acesso aos ladrões de conteúdo), os resultados dessas ações são rastreados e reconhecidos?
Como a eficácia dessas ações será resumida aos líderes executivos de negócios ao longo do tempo?

Mesmo que você não consiga reprimir todas as republicações maliciosas do conteúdo do seu site, você ainda deve criar um processo sólido para gerenciar os riscos como qualquer outro risco para os negócios. Isso gerará confiança e autoridade com seus parceiros de negócios, investidores, funcionários e colaboradores.

Conclusão

Nas circunstâncias certas, sua análise da web ou dados reais de medição do usuário podem oferecer visibilidade no mundo dos domínios impostores, usados por raspadores da web para republicar o conteúdo do seu site em seus servidores. Muitos desses domínios impostores são, na verdade, serviços benignos que ajudam os usuários finais ou ajudam você de várias maneiras produtivas.

Em outros casos, os domínios impostores têm motivos maliciosos, seja para roubar conteúdo com fins lucrativos ou para manipulá-lo de forma a causar danos ao seu negócio ou ao visitante do seu site. A análise da Web ou dados RUM são sua arma secreta para ajudar a identificar quaisquer domínios impostores potencialmente maliciosos que exijam ação imediata , bem como para entender melhor a prevalência dos domínios mais benignos. Os dados que você coleta aproveitam a análise da web ou a posição do serviço RUM como observador no próprio navegador do visitante para ver o que as ferramentas de monitoramento e relatório da sua plataforma não podem.

Analisando os dados ao longo do tempo, você pode aprender cada vez mais sobre domínios impostores e suas intenções, a fim de informar melhor sua empresa sobre os riscos que eles representam para sua reputação e experiências de seus visitantes e desenvolver e aplicar mecanismos para proteger sua propriedade intelectual.

Leitura adicional na revista Smashing

Protegendo seu site com a política de recursos
Torne seus sites rápidos, acessíveis e seguros com a ajuda do Google
O que você precisa saber sobre OAuth2 e fazer login com o Facebook
Política de segurança de conteúdo, seu futuro melhor amigo
Reagindo contra a violação de privacidade na Web