¿Los dominios impostores vuelven a publicar su sitio web?

Publicado: 2022-03-10
Resumen rápido ↬ El scraping de contenido es una realidad en Internet. Cuando piensa en el raspado web, probablemente no piense en los raspadores dando la vuelta y sirviendo inmediatamente todo el contenido de su página en otro sitio web. Pero, ¿qué sucede si el contenido de su sitio se vuelve a publicar? Puede que ya esté sucediendo.

Pensamos en el web scraping como una herramienta utilizada para recopilar contenido web con fines de análisis de información, a veces en detrimento del propietario del sitio. Por ejemplo, alguien podría raspar todas las páginas de productos del sitio minorista de un competidor para recopilar información sobre los productos que se ofrecen y los precios actuales para tratar de obtener una ventaja competitiva.

El web scraping se puede utilizar para recopilar datos de marketing, como identificar buenas palabras clave para campañas publicitarias, identificar temas de tendencias para publicaciones de blogs o identificar personas influyentes en blogs y sitios de noticias importantes. Los fabricantes pueden raspar los sitios minoristas para asegurarse de que se cumplan los precios anunciados por el fabricante (MAP ) , y los auditores de seguridad pueden raspar los sitios para buscar vulnerabilidades o infracciones en las políticas de privacidad. Y, por supuesto, los raspadores podrían raspar su sitio para buscar vulnerabilidades de seguridad o detalles de contactos o contactos de ventas expuestos. Ninguna de estas actividades daría como resultado que el contenido extraído se vuelva a publicar o se entregue a los usuarios finales.

Sin embargo, hay situaciones en las que el contenido de la página web extraída se entrega como una página directamente a los visitantes. Como veremos más adelante, esto puede hacerse por razones benignas o no tan benignas. En el peor de los casos, estos pueden ser verdaderos dominios impostores, que buscan interactuar con usuarios reales sin reconocer la verdadera fuente de su contenido . Sin embargo, incluso en casos de uso benignos, se pierde algo de control sobre la experiencia del visitante. Cuando su contenido se entrega por otros medios, desde otros servidores o plataformas, puede poner en riesgo la experiencia del usuario y la relación comercial que ha establecido con sus usuarios.

¿Cómo puede identificar, rastrear y administrar este riesgo para su negocio? Exploramos cómo puede usar análisis web o datos de medición de usuarios reales en su sitio web para obtener información sobre cualquier dominio impostor que vuelva a publicar su trabajo. También describimos los tipos más comunes de republicación de contenido que vemos en los datos del mundo real que recopilamos en Akamai mPulse, tanto benignos como problemáticos, para que sepa qué buscar en sus datos.

Cómo rastrear actividad sospechosa

Si recién comienza a preguntarse si alguien podría volver a publicar su contenido web, lo más fácil es realizar una búsqueda en Google. Copie una oración de diez o doce palabras de una página de interés en su sitio en la barra de búsqueda de Google, póngala entre comillas dobles y haga clic en Buscar. Con suerte, debería ver su propio sitio en los resultados de búsqueda, pero si encuentra esa frase exacta que coincide en otros sitios, puede ser víctima de una nueva publicación . Este enfoque es obviamente un poco ad-hoc. Tal vez podría programar algunas búsquedas de Google para ejecutar este tipo de comprobaciones periódicamente. Pero, ¿cuántas páginas revisas? ¿Cómo puede elegir de manera confiable el contenido de las páginas que la reedición no va a modificar? ¿Y si las visitas a la página que se vuelven a publicar nunca llegan a los resultados de búsqueda de Google?

Un mejor enfoque es utilizar los datos que ya está recopilando con sus servicios de análisis web o de M edición de usuario real ( RUM ) . Estos servicios varían considerablemente en sus capacidades y la profundidad de los datos que se recopilan. Por lo general, todos están instrumentados como procesos de JavaScript que se cargan en las páginas web de su sitio a través de una etiqueta o un fragmento de código del cargador. Cuando el servicio determina que se completó una vista de página (y/o alguna otra actividad de interés del usuario), envía una "baliza" de datos a un sistema de recopilación, donde los datos se procesan, agregan y almacenan para el futuro. análisis.

Para ayudar a identificar la reedición de páginas web por parte de dominios impostores, lo que desea es un servicio que:

  • Recopila datos para cada vista de página en el sitio (idealmente);
  • Recopila la URL completa del recurso HTML de la página base de la vista de página;
  • Acepta balizas incluso si el nombre de host en la URL de la página base no es bajo el que está publicado su sitio;
  • Le permite consultar los datos recopilados usted mismo y/o ya tiene consultas de datos diseñadas para encontrar "dominios impostores".
¡Más después del salto! Continúe leyendo a continuación ↓

¿Qué sucede cuando se vuelve a publicar una página web?

Cuando se raspa una página web con la intención de entregarla como una vista de página completa a un usuario final, el raspador puede modificar el contenido. Las modificaciones pueden ser extensas. Modificar algunos contenidos es más fácil que otros, y aunque un dominio impostor puede cambiar texto o imágenes, modificar JavaScript puede ser una propuesta más desafiante. Los intentos de modificación en JavaScript pueden romper la funcionalidad de la página, inhibir la representación adecuada o presentar otros problemas.

La buena noticia para nosotros es que los rastreadores de análisis web o los servicios de medición de usuarios reales están instrumentados como JavaScript y es poco probable que muchos dominios impostores intenten modificar el contenido para eliminarlos debido a los riesgos de que se rompa la página. Si el raspador no elimina intencionalmente el código del fragmento del cargador o la etiqueta para su análisis web o servicio RUM, en términos generales, se cargarán correctamente y generarán una baliza para la vista de la página, lo que le brindará evidencia de la actividad del dominio impostor .

Esta es la clave para rastrear dominios impostores con análisis web o datos RUM. Incluso si ninguno de los contenidos de la página se entrega desde su plataforma o servidores, siempre que se cargue el código JavaScript que está utilizando para el análisis o el seguimiento del rendimiento, aún puede obtener datos sobre la vista de la página.

Convertir los datos en información

Ahora que tiene datos, puede extraerlos en busca de evidencia de dominios impostores. En lo más básico, esta es una consulta de base de datos que cuenta el número de páginas vistas por cada nombre de host en la URL de la página, algo así como este pseudocódigo:

 results = query(""" select host, count(*) as count from $(tableName) where timestamp between '$(startTime)' and '$(endTime)' and url not like 'file:%' group by 1 order by 2 desc """);

Cualquier nombre de host en los resultados que no sea uno de los que usa su sitio es un dominio impostor y vale la pena investigarlo. Para el monitoreo continuo de los datos, probablemente querrá categorizar los dominios impostores que ve en los datos y que ha identificado.

Por ejemplo, algunos dominios utilizados por los servicios de traducción de lenguaje natural que vuelven a publicar páginas web completas podrían verse así:

 # Translation domains translationDomains = ["convertlanguage.com","dichtienghoa.com","dict.longdo.com", "motionpoint.com","motionpoint.net","opentrad.com","papago.naver.net","rewordify.com", "trans.hiragana.jp","translate.baiducontent.com","translate.goog", "translate.googleusercontent.com","translate.sogoucdn.com","translate.weblio.jp", "translatetheweb.com","translatoruser-int.com","transperfect.com","webtrans.yodao.com", "webtranslate.tilde.com","worldlingo.com"]

Según sus necesidades, puede crear matrices de dominios "aceptables" y "problemáticos", o categorizar los dominios impostores por su función o tipo. A continuación se muestran los tipos más comunes de dominios impostores que puede ver en los datos del mundo real.

Reedición benigna

No todas las páginas web extraídas enviadas desde un dominio de terceros serán maliciosas. Según la observación de los datos de mPulse de Akamai en un amplio espectro de clientes, la mayoría de las vistas de página de dominios impostores son en realidad servicios que un visitante del sitio elige utilizar de forma intencionada. Un visitante del sitio puede disfrutar del contenido de la página que encontraría inaccesible. En algunos casos, es probable que los servicios sean utilizados por los empleados del propio propietario del sitio.

Las principales categorías descritas aquí no son exhaustivas.

Traducción de lenguaje natural

Los dominios impostores más comunes son los que utilizan los servicios de traducción de lenguaje natural. Estos servicios pueden raspar una página web, traducir el texto codificado de la página a otro idioma y entregar ese contenido modificado al usuario final.

La página que ve el usuario final tendrá una URL del dominio de nivel superior del servicio de traducción (como translate.goog, translateuser-int.com o translate.weblio.jp, entre muchos otros). rewordify.com cambia el texto en inglés de una página en oraciones más simples para hablantes principiantes de inglés. Si bien no tiene control sobre la calidad de las traducciones o el rendimiento de la experiencia de la página entregada, es seguro asumir que la mayoría de los propietarios de sitios no considerarían esto como un riesgo comercial o una preocupación.

Captura de pantalla de un servicio de traducción de lenguaje natural que presenta un artículo de un sitio web de noticias traducido del inglés al japonés.
Un servicio de traducción de lenguaje natural que presenta un artículo de un sitio web de noticias traducido del inglés al japonés. (Vista previa grande)

Motor de búsqueda y resultados en caché del archivo web

Otra categoría común de dominios impostores son los dominios utilizados por los motores de búsqueda para entregar resultados almacenados en caché o versiones archivadas de vistas de página. Por lo general, estas serían páginas que quizás ya no estén disponibles en el sitio pero que están disponibles en archivos de terceros.

Es posible que desee saber acerca de la frecuencia de estas vistas de página y un análisis más profundo podría determinar los detalles de lo que los usuarios finales buscaban en los archivos y cachés en línea. Con la URL completa de cada solicitud realizada a los archivos y cachés en línea, debería poder identificar las palabras clave o los temas que aparecen con más frecuencia en ese tipo de páginas vistas.

Una captura de pantalla de ejemplo del mensaje que aparece sobre un resultado de búsqueda en caché en el servicio de búsqueda de Google.
El mensaje que aparece sobre un resultado de búsqueda almacenado en caché en el servicio de búsqueda de Google. (Vista previa grande)

Herramientas de desarrollo

Por lo general, estos servicios serán utilizados por sus propios empleados como parte del negocio natural de desarrollar y administrar su sitio. Una herramienta de desarrollador típica podría raspar una página web completa, analizarla en busca de errores de sintaxis en JavaScript, XML, HTML o CSS, y mostrar una versión marcada de la página para que la explore el desarrollador.

Además de los errores de sintaxis, las herramientas también pueden evaluar el cumplimiento de un sitio con la accesibilidad u otros estándares requeridos legalmente. Algunos servicios de ejemplo vistos en el mundo real incluyen codebeautify.org, webaim.org y jsonformatter.org.

Herramientas de publicación de contenido

Muy similares a las herramientas de desarrollo son las herramientas que puede usar para administrar sus necesidades de publicación de contenido. El ejemplo más común es la herramienta de vista previa de Google Ads, que obtiene una página, la modifica para incluir una etiqueta de anuncio y contenido de anuncio de Google, y se la muestra al propietario del sitio para ver cómo sería el resultado si se publicara.

Otro tipo de herramienta de publicación de contenido es un servicio que obtiene una página web, la compara con bases de datos en busca de posibles violaciones de derechos de autor o plagio , y muestra la página con marcado para identificar cualquier contenido potencialmente ofensivo.

Una captura de pantalla de un servicio en línea que carga una página web en su totalidad y resalta cualquier parte de la página que contenga texto encontrado en bases de datos de contenido publicado anteriormente.
Un ejemplo de un servicio en línea que carga una página web en su totalidad y resalta cualquier parte de la página que contenga texto encontrado en bases de datos de contenido publicado anteriormente. (Vista previa grande)

Dominios del transcodificador

Algunos servicios entregan una página web en forma modificada para mejorar el rendimiento o mejorar las características de visualización. El servicio más común de este tipo es Google Web Light. Disponible en un número limitado de países en dispositivos con sistema operativo Android con conexiones de red móvil lentas, Google Web Light transcodifica la página web para entregar hasta un 80 % menos de bytes mientras conserva una "mayoría del contenido relevante", todo en nombre de la entrega del contenido. en el navegador móvil Android mucho más rápido.

Otros servicios de transcodificador modifican el contenido de la página para cambiar su presentación, por ejemplo, printwhatyoulike.com elimina los elementos publicitarios en preparación para la impresión en papel, y marker.to permite que un usuario "marque" una página web con un resaltador amarillo virtual y comparta la página con otros. Si bien los servicios de transcodificación pueden tener buenas intenciones, existe la posibilidad de abuso (eliminación de publicidad) y posibles preguntas sobre la integridad del contenido que usted, como propietario del sitio, debe tener en cuenta.

Copias guardadas localmente de páginas web

Si bien no es común, vemos balizas en los datos de mPulse de Akamai con páginas servidas desde URL file:// . Estas son vistas de página cargadas desde una página web vista anteriormente que se guardó en el almacenamiento local del dispositivo. Debido a que cada dispositivo puede tener una estructura de sistema de archivos diferente , lo que da como resultado una cantidad infinita de "dominios" en los datos de la URL, generalmente no tiene sentido intentar agregarlos para obtener patrones. Es seguro asumir que los propietarios del sitio no considerarían esto como un riesgo o preocupación comercial.

Servicios de proxy web

Otra categoría de dominios impostores que pueden ser aceptables son los que utilizan los servicios de proxy web. Hay dos grandes subcategorías de supuestos servicios de proxy benignos. Uno son los representantes institucionales , como un sistema de bibliotecas universitarias que se suscribe a una publicación de noticias en línea para otorgar acceso a su alumnado. Cuando un estudiante ve el sitio, la página puede ser entregada desde un nombre de host en el dominio de nivel superior de la universidad.

Es seguro asumir que la mayoría de los editores no considerarían esto como un riesgo comercial o una preocupación si es parte de su modelo comercial. El otro tipo importante de proxies benignos son los sitios que tienen como objetivo ofrecer anonimato para que los visitantes puedan consumir el contenido de un sitio web sin ser rastreados o identificados. El ejemplo más común de esta última subcategoría es el servicio anonymousbrowser.org. Los usuarios de estos servicios pueden o no tener buenas intenciones.

Reedición maliciosa

Si bien hemos visto que puede haber razones benignas para que una página web se extraiga y luego se entregue desde un dominio alternativo (y, de hecho, la investigación muestra que los casos de uso benignos son, con mucho, los más comúnmente vistos en los datos de medición de usuarios reales de Akamai mPulse). ), ciertamente hay casos en los que las intenciones de los raspadores son maliciosas. El contenido extraído se puede utilizar para generar ingresos de diversas formas, desde simplemente hacer pasar el contenido robado como propio hasta intentar robar credenciales u otros secretos. Los casos de uso malicioso pueden dañar tanto al propietario del sitio como al visitante del sitio.

raspado de anuncios

En la industria editorial, los ingresos publicitarios son fundamentales para el éxito o el fracaso comercial de los sitios web. Por supuesto, la venta de anuncios requiere contenido que los visitantes quieran consumir, y algunos delincuentes pueden encontrar más fácil robar ese contenido que crearlo ellos mismos. Los rastreadores de anuncios pueden recopilar artículos completos de un sitio y volver a publicarlos en un dominio de nivel superior diferente con etiquetas publicitarias completamente nuevas. Si el raspador no es lo suficientemente sofisticado como para separar por completo el contenido de la estructura de la página y, por ejemplo, incluye el código JavaScript de la página principal, incluido el fragmento del cargador para su análisis web o servicio RUM, puede obtener balizas de datos para estas vistas de página.

Suplantación de identidad

El phishing es un intento fraudulento de hacer que los usuarios revelen información confidencial o privada, como credenciales de acceso, números de tarjetas de crédito, números de seguro social u otros datos haciéndose pasar por un sitio confiable. Para que parezcan lo más auténticos posible, los sitios de phishing a menudo se crean raspando el sitio legítimo que pretenden suplantar . Nuevamente, si el raspador no es lo suficientemente sofisticado como para separar por completo el contenido de la estructura de la página y, por ejemplo, incluye el código de la página principal, incluido el fragmento del cargador para su análisis web o servicio RUM, puede obtener balizas para estas vistas de página en mPulse.

Un mensaje de alerta típico del navegador que informa al usuario que la página web que está a punto de ver es contenido republicado de otro sitio web que ha sido alterado para engañar al visitante para que interactúe con él como si fuera legítimo.
Un mensaje de alerta típico del navegador que informa al usuario que la página web que está a punto de ver es contenido republicado de otro sitio web que ha sido alterado para engañar al visitante para que interactúe con él como si fuera legítimo. (Vista previa grande)

Navegador o secuestro de búsqueda

Una página web se puede raspar y volver a publicar con JavaScript adicional que contiene un código de ataque de secuestro de navegador o de búsqueda. A diferencia del phishing, que tienta a los usuarios a entregar datos valiosos, este tipo de ataque intenta realizar cambios en la configuración del navegador . Simplemente cambiar el motor de búsqueda predeterminado del navegador para que apunte a uno del que el atacante obtiene ingresos de resultados de búsqueda de afiliados podría ser rentable para un mal actor. Si el raspador no es sofisticado, inyecta un nuevo código de ataque pero no cambia el código de la página central preexistente, incluido el fragmento del cargador para su análisis web o servicio RUM, puede obtener balizas para estas vistas de página en mPulse.

Paywall o proxy de omisión de suscripción

Algunos servicios afirman ayudar a los usuarios finales a acceder a páginas en sitios que requieren suscripciones para ver sin tener un inicio de sesión válido. Para algunos editores de contenido, las tarifas de suscripción pueden representar una parte muy importante de los ingresos del sitio. Para otros, es posible que se requieran inicios de sesión para permanecer en cumplimiento legal para que los usuarios consuman contenido que está restringido por edad, ciudadanía, residencia u otros criterios.

Los servicios de proxy que eluden (o intentan eludir) estas restricciones de acceso presentan riesgos financieros y legales para su negocio . Subjetivamente, muchos de estos servicios parecen estar enfocados específicamente en sitios de pornografía, pero todos los propietarios de sitios web deben estar atentos a estos malos actores.

Un mensaje de ejemplo que un sitio web con un muro de pago (donde un visitante debe estar suscrito y pagar para ver la mayoría del contenido) podría mostrar a un visitante que ha alcanzado su límite de contenido gratuito. Algunos servicios de republicación de contenido anuncian la posibilidad de eludir estas limitaciones.
Un mensaje de ejemplo que un sitio web con un muro de pago podría mostrar a un visitante que ha alcanzado su límite de contenido gratuito. Algunos servicios de republicación de contenido anuncian la posibilidad de eludir estas limitaciones. (Vista previa grande)

Desinformación

Además de tratar de sacar provecho del web scraping, algunos dominios impostores pueden usarse para entregar contenido que se ha modificado de manera que intencionalmente difunda información errónea, dañe la reputación o tenga fines políticos o de otro tipo.

Gestión de los resultados

Ahora que tiene una forma de identificar y realizar un seguimiento cuando los dominios impostores vuelven a publicar su sitio web, ¿cuáles son los próximos pasos? Las herramientas son tan valiosas como nuestra capacidad para usarlas de manera efectiva, por lo que es importante desarrollar una estrategia para usar una solución de seguimiento de dominios impostores como parte de sus procesos comerciales. A un alto nivel, creo que esto se reduce a tomar decisiones sobre un proceso de gestión de tres pasos:

  1. Identificar la amenaza,
  2. Priorizar la amenaza,
  3. Solucione la amenaza.

1. Identificación de amenazas a través de informes periódicos

Una vez que haya desarrollado las consultas de la base de datos para extraer datos de dominios de impostores potenciales de sus análisis web o datos de mediciones de usuarios reales, debe examinar los datos con regularidad.

Como punto de partida, recomendaría un informe semanal que se pueda escanear rápidamente en busca de cualquier actividad nueva. Un informe semanal parece ser la mejor cadencia para detectar problemas antes de que se vuelvan demasiado graves. Un informe diario puede parecer tedioso y convertirse en algo fácil de ignorar después de un tiempo. Los números diarios también pueden ser más difíciles de interpretar, ya que puede estar viendo números muy pequeños de páginas vistas que pueden o no representar una tendencia preocupante.

Por otro lado, los informes mensuales pueden dar lugar a que los problemas se prolonguen durante demasiado tiempo antes de detectarse. Un informe semanal parece el equilibrio adecuado para la mayoría de los sitios y es probablemente la mejor cadencia de inicio para los informes regulares.

2. Categorización de la amenaza potencial

Como consideramos anteriormente, no todos los dominios impostores que vuelven a publicar el contenido de su sitio son necesariamente de naturaleza maliciosa o una preocupación para su negocio. A medida que adquiera experiencia con el panorama de los datos de su propio sitio, puede mejorar sus informes regulares codificando por colores o separando los dominios que conoce y considera no maliciosos para ayudarlo a concentrarse en los dominios problemáticos desconocidos, nuevos o conocidos que importa más

Según sus necesidades, puede crear matrices de dominios "aceptables" y "problemáticos", o categorizar los dominios impostores por su función o tipo (como las categorías de "traducción de lenguaje natural" o "herramientas de publicación de contenido" descritas anteriormente). Cada sitio tendrá diferentes necesidades, pero el objetivo es separar los dominios problemáticos de los dominios que no preocupan.

3. Actúa contra los malos actores

Para cada una de las categorías problemáticas que identifique, determine los parámetros que desea utilizar al decidir cómo responder a la amenaza:

  • ¿Cuál es el recuento mínimo de páginas vistas antes de que tomemos medidas?
  • ¿Cuál es el primer punto de escalada y quién es el responsable ?
  • ¿Qué partes interesadas dentro de la empresa deben estar al tanto de la actividad maliciosa y cuándo?
  • ¿Las acciones a tomar están documentadas y revisadas por todas las partes interesadas (ejecutivas, legales, etc.) de forma regular?
  • Cuando se toman medidas (como presentar un aviso de "Eliminación de DMCA" con el infractor o su proveedor de servicios o actualizar las reglas del Firewall de aplicaciones web para tratar de limitar el acceso a los ladrones de contenido), ¿se rastrean y reconocen los resultados de estas acciones ?
  • ¿Cómo se resumirá la eficacia de estas acciones a los líderes empresariales ejecutivos a lo largo del tiempo?

Incluso si no logra aplastar cada republicación maliciosa del contenido de su sitio, aún debe crear un proceso sólido para administrar los riesgos como cualquier otro riesgo para el negocio. Generará confianza y autoridad con sus socios comerciales, inversores, empleados y contribuyentes.

Conclusión

En las circunstancias adecuadas, su análisis web o los datos de medición de usuarios reales pueden ofrecer visibilidad en el mundo de los dominios impostores, utilizados por los web scrapers para volver a publicar el contenido de su sitio en sus servidores. Muchos de estos dominios impostores son en realidad servicios benignos que ayudan a los usuarios finales o lo ayudan a usted de varias maneras productivas.

En otros casos, los dominios impostores tienen motivos maliciosos, ya sea para robar contenido con fines de lucro o para manipularlo de una manera que cause daño a su negocio o al visitante de su sitio. El análisis web o los datos RUM son su arma secreta para ayudarlo a identificar cualquier dominio impostor potencialmente malicioso que requiera una acción inmediata , así como para comprender mejor la prevalencia de los dominios más benignos. Los datos que recopila aprovechan el análisis web o la posición del servicio RUM como observador en el propio navegador del visitante para ver lo que las herramientas de supervisión e informes de su plataforma no pueden.

Al analizar los datos a lo largo del tiempo, puede aprender más y más sobre los dominios impostores y sus intenciones para informar mejor a su empresa sobre los riesgos que representan para su reputación y las experiencias de sus visitantes y desarrollar y aplicar mecanismos para proteger su propiedad intelectual.

Lectura adicional en la revista Smashing

  • Protección de su sitio con política de funciones
  • Haga que sus sitios sean rápidos, accesibles y seguros con la ayuda de Google
  • Lo que necesita saber sobre OAuth2 e iniciar sesión con Facebook
  • Política de seguridad de contenidos, tu futuro mejor amigo
  • Rechazar la violación de la privacidad en la web