Домены-самозванцы повторно публикуют ваш сайт?
Опубликовано: 2022-03-10Мы думаем о веб-скрапинге как об инструменте, используемом для сбора веб-контента в целях анализа информации, иногда в ущерб владельцу сайта. Например, кто-то может просмотреть все страницы продуктов розничного сайта конкурента, чтобы собрать информацию о предлагаемых продуктах и текущих ценах, чтобы попытаться получить конкурентное преимущество.
Веб-скрапинг можно использовать для сбора маркетинговых данных, таких как определение хороших ключевых слов для рекламных кампаний, определение популярных тем для сообщений в блогах или выявление влиятельных лиц в важных блогах и новостных сайтах. Производители могут исследовать сайты розничной торговли, чтобы убедиться, что рекламируемые цены производителя ( MAP ) соблюдаются , а аудиторы безопасности могут исследовать сайты для поиска уязвимостей или нарушений политики конфиденциальности. И, конечно же, скрейперы могут очищать ваш сайт в поисках уязвимостей в системе безопасности или раскрытых контактных данных или сведений о потенциальных покупателях. Ни одно из этих действий не приведет к повторной публикации или доставке извлеченного контента конечным пользователям.
Однако бывают ситуации, когда очищенный контент веб-страницы доставляется непосредственно посетителям как сама страница. Как мы увидим ниже, это может быть сделано по доброкачественным или не очень благотворным причинам. В худшем случае это могут быть настоящие домены-самозванцы, пытающиеся взаимодействовать с реальными пользователями, не признавая истинный источник вашего контента . Однако даже в безобидных случаях использования вы теряете некоторый контроль над взаимодействием с посетителем. Когда ваш контент доставляется другими способами, с других серверов или платформ, это может поставить под угрозу пользовательский опыт и коммерческие отношения, которые вы установили со своими пользователями.
Как вы можете определить, отследить и управлять этим риском для вашего бизнеса? Мы изучаем, как вы можете использовать веб-аналитику или данные измерения реальных пользователей на своем веб-сайте, чтобы получить представление о любых доменах-самозванцах, повторно публикующих вашу работу. Мы также описываем наиболее распространенные типы повторной публикации контента, которые мы наблюдаем в реальных данных, собранных нами в Akamai mPulse, как безобидные, так и проблемные, чтобы вы знали, на что обращать внимание в своих данных.
Как отследить подозрительную активность
Если вы только начинаете задаваться вопросом, может ли кто-то повторно публиковать ваш веб-контент, проще всего выполнить поиск в Google. Скопируйте предложение из десяти или двенадцати слов с интересующей вас страницы вашего сайта в строку поиска Google, поместите его в двойные кавычки и нажмите «Поиск». Мы надеемся, что вы должны увидеть свой собственный сайт в результатах поиска, но если вы обнаружите то же самое предложение на других сайтах, вы можете стать жертвой повторной публикации . Этот подход, очевидно, немного нестандартен. Возможно, вы могли бы создать сценарий для некоторых поисковых запросов Google, чтобы периодически выполнять такие проверки. Но сколько страниц вы проверяете? Как вы можете надежно выбрать контент на страницах, который переиздание не изменит? А что, если повторно опубликованные просмотры страниц никогда не попадут в результаты поиска Google?
Лучший подход — использовать данные, которые вы уже собираете, с помощью сервисов веб-аналитики или Real User Measurement ( RUM ). Эти сервисы значительно различаются по своим возможностям и глубине собираемых данных. Все они, как правило, представляют собой процессы JavaScript, которые загружаются на веб-страницы вашего сайта с помощью тега или фрагмента кода загрузчика. Когда служба определяет, что просмотр страницы (и/или какое-либо другое интересующее действие пользователя) завершен, он отправляет «маяк» данных обратно в систему сбора, где данные затем обрабатываются, агрегируются и сохраняются для будущего использования. анализ.
Чтобы помочь определить повторную публикацию веб-страниц самозваными доменами, вам нужна служба, которая:
- Собирает данные о каждом просмотре страницы на сайте (в идеале);
- Собирает полный URL-адрес HTML-ресурса базовой страницы просмотра страницы;
- Принимает маяки , даже если имя хоста в URL этой базовой страницы не совпадает с тем, под которым опубликован ваш сайт;
- Позволяет вам самостоятельно запрашивать собранные данные и/или уже имеет запросы данных, предназначенные для поиска «доменных самозванцев».
Что происходит, когда веб-страница повторно публикуется?
Когда веб-страница очищается с намерением доставить ее в виде полного просмотра конечному пользователю, парсер может изменить содержимое. Модификации могут быть обширными. Изменить один контент проще, чем другой, и хотя самозваный домен может изменить текст или изображения, изменение JavaScript может оказаться более сложной задачей. Попытки внести изменения в JavaScript могут нарушить функциональность страницы, помешать правильному отображению или создать другие проблемы.
Хорошей новостью для нас является то, что трекеры веб-аналитики или сервисы измерения реальных пользователей работают как JavaScript, и многие домены-самозванцы вряд ли попытаются изменить контент, чтобы удалить его, из-за риска того, что это может привести к поломке страницы. Если парсер намеренно не удалит код фрагмента загрузчика или тег для вашей веб-аналитики или службы RUM, вообще говоря, они успешно загрузятся и сгенерируют маяк для просмотра страницы , давая вам доказательства активности домена-самозванца .
Это ключ к отслеживанию самозваных доменов с помощью веб-аналитики или данных RUM. Даже если содержимое страницы не доставляется с вашей платформы или серверов, пока загружается код JavaScript, который вы используете для аналитики или отслеживания производительности, вы все равно можете получать данные о просмотре страницы.
Превращение данных в информацию
Теперь, когда у вас есть данные, вы можете извлечь из них доказательства самозваных доменов. По сути, это запрос к базе данных, который подсчитывает количество просмотров страниц для каждого имени хоста в URL-адресе страницы, что-то вроде этого псевдокода:
results = query(""" select host, count(*) as count from $(tableName) where timestamp between '$(startTime)' and '$(endTime)' and url not like 'file:%' group by 1 order by 2 desc """);
Любое имя хоста в результатах, которое не используется вашим сайтом, является самозваным доменом и заслуживает изучения. Для постоянного мониторинга данных вы, вероятно, захотите классифицировать домены-самозванцы, которые вы видите в данных и которые идентифицировали.
Например, некоторые домены, используемые службами перевода естественного языка, которые повторно публикуют целые веб-страницы , могут выглядеть следующим образом:
# Translation domains translationDomains = ["convertlanguage.com","dichtienghoa.com","dict.longdo.com", "motionpoint.com","motionpoint.net","opentrad.com","papago.naver.net","rewordify.com", "trans.hiragana.jp","translate.baiducontent.com","translate.goog", "translate.googleusercontent.com","translate.sogoucdn.com","translate.weblio.jp", "translatetheweb.com","translatoruser-int.com","transperfect.com","webtrans.yodao.com", "webtranslate.tilde.com","worldlingo.com"]
В зависимости от ваших потребностей, вы можете создавать массивы «приемлемых» и «проблемных» доменов или классифицировать самозваные домены по их функции или типу. Ниже приведены наиболее распространенные типы доменов-самозванцев, которые вы можете встретить в реальных данных.
Доброкачественное повторное издание
Не все извлеченные веб-страницы, доставленные со стороннего домена, будут вредоносными. Судя по данным Akamai mPulse по широкому кругу клиентов, большинство просмотров страниц с самозванных доменов на самом деле являются услугами, которые посетитель сайта намеренно выбирает. Посетитель сайта может получить доступ к содержимому страницы, которое для него было бы недоступным. В некоторых случаях услугами, вероятно, пользуются сотрудники самого владельца сайта.
Основные категории, описанные здесь, ни в коем случае не являются исчерпывающими.
Перевод на естественный язык
Наиболее распространенные самозваные домены — это те, которые используются службами перевода на естественный язык. Эти сервисы могут очищать веб-страницу, переводить закодированный текст на странице на другой язык и доставлять измененный контент конечному пользователю.
Страница, которую видит конечный пользователь, будет иметь URL-адрес из домена верхнего уровня службы перевода (например, translate.goog, translationuser-int.com или translate.weblio.jp среди многих других). rewordify.com изменяет английский текст на странице на более простые предложения для начинающих англоговорящих. Хотя вы не можете контролировать качество переводов или производительность доставляемой страницы, можно с уверенностью предположить, что большинство владельцев сайтов не сочтут это деловым риском или проблемой.
Кэшированные результаты поисковой системы и веб-архива
Другой распространенной категорией доменов-самозванцев являются домены, используемые поисковыми системами для доставки кэшированных результатов или архивных версий просмотров страниц. Как правило, это страницы, которые больше не доступны на сайте, но доступны в сторонних архивах.
Возможно, вы захотите узнать о частоте этих просмотров страниц, а более глубокий анализ может определить особенности того, что конечные пользователи искали в онлайн-кэшах и архивах. Имея полный URL-адрес для каждого запроса, сделанного в онлайн-кэшах и архивах, вы сможете определить ключевые слова или темы, которые чаще всего встречаются в таких видах просмотров страниц.
Инструменты разработчика
Эти услуги, как правило, будут использоваться вашими собственными сотрудниками как часть естественного бизнеса по разработке и эксплуатации вашего сайта. Типичный инструмент разработчика может очищать всю веб-страницу, анализировать ее на наличие синтаксических ошибок в JavaScript, XML, HTML или CSS и отображать размеченную версию страницы для изучения разработчиком.
Помимо синтаксических ошибок, инструменты могут также оценивать сайт на соответствие требованиям доступности или другим юридически обязательным стандартам. Некоторые примеры сервисов, которые можно увидеть в реальном мире, включают codebeautify.org, webim.org и jsonformatter.org.
Инструменты публикации контента
Очень похожими на инструменты разработчика являются инструменты, которые вы можете использовать для управления вашими потребностями в публикации контента. Наиболее часто встречающимся примером является инструмент предварительного просмотра Google Ads, который извлекает страницу, изменяет ее, чтобы включить в нее рекламный тег и рекламный контент от Google, и отображает его владельцу сайта, чтобы увидеть, как будет выглядеть результат в случае публикации.
Еще один тип инструмента для публикации контента — это служба, которая извлекает веб-страницу, проверяет ее по базам данных на предмет потенциального нарушения авторских прав или плагиата и отображает страницу с разметкой для выявления любого потенциально оскорбительного контента.
Транскодерные домены
Некоторые сервисы предоставляют веб-страницу в измененной форме либо для повышения производительности, либо для улучшения характеристик отображения. Самый распространенный сервис такого типа — Google Web Light. Google Web Light, доступный в ограниченном числе стран на устройствах с ОС Android с медленным подключением к мобильной сети, перекодирует веб-страницу, чтобы доставить на 80 % меньше байтов , сохраняя при этом «большую часть релевантного контента» во имя доставки контента. в браузере Android Mobile намного быстрее.
Другие службы транскодирования модифицируют содержимое страницы, чтобы изменить его представление, например, printwhatyoulike.com удаляет рекламные элементы при подготовке к печати на бумаге, а marker.to позволяет пользователю «разметить» веб-страницу виртуальным желтым маркером и поделиться страницей с другие. Хотя услуги транскодирования могут быть благонамеренными, существует вероятность как злоупотреблений (удаление рекламы), так и потенциальных вопросов целостности контента, о которых вы, как владелец сайта, должны знать.
Локально сохраненные копии веб-страниц
Хотя это и не часто, мы видим маяки в данных Akamai mPulse со страницами, обслуживаемыми с URL-адресов file://
. Это просмотры страниц, загруженные с ранее просмотренной веб-страницы, которая была сохранена в локальном хранилище устройства. Поскольку каждое устройство может иметь различную структуру файловой системы , что приводит к бесконечному количеству «доменов» в данных URL, как правило, не имеет смысла пытаться объединять их для шаблонов. Можно с уверенностью предположить, что владельцы сайтов не сочтут это деловым риском или проблемой.
Веб-прокси-сервисы
Другая категория самозваных доменов, которые могут быть приемлемыми, — это те, которые используются службами веб-прокси. Есть две большие подкатегории предполагаемых безопасных прокси-сервисов. Одним из них являются институциональные прокси , такие как университетская библиотечная система, подписывающаяся на новостную публикацию в Интернете, чтобы предоставить доступ своим студентам. Когда студент просматривает сайт, страница может быть доставлена с имени хоста в университетском домене верхнего уровня.
Можно с уверенностью предположить, что большинство издателей не сочтут это деловым риском или беспокойством, если это часть их бизнес-модели. Другим основным типом безопасных прокси-серверов являются сайты, которые стремятся обеспечить анонимность , чтобы посетители могли использовать контент веб-сайта, не будучи отслежены или идентифицированы. Наиболее распространенным примером этой последней подкатегории является служба анонимного браузера.org. Пользователи этих услуг могут иметь или не иметь благих намерений.
Вредоносная перепубликация
Хотя мы видели, что могут быть безобидные причины для того, чтобы веб-страница была извлечена, а затем доставлена из альтернативного домена (и на самом деле, исследования показывают, что безобидные варианты использования, безусловно, чаще всего встречаются в данных измерения реальных пользователей Akamai mPulse). ), безусловно, бывают случаи, когда намерения парсеров злонамеренны. Очищенный контент можно использовать для получения дохода различными способами: от простой выдачи украденного контента за свой собственный до попытки украсть учетные данные или другие секреты. Вредоносные варианты использования могут нанести вред как владельцу сайта, так и/или посетителю сайта.
Скрапинг рекламы
В издательской индустрии доход от рекламы имеет решающее значение для коммерческого успеха или провала веб-сайтов. Конечно, для продажи рекламы требуется контент, который посетители хотят потреблять, и некоторым злоумышленникам может быть проще украсть этот контент, чем создать его самостоятельно. Парсеры рекламы могут собирать целые статьи с сайта и повторно публиковать их в другом домене верхнего уровня с совершенно новыми рекламными тегами. Если парсер недостаточно сложен, чтобы полностью отделить содержимое от структуры страницы, и, например, включает код JavaScript основной страницы, включая фрагмент загрузчика для вашей веб-аналитики или службы RUM, вы можете получить маяки данных для этих просмотров страниц.
Фишинг
Фишинг — это мошенническая попытка заставить пользователей раскрыть конфиденциальную или личную информацию, такую как учетные данные для доступа, номера кредитных карт, номера социального страхования или другие данные, выдавая себя за надежный сайт. Чтобы выглядеть как можно более аутентичными, фишинговые сайты часто создаются путем очистки подлинного сайта, который они пытаются выдать за . Опять же, если парсер недостаточно сложен, чтобы полностью отделить контент от структуры страницы, и, например, включает основной код страницы, включая фрагмент загрузчика для вашей веб-аналитики или службы RUM, вы можете получить маяки для этих просмотров страниц в mPulse.
Взлом браузера или поиска
Веб-страница может быть очищена и повторно опубликована с дополнительным кодом JavaScript, который содержит код атаки браузера или поиска. В отличие от фишинга, который соблазняет пользователей передать ценные данные, этот вид атаки пытается внести изменения в настройки браузера . Простое изменение поисковой системы браузера по умолчанию, чтобы указать на ту, от которой злоумышленник получает доход от результатов поиска партнеров, может быть выгодным для злоумышленника. Если парсер не является сложным, вводя новый код атаки, но не изменяя ранее существовавший основной код страницы, включая фрагмент загрузчика для вашей веб-аналитики или службы RUM, вы можете получить маяки для этих просмотров страниц в mPulse.
Платный доступ или подписка в обход прокси
Некоторые службы заявляют, что помогают конечным пользователям получать доступ к страницам на сайтах, для просмотра которых требуется подписка без действительного входа в систему. Для некоторых издателей контента плата за подписку может составлять очень значительную часть дохода сайта. Для других может потребоваться вход в систему, чтобы оставаться в соответствии с законом, чтобы пользователи могли потреблять контент, который ограничен по возрасту, гражданству, месту жительства или другим критериям.
Прокси-сервисы, которые обходят (или пытаются обойти) эти ограничения доступа, создают финансовые и юридические риски для вашего бизнеса . Субъективно кажется, что многие из этих сервисов ориентированы именно на порнографические сайты, но всем владельцам веб-сайтов следует остерегаться этих злоумышленников.
Дезинформация
Помимо попыток извлечь выгоду из веб-скрапинга, некоторые самозваные домены могут использоваться для доставки контента, который был изменен таким образом, чтобы преднамеренно распространять дезинформацию, наносить ущерб репутации или в политических или других целях.
Управление результатами
Теперь, когда у вас есть способ определить и отследить, когда домены-самозванцы повторно публикуют ваш веб-сайт, каковы следующие шаги? Ценность инструментов зависит от нашей способности эффективно их использовать, поэтому важно разработать стратегию использования самозваного решения для отслеживания доменов в рамках ваших бизнес-процессов. На высоком уровне, я думаю, это сводится к принятию решений о трехэтапном процессе управления:
- Определите угрозу,
- Приоритизируйте угрозу,
- Исправьте угрозу.
1. Выявление угроз с помощью регулярных отчетов
После того, как вы разработали запросы к базе данных для извлечения данных о потенциальном домене самозванца из вашей веб-аналитики или данных измерения реальных пользователей, вам необходимо регулярно просматривать эти данные.
В качестве отправной точки я бы порекомендовал еженедельный отчет , который можно быстро просмотреть на предмет любых новых действий. Еженедельный отчет кажется лучшим способом выявления проблем до того, как они станут слишком серьезными. Ежедневный отчет может показаться утомительным, и через некоторое время его будет легко игнорировать. Ежедневные цифры также могут быть более сложными для интерпретации, поскольку вы можете смотреть на довольно небольшое количество просмотров страниц, которые могут отражать или не отражать тревожную тенденцию.
С другой стороны, ежемесячная отчетность может привести к тому, что проблемы будут продолжаться слишком долго, прежде чем их поймают. Еженедельный отчет кажется правильным балансом для большинства сайтов и, вероятно, является лучшей отправной точкой для регулярных отчетов.
2. Категоризация потенциальной угрозы
Как мы рассмотрели выше, не все домены-самозванцы, повторно публикующие содержимое вашего сайта, обязательно являются вредоносными по своей природе или представляют опасность для вашего бизнеса. По мере того, как вы приобретете опыт работы с ландшафтом данных вашего собственного сайта, вы можете улучшить свои регулярные отчеты, пометив их цветом или разделив домены, о которых вы знаете и которые считаете безопасными, чтобы помочь вам сосредоточиться на неизвестных, новых или известных проблемных доменах, которые важнее всего.
В зависимости от ваших потребностей вы можете создавать массивы «приемлемых» и «проблемных» доменов или классифицировать самозваные домены по их функциям или типам (например, категории «перевод на естественный язык» или «инструменты для публикации контента», описанные выше). Каждый сайт будет иметь разные потребности, но цель состоит в том, чтобы отделить проблемные домены от доменов, которые не вызывают беспокойства.
3. Примите меры против плохих актеров
Для каждой из проблемных категорий, которые вы определили, определите параметры, которые вы хотите использовать при принятии решения о том, как реагировать на угрозу:
- Каково минимальное количество просмотров страницы, прежде чем мы примем меры?
- Какова первая точка эскалации и кто за нее отвечает ?
- Какие заинтересованные стороны внутри бизнеса должны знать о вредоносной деятельности и когда?
- Действия, которые должны быть предприняты, задокументированы и регулярно пересматриваются всеми заинтересованными сторонами (руководителями, юристами и т. д.)?
- Когда предпринимаются действия (например, подача уведомления «DMCA Takedown» правонарушителю или его поставщику услуг или обновление правил брандмауэра веб-приложений, чтобы попытаться ограничить доступ к похитителям контента), отслеживаются и подтверждаются ли результаты этих действий ?
- Как эффективность этих действий будет подытожена руководителям бизнеса с течением времени?
Даже если вам не удается пресечь каждую вредоносную перепечатку содержимого вашего сайта, вам все равно следует создать надежный процесс для управления рисками, как и любыми другими рисками для бизнеса. Это вызовет доверие и авторитет у ваших деловых партнеров, инвесторов, сотрудников и участников.
Заключение
При определенных обстоятельствах ваша веб-аналитика или данные измерения реальных пользователей могут дать представление о мире доменов-самозванцев, используемых веб-скраперами для повторной публикации контента вашего сайта на своих серверах. Многие из этих доменов-самозванцев на самом деле являются безобидными сервисами, которые либо помогают конечным пользователям, либо помогают вам различными продуктивными способами.
В других случаях самозваные домены имеют злонамеренные мотивы либо для кражи контента с целью получения прибыли, либо для манипулирования им таким образом, чтобы причинить вред вашему бизнесу или посетителю вашего сайта. Веб-аналитика или данные RUM — это ваше секретное оружие, помогающее выявлять любые потенциально вредоносные домены-самозванцы, требующие немедленных действий , а также лучше понимать распространенность более безопасных доменов. Данные, которые вы собираете, используют веб-аналитику или службу RUM в качестве наблюдателя в собственном браузере посетителя, чтобы увидеть то, чего не могут инструменты мониторинга и отчетности вашей платформы.
Анализируя данные с течением времени, вы можете узнавать все больше и больше о доменах-самозванцах и их намерениях, чтобы лучше информировать свой бизнес о рисках, которые они представляют для вашей репутации и опыта ваших посетителей, а также разрабатывать и внедрять механизмы для защиты вашей интеллектуальной собственности.
Дальнейшее чтение в журнале Smashing Magazine
- Защита вашего сайта с помощью политики функций
- Сделайте свои сайты быстрыми, доступными и безопасными с помощью Google
- Что нужно знать об OAuth2 и входе через Facebook
- Политика безопасности контента, ваш лучший друг в будущем
- Борьба с нарушением конфиденциальности в Интернете