Обзор кибербезопасности: подготовка вашей организации к мошенничеству с клонированием голосовых данных Deepfake

Опубликовано: 2022-07-22

Вы слышали о дипфейках — фотографиях или видео, на которых общественный деятель или знаменитость (например, Том Круз или Уилл Смит) запечатлены там, где они никогда не были, и делают то, чего никогда не делали. Но вы можете не знать, что развивающийся класс инструментов машинного обучения делает такие же подделки возможными для аудио.

Технологии синтеза речи прошли долгий путь со времен Voder, представленного Bell Labs в 1939 году. Это роботизированное гудение, когда-то управляемое оператором с помощью клавиш и педалей, превратилось в цифровые голоса, которые неотличимы от настоящих, благодаря искусственному интеллекту. Доступная сейчас технология синтеза речи настолько реалистична и доступна, что звукоинженеры используют ее для дублирования речи ведущих подкастов или актеров озвучивания и добавления новой информации к контенту без записи слова.

Эта технология также используется киберпреступниками и мошенниками, вынуждая организации в каждой отрасли внедрять новые модели кибербезопасности, чтобы минимизировать неизбежные риски.

Хор грабителей на подъеме

В 2019 году в первом известном случае мошенничества с клонированием голоса воры воссоздали голос руководителя материнской компании нераскрытой британской энергетической компании. Когда генеральному директору фирмы позвонил «исполнительный директор», он узнал немецкий акцент и ритм речи своего коллеги и быстро сделал срочный перевод средств в соответствии с просьбой. Мошенники снова связались через несколько часов, чтобы попытаться совершить вторую кражу, но на этот раз генеральный директор заметил, что звонок исходит из неизвестного места, и у него возникли подозрения.

Имеются все предпосылки для массового использования технологии клонирования голоса в злонамеренных целях.

В начале 2022 года ФБР опубликовало отчет, предупреждающий общественность о новом методе мошенничества на платформах виртуальных встреч. Получив контроль над логином руководителя, злоумышленники приглашают сотрудников на собрание, где они используют клонированный голос, заявляют, что их видео не работает, и запрашивают информацию ограниченного доступа или экстренный перевод средств.

Внезапное появление мошенничества с голосовыми клонами вызывает тревогу по всему миру. По словам Ираклия Беридзе, руководителя Центра искусственного интеллекта и робототехники Межрегионального научно-исследовательского института ООН по вопросам преступности и правосудия (ЮНИКРИ), есть все предпосылки для массовой адаптации этой технологии в злонамеренных целях. «Будь то мошенничество, подлог людей, срыв политических процессов или подрыв политических структур, все это находится в пределах возможного», — говорит он Toptal.

Этот рисунок рассказывает историю ограбления банка с клонированными голосами стоимостью 35 миллионов долларов в Гонконге. В 2020 году менеджеру банка позвонил человек, чей голос он узнал: директор компании-клиента. Директор сообщает менеджеру банка, что ему нужен срочный перевод средств, и говорит, что адвокат по имени Мартин Зелнер будет координировать. После этого менеджер банка получает несколько электронных писем от Зелнера, в том числе одно с письмом, которое, по-видимому, принадлежит директору компании-клиента, разрешающему перевод средств. Уверенный в личности звонившего и получив необходимые документы по электронной почте, менеджер банка переводит 35 миллионов долларов на несколько счетов. Но Зельнер не был настоящим юристом. Голос был дипфейковым клоном. Группа из 17 преступников успешно организовала сложную кражу. Их любимым оружием был ИИ.

По данным Центра жалоб на интернет-преступления ФБР, выдача себя за высшего руководителя организации с целью совершения мошенничества стоила компаниям по всему миру более 26 миллиардов долларов в период с 2016 по 2019 год. И это только те случаи, о которых сообщается правоохранительным органам — большинство жертв скрывают такие атаки, чтобы защитить свою репутацию.

Преступники тоже быстро учатся, поэтому, хотя количество случаев мошенничества с голосовыми клонами сейчас невелико, это может скоро измениться. «Пять лет назад даже термин «дипфейк» вообще не использовался, — говорит Беридзе. «С этого момента мы перешли от очень неточного, очень примитивного автоматически генерируемого голосового или визуального контента к чрезвычайно точным дипфейкам. Если анализировать тренд с исторической точки зрения, это произошло в одночасье. А это крайне опасное явление. Мы еще не увидели его полного потенциала».

Создание подделок

Аудио дипфейки работают на нейронных сетях. В отличие от традиционных алгоритмов, в которых человек-программист должен предопределять каждый шаг вычислительного процесса, нейронные сети позволяют программному обеспечению научиться выполнять предписанную задачу, анализируя примеры: подайте в сеть распознавания объектов 10 000 изображений жирафов, пометьте содержимое как «жираф», и сеть в конечном итоге научится идентифицировать это конкретное млекопитающее даже на изображениях, которые ему никогда раньше не давали.

Проблема с этой моделью заключалась в том, что ей требовались большие, тщательно отобранные и размеченные наборы данных, а также ответы на очень узкие вопросы, на все из которых программисты-люди потратили месяцы на планирование, исправление и уточнение. Это быстро изменилось после введения генеративно-состязательных сетей (GAN) в 2014 году. Думайте о GAN как о двух нейронных сетях в одной, которые учатся, тестируя и давая обратную связь друг другу. Сети GAN могут быстро генерировать и оценивать миллионы изображений, получая новую информацию на каждом этапе пути без вмешательства человека.

GAN также работают с аудиосигналами: дайте GAN несколько часов человеческой речи, и она начнет распознавать закономерности. Введите достаточно речи определенного человека, и он узнает, что делает этот голос уникальным.

Использование белых шляп для синтеза речи Deepfake

Descript, инструмент для редактирования и транскрипции аудио, основанный Эндрю Мейсоном из Groupon при начальных инвестициях Андреессена Горовица, может идентифицировать эквивалент ДНК в каждом голосе всего за несколько минут звукового образца. Затем программное обеспечение может создать копию этого голоса, включив новые слова, но сохранив стиль говорящего, — говорит Джей ЛеБёф, руководитель отдела бизнеса и корпоративного развития компании.

Самая популярная функция Descript, Overdub, не только клонирует голос, но и позволяет пользователю редактировать речь так же, как и документ. Вырежьте слово или фразу, и они исчезнут из аудио. Введите дополнительный текст, и он будет добавлен как произносимое слово. Этот метод, называемый текстовым речевым изображением, представляет собой революционный прорыв в области глубокого обучения, о котором еще пять лет назад нельзя было и мечтать. Пользователь может заставить ИИ говорить что угодно, любым запрограммированным голосом, просто набрав текст.

«Одной из вещей, которая казалась нам почти научной фантастикой, была возможность перепечатать ошибку, которую вы могли допустить при озвучивании», — говорит ЛеБёф Toptal. «Вы говорите неправильное название продукта, неправильную дату выпуска, и обычно вам приходится переделывать всю презентацию или, по крайней мере, большую ее часть».

Пользователь может заставить ИИ говорить что угодно, любым запрограммированным голосом, просто набрав текст.

Клонирование голоса и технология Overdub могут сэкономить создателям контента часы редактирования и записи без ущерба для качества. Компания Pushkin Industries, создавшая популярный подкаст Малкольма Гладуэлла Revisionist History , использует Descript для создания цифровой версии голоса ведущего, чтобы использовать его в качестве актера озвучивания при сборке эпизода. Раньше для этого процесса требовалось, чтобы настоящий Гладуэлл читал и записывал контент, чтобы производственная группа могла проверить время и ход эпизода. Потребовалось много дублей и несколько часов работы, чтобы получить желаемые результаты. Использование цифрового голоса также освобождает команду для внесения небольших редакционных правок позже в процессе.

Эта технология также используется для внутренних коммуникаций компаний, говорит ЛеБёф. Например, один клиент Descript клонирует голоса всех спикеров в своих обучающих видеороликах, чтобы компания могла изменять контент на этапе постобработки, не возвращаясь в студию. Стоимость создания обучающих видеороликов колеблется от 1000 до 10 000 долларов в минуту, поэтому клонирование голоса может дать огромную экономию.

Защита вашего бизнеса от преступлений, связанных с клонированием голоса

Несмотря на то, что это относительно новая технология, мировой рынок клонирования голоса в 2020 году оценивался в 761,3 миллиона долларов, а к 2027 году, по прогнозам, достигнет 3,8 миллиарда долларов. Такие стартапы, как Respeecher, Resemble AI и Veritone, предлагают услуги, аналогичные Descript; а крупные технологические компании, такие как IBM, Google и Microsoft, вложили значительные средства в собственные исследования и инструменты.

Дальнейшее развитие, рост и доступность клонированных голосов практически гарантированы, а быстрое развитие технологий сделает невозможным предотвращение кибератак.

В этой сетке показаны восемь потенциальных злонамеренных способов использования аудио дипфейков против бизнеса: разрушение имиджа и доверия к человеку; совершение вымогательства и мошенничества; содействие подделке документов; фальсификация личных данных в Интернете и обман механизмов «знай-ты-клиент» (KYC); фальсификация или манипулирование электронными доказательствами для уголовных расследований; разрушение финансовых рынков; распространение дезинформации и влияние на общественное мнение; и поглаживая социальные волнения и политическую поляризацию.

«Вы не можете бороться с дипфейками», — говорит Исмаэль Пейнадо, глобальный эксперт по кибербезопасности с двадцатилетним опытом работы в командах по безопасности и технологиям, а также главный технический директор Toptal. «Чем раньше вы это примете, тем лучше. Это может быть не сегодня, но мы столкнемся с идеальным дипфейком голоса или видео. Даже персонал, полностью обученный осведомленности о рисках, не сможет распознать подделку».

Существуют программные решения, предназначенные для обнаружения дипфейков, инструменты, использующие методы глубокого обучения для выявления признаков подделки во всех видах контента. Но все эксперты, с которыми мы консультировались, игнорировали такие инвестиции. Скорость, с которой развиваются технологии, означает, что методы обнаружения быстро устаревают.

«Получить только обнаружение — это своего рода проигрышная битва, — говорит Toptal Энди Парсонс, старший директор Adobe Content Authenticity Initiative (CAI). «Проще говоря, плохие парни выиграют, потому что им не нужно открывать исходный код своих наборов данных или своих обученных моделей».

Итак, каково решение?

Откажитесь от электронной почты

«Во-первых, перестаньте использовать электронную почту для внутреннего общения. Девяносто процентов ваших проблем с безопасностью исчезнут», — говорит Пейнадо. Большинство фишинговых атак, в том числе направленных на получение доступа к закрытым корпоративным пространствам, таким как Zoom, исходят из электронной почты. «Так что используйте другой инструмент для внутреннего общения, например, Slack; устанавливать агрессивные протоколы безопасности для каждого полученного письма; и изменить культуру кибербезопасности, чтобы устранить наиболее важные уязвимости. «Если вы получили электронное письмо или SMS, не верьте ему»; это наша политика, и каждый член организации это знает. Это единственное действие более мощное, чем лучший антивирус на рынке».

Перейти к облаку

Пейнадо также говорит, что все инструменты для общения и совместной работы должны быть в облаке и включать многофакторную аутентификацию. Это наиболее эффективный способ снизить опасность фальшивых удостоверений личности, поскольку он значительно сокращает количество точек доступа к критически важным бизнес-данным. Даже если ноутбук вашего генерального директора будет украден, риск того, что злоумышленник сможет использовать его для доступа к информации компании или проведения дипфейковой атаки, будет минимальным.

Поддержите усилия по цифровому происхождению

«Поскольку вещи становятся все более фотореалистичными и аудиореалистичными, нам нужна еще одна основа в самом Интернете, чтобы отображать правду или обеспечивать прозрачность для потребителей и проверяющих факты», — говорит Парсонс. С этой целью CAI Adobe, альянс авторов, технологов и журналистов, основанный в 2019 году в партнерстве с Twitter и New York Times, объединил усилия с Microsoft, Intel и другими крупными игроками для разработки стандартной структуры для атрибуции контента и цифровое происхождение. Он включает неизменную информацию, такую как время, автор и тип используемого устройства, каждый раз, когда цифровой контент создается или изменяется.

Функция этой платформы — создать безопасную среду для создания контента с помощью ИИ. Даже виртуальные платформы для совещаний могут интегрировать эту технологию, чтобы доказать, что звонящий является тем, за кого себя выдает, независимо от того, какой голос участники думают, что они слышат. «Среди членов тела стандарта у нас есть Intel, Arm и другие производители, которые рассматривают потенциальные аппаратные реализации, чтобы устройства захвата всех видов, включая потоковые камеры, аудиоустройства и само компьютерное оборудование, могли извлечь выгоду. Мы надеемся и ожидаем увидеть это принятие», — говорит Парсонс.

Инвестируйте в оценку угроз и образование

Без технологических инструментов под рукой, с ограниченными стратегическими действиями по обеспечению безопасности и врагом, который с каждым днем становится все больше и мудрее, серебряных пуль не существует. Но сотрудничество между правительствами, академическими кругами и частным сектором направлено на защиту бизнеса и общества в целом, говорит Беридзе.

«Правительства должны принять национальные программы кибербезопасности и провести очень тщательную оценку своих потребностей и конкурентных преимуществ», — говорит он. «То же самое и с частным сектором: будь то малые, средние или крупные предприятия, им необходимо инвестировать в оценку угроз и знания».

Такие инициативы, как стандартная структура CAI, для успеха требуют массового внедрения, а на это потребуется время. На данный момент лидеры должны уделить первоочередное внимание сокращению поверхности атаки своей организации и распространению информации о том, что воры, вооруженные клонированными голосами, ищут жертв.