Cyberbezpieczeństwo w centrum uwagi: przygotowanie organizacji na oszustwa Deepfake Voice Clone

Opublikowany: 2022-07-22

Słyszeliście o deepfake – zdjęciach lub filmach, które pokazują osobę publiczną lub celebrytę (jak Tom Cruise czy Will Smith) gdzieś, gdzie nigdy nie byli, robiąc coś, czego nigdy nie robili. Ale możesz nie wiedzieć, że nowa klasa narzędzi do uczenia maszynowego umożliwia ten sam rodzaj fałszerstwa w przypadku dźwięku.

Technologie syntezy mowy przeszły długą drogę od czasu Voder, który został zaprezentowany przez Bell Labs w 1939 roku. Ten robotyczny dron, który kiedyś był kontrolowany przez operatora za pomocą klawiszy i pedałów, przekształcił się w cyfrowe głosy, które są nie do odróżnienia od prawdziwych – zasilane przez sztuczną inteligencję. Dostępna obecnie technologia syntezy mowy jest tak realistyczna i przystępna, że inżynierowie dźwięku używają jej do powielania mowy gospodarzy podcastów lub aktorów głosowych i dodawania nowych informacji do treści bez nagrywania słowa.

Technologia ta jest również wykorzystywana przez cyberprzestępców i oszustów, zmuszając organizacje z każdej branży do przyjęcia nowych modeli cyberbezpieczeństwa, aby zminimalizować nieuniknione ryzyko.

Chór włamywaczy na wschodzie

W 2019 r., w pierwszym znanym przypadku oszustwa polegającego na klonowaniu głosu, złodzieje odtworzyli głos dyrektora w spółce macierzystej nieujawnionej brytyjskiej firmy energetycznej. Kiedy dyrektor generalny firmy odebrał telefon od „dyrektora”, rozpoznał niemiecki akcent i rytm mowy swojego kolegi, i szybko dokonał pilnego przelewu środków zgodnie z żądaniem. Kilka godzin później oszuści skontaktowali się ponownie, aby dokonać drugiej kradzieży, ale tym razem prezes zauważył, że połączenie pochodzi z nieznanej lokalizacji i stał się podejrzany.

Wszystkie składniki są gotowe do masowego wykorzystania technologii klonowania głosu do złośliwych celów.

Na początku 2022 roku FBI opublikowało raport ostrzegający opinię publiczną o nowej technice oszustwa na wirtualnych platformach spotkań. Po przejęciu kontroli nad loginem dyrektora atakujący zapraszają pracowników na spotkanie, na którym stosują sklonowany głos, twierdzą, że ich wideo nie działa i proszą o zastrzeżone informacje lub awaryjny transfer środków.

Nagłe pojawienie się oszustów polegających na klonowaniu głosu budzi alarm na całym świecie. Według Irakli Beridze, szefa Centrum Sztucznej Inteligencji i Robotyki w Międzyregionalnym Instytucie Badań nad Przestępczością i Wymiarem Sprawiedliwości ONZ (UNICRI), wszystkie składniki są gotowe do masowej adaptacji tej technologii do złych celów. „Czy chodzi o popełnianie oszustw, wrabianie ludzi, wykolejanie procesów politycznych czy podważanie struktur politycznych, to wszystko jest w sferze możliwości”, mówi Toptalowi.

Ta grafika opowiada historię wartego 35 milionów dolarów napadu na sklonowany bank w Hongkongu. W 2020 roku kierownik banku odebrał telefon od osoby, której głos rozpoznał: dyrektora firmy klienta. Dyrektor mówi kierownikowi banku, że potrzebuje pilnego transferu środków i mówi, że koordynować będzie adwokat Martin Zelner. Kierownik banku otrzymuje następnie kilka e-maili od Zelnera, w tym jeden z listem, który wydaje się pochodzić od dyrektora firmy klienta autoryzującej transfer środków. Pewny tożsamości dzwoniącego i po otrzymaniu niezbędnych dokumentów pocztą elektroniczną, kierownik banku przelewa 35 milionów dolarów na kilka kont. Ale Zelner nie był prawdziwym prawnikiem. Głos był fałszywym klonem. Grupie 17 przestępców udało się zaaranżować wyrafinowaną kradzież. Ich ulubioną bronią była sztuczna inteligencja.

Według FBI Internet Crime Complaint Center, podszywanie się pod kierownictwo w organizacji w celu popełnienia oszustwa kosztowało firmy na całym świecie ponad 26 miliardów dolarów w latach 2016-2019. A to tylko przypadki zgłaszane organom ścigania – większość ofiar ukrywa takie ataki, aby chronić swoją reputację.

Przestępcy również szybko się uczą, więc chociaż liczba przypadków oszustw związanych z klonowaniem głosu jest obecnie niska, może się to wkrótce zmienić. „Pięć lat temu w ogóle nie używano terminu „deepfake” – mówi Beridze. „Od tego momentu przeszliśmy od bardzo niedokładnych, bardzo prymitywnych, automatycznie generowanych treści głosowych lub wizualnych do niezwykle dokładnych podróbek. Jeśli przeanalizujesz trend z historycznego punktu widzenia, stało się to z dnia na dzień. A to niezwykle niebezpieczne zjawisko. Nie dostrzegliśmy jeszcze jego pełnego potencjału.”

Robienie podróbek

Deepfake audio działają w sieciach neuronowych. W przeciwieństwie do tradycyjnych algorytmów, w których programista musi wstępnie zdefiniować każdy etap procesu obliczeniowego, sieci neuronowe pozwalają oprogramowaniu nauczyć się wykonywania określonego zadania poprzez analizę przykładów: Nakarm sieć rozpoznawania obiektów 10 000 obrazów żyraf, oznacz zawartość „żyrafą”, a sieć w końcu nauczy się identyfikować tego konkretnego ssaka nawet na obrazach, którymi nigdy wcześniej nie był karmiony.

Problem z tym modelem polegał na tym, że wymagał on dużych, starannie dobranych i oznaczonych zbiorów danych oraz bardzo wąskich pytań, na które trzeba było odpowiedzieć, a wszystko to zajęło miesiące planowania, poprawiania i udoskonalania przez ludzkich programistów. Zmieniło się to szybko po wprowadzeniu generatywnych sieci kontradyktoryjnych (GAN) w 2014 roku. Pomyśl o GAN jako o dwóch sieciach neuronowych w jednej, które uczą się, testując i przekazując sobie nawzajem informacje zwrotne. Sieci GAN mogą szybko generować i oceniać miliony obrazów, zdobywając nowe informacje na każdym kroku bez potrzeby interwencji człowieka.

GAN działają również z przebiegami dźwiękowymi: podaj GAN pewną liczbę godzin ludzkiej mowy, a zacznie rozpoznawać wzorce. Wprowadź wystarczającą ilość mowy od konkretnego człowieka, a dowie się, co sprawia, że ten głos jest wyjątkowy.

Białego kapelusza używa do głębokiej syntezy mowy

Descript, narzędzie do edycji i transkrypcji dźwięku, założone przez Andrew Masona z Groupon, zainwestowane przez Andreessena Horowitza, jest w stanie zidentyfikować odpowiednik DNA w każdym głosie za pomocą zaledwie kilku minut próbki dźwięku. Następnie oprogramowanie może utworzyć kopię tego głosu, zawierającą nowe słowa, ale zachowując styl mówcy, mówi Jay LeBoeuf, dyrektor ds. rozwoju biznesu i korporacji.

Najpopularniejsza funkcja Descript, Overdub, nie tylko klonuje głos, ale także pozwala użytkownikowi edytować mowę w taki sam sposób, jak edytowałby dokument. Wytnij słowo lub frazę, a zniknie z dźwięku. Wpisz dodatkowy tekst, a zostanie on dodany jako wypowiadane słowa. Ta technika, zwana tekstowym malowaniem mowy, jest rewolucyjnym przełomem w uczeniu głębokim, który byłby nie do pomyślenia jeszcze pięć lat temu. Użytkownik może sprawić, by sztuczna inteligencja powiedziała wszystko, niezależnie od zaprogramowanego głosu, po prostu wpisując.

„Jedną z rzeczy, które wydawały się nam niemal science fiction, była umiejętność ponownego wpisania błędu, który mogłeś popełnić w swojej pracy lektorskiej”, mówi LeBoeuf Toptalowi. „Mówisz niewłaściwą nazwę produktu, niewłaściwą datę wydania i zwykle musiałbyś przerobić całą prezentację lub przynajmniej dużą jej część”.

Użytkownik może sprawić, by sztuczna inteligencja powiedziała wszystko, niezależnie od zaprogramowanego głosu, po prostu wpisując.

Klonowanie głosu i technologia Overdub pozwalają twórcom treści zaoszczędzić godziny edycji i nagrywania bez poświęcania jakości. Pushkin Industries, firma stojąca za popularnym podcastem Revisionist History Malcolma Gladwella, wykorzystuje Descript do wygenerowania cyfrowej wersji głosu gospodarza, który będzie używany jako aktor podkładający głos podczas montowania odcinka. Wcześniej ten proces wymagał od prawdziwego Gladwella czytania i nagrywania treści, aby zespół produkcyjny mógł sprawdzić czas i przebieg odcinka. Potrzeba było wielu prób i kilku godzin pracy, aby uzyskać pożądane rezultaty. Korzystanie z cyfrowego głosu pozwala również zespołowi na wprowadzanie drobnych poprawek redakcyjnych w dalszej części procesu.

Ta technologia jest również wykorzystywana do komunikacji wewnętrznej firm, mówi LeBoeuf. Na przykład jeden z klientów Descript klonuje głosy wszystkich mówców w swoich filmach szkoleniowych, aby firma mogła modyfikować treść w postprodukcji bez wracania do studia. Koszt produkcji filmów szkoleniowych waha się od 1000 do 10 000 USD za minutę, więc klonowanie głosu może przynieść ogromne oszczędności.

Ochrona firmy przed przestępstwami związanymi z klonowaniem

Pomimo tego, że jest to stosunkowo nowa technologia, globalny rynek klonowania głosu był wart 761,3 miliona dolarów w 2020 roku i przewiduje się, że do 2027 roku osiągnie 3,8 miliarda dolarów. Startupy takie jak Respeecher, Resemble AI i Veritone oferują usługi podobne do Descript; a firmy Big Tech, takie jak IBM, Google i Microsoft, mocno zainwestowały we własne badania i narzędzia.

Ciągła ewolucja, rozwój i dostępność sklonowanych głosów jest praktycznie zapewniona, a szybki postęp technologiczny uniemożliwi uniknięcie cyberataków.

Ta tabela przedstawia osiem potencjalnych złośliwych zastosowań deepfake'ów audio przeciwko firmom: Niszczenie wizerunku i wiarygodności osoby; dokonywanie wymuszenia i oszustwa; ułatwianie fałszowania dokumentów; fałszowanie tożsamości internetowych i oszukiwanie mechanizmów know-you-customer (KYC); fałszowanie lub manipulowanie dowodami elektronicznymi na potrzeby dochodzeń w sprawach karnych; zakłócanie rynków finansowych; rozpowszechnianie dezinformacji i wpływanie na opinię publiczną; oraz gładząc niepokoje społeczne i polaryzację polityczną.

„Nie można walczyć z deepfake'ami” — mówi Ismael Peinado, globalny ekspert ds. cyberbezpieczeństwa z dwudziestoletnim doświadczeniem w kierowaniu zespołami ds. bezpieczeństwa i technologii oraz Chief Technology Officer w firmie Toptal. „Im szybciej to zaakceptujesz, tym lepiej. Może nie dzisiaj, ale zmierzymy się z idealnym deepfake'iem głosowym lub wideo. Nawet pracownicy w pełni przeszkoleni w zakresie świadomości ryzyka nie są w stanie wykryć podróbki”.

Istnieją rozwiązania programowe wyspecjalizowane w wykrywaniu deepfake, narzędzia wykorzystujące techniki głębokiego uczenia się do wychwytywania dowodów fałszerstwa we wszelkiego rodzaju treściach. Ale każdy ekspert, z którym się konsultowaliśmy, lekceważył takie inwestycje. Szybkość, z jaką rozwija się technologia, oznacza, że techniki wykrywania szybko stają się przestarzałe.

„Ostatecznie to przegrana walka o dążenie do samego wykrywania”, mówi Toptal Andy Parsons, starszy dyrektor Adobe Content Authenticity Initiative (CAI). „Mówiąc wprost, źli ludzie wygraliby, ponieważ nie muszą udostępniać swoich zbiorów danych ani wytrenowanych modeli”.

Więc jakie jest rozwiązanie?

Odejdź od e-maila

„Najpierw przestań używać poczty e-mail do komunikacji wewnętrznej. Dziewięćdziesiąt procent twoich obaw dotyczących bezpieczeństwa zniknie”, mówi Peinado. Większość ataków phishingowych, w tym mających na celu uzyskanie dostępu do prywatnych przestrzeni firmowych, takich jak Zoom, pochodzi z wiadomości e-mail. „Więc użyj innego narzędzia do komunikacji wewnętrznej, takiego jak Slack; ustaw agresywne protokoły bezpieczeństwa dla każdej otrzymanej wiadomości e-mail; i zmienić kulturę cyberbezpieczeństwa, aby wyeliminować najbardziej krytyczne luki w zabezpieczeniach. 'Jeśli otrzymasz e-mail lub SMS, nie ufaj im'; to nasza polityka i każdy członek organizacji o tym wie. To pojedyncze działanie jest potężniejsze niż najlepszy program antywirusowy na rynku”.

Zabierz do chmury

Peinado twierdzi również, że wszystkie narzędzia do komunikacji i współpracy powinny znajdować się w chmurze i obejmować uwierzytelnianie wieloskładnikowe. Jest to najskuteczniejszy sposób na zmniejszenie niebezpieczeństwa fałszywych tożsamości, ponieważ znacznie ogranicza punkty wejścia do krytycznych danych biznesowych. Nawet jeśli laptop twojego prezesa zostanie skradziony, ryzyko, że złośliwy gracz może go użyć do uzyskania dostępu do informacji firmy lub przeprowadzenia ataku typu deepfake, będzie minimalne.

Wspieraj wysiłki związane z pochodzeniem cyfrowym

„W miarę jak rzeczy stają się coraz bardziej fotorealistyczne i audiorealistyczne, potrzebujemy innej podstawy w samym Internecie, aby przedstawić prawdę lub zapewnić przejrzystość konsumentom i osobom weryfikującym fakty” – mówi Parsons. W tym celu CAI firmy Adobe, sojusz twórców, technologów i dziennikarzy założony w 2019 r. we współpracy z Twitterem i New York Times, połączył siły z Microsoft, Intelem i innymi głównymi graczami, aby opracować standardowe ramy przypisywania treści i cyfrowe pochodzenie. Zawiera niezmienne informacje, takie jak czas, autor i rodzaj używanego urządzenia, za każdym razem, gdy tworzone lub modyfikowane są treści cyfrowe.

Funkcją tej struktury jest wspieranie bezpiecznego środowiska do tworzenia treści za pomocą sztucznej inteligencji. Nawet wirtualne platformy spotkań mogłyby zintegrować tę technologię, aby udowodnić, że rozmówca jest tym, za kogo się podaje, bez względu na to, jaki głos uczestnicy sądzą, że słyszą. „Wśród członków korpusu standardu mamy Intel, Arm i innych producentów, którzy przyglądają się potencjalnym wdrożeniom sprzętowym, tak aby wszelkiego rodzaju urządzenia do przechwytywania — w tym kamery strumieniowe, urządzenia audio i sam sprzęt komputerowy — mogły na tym skorzystać. Mamy nadzieję i oczekujemy, że zobaczymy tę adopcję” – mówi Parsons.

Zainwestuj w ocenę zagrożeń i edukację

Bez narzędzi technologicznych, ograniczonych strategicznych działań w zakresie bezpieczeństwa i wroga, który z dnia na dzień staje się coraz większy i mądrzejszy, nie ma srebrnych pocisków. Ale współpraca między rządami, środowiskiem akademickim i sektorem prywatnym ma na celu ochronę przedsiębiorstw i społeczeństwa w ogóle, mówi Beridze.

„Rządy powinny przyjąć krajowe programy cyberbezpieczeństwa i dokonać bardzo dokładnej oceny swoich potrzeb i przewagi konkurencyjnej” – mówi. „To samo dotyczy sektora prywatnego: niezależnie od tego, czy są to małe, średnie czy duże przedsiębiorstwa, muszą inwestować w ocenę zagrożeń i wiedzę”.

Inicjatywy takie jak standardowe ramy CAI wymagają masowego przyjęcia, aby odnieść sukces, a to zajmie trochę czasu. Na razie przywódcy muszą nadać priorytet zmniejszeniu powierzchni ataku swojej organizacji i rozpowszechnianiu wiadomości, że złodzieje uzbrojeni w sklonowane głosy trollują w poszukiwaniu ofiar.