Riflettori sulla sicurezza informatica: preparare la tua organizzazione alla frode di clonazione vocale deepfake
Pubblicato: 2022-07-22Hai sentito parlare di deepfake: foto o video che mostrano un personaggio pubblico o una celebrità (come Tom Cruise o Will Smith) da qualche parte in cui non sono mai stati, facendo qualcosa che non hanno mai fatto. Ma potresti non sapere che una classe emergente di strumenti di apprendimento automatico rende possibile lo stesso tipo di falsificazione per l'audio.
Le tecnologie di sintesi vocale hanno fatto molta strada dal Voder, svelato dai Bell Labs nel 1939. Quel ronzio robotico una volta controllato da un operatore che utilizzava tasti e pedali si è evoluto in voci digitali indistinguibili dalla realtà, alimentate dall'intelligenza artificiale. La tecnologia di sintesi vocale ora disponibile è così realistica e accessibile che gli ingegneri del suono la usano per duplicare il discorso degli host di podcast o dei doppiatori e aggiungere nuove informazioni al contenuto senza registrare una parola.
Questa tecnologia viene utilizzata anche da criminali informatici e truffatori, costringendo le organizzazioni di ogni settore ad adottare nuovi modelli di sicurezza informatica per ridurre al minimo i rischi inevitabili.
Un coro di ladri in aumento
Nel 2019, nel primo caso noto di frode di cloni vocali, i ladri hanno ricreato la voce di un dirigente presso la società madre di un'azienda energetica sconosciuta con sede nel Regno Unito. Quando l'amministratore delegato dell'azienda ha ricevuto una chiamata dal "dirigente", ha riconosciuto l'accento tedesco e la cadenza del discorso del suo collega e ha rapidamente effettuato il trasferimento urgente di fondi come richiesto. I truffatori si sono ricontattati poche ore dopo per tentare un secondo furto, ma questa volta il CEO ha notato che la chiamata proveniva da una località sconosciuta ed è diventato sospetto.
Tutti gli ingredienti sono pronti per un uso massiccio della tecnologia di clonazione vocale per scopi dannosi.
All'inizio del 2022, l'FBI ha pubblicato un rapporto che avvisava il pubblico di una nuova tecnica di truffa sulle piattaforme di riunioni virtuali. Dopo aver preso il controllo dell'accesso di un dirigente, gli aggressori invitano i dipendenti a una riunione in cui distribuiscono una voce clonata, affermano che il loro video non funziona e chiedono informazioni riservate o un trasferimento di emergenza di fondi.
L'improvvisa comparsa di frodi di cloni vocali sta suscitando allarmi in tutto il mondo. Secondo Irakli Beridze, capo del Centro di intelligenza artificiale e robotica presso l'Istituto interregionale di ricerca sulla criminalità e la giustizia delle Nazioni Unite (UNICRI), tutti gli ingredienti sono in atto per un massiccio adattamento di questa tecnologia a scopi dannosi. "Che si tratti di frode, incastrare persone, far deragliare processi politici o indebolire strutture politiche, è tutto nel regno delle possibilità", dice a Toptal.
Impersonare un alto dirigente di un'organizzazione per commettere frode è costato alle aziende di tutto il mondo più di 26 miliardi di dollari tra il 2016 e il 2019, secondo l'Internet Crime Complaint Center dell'FBI. E questi sono solo i casi segnalati alle forze dell'ordine: la maggior parte delle vittime tiene nascosti tali attacchi per proteggere la propria reputazione.
Anche i criminali stanno imparando velocemente, quindi mentre l'incidenza delle frodi di cloni vocali è bassa ora, le cose potrebbero cambiare presto. "Cinque anni fa, anche il termine 'deepfake' non veniva usato affatto", afferma Beridze. “Da quel momento in poi, siamo passati da contenuti vocali o visivi molto imprecisi e molto primitivi generati automaticamente a deepfake estremamente accurati. Se analizzi il trend da un punto di vista storico, questo è successo dall'oggi al domani. E questo è un fenomeno estremamente pericoloso. Non abbiamo ancora visto il suo pieno potenziale”.
Fare i falsi
I deepfake audio vengono eseguiti su reti neurali. A differenza degli algoritmi tradizionali, in cui un programmatore umano deve predefinire ogni fase di un processo computazionale, le reti neurali consentono al software di imparare a svolgere un compito prescritto analizzando esempi: alimentare una rete di riconoscimento di oggetti 10.000 immagini di giraffe, etichettare il contenuto "giraffa", e alla fine la rete imparerà a identificare quel particolare mammifero anche in immagini che non è mai stato nutrito prima.
Il problema con quel modello era che aveva bisogno di set di dati ampi, accuratamente curati ed etichettati, e di domande molto ristrette a cui rispondere, il che richiedeva mesi di pianificazione, correzione e perfezionamento da parte di programmatori umani. La situazione è cambiata rapidamente in seguito all'introduzione delle reti generative contraddittorio (GAN) nel 2014. Pensa a una GAN come a due reti neurali in una che apprendono testando e fornendo feedback l'una all'altra. I GAN possono generare e valutare milioni di immagini rapidamente, acquisendo nuove informazioni in ogni fase del processo con poco bisogno dell'intervento umano.
I GAN funzionano anche con le forme d'onda audio: dai a un GAN un certo numero di ore di parlato umano e inizierà a riconoscere i modelli. Inserisci abbastanza parole da un particolare essere umano e imparerà cosa rende quella voce unica.
White-hat Usi per la sintesi vocale Deepfake
Descript, uno strumento di editing e trascrizione dell'audio fondato da Andrew Mason di Groupon con un investimento iniziale di Andreessen Horowitz, può identificare l'equivalente del DNA in ogni voce con solo pochi minuti di audio campione. Quindi, il software può produrre una copia di quella voce, incorporando nuove parole ma mantenendo lo stile di chi parla, afferma Jay LeBoeuf, Head of Business and Corporate Development dell'azienda.
La funzione più popolare di Descript, Overdub, non solo clona la voce, ma consente anche all'utente di modificare il parlato nello stesso modo in cui modificherebbe un documento. Taglia una parola o una frase e scompare dall'audio. Digita testo aggiuntivo e viene aggiunto come parole pronunciate. Questa tecnica, chiamata text-informed speech inpainting, è una svolta rivoluzionaria nell'apprendimento profondo che sarebbe stata impensabile solo cinque anni fa. Un utente può far dire qualsiasi cosa all'IA, con la voce che ha programmato, semplicemente digitando.
"Una delle cose che ci sembrava quasi fantascienza è stata la capacità di riscrivere un errore che potresti aver commesso nel tuo lavoro di doppiaggio", dice LeBoeuf a Toptal. "Dici il nome del prodotto sbagliato, la data di rilascio sbagliata e di solito dovresti rifare l'intera presentazione o almeno una parte ampia di essa."
Un utente può far dire qualsiasi cosa all'IA, con la voce che ha programmato, semplicemente digitando.
La clonazione vocale e la tecnologia Overdub possono far risparmiare ai creatori di contenuti ore di editing e registrazione senza sacrificare la qualità. Pushkin Industries, la società dietro il popolare podcast Revisionist History di Malcolm Gladwell, utilizza Descript per generare una versione digitale della voce dell'ospite da utilizzare come doppiatore durante l'assemblaggio di un episodio. In precedenza, questo processo richiedeva che il vero Gladwell leggesse e registrasse i contenuti in modo che il team di produzione potesse controllare i tempi e il flusso di un episodio. Ci sono volute molte riprese e diverse ore di lavoro per produrre i risultati desiderati. L'uso di una voce digitale consente inoltre al team di apportare piccole correzioni editoriali più avanti nel processo.
Questa tecnologia viene utilizzata anche per le comunicazioni interne delle aziende, afferma LeBoeuf. Un client Descript, ad esempio, sta clonando le voci di tutti i relatori nei suoi video di formazione in modo che l'azienda possa modificare il contenuto in post-produzione senza tornare in studio. Il costo per produrre video di formazione varia da $ 1.000 a $ 10.000 al minuto, quindi la clonazione vocale potrebbe produrre enormi risparmi.
Proteggere la tua azienda dai crimini con voce clonata
Nonostante sia una tecnologia relativamente nuova, il mercato globale della clonazione vocale valeva 761,3 milioni di dollari nel 2020 e si prevede che raggiungerà i 3,8 miliardi di dollari entro il 2027. Startup come Respeecher, Resemble AI e Veritone offrono servizi simili a Descript; e aziende Big Tech come IBM, Google e Microsoft hanno investito molto nella propria ricerca e strumenti.
La continua evoluzione, crescita e disponibilità delle voci clonate è praticamente assicurata e i rapidi progressi tecnologici renderanno impossibile evitare gli attacchi informatici.
"Non puoi combattere i deepfake", afferma Ismael Peinado, un esperto di sicurezza informatica globale con due decenni di esperienza nella guida di team di sicurezza e tecnologia e Chief Technology Officer di Toptal. “Prima lo accetti, meglio è. Potrebbe non essere oggi, ma affronteremo il deepfake vocale o video perfetto. Nemmeno una forza lavoro completamente addestrata alla consapevolezza del rischio potrebbe essere in grado di individuare un falso".
Esistono soluzioni software specializzate per rilevare i deepfake, strumenti che utilizzano tecniche di deep learning per rilevare prove di contraffazione in tutti i tipi di contenuti. Ma ogni esperto che abbiamo consultato ha ignorato tali investimenti. La velocità con cui la tecnologia si sta evolvendo significa che le tecniche di rilevamento sono rapidamente obsolete.
"In definitiva è una battaglia persa perseguire puramente il rilevamento", dice a Toptal Andy Parsons, direttore senior della Content Authenticity Initiative (CAI) di Adobe. "Per dirla senza mezzi termini, i cattivi vincerebbero perché non devono creare open source i loro set di dati o i loro modelli addestrati".
Allora qual è la soluzione?
Allontanarsi dall'e-mail
“In primo luogo, smetti di usare la posta elettronica per le comunicazioni interne. Il novanta percento dei tuoi problemi di sicurezza svanirà", afferma Peinado. La maggior parte degli attacchi di phishing, compresi quelli volti ad ottenere l'accesso a spazi aziendali privati come Zoom, hanno origine con le e-mail. “Quindi usa uno strumento diverso per comunicare internamente, come Slack; impostare protocolli di sicurezza aggressivi per ogni email ricevuta; e cambiare la cultura della sicurezza informatica per affrontare le vulnerabilità più critiche. 'Se ricevi un'e-mail o un SMS, non fidarti'; questa è la nostra politica e ogni membro dell'organizzazione lo sa. Questa singola azione è più potente del miglior antivirus sul mercato".
Vai al cloud
Peinado afferma inoltre che tutti gli strumenti di comunicazione e collaborazione dovrebbero essere sul cloud e includere l'autenticazione a più fattori. Questo è il modo più efficace per ridurre il pericolo di identità false perché riduce significativamente i punti di accesso ai dati aziendali critici. Anche se il laptop del tuo CEO viene rubato, il rischio che un attore malintenzionato possa usarlo per accedere alle informazioni dell'azienda o organizzare un attacco deepfake sarebbe minimo.
Supporta gli sforzi di provenienza digitale
"Man mano che le cose diventano più fotorealistiche e audio-realistiche, abbiamo bisogno di un'altra base su Internet stessa per rappresentare la verità o fornire trasparenza ai consumatori e ai verificatori di fatti", afferma Parsons. A tal fine, CAI di Adobe, un'alleanza di creatori, tecnici e giornalisti fondata nel 2019 in collaborazione con Twitter e il New York Times, ha unito le forze con Microsoft, Intel e altri importanti attori per sviluppare un framework standard per l'attribuzione dei contenuti e provenienza digitale. Incorpora informazioni inalterabili, come ora, autore e tipo di dispositivo utilizzato, ogni volta che viene creato o modificato contenuto digitale.
La funzione di questo framework è promuovere un ambiente sicuro per la creazione di contenuti con l'IA. Anche le piattaforme per riunioni virtuali potrebbero integrare questa tecnologia per dimostrare che un chiamante è chi afferma di essere, indipendentemente dalla voce che i partecipanti pensano di sentire. “Tra i membri del corpo dello standard, abbiamo Intel, Arm e altri produttori che esaminano potenziali implementazioni hardware, in modo che i dispositivi di acquisizione di ogni tipo, comprese le telecamere di streaming, i dispositivi audio e lo stesso hardware del computer, possano trarne vantaggio. Speriamo e ci aspettiamo di vedere quell'adozione", afferma Parsons.
Investi nella valutazione delle minacce e nell'istruzione
Senza strumenti tecnologici a portata di mano, azioni di sicurezza strategica limitate e un nemico che diventa ogni giorno più grande e più saggio, non ci sono proiettili d'argento. Ma la collaborazione tra governi, università e settore privato mira a proteggere le imprese e la società in generale, afferma Beridze.
"I governi dovrebbero adottare programmi nazionali di sicurezza informatica e dovrebbero fare valutazioni molto approfondite delle loro esigenze e vantaggi competitivi", afferma. "La stessa cosa vale per il settore privato: che si tratti di piccole, medie o grandi imprese, devono investire nella valutazione e nella conoscenza delle minacce".
Iniziative come il quadro standard del CAI richiedono un'adozione massiccia per avere successo e ciò richiederà tempo. Per ora, i leader devono dare la priorità alla riduzione della superficie di attacco della loro organizzazione e alla diffusione del messaggio che i ladri armati di voci clonate stanno trollando per le vittime.