În atenția securității cibernetice: pregătiți-vă organizația pentru frauda cu clonări vocale false

Publicat: 2022-07-22

Ați auzit de deepfake - fotografii sau videoclipuri care arată o persoană publică sau o celebritate (cum ar fi Tom Cruise sau Will Smith) unde nu au fost niciodată, făcând ceva ce nu au făcut niciodată. Dar este posibil să nu știți că o clasă emergentă de instrumente de învățare automată face posibil același tip de falsificare pentru audio.

Tehnologiile de sinteză a vorbirii au parcurs un drum lung de la Voder, dezvăluit de Bell Labs în 1939. Acel droning robotizat controlat cândva de un operator folosind taste și pedale a evoluat în voci digitale care nu se pot distinge de lucrul real - alimentat de inteligența artificială. Tehnologia de sinteză a vorbirii disponibilă acum este atât de realistă și accesibilă încât inginerii audio o folosesc pentru a duplica vorbirea gazdelor de podcast sau a actorilor vocali și pentru a adăuga informații noi la conținut fără a înregistra un cuvânt.

Această tehnologie este folosită și de infractorii cibernetici și de fraudatori, forțând organizațiile din fiecare industrie să adopte noi modele de securitate cibernetică pentru a minimiza riscurile inevitabile.

Un cor de hoți în ascensiune

În 2019, în primul caz cunoscut de fraudă a clonelor de voce, hoții au recreat vocea unui director de la compania-mamă a unei firme energetice nedezvăluite din Marea Britanie. Când CEO-ul companiei a primit un apel de la „executiv”, a recunoscut accentul german și cadența de vorbire a colegului său și a efectuat rapid transferul urgent de fond, așa cum a fost solicitat. Escrocii au luat contact din nou câteva ore mai târziu pentru a încerca un al doilea furt, dar de data aceasta, CEO-ul a observat că apelul venea dintr-o locație necunoscută și a devenit suspect.

Toate ingredientele sunt la locul lor pentru utilizarea masivă a tehnologiei de clonare a vocii în scopuri rău intenționate.

La începutul anului 2022, FBI a publicat un raport care avertizează publicul cu privire la o nouă tehnică de escrocherie pe platformele de întâlnire virtuale. După ce preiau controlul asupra login-ului unui director, atacatorii invită angajații la o întâlnire în care implementează o voce clonată, susțin că videoclipul lor nu funcționează și cer informații restricționate sau un transfer de fonduri de urgență.

Apariția bruscă a fraudelor cu clonarea vocii trage alarme pe tot globul. Potrivit lui Irakli Beridze, șeful Centrului pentru Inteligență Artificială și Robotică de la Institutul de Cercetare a Crimei și Justiției Interregionale al Națiunilor Unite (UNICRI), toate ingredientele sunt la locul lor pentru o adaptare masivă a acestei tehnologii în scopuri rău intenționate. „Fie că este vorba despre comiterea de fraude, încadrarea oamenilor, deraiarea proceselor politice sau subminarea structurilor politice, totul este în sfera posibilităților”, spune el pentru Toptal.

Acest grafic spune povestea unui furt bancar cu voce clonată de 35 de milioane de dolari în Hong Kong. În 2020, un manager de bancă a primit un apel de la o persoană a cărei voce a recunoscut-o: directorul unei companii client. Directorul îi spune managerului băncii că are nevoie de un transfer de fonduri urgent și spune că un avocat pe nume Martin Zelner va coordona. Managerul băncii primește apoi mai multe e-mailuri de la Zelner, inclusiv unul cu o scrisoare care pare să fie de la directorul companiei client care autorizează transferul de fonduri. Încrezător în identitatea apelantului și după ce a primit documentele necesare prin e-mail, managerul băncii transferă 35 de milioane de dolari în mai multe conturi. Dar Zelner nu era un avocat adevărat. Vocea era o clonă deepfake. Un grup de 17 infractori orchestrase cu succes un furt sofisticat. Arma aleasă de ei a fost AI.

Uzurparea identității unui director de top al unei organizații pentru a comite fraude a costat companiile din întreaga lume peste 26 de miliarde de dolari între 2016 și 2019, potrivit Centrului de plângeri pentru infracțiunile pe Internet al FBI. Și acestea sunt doar cazurile raportate forțelor de ordine – majoritatea victimelor păstrează astfel de atacuri sub secret pentru a-și proteja reputația.

Criminalii învață și ei repede, așa că, deși incidența fraudei clonelor de voce este scăzută acum, acest lucru s-ar putea schimba în curând. „Acum cinci ani, nici măcar termenul „deepfake” nu era folosit deloc”, spune Beridze. „Din acel moment, am trecut de la conținut vocal sau vizual foarte inexact, foarte primitiv, generat automat, la deepfake-uri extrem de precise. Dacă analizezi tendința din punct de vedere istoric, asta s-a întâmplat peste noapte. Și acesta este un fenomen extrem de periculos. Nu i-am văzut încă potențialul maxim.”

Făcând falsuri

Deepfake-urile audio rulează pe rețelele neuronale. Spre deosebire de algoritmii tradiționali, în care un programator uman trebuie să predefinite fiecare pas al unui proces de calcul, rețelele neuronale permit software-ului să învețe să îndeplinească o sarcină prescrisă prin analizarea exemplelor: hrănește o rețea de recunoaștere a obiectelor cu 10.000 de imagini de girafe, etichetează conținutul „girafă”; iar rețeaua va învăța în cele din urmă să identifice acel anumit mamifer chiar și în imagini cu care nu a mai fost hrănit niciodată.

Problema cu acest model era că avea nevoie de seturi de date mari, îngrijite și etichetate cu atenție și de întrebări foarte restrânse la care să se răspundă, toate acestea fiind nevoie de luni de planificare, corectare și perfecționare de către programatori umani. Acest lucru s-a schimbat rapid după introducerea rețelelor adverse generative (GAN) în 2014. Gândiți-vă la un GAN ca la două rețele neuronale într-una care învață testând și oferindu-și feedback reciproc. GAN-urile pot genera și evalua rapid milioane de imagini, obținând informații noi la fiecare pas, fără nevoie de intervenție umană.

GAN-urile funcționează și cu forme de undă audio: Oferă unui GAN un număr de ore de vorbire umană și va începe să recunoască modele. Introduceți suficientă vorbire de la un anumit om și va afla ce face acea voce unică.

Utilizări de pălărie albă pentru sinteza vorbirii deepfake

Descript, un instrument de editare și transcriere audio fondat de Andrew Mason de la Groupon cu o investiție de bază de la Andreessen Horowitz, poate identifica echivalentul ADN-ului în fiecare voce cu doar câteva minute de eșantion audio. Apoi, software-ul poate produce o copie a acelei voci, încorporând cuvinte noi, dar păstrând stilul vorbitorului, spune Jay LeBoeuf, șeful departamentului de afaceri și dezvoltare corporativă al companiei.

Cea mai populară caracteristică a lui Descript, Overdub, nu numai că clonează vocea, ci și permite utilizatorului să editeze vorbirea în același mod în care ar edita un document. Tăiați un cuvânt sau o expresie și aceasta dispare din audio. Introdu text suplimentar și este adăugat ca cuvinte rostite. Această tehnică, numită text-informed speech inpainting, este o descoperire revoluționară de învățare profundă care ar fi fost de neconceput cu doar cinci ani în urmă. Un utilizator poate face ca AI să spună orice, indiferent de vocea pe care a programat-o, doar tastând.

„Unul dintre lucrurile care ni s-au părut aproape SF a fost abilitatea de a reintroduce o greșeală pe care ați putea-o fi făcut-o în munca voastră de voce off”, îi spune LeBoeuf pentru Toptal. „Spuneți numele de produs greșit, data de lansare greșită și, de obicei, va trebui să refaceți întreaga prezentare sau cel puțin o mare parte a acesteia.”

Un utilizator poate face ca AI să spună orice, indiferent de vocea pe care a programat-o, doar tastând.

Clonarea vocii și tehnologia Overdub pot economisi creatorilor de conținut ore de editare și înregistrare fără a sacrifica calitatea. Pushkin Industries, compania din spatele popularului podcast Revisionist History al lui Malcolm Gladwell, folosește Descript pentru a genera o versiune digitală a vocii gazdei pe care să o folosească ca actor vocal de substituție în timpul asamblarii unui episod. Anterior, acest proces solicita ca adevăratul Gladwell să citească și să înregistreze conținut, astfel încât echipa de producție să poată verifica sincronizarea și fluxul unui episod. A fost nevoie de multe și câteva ore de muncă pentru a obține rezultatele dorite. Utilizarea unei voci digitale eliberează, de asemenea, echipa să facă mici remedieri editoriale mai târziu în proces.

Această tehnologie este folosită și pentru comunicațiile interne ale companiilor, spune LeBoeuf. Un client Descript, de exemplu, clonează vocile tuturor vorbitorilor din videoclipurile sale de instruire, astfel încât compania să poată modifica conținutul în post-producție fără a se întoarce în studio. Costul producerii videoclipurilor de antrenament variază între 1.000 USD și 10.000 USD pe minut, astfel încât clonarea vocii ar putea aduce economii enorme.

Protejează-ți afacerea de crimele cu voce clonată

În ciuda faptului că este o tehnologie relativ nouă, piața globală pentru clonarea vocii valora 761,3 milioane USD în 2020 și se estimează că va ajunge la 3,8 miliarde USD până în 2027. Startup-uri precum Respeecher, Resemble AI și Veritone oferă servicii similare cu Descript; și companiile Big Tech precum IBM, Google și Microsoft au investit mult în propriile lor cercetări și instrumente.

Evoluția continuă, creșterea și disponibilitatea vocilor clonate este practic asigurată, iar progresele rapide ale tehnologiei vor face ca atacurile cibernetice să fie imposibil de evitat.

Această grilă arată opt utilizări potențiale rău intenționate ale deepfake-urilor audio împotriva companiilor: Distrugerea imaginii și credibilității unui individ; săvârșirea de extorcare și fraudă; facilitarea fraudei documentelor; falsificarea identităților online și păcălirea mecanismelor know-you-customer (KYC); falsificarea sau manipularea probelor electronice pentru investigațiile de justiție penală; perturbarea piețelor financiare; distribuirea dezinformarii si influentarea opiniei publice; și mângâiind tulburările sociale și polarizarea politică.

„Nu poți lupta împotriva deepfakes”, spune Ismael Peinado, un expert global în securitate cibernetică cu două decenii de experiență în conducerea echipelor de securitate și tehnologie și Chief Technology Officer al Toptal. „Cu cât o accepți mai devreme, cu atât mai bine. Poate că nu va fi astăzi, dar ne vom confrunta cu vocea perfectă sau deepfake video. Nici măcar o forță de muncă pe deplin instruită în conștientizarea riscurilor nu poate fi capabilă să descopere un fals.”

Există soluții software specializate pentru a detecta deepfake-urile, instrumente care folosesc tehnici de deep-learning pentru a prinde dovezi de fals în tot felul de conținut. Dar fiecare expert pe care l-am consultat a ignorat astfel de investiții. Viteza cu care tehnologia evoluează înseamnă că tehnicile de detectare sunt rapid depășite.

„În cele din urmă, este oarecum o bătălie pierdută să urmărești doar detectarea”, spune Andy Parsons, director senior al Adobe Content Authenticity Initiative (CAI), pentru Toptal. „Pentru a spune clar, băieții răi ar câștiga pentru că nu trebuie să-și deschidă seturile de date sau modelele antrenate.”

Deci care este soluția?

Îndepărtează-te de e-mail

„În primul rând, nu mai folosiți e-mailul pentru comunicarea internă. Nouăzeci la sută din preocupările dumneavoastră de securitate vor dispărea”, spune Peinado. Cele mai multe atacuri de tip phishing, inclusiv cele care vizează obținerea accesului la spații private ale companiei, cum ar fi Zoom, provin din e-mailuri. „Deci folosiți un alt instrument pentru a comunica intern, cum ar fi Slack; stabiliți protocoale de securitate agresive pentru fiecare e-mail primit; și să schimbe cultura securității cibernetice pentru a aborda cele mai critice vulnerabilități. „Dacă primești un e-mail sau un SMS, nu ai încredere în el”; aceasta este politica noastră și fiecare membru al organizației o știe. Această singură acțiune este mai puternică decât cel mai bun antivirus de pe piață.”

Du-te la nor

Peinado spune, de asemenea, că toate instrumentele de comunicare și colaborare ar trebui să fie pe cloud și să includă autentificarea multifactorială. Acesta este cel mai eficient mod de a reduce pericolul identităților false, deoarece reduce semnificativ punctele de intrare pentru datele de afaceri critice. Chiar dacă laptopul CEO-ului tău este furat, riscul ca un actor rău intenționat să-l folosească pentru a accesa informațiile companiei sau pentru a organiza un atac deepfake ar fi minim.

Susține eforturile de proveniență digitală

„Pe măsură ce lucrurile devin din ce în ce mai foto-realiste și audio-realiste, avem nevoie de o altă bază pe internet, care să descrie adevărul sau să ofere transparență consumatorilor și verificatorilor de fapte”, spune Parsons. În acest scop, CAI de la Adobe, o alianță de creatori, tehnologi și jurnaliști fondată în 2019 în parteneriat cu Twitter și New York Times, și-a unit forțele cu Microsoft, Intel și alți jucători importanți pentru a dezvolta un cadru standard pentru atribuirea conținutului și proveniența digitală. Acesta încorporează informații inalterabile, cum ar fi ora, autorul și tipul de dispozitiv utilizat, de fiecare dată când conținutul digital este creat sau modificat.

Funcția acestui cadru este de a promova un mediu sigur pentru crearea de conținut cu AI. Chiar și platformele virtuale de întâlnire ar putea integra această tehnologie pentru a dovedi că un apelant este cine pretinde că este, indiferent de vocea celor care cred că aud. „Printre membrii corpului standardului, avem Intel, Arm și alți producători care se uită la potențiale implementări hardware, astfel încât dispozitivele de captură de toate tipurile – inclusiv camerele de streaming, dispozitivele audio și hardware-ul computerului în sine – să poată beneficia. Sperăm și ne așteptăm să vedem această adoptare”, spune Parsons.

Investește în evaluarea amenințărilor și educație

Fără instrumente tehnologice la îndemână, acțiuni strategice limitate de securitate și un inamic care devine din ce în ce mai mare și mai înțelept pe zi ce trece, nu există gloanțe de argint. Dar colaborarea dintre guverne, mediul academic și sectorul privat urmărește să protejeze întreprinderile și societatea în general, spune Beridze.

„Guvernele ar trebui să adopte programe naționale de securitate cibernetică și ar trebui să facă evaluări foarte amănunțite ale nevoilor și avantajelor lor competitive”, spune el. „Același lucru este valabil și cu sectorul privat: fie că sunt întreprinderi mici, mijlocii sau mari, trebuie să investească în evaluarea amenințărilor și în cunoștințe.”

Inițiative precum cadrul standard al CAI necesită o adoptare masivă pentru a avea succes, iar asta va dura timp. Deocamdată, liderii trebuie să acorde prioritate reducerii suprafeței de atac a organizației lor și răspândirii mesajului că hoții înarmați cu voci clonate caută victime.