Pleins feux sur la cybersécurité : préparer votre organisation à la fraude par Deepfake Voice Clone

Publié: 2022-07-22

Vous avez entendu parler de deepfakes : des photos ou des vidéos qui montrent une personnalité publique ou une célébrité (comme Tom Cruise ou Will Smith) quelque part où elle n'a jamais été, en train de faire quelque chose qu'elle n'a jamais fait. Mais vous ne savez peut-être pas qu'une classe émergente d'outils d'apprentissage automatique rend possible ce même type de contrefaçon pour l'audio.

Les technologies de synthèse vocale ont parcouru un long chemin depuis le Voder, dévoilé par Bell Labs en 1939. Ce bourdonnement robotique autrefois contrôlé par un opérateur à l'aide de touches et de pédales a évolué vers des voix numériques qui ne se distinguent pas de la réalité, alimentées par l'intelligence artificielle. La technologie de synthèse vocale disponible actuellement est si réaliste et accessible que les ingénieurs du son l'utilisent pour dupliquer le discours des animateurs de podcast ou des acteurs de la voix et ajouter de nouvelles informations au contenu sans enregistrer un mot.

Cette technologie est également utilisée par les cybercriminels et les fraudeurs, obligeant les organisations de tous les secteurs à adopter de nouveaux modèles de cybersécurité pour minimiser les risques inévitables.

Un chœur de cambrioleurs en plein essor

En 2019, dans le premier cas connu de fraude par clone de voix, des voleurs ont recréé la voix d'un dirigeant de la société mère d'une entreprise énergétique britannique non divulguée. Lorsque le PDG de l'entreprise a reçu un appel du « cadre », il a reconnu l'accent allemand et la cadence d'élocution de son collègue, et a rapidement effectué le transfert de fonds urgent comme demandé. Les escrocs ont repris contact quelques heures plus tard pour tenter un deuxième vol, mais cette fois, le PDG a remarqué que l'appel provenait d'un endroit inconnu et est devenu suspect.

Tous les ingrédients sont réunis pour une utilisation massive de la technologie de clonage de la voix à des fins malveillantes.

Début 2022, le FBI a publié un rapport alertant le public sur une nouvelle technique d'escroquerie sur les plateformes de rencontres virtuelles. Après avoir pris le contrôle de la connexion d'un cadre, les attaquants invitent les employés à une réunion où ils déploient une voix clonée, affirment que leur vidéo ne fonctionne pas et demandent des informations restreintes ou un transfert de fonds d'urgence.

L'apparition soudaine de fraudes au clonage de voix sonne l'alarme dans le monde entier. Selon Irakli Beridze, responsable du Centre sur l'intelligence artificielle et la robotique à l'Institut interrégional de recherche des Nations unies sur la criminalité et la justice (UNICRI), tous les ingrédients sont réunis pour une adaptation massive de cette technologie à des fins malveillantes. "Que ce soit pour avoir commis une fraude, encadré des gens, fait dérailler des processus politiques ou sapé des structures politiques, tout cela est dans le domaine du possible", a-t-il déclaré à Toptal.

Ce graphique raconte l'histoire d'un braquage de banque de voix clonées de 35 millions de dollars à Hong Kong. En 2020, un directeur de banque reçoit un appel d'une personne dont il reconnaît la voix : le directeur d'une entreprise cliente. Le directeur dit au directeur de la banque qu'il a besoin d'un transfert de fonds urgent et dit qu'un avocat nommé Martin Zelner assurera la coordination. Le directeur de la banque reçoit plusieurs courriels de Zelner par la suite, dont un avec une lettre qui semble provenir du directeur de la société cliente autorisant le transfert de fonds. Sûr de l'identité de l'appelant et ayant reçu les documents nécessaires par e-mail, le directeur de la banque transfère 35 millions de dollars sur plusieurs comptes. Mais Zelner n'était pas un vrai avocat. La voix était un clone deepfake. Un groupe de 17 criminels avait orchestré avec succès un vol sophistiqué. Leur arme de prédilection était l'IA.

Se faire passer pour un cadre supérieur d'une organisation afin de commettre une fraude a coûté aux entreprises du monde entier plus de 26 milliards de dollars entre 2016 et 2019, selon l'Internet Crime Complaint Center du FBI. Et ce ne sont là que les cas signalés aux forces de l'ordre - la plupart des victimes gardent ces attaques secrètes pour protéger leur réputation.

Les criminels apprennent aussi vite, alors même si l'incidence de la fraude par clone vocal est faible maintenant, cela pourrait bientôt changer. "Il y a cinq ans, même le terme 'deepfake' n'était pas du tout utilisé", déclare Beridze. « À partir de ce moment, nous sommes passés d'un contenu vocal ou visuel généré automatiquement très imprécis et très primitif à des deepfakes extrêmement précis. Si vous analysez la tendance d'un point de vue historique, cela s'est produit du jour au lendemain. Et c'est un phénomène extrêmement dangereux. Nous n'avons pas encore vu son plein potentiel.

Faire des faux

Les deepfakes audio fonctionnent sur des réseaux de neurones. Contrairement aux algorithmes traditionnels, dans lesquels un programmeur humain doit prédéfinir chaque étape d'un processus de calcul, les réseaux de neurones permettent aux logiciels d'apprendre à effectuer une tâche prescrite en analysant des exemples : alimenter un réseau de reconnaissance d'objets avec 10 000 images de girafes, étiqueter le contenu "girafe", et le réseau finira par apprendre à identifier ce mammifère particulier même dans les images avec lesquelles il n'a jamais été nourri auparavant.

Le problème avec ce modèle était qu'il nécessitait des ensembles de données volumineux, soigneusement organisés et étiquetés, et des questions très étroites auxquelles répondre, ce qui nécessitait des mois de planification, de correction et d'affinement par des programmeurs humains. Cela a changé rapidement après l'introduction des réseaux antagonistes génératifs (GAN) en 2014. Considérez un GAN comme deux réseaux de neurones en un qui apprennent en se testant et en se donnant des commentaires. Les GAN peuvent générer et évaluer rapidement des millions d'images, obtenant de nouvelles informations à chaque étape du processus avec peu d'intervention humaine.

Les GAN fonctionnent également avec des formes d'onde audio : donnez à un GAN un certain nombre d'heures de parole humaine, et il commencera à reconnaître les modèles. Entrez suffisamment de discours d'un humain en particulier, et il apprendra ce qui rend cette voix unique.

Utilisations du chapeau blanc pour la synthèse vocale Deepfake

Descript, un outil d'édition et de transcription audio fondé par Andrew Mason de Groupon avec un investissement initial d'Andreessen Horowitz, peut identifier l'équivalent de l'ADN dans chaque voix avec seulement quelques minutes d'échantillon audio. Ensuite, le logiciel peut produire une copie de cette voix, en incorporant de nouveaux mots mais en conservant le style de l'orateur, explique Jay LeBoeuf, responsable du développement commercial et corporatif de la société.

La fonctionnalité la plus populaire de Descript, Overdub, non seulement clone la voix, mais permet également à l'utilisateur de modifier la parole de la même manière qu'il modifierait un document. Coupez un mot ou une phrase et il disparaît de l'audio. Tapez du texte supplémentaire, et il est ajouté en tant que mots prononcés. Cette technique, appelée inpainting de la parole informée par le texte, est une percée révolutionnaire en matière d'apprentissage en profondeur qui aurait été impensable il y a seulement cinq ans. Un utilisateur peut faire dire n'importe quoi à l'IA, quelle que soit la voix qu'il a programmée, simplement en tapant.

"L'une des choses qui nous semblaient presque de la science-fiction était la possibilité de retaper une erreur que vous auriez pu commettre dans votre travail de voix off", a déclaré LeBoeuf à Toptal. "Vous dites le mauvais nom de produit, la mauvaise date de sortie, et vous devriez généralement refaire toute la présentation ou au moins une grande partie de celle-ci."

Un utilisateur peut faire dire n'importe quoi à l'IA, quelle que soit la voix qu'il a programmée, simplement en tapant.

Le clonage de la voix et la technologie Overdub peuvent faire gagner aux créateurs de contenu des heures d'édition et d'enregistrement sans sacrifier la qualité. Pushkin Industries, la société à l'origine du célèbre podcast Revisionist History de Malcolm Gladwell, utilise Descript pour générer une version numérique de la voix de l'hôte à utiliser comme doubleur lors de l'assemblage d'un épisode. Auparavant, ce processus nécessitait que le vrai Gladwell lise et enregistre le contenu afin que l'équipe de production puisse vérifier le timing et le déroulement d'un épisode. Il a fallu de nombreuses prises et plusieurs heures de travail pour produire les résultats escomptés. L'utilisation d'une voix numérique permet également à l'équipe de faire de petites corrections éditoriales plus tard dans le processus.

Cette technologie est également utilisée pour les communications internes des entreprises, dit LeBoeuf. Un client de Descript, par exemple, clone les voix de tous les intervenants dans ses vidéos de formation afin que l'entreprise puisse modifier le contenu en post-production sans retourner en studio. Le coût de production des vidéos de formation varie de 1 000 $ à 10 000 $ par minute, de sorte que le clonage vocal pourrait générer d'énormes économies.

Protégez votre entreprise contre les crimes à voix clonée

Bien qu'il s'agisse d'une technologie relativement nouvelle, le marché mondial du clonage de voix valait 761,3 millions de dollars en 2020 et devrait atteindre 3,8 milliards de dollars d'ici 2027. Des startups comme Respeecher, Resemble AI et Veritone offrent des services similaires à Descript ; et les grandes entreprises de technologie comme IBM, Google et Microsoft ont investi massivement dans leurs propres recherches et outils.

L'évolution, la croissance et la disponibilité continues des voix clonées sont pratiquement assurées, et les progrès rapides de la technologie rendront les cyberattaques impossibles à éviter.

Cette grille montre huit utilisations malveillantes potentielles des deepfakes audio contre les entreprises : Détruire l'image et la crédibilité d'un individu ; perpétrer l'extorsion et la fraude ; faciliter la fraude documentaire; falsifier les identités en ligne et tromper les mécanismes de connaissance du client (KYC) ; falsification ou manipulation de preuves électroniques pour des enquêtes judiciaires pénales ; perturber les marchés financiers ; diffuser de la désinformation et influencer l'opinion publique ; et caressant les troubles sociaux et la polarisation politique.

"Vous ne pouvez pas lutter contre les deepfakes", déclare Ismael Peinado, un expert mondial en cybersécurité avec deux décennies d'expérience dans la direction d'équipes de sécurité et de technologie, et directeur de la technologie de Toptal. « Plus tôt vous l'acceptez, mieux c'est. Ce n'est peut-être pas aujourd'hui, mais nous serons confrontés au deepfake vocal ou vidéo parfait. Même une main-d'œuvre parfaitement formée à la sensibilisation aux risques ne sera peut-être pas en mesure de détecter un faux.

Il existe des solutions logicielles spécialisées pour détecter les deepfakes, des outils qui utilisent des techniques d'apprentissage en profondeur pour détecter des preuves de falsification dans toutes sortes de contenus. Mais tous les experts que nous avons consultés ont ignoré ces investissements. La vitesse à laquelle la technologie évolue signifie que les techniques de détection sont rapidement dépassées.

"C'est en fin de compte une bataille perdue d'avance pour poursuivre la détection uniquement", a déclaré Andy Parsons, directeur principal de la Content Authenticity Initiative (CAI) d'Adobe, à Toptal. "Pour le dire franchement, les méchants gagneraient parce qu'ils n'ont pas à ouvrir leurs ensembles de données ou leurs modèles entraînés."

Alors, quelle est la solution ?

Éloignez-vous des e-mails

"Premièrement, arrêtez d'utiliser le courrier électronique pour la communication interne. Quatre-vingt-dix pour cent de vos problèmes de sécurité disparaîtront », déclare Peinado. La plupart des attaques de phishing, y compris celles visant à accéder à des espaces d'entreprises privées comme Zoom, proviennent d'e-mails. « Utilisez donc un outil différent pour communiquer en interne, comme Slack ; définir des protocoles de sécurité agressifs pour chaque e-mail reçu ; et changer la culture de la cybersécurité pour remédier aux vulnérabilités les plus critiques. 'Si vous recevez un e-mail ou un SMS, ne vous y fiez pas'; c'est notre politique, et chaque membre de l'organisation le sait. Cette action unique est plus puissante que le meilleur antivirus du marché.

Adoptez le Cloud

Peinado indique également que tous les outils de communication et de collaboration doivent être sur le cloud et inclure une authentification multifacteur. C'est le moyen le plus efficace de réduire le risque de fausses identités, car il réduit considérablement les points d'entrée des données critiques de l'entreprise. Même si l'ordinateur portable de votre PDG est volé, le risque qu'un acteur malveillant puisse l'utiliser pour accéder aux informations de l'entreprise ou organiser une attaque contrefaite serait minime.

Soutenir les efforts de provenance numérique

"Alors que les choses deviennent plus photo-réalistes et audio-réalistes, nous avons besoin d'une autre fondation sur Internet pour représenter la vérité ou fournir de la transparence aux consommateurs et aux vérificateurs de faits", déclare Parsons. À cette fin, le CAI d'Adobe, une alliance de créateurs, de technologues et de journalistes fondée en 2019 en partenariat avec Twitter et le New York Times, s'est associé à Microsoft, Intel et d'autres acteurs majeurs pour développer un cadre standard d'attribution de contenu et provenance numérique. Il intègre des informations inaltérables, telles que l'heure, l'auteur et le type d'appareil utilisé, chaque fois que du contenu numérique est créé ou modifié.

La fonction de ce cadre est de favoriser un environnement sûr pour la création de contenu avec l'IA. Même les plates-formes de réunion virtuelles pourraient intégrer cette technologie pour prouver qu'un appelant est bien celui qu'il prétend être, quelle que soit la voix que les participants pensent entendre. "Parmi les membres du corps de la norme, nous avons Intel, Arm et d'autres fabricants qui étudient les implémentations matérielles potentielles, afin que les périphériques de capture de toutes sortes, y compris les caméras de streaming, les périphériques audio et le matériel informatique lui-même, puissent en bénéficier. Nous espérons et nous nous attendons à voir cette adoption », déclare Parsons.

Investir dans l'évaluation des menaces et l'éducation

En l'absence d'outils technologiques à portée de main, d'actions de sécurité stratégiques limitées et d'un ennemi qui devient plus grand et plus sage de jour en jour, il n'y a pas de solution miracle. Mais la collaboration entre les gouvernements, les universités et le secteur privé vise à protéger les entreprises et la société dans son ensemble, déclare Beridze.

"Les gouvernements devraient adopter des programmes nationaux de cybersécurité et procéder à des évaluations très approfondies de leurs besoins et de leurs avantages concurrentiels", a-t-il déclaré. "La même chose vaut pour le secteur privé : qu'il s'agisse de petites, moyennes ou grandes entreprises, elles doivent investir dans l'évaluation des menaces et les connaissances."

Des initiatives comme le cadre standard du CAI nécessitent une adoption massive pour réussir, et cela prendra du temps. Pour l'instant, les dirigeants doivent donner la priorité à la réduction de la surface d'attaque de leur organisation et à la diffusion du message selon lequel des voleurs armés de voix clonées recherchent des victimes.