Cybersecurity Spotlight: Vorbereitung Ihres Unternehmens auf Deepfake-Voice-Clone-Betrug

Veröffentlicht: 2022-07-22

Sie haben schon von Deepfakes gehört – Fotos oder Videos, die eine Person des öffentlichen Lebens oder eine Berühmtheit (wie Tom Cruise oder Will Smith) an einem Ort zeigen, an dem sie nie waren und etwas tun, was sie nie getan haben. Aber Sie wissen vielleicht nicht, dass eine aufstrebende Klasse von Werkzeugen für maschinelles Lernen die gleiche Art von Fälschung für Audio ermöglicht.

Sprachsynthesetechnologien haben seit dem Voder, der 1939 von Bell Labs vorgestellt wurde, einen langen Weg zurückgelegt. Dieses roboterhafte Dröhnen, das einst von einem Bediener mit Tasten und Pedalen gesteuert wurde, hat sich zu digitalen Stimmen entwickelt, die von der Realität nicht zu unterscheiden sind – angetrieben von künstlicher Intelligenz. Die jetzt verfügbare Sprachsynthesetechnologie ist so realistisch und zugänglich, dass Audioingenieure sie verwenden, um die Sprache von Podcast-Moderatoren oder Synchronsprechern zu duplizieren und dem Inhalt neue Informationen hinzuzufügen, ohne ein Wort aufzuzeichnen.

Diese Technologie wird auch von Cyberkriminellen und Betrügern eingesetzt und zwingt Unternehmen in allen Branchen, neue Cybersicherheitsmodelle einzuführen, um die unvermeidbaren Risiken zu minimieren.

Ein Chor von Einbrechern auf dem Vormarsch

Im Jahr 2019 stellten Diebe im ersten bekannten Fall von Voice-Clone-Betrug die Stimme einer Führungskraft der Muttergesellschaft eines unbekannten britischen Energieunternehmens nach. Als der Firmenchef einen Anruf von der „Führungskraft“ erhielt, erkannte er den deutschen Akzent und die Sprechweise seines Kollegen und veranlasste schnell die dringende Geldüberweisung. Die Betrüger nahmen einige Stunden später erneut Kontakt auf, um einen zweiten Diebstahl zu versuchen, aber diesmal bemerkte der CEO, dass der Anruf von einem unbekannten Ort kam, und wurde misstrauisch.

Alle Zutaten für den massiven Einsatz der Voice-Cloning-Technologie für böswillige Zwecke sind vorhanden.

Anfang 2022 veröffentlichte das FBI einen Bericht, der die Öffentlichkeit auf eine neue Betrugstechnik auf virtuellen Besprechungsplattformen aufmerksam machte. Nachdem die Angreifer die Kontrolle über das Login einer Führungskraft übernommen haben, laden sie Mitarbeiter zu einem Meeting ein, bei dem sie eine geklonte Stimme einsetzen, behaupten, dass ihr Video nicht funktioniert, und um eingeschränkte Informationen oder eine Notüberweisung von Geldern bitten.

Das plötzliche Auftauchen von Voice-Clone-Betrug löst weltweit Alarm aus. Laut Irakli Beridze, Leiter des Zentrums für künstliche Intelligenz und Robotik am Interregional Crime and Justice Research Institute der Vereinten Nationen (UNICRI), sind alle Zutaten für eine massive Anpassung dieser Technologie für böswillige Zwecke vorhanden. „Ob es nun darum geht, Betrug zu begehen, Menschen zu beschuldigen, politische Prozesse zum Scheitern zu bringen oder politische Strukturen zu untergraben, das liegt alles im Bereich des Möglichen“, sagt er zu Toptal.

Diese Grafik erzählt die Geschichte eines 35-Millionen-Dollar-Banküberfalls mit geklonter Stimme in Hongkong. Im Jahr 2020 erhielt ein Bankmanager einen Anruf von einer Person, deren Stimme er kannte: Der Direktor eines Kundenunternehmens. Der Direktor teilt dem Bankdirektor mit, dass er dringend eine Geldüberweisung benötigt, und sagt, dass ein Anwalt namens Martin Zelner die Koordination übernehmen wird. Der Bankmanager erhält danach mehrere E-Mails von Zelner, darunter eine mit einem Schreiben, das anscheinend vom Direktor des Kundenunternehmens stammt und die Überweisung autorisiert. Im Vertrauen auf die Identität des Anrufers und nachdem er die erforderlichen Dokumente per E-Mail erhalten hat, überweist der Bankmanager 35 Millionen Dollar auf mehrere Konten. Aber Zelner war kein richtiger Jurist. Die Stimme war ein Deepfake-Klon. Eine Gruppe von 17 Kriminellen hatte erfolgreich einen ausgeklügelten Diebstahl orchestriert. Ihre bevorzugte Waffe war die KI.

Laut dem Beschwerdezentrum für Internetkriminalität des FBI hat es Unternehmen auf der ganzen Welt zwischen 2016 und 2019 mehr als 26 Milliarden US-Dollar gekostet, sich als Top-Manager einer Organisation auszugeben, um Betrug zu begehen. Und das sind nur die Fälle, die den Strafverfolgungsbehörden gemeldet werden – die meisten Opfer halten solche Angriffe unter Verschluss, um ihren Ruf zu schützen.

Auch Kriminelle lernen schnell, und obwohl die Häufigkeit von Sprachklonbetrug derzeit gering ist, könnte sich das bald ändern. „Vor fünf Jahren wurde nicht einmal der Begriff „Deepfake“ verwendet“, sagt Beridze. „Von diesem Zeitpunkt an gingen wir von sehr ungenauen, sehr primitiven automatisch generierten Sprach- oder visuellen Inhalten zu extrem genauen Deepfakes über. Wenn Sie den Trend aus historischer Sicht analysieren, geschah dies über Nacht. Und das ist ein äußerst gefährliches Phänomen. Wir haben noch nicht sein volles Potenzial gesehen.“

Fälschungen herstellen

Audio-Deepfakes laufen auf neuronalen Netzwerken. Im Gegensatz zu herkömmlichen Algorithmen, bei denen ein menschlicher Programmierer jeden Schritt eines Rechenprozesses vordefinieren muss, ermöglichen neuronale Netze der Software, durch die Analyse von Beispielen zu lernen, eine vorgeschriebene Aufgabe auszuführen: Füttere ein Objekterkennungsnetzwerk mit 10.000 Bildern von Giraffen, beschrifte den Inhalt mit „Giraffe“, und das Netzwerk wird schließlich lernen, dieses bestimmte Säugetier sogar in Bildern zu identifizieren, mit denen es noch nie zuvor gefüttert wurde.

Das Problem bei diesem Modell bestand darin, dass es große, sorgfältig kuratierte und gekennzeichnete Datensätze und sehr enge Fragen zur Beantwortung benötigte, die alle Monate der Planung, Korrektur und Verfeinerung durch menschliche Programmierer in Anspruch nahmen. Dies änderte sich schnell nach der Einführung von Generative Adversarial Networks (GANs) im Jahr 2014. Stellen Sie sich ein GAN als zwei neuronale Netzwerke in einem vor, die lernen, indem sie testen und sich gegenseitig Feedback geben. GANs können Millionen von Bildern schnell generieren und auswerten und bei jedem Schritt neue Informationen gewinnen, ohne dass ein menschliches Eingreifen erforderlich ist.

GANs arbeiten auch mit Audio-Wellenformen: Geben Sie einem GAN einige Stunden menschlicher Sprache, und es beginnt, Muster zu erkennen. Geben Sie genügend Sprache von einem bestimmten Menschen ein, und er lernt, was diese Stimme einzigartig macht.

White-Hat-Nutzung für Deepfake-Sprachsynthese

Descript, ein Audiobearbeitungs- und Transkriptionstool, das von Andrew Mason von Groupon mit einer Seed-Investition von Andreessen Horowitz gegründet wurde, kann das DNA-Äquivalent in jeder Stimme mit nur wenigen Minuten Audiobeispiel identifizieren. Dann kann die Software eine Kopie dieser Stimme erstellen, wobei neue Wörter integriert werden, aber der Stil des Sprechers beibehalten wird, sagt Jay LeBoeuf, Head of Business and Corporate Development des Unternehmens.

Die beliebteste Funktion von Descript, Overdub, klont nicht nur die Stimme, sondern ermöglicht es dem Benutzer auch, Sprache auf die gleiche Weise zu bearbeiten, wie er ein Dokument bearbeiten würde. Schneiden Sie ein Wort oder einen Satz aus und es verschwindet aus dem Audio. Geben Sie zusätzlichen Text ein, und er wird als gesprochenes Wort hinzugefügt. Diese Technik, die Text-informed Speech Inpainting genannt wird, ist ein revolutionärer Deep-Learning-Durchbruch, der noch vor fünf Jahren undenkbar gewesen wäre. Ein Benutzer kann die KI dazu bringen, alles zu sagen, mit welcher Stimme er auch programmiert hat, einfach durch Tippen.

„Eines der Dinge, die uns fast wie Science-Fiction erschienen, war die Möglichkeit, einen Fehler, den Sie möglicherweise in Ihrer Voiceover-Arbeit gemacht haben, erneut einzugeben“, sagt LeBoeuf zu Toptal. „Sie sagen den falschen Produktnamen, das falsche Veröffentlichungsdatum, und Sie müssten normalerweise die gesamte Präsentation oder zumindest einen großen Teil davon wiederholen.“

Ein Benutzer kann die KI dazu bringen, alles zu sagen, mit welcher Stimme er auch programmiert hat, einfach durch Tippen.

Voice-Cloning und Overdub-Technologie können Inhaltsersteller Stunden an Bearbeitungs- und Aufnahmezeit sparen, ohne die Qualität zu beeinträchtigen. Pushkin Industries, das Unternehmen hinter Malcolm Gladwells beliebtem Podcast „ Revisionist History “, verwendet Descript, um eine digitale Version der Stimme des Moderators zu generieren, die als Ersatz-Synchronsprecher beim Zusammenstellen einer Episode verwendet werden kann. Zuvor erforderte dieser Prozess, dass der echte Gladwell Inhalte liest und aufzeichnet, damit das Produktionsteam das Timing und den Ablauf einer Episode überprüfen konnte. Es dauerte viele Takes und mehrere Stunden Arbeit, um die gewünschten Ergebnisse zu erzielen. Die Verwendung einer digitalen Stimme gibt dem Team auch die Möglichkeit, später im Prozess kleine redaktionelle Korrekturen vorzunehmen.

Diese Technologie werde auch für die interne Kommunikation von Unternehmen eingesetzt, sagt LeBoeuf. Ein Descript-Kunde klont beispielsweise die Stimmen aller Sprecher in seinen Schulungsvideos, damit das Unternehmen den Inhalt in der Postproduktion ändern kann, ohne ins Studio zurückkehren zu müssen. Die Kosten für die Produktion von Schulungsvideos liegen zwischen 1.000 und 10.000 US-Dollar pro Minute, sodass das Klonen von Stimmen enorme Einsparungen bringen könnte.

Schützen Sie Ihr Unternehmen vor Verbrechen durch geklonte Stimme

Obwohl es sich um eine relativ neue Technologie handelt, war der globale Markt für das Klonen von Stimmen im Jahr 2020 761,3 Millionen US-Dollar wert und soll bis 2027 voraussichtlich 3,8 Milliarden US-Dollar erreichen. Startups wie Respeecher, Resemble AI und Veritone bieten ähnliche Dienste wie Descript an; und Big-Tech-Unternehmen wie IBM, Google und Microsoft haben stark in ihre eigene Forschung und ihre eigenen Tools investiert.

Die kontinuierliche Entwicklung, das Wachstum und die Verfügbarkeit von geklonten Stimmen ist praktisch gesichert, und die schnellen Fortschritte in der Technologie werden Cyberangriffe unmöglich machen.

Dieses Raster zeigt acht potenzielle böswillige Verwendungen von Audio-Deepfakes gegen Unternehmen: Zerstörung des Images und der Glaubwürdigkeit einer Person; Erpressung und Betrug; Erleichterung des Dokumentenbetrugs; Fälschung von Online-Identitäten und Täuschung von Know-You-Customer (KYC)-Mechanismen; Fälschen oder Manipulieren elektronischer Beweismittel für strafrechtliche Ermittlungen; Störung der Finanzmärkte; Verbreitung von Desinformationen und Beeinflussung der öffentlichen Meinung; und streichelte soziale Unruhen und politische Polarisierung.

„Du kannst Deepfakes nicht bekämpfen“, sagt Ismael Peinado, ein globaler Cybersicherheitsexperte mit zwei Jahrzehnten Erfahrung in der Leitung von Sicherheits- und Technologieteams und Chief Technology Officer von Toptal. „Je eher du es akzeptierst, desto besser. Es mag nicht heute sein, aber wir werden uns dem perfekten Sprach- oder Video-Deepfake stellen. Nicht einmal eine vollständig in Risikobewusstsein geschulte Belegschaft kann möglicherweise eine Fälschung erkennen.“

Es gibt Softwarelösungen, die darauf spezialisiert sind, Deepfakes zu erkennen, Tools, die Deep-Learning-Techniken verwenden, um Beweise für Fälschungen in allen Arten von Inhalten zu finden. Aber jeder Experte, den wir konsultierten, ignorierte solche Investitionen. Die Geschwindigkeit, mit der sich die Technologie weiterentwickelt, bedeutet, dass Erkennungstechniken schnell veraltet sind.

„Letztlich ist es ein verlorener Kampf, nur auf Erkennung zu setzen“, sagt Andy Parsons, Senior Director der Content Authenticity Initiative (CAI) von Adobe, gegenüber Toptal. „Um es ganz klar zu sagen, die Bösewichte würden gewinnen, weil sie ihre Datensätze oder ihre trainierten Modelle nicht als Open Source veröffentlichen müssen.“

Also, was ist die Lösung?

Weg von E-Mail

„Hören Sie zunächst auf, E-Mails für die interne Kommunikation zu verwenden. Neunzig Prozent Ihrer Sicherheitsbedenken werden verschwinden“, sagt Peinado. Die meisten Phishing-Angriffe, einschließlich solcher, die darauf abzielen, Zugang zu privaten Unternehmensbereichen wie Zoom zu erhalten, gehen von E-Mails aus. „Verwenden Sie also ein anderes Tool, um intern zu kommunizieren, wie Slack; aggressive Sicherheitsprotokolle für jede empfangene E-Mail festlegen; und die Cybersicherheitskultur ändern, um die kritischsten Schwachstellen zu beheben. „Wenn Sie eine E-Mail oder eine SMS erhalten, vertrauen Sie ihr nicht“; Das ist unsere Politik, und jedes Mitglied der Organisation kennt sie. Diese einzelne Aktion ist leistungsfähiger als das beste Antivirenprogramm auf dem Markt.“

Gehen Sie in die Cloud

Peinado sagt auch, dass alle Kommunikations- und Kollaborationstools in der Cloud sein und eine Multifaktor-Authentifizierung beinhalten sollten. Dies ist der effektivste Weg, um die Gefahr von gefälschten Identitäten zu verringern, da die Zugriffspunkte auf kritische Geschäftsdaten erheblich reduziert werden. Selbst wenn der Laptop Ihres CEO gestohlen wird, wäre das Risiko, dass ein böswilliger Akteur damit auf die Informationen des Unternehmens zugreifen oder einen Deepfake-Angriff inszenieren könnte, minimal.

Unterstützen Sie die Bemühungen um die digitale Provenienz

„Da die Dinge immer fotorealistischer und audiorealistischer werden, brauchen wir eine weitere Grundlage im Internet selbst, um die Wahrheit darzustellen oder Verbrauchern und Faktenprüfern Transparenz zu bieten“, sagt Parsons. Zu diesem Zweck hat sich die CAI von Adobe, eine Allianz aus Entwicklern, Technologen und Journalisten, die 2019 in Partnerschaft mit Twitter und der New York Times gegründet wurde, mit Microsoft, Intel und anderen großen Akteuren zusammengeschlossen, um ein Standard-Framework für die Zuweisung von Inhalten zu entwickeln und digitale Provenienz. Jedes Mal, wenn digitale Inhalte erstellt oder geändert werden, bettet sie unveränderliche Informationen wie Zeit, Autor und Art des verwendeten Geräts ein.

Die Funktion dieses Frameworks besteht darin, eine sichere Umgebung für die Erstellung von Inhalten mit KI zu fördern. Sogar virtuelle Meeting-Plattformen könnten diese Technologie integrieren, um zu beweisen, dass ein Anrufer derjenige ist, für den er sich ausgibt, unabhängig davon, welche Stimme die Teilnehmer zu hören glauben. „Unter den Mitgliedern des Standardgremiums haben wir Intel, Arm und andere Hersteller, die nach möglichen Hardware-Implementierungen suchen, sodass Erfassungsgeräte aller Art – einschließlich Streaming-Kameras, Audiogeräte und Computerhardware selbst – davon profitieren können. Wir hoffen und erwarten diese Annahme“, sagt Parsons.

Investieren Sie in Bedrohungsanalyse und Aufklärung

Ohne technologische Werkzeuge zur Hand, begrenzte strategische Sicherheitsmaßnahmen und einen Feind, der von Tag zu Tag größer und klüger wird, gibt es keine Wunderwaffe. Aber die Zusammenarbeit zwischen Regierungen, Hochschulen und dem Privatsektor zielt darauf ab, Unternehmen und die Gesellschaft insgesamt zu schützen, sagt Beridze.

„Regierungen sollten nationale Cybersicherheitsprogramme einführen und ihre Bedürfnisse und Wettbewerbsvorteile sehr gründlich bewerten“, sagt er. „Das Gleiche gilt für den Privatsektor: Ob es sich um kleine, mittlere oder große Unternehmen handelt, sie müssen in Bedrohungsanalyse und Wissen investieren.“

Initiativen wie der CAI-Standardrahmen erfordern eine massive Akzeptanz, um erfolgreich zu sein, und das wird Zeit brauchen. Vorerst müssen Führungskräfte der Reduzierung der Angriffsfläche ihrer Organisation Priorität einräumen und die Botschaft verbreiten, dass Diebe, die mit geklonten Stimmen bewaffnet sind, nach Opfern suchen.