サイバーセキュリティスポットライト:ディープフェイクボイスクローン詐欺に備えて組織を準備する

公開: 2022-07-22

ディープフェイクについて聞いたことがあるでしょう。公人や有名人(トム・クルーズやウィル・スミスなど)が、今までにない場所で、今までにないことをしている様子を写した写真やビデオです。 しかし、新しいクラスの機械学習ツールによって、同じ種類の偽物がオーディオで可能になることをご存じないかもしれません。

音声合成技術は、1939年にベル研究所によって発表されたVoder以来、長い道のりを歩んできました。かつてはキーとペダルを使用してオペレーターによって制御されていたロボットのドローンは、人工知能を利用して、本物と見分けがつかないデジタル音声に進化しました。 現在利用可能な音声合成技術は非常に現実的でアクセスしやすいため、オーディオエンジニアはそれを使用して、ポッドキャストホストまたは声優の音声を複製し、単語を録音せずにコンテンツに新しい情報を追加します。

このテクノロジーはサイバー犯罪者や詐欺師にも使用されており、あらゆる業界の組織が避けられないリスクを最小限に抑えるために新しいサイバーセキュリティモデルを採用することを余儀なくされています。

上昇中の泥棒の合唱団

2019年、音声クローン詐欺の最初の既知のケースで、泥棒は、非公開の英国に本拠を置くエネルギー会社の親会社の幹部の声を再現しました。 会社のCEOが「幹部」から電話を受けたとき、彼は同僚のドイツ語のアクセントとスピーチのリズムを認識し、要求に応じて迅速に緊急の資金移動を行いました。 詐欺師は数時間後に再び連絡を取り、2回目の盗難を試みましたが、今回、CEOは、電話が未知の場所から発信されていることに気づき、疑わしくなりました。

すべての要素は、悪意のある目的で音声クローン技術を大量に使用するために用意されています。

2022年初頭、FBIは、仮想会議プラットフォームでの新しい詐欺手法について一般の人々に警告するレポートを公開しました。 攻撃者は、幹部のログインを制御した後、従業員を会議に招待し、そこでクローン音声を展開し、ビデオが機能していないと主張し、制限された情報または緊急の資金移動を要求します。

音声クローン詐欺の突然の出現は、世界中で警鐘を鳴らしています。 国連地域間犯罪司法研究所(UNICRI)の人工知能とロボット工学センターの責任者であるIrakli Beridzeによると、悪意のある目的のためにこの技術を大規模に適応させるためのすべての要素が整っています。 「それが詐欺を犯したり、人々をフレーミングしたり、政治的プロセスを狂わせたり、政治的構造を弱体化させたりするためであろうと、それはすべて可能性の範囲内です」と彼はToptalに語ります。

この図は、香港での3,500万ドルのクローン音声銀行強盗の物語です。 2020年、銀行のマネージャーは、彼の声を認識した人物から電話を受けました。クライアント企業の取締役です。ディレクターは銀行のマネージャーに緊急の送金が必要であると伝え、MartinZelnerという名前の弁護士が調整すると言います。その後、銀行のマネージャーはZelnerからいくつかの電子メールを受け取ります。その中には、送金を承認するクライアント企業の取締役からのように見える手紙が含まれています。銀行のマネージャーは、発信者の身元を確認し、必要な書類を電子メールで受け取った後、3500万ドルをいくつかの口座に送金します。しかし、ゼルナーは本当の弁護士ではありませんでした。声はディープフェイクのクローンでした。 17人の犯罪者のグループは、巧妙な盗難をうまく組織化しました。彼らが選んだ武器はAIでした。

FBIのインターネット犯罪苦情センターによると、2016年から2019年の間に世界中の260億ドル以上の詐欺費用の企業を犯すために、組織のトップエグゼクティブになりすます。 そして、これらは法執行機関に報告された事例にすぎません。ほとんどの被害者は、評判を守るためにそのような攻撃を覆い隠しています。

犯罪者も急速に学習しているため、音声クローン詐欺の発生率は現在低いですが、すぐに変わる可能性があります。 「5年前、「ディープフェイク」という用語でさえまったく使用されていませんでした」とベリゼは言います。 「その時点から、非常に不正確で非常に原始的な自動生成された音声または視覚コンテンツから、非常に正確なディープフェイクに移行しました。 歴史的な観点からトレンドを分析すると、これは一夜にして起こりました。 そして、それは非常に危険な現象です。 その可能性はまだ十分に発揮されていません。」

偽物を作る

オーディオディープフェイクはニューラルネットワーク上で実行されます。 人間のプログラマーが計算プロセスのすべてのステップを事前に定義する必要がある従来のアルゴリズムとは異なり、ニューラルネットワークでは、ソフトウェアが例を分析することで所定のタスクの実行を学習できます。オブジェクト認識ネットワークにキリンの画像を10,000枚フィードし、コンテンツに「キリン」のラベルを付けます。そしてネットワークは、それが以前に与えられたことがない画像でさえ、最終的にその特定の哺乳類を識別することを学ぶでしょう。

そのモデルの問題は、大規模で注意深くキュレートされ、ラベルが付けられたデータセットと、答えるのに非常に狭い質問が必要であったことでした。これらはすべて、人間のプログラマーによる計画、修正、改良に数か月かかりました。 これは、2014年に生成的敵対的ネットワーク(GAN)が導入された後、急速に変化しました。GANは、テストして相互にフィードバックすることで学習する2つのニューラルネットワークを1つにまとめたものと考えてください。 GANは、数百万の画像をすばやく生成して評価し、人間の介入をほとんど必要とせずに、あらゆる段階で新しい情報を取得できます。

GANはオーディオ波形でも機能します。GANに人間の発話を数時間与えると、パターンの認識が開始されます。 特定の人間から十分なスピーチを入力すると、その声がユニークである理由がわかります。

ディープフェイク音声合成のためのホワイトハットの使用

グルーポンのアンドリューメイソンがアンドリーセンホロウィッツからのシード投資で設立したオーディオ編集および転写ツールであるDescriptは、わずか数分のサンプルオーディオですべての音声のDNAに相当するものを識別できます。 次に、ソフトウェアはその声のコピーを作成し、新しい単語を組み込んで、話者のスタイルを維持することができます、と同社の事業および企業開発責任者であるジェイ・ルブフは言います。

Descriptの最も人気のある機能であるOverdubは、音声のクローンを作成するだけでなく、ユーザーがドキュメントを編集するのと同じ方法で音声を編集できるようにします。 単語やフレーズをカットすると、音声から消えます。 追加のテキストを入力すると、話し言葉として追加されます。 テキストインフォームドスピーチインペインティングと呼ばれるこの手法は、わずか5年前には考えられなかった革新的なディープラーニングのブレークスルーです。 ユーザーは、入力するだけで、プログラムした音声に関係なく、AIに何でも言わせることができます。

「私たちにとってサイエンスフィクションのように思えたものの1つは、ナレーションの仕事で犯した可能性のある間違いを再入力できることでした」とLeBoeufはToptalに語ります。 「間違った製品名、間違ったリリース日を言うと、通常、プレゼンテーション全体または少なくともその大部分をやり直す必要があります。」

ユーザーは、入力するだけで、プログラムした音声に関係なく、AIに何でも言わせることができます。

音声のクローン作成とオーバーダブテクノロジーにより、品質を犠牲にすることなく、コンテンツ作成者の編集と録音にかかる時間を節約できます。 MalcolmGladwellの人気ポッドキャストRevisionistHistoryの背後にある会社であるPushkinIndustriesは、Descriptを使用して、エピソードを組み立てる際の代役の声優として使用するホストの声のデジタルバージョンを生成します。 以前は、このプロセスでは、制作チームがエピソードのタイミングとフローを確認できるように、実際のグラッドウェルがコンテンツを読み取って記録する必要がありました。 望ましい結果を得るには、多くの時間と数時間の作業が必要でした。 また、デジタル音声を使用すると、チームはプロセスの後半で小さな編集上の修正を行うことができます。

このテクノロジーは、企業の内部コミュニケーションにも使用されているとLeBoeuf氏は言います。 たとえば、あるDescriptクライアントは、トレーニングビデオのすべてのスピーカーの声を複製しているため、会社はスタジオに戻らずにポストプロダクションでコンテンツを変更できます。 トレーニングビデオの制作コストは1分あたり1,000ドルから10,000ドルの範囲であるため、音声の複製によって大幅な節約が可能になります。

クローン音声犯罪からビジネスを保護する

比較的新しいテクノロジーであるにもかかわらず、音声クローンの世界市場は2020年に7億6,130万ドルの価値があり、2027年までに38億ドルに達すると予測されています。Respeecher、Resemble AI、VeritoneなどのスタートアップはDescriptと同様のサービスを提供しています。 また、IBM、Google、Microsoftなどのビッグテック企業は、独自の調査とツールに多額の投資を行ってきました。

複製された音声の継続的な進化、成長、および可用性は実質的に保証されており、テクノロジーの急速な進歩により、サイバー攻撃を回避することは不可能になります。

このグリッドは、企業に対するオーディオディープフェイクの8つの潜在的な悪用を示しています。個人のイメージと信頼性を破壊する。恐喝と詐欺の実行。文書詐欺を助長する;オンラインIDを改ざんし、顧客を知る(KYC)メカニズムをだます。刑事司法調査のための電子証拠の改ざんまたは操作。金融市場の混乱;偽情報を配布し、世論に影響を与える。社会不安と政治的二極化を撫でます。

「ディープフェイクと戦うことはできません」と、セキュリティおよびテクノロジーチームを率いる20年の経験を持つグローバルサイバーセキュリティの専門家であり、Toptalの最高技術責任者であるIsmaelPeinadoは述べています。 「受け入れるのが早ければ早いほどよい。 今日ではないかもしれませんが、私たちは完璧な音声またはビデオのディープフェイクに直面します。 リスク認識について十分に訓練された労働力でさえ、偽物を見つけることができないかもしれません。」

ディープフェイクの検出に特化したソフトウェアソリューション、あらゆる種類のコンテンツの偽造の証拠をキャッチするためにディープラーニング技術を使用するツールがあります。 しかし、私たちが相談したすべての専門家は、そのような投資を無視しました。 テクノロジーの進化のスピードは、検出技術が急速に時代遅れになっていることを意味します。

アドビのコンテンツ認証イニシアチブ(CAI)のシニアディレクターであるアンディパーソンズは、Toptalに次のように語っています。 「率直に言って、データセットやトレーニング済みモデルをオープンソース化する必要がないため、悪者が勝つでしょう。」

それで、解決策は何ですか?

メールから離れる

「まず、内部コミュニケーションにメールを使用するのをやめます。 セキュリティ上の懸念の90%が消えます」とPeinado氏は言います。 Zoomのような民間企業のスペースへのアクセスを目的としたものを含め、ほとんどのフィッシング攻撃は電子メールから発生します。 「したがって、Slackのように、内部で通信するために別のツールを使用します。 受信したすべての電子メールに積極的なセキュリティプロトコルを設定します。 最も重大な脆弱性に対処するためにサイバーセキュリティ文化を変更します。 「電子メールまたはSMSを受信した場合、それを信用しないでください」; それが私たちの方針であり、組織のすべてのメンバーがそれを知っています。 この単一のアクションは、市場で最高のアンチウイルスよりも強力です。」

クラウドに移行

Peinadoはまた、すべてのコミュニケーションおよびコラボレーションツールはクラウド上にあり、多要素認証を含める必要があると述べています。 これは、重要なビジネスデータへのエントリポイントを大幅に削減するため、偽のIDの危険性を減らすための最も効果的な方法です。 CEOのラップトップが盗まれたとしても、悪意のある攻撃者がそれを使用して会社の情報にアクセスしたり、ディープフェイク攻撃を仕掛けたりするリスクは最小限に抑えられます。

デジタル来歴の取り組みをサポートする

「物事がよりフォトリアリスティックでオーディオリアリスティックになるにつれて、真実を描写したり、消費者やファクトチェッカーに透明性を提供したりするために、インターネット自体に別の基盤が必要になります」とパーソンズ氏は言います。 そのために、2019年にTwitterおよびNew York Timesと提携して設立されたクリエーター、技術者、ジャーナリストのアライアンスであるAdobeのCAIは、Microsoft、Intel、およびその他の主要なプレーヤーと協力して、コンテンツアトリビューションの標準フレームワークを開発しました。デジタル出所。 デジタルコンテンツが作成または変更されるたびに、時間、作成者、使用されているデバイスの種類などの変更できない情報が埋め込まれます。

このフレームワークの機能は、AIを使用してコンテンツを作成するための安全な環境を促進することです。 仮想会議プラットフォームでさえ、このテクノロジーを統合して、どの音声参加者が聞いていると思っていても、発信者が本人であることを証明できます。 「規格本体のメンバーの中には、Intel、Arm、およびその他のメーカーが潜在的なハードウェア実装を検討しているため、ストリーミングカメラ、オーディオデバイス、コンピューターハードウェア自体など、あらゆる種類のキャプチャデバイスにメリットがあります。 私たちはその採用を期待し、期待しています」とパーソンズは言います。

脅威の評価と教育に投資する

手元にある技術ツール、限られた戦略的セキュリティアクション、そして日ごとに大きく賢くなる敵がなければ、特効薬はありません。 しかし、政府、学界、および民間部門間の協力は、企業と社会全体を保護することを目的としています、とベリゼは言います。

「政府は国のサイバーセキュリティプログラムを採用し、そのニーズと競争上の優位性を徹底的に評価する必要があります」と彼は言います。 「同じことが民間部門にも当てはまります。小規模、中規模、大規模のいずれの企業でも、脅威の評価と知識に投資する必要があります。」

CAIの標準フレームワークのようなイニシアチブは、成功するために大規模な採用を必要とし、それには時間がかかります。 今のところ、リーダーは組織の攻撃対象領域を減らし、クローンの声で武装した泥棒が犠牲者を荒らしているというメッセージを広めることを優先する必要があります。