網絡安全聚焦：讓您的組織為 Deepfake 語音克隆欺詐做好準備

已發表: 2022-07-22

您聽說過 deepfakes — 照片或視頻顯示公眾人物或名人（如湯姆克魯斯或威爾史密斯）在他們從未去過的地方，做著他們從未做過的事情。但您可能不知道，一類新興的機器學習工具使音頻的這種偽造成為可能。

自 1939 年貝爾實驗室推出 Voder 以來，語音合成技術已經取得了長足的進步。曾經由操作員使用按鍵和踏板控制的機器人嗡嗡聲已經演變成與真實事物無法區分的數字聲音——由人工智能驅動。現在可用的語音合成技術非常逼真且易於使用，以至於音頻工程師使用它來複製播客主持人或配音演員的語音，並在不錄製單詞的情況下為內容添加新信息。

網絡犯罪分子和欺詐者也使用這項技術，迫使各行各業的組織採用新的網絡安全模型，以盡量減少不可避免的風險。

盜賊合唱團崛起

2019 年，在已知的第一起語音克隆欺詐案件中，竊賊重現了一家未公開的英國能源公司母公司高管的聲音。當公司的 CEO 接到“執行官”的電話時，他認出了同事的德國口音和說話的節奏，並迅速按要求進行了緊急資金轉移。幾個小時後，詐騙者再次聯繫，企圖進行第二次盜竊，但這一次，CEO 注意到電話來自一個未知位置並開始懷疑。

為惡意目的大量使用語音克隆技術的所有要素都已準備就緒。

2022 年初，FBI 發布了一份報告，提醒公眾注意虛擬會議平台上的一種新詐騙技術。在控制了高管的登錄後，攻擊者邀請員工參加會議，他們部署克隆語音，聲稱他們的視頻無法正常工作，並要求提供受限信息或緊急轉移資金。

語音克隆欺詐的突然出現在全球範圍內引起了警覺。根據聯合國區域間犯罪和司法研究所 (UNICRI) 人工智能和機器人中心負責人 Irakli Beridze 的說法，所有因素都已準備就緒，可以大規模地將這項技術用於惡意目的。 “無論是為了實施欺詐、陷害他人、破壞政治進程還是破壞政治結構，這都是可能的，”他告訴 Toptal。

這張圖講述了在香港發生的價值 3500 萬美元的克隆語音銀行搶劫案。 2020年，一位銀行經理接到一個他認得聲音的人的電話：客戶公司的董事。董事告訴銀行經理他需要緊急資金轉帳，並說一位名叫 Martin Zelner 的律師將進行協調。此後，銀行經理收到了 Zelner 的幾封電子郵件，其中一封帶有一封似乎來自客戶公司董事的授權資金轉賬的信件。銀行經理確信來電者的身份並通過電子郵件收到了必要的文件後，將 3500 萬美元轉入了多個賬戶。但澤爾納並不是真正的律師。聲音是一個deepfake克隆。一群 17 名犯罪分子成功策劃了一起復雜的盜竊案。他們選擇的武器是人工智能。

根據 FBI 的互聯網犯罪投訴中心的數據，在 2016 年至 2019 年間，冒充某組織的高級管理人員進行欺詐使全球公司損失了超過 260 億美元。這些只是向執法部門報告的案例——大多數受害者對此類攻擊保密以保護他們的聲譽。

犯罪分子也在快速學習，因此雖然語音克隆欺詐的發生率現在很低，但這種情況可能很快就會改變。 “五年前，甚至根本沒有使用‘deepfake’這個詞，”Beridze 說。 “從那時起，我們從非常不准確、非常原始的自動生成的語音或視覺內容轉變為極其準確的深度偽造。如果從歷史的角度分析趨勢，這是一夜之間發生的。這是一個極其危險的現象。我們還沒有看到它的全部潛力。”

製造假貨

音頻深度偽造在神經網絡上運行。與人類程序員必須預先定義計算過程的每一步的傳統算法不同，神經網絡允許軟件通過分析示例來學習執行規定的任務：向對象識別網絡輸入 10,000 張長頸鹿圖像，將內容標記為“長頸鹿”，並且該網絡最終將學會識別該特定哺乳動物，即使是在以前從未餵食過的圖像中也是如此。

該模型的問題在於，它需要經過精心策劃和標記的大型數據集，以及非常狹窄的問題才能回答，所有這些都需要人類程序員數月的計劃、糾正和完善。在 2014 年引入生成對抗網絡 (GAN) 後，這種情況迅速發生了變化。將 GAN 視為兩個神經網絡合二為一，通過測試和相互提供反饋來學習。 GAN 可以快速生成和評估數百萬張圖像，在幾乎不需要人工干預的情況下，每一步都可以獲取新信息。

GAN 還可以處理音頻波形：給 GAN 幾個小時的人類語音，它就會開始識別模式。從一個特定的人那裡輸入足夠多的語音，它會學習是什麼讓那個語音變得獨一無二。

Deepfake 語音合成的白帽用途

Descript 是由 Groupon 的 Andrew Mason 在 Andreessen Horowitz 的種子投資下創建的音頻編輯和轉錄工具，只需幾分鐘的樣本音頻，就可以識別每個聲音中的 DNA 等價物。然後，該軟件可以生成該聲音的副本，加入新詞，但保持說話者的風格，該公司的業務和企業發展主管 Jay LeBoeuf 說。

Descript 最受歡迎的功能 Overdub 不僅可以復制語音，還可以讓用戶以與編輯文檔相同的方式編輯語音。剪切一個單詞或短語，它就會從音頻中消失。鍵入其他文本，然後將其添加為口語。這種技術被稱為基於文本的語音修復，是一項革命性的深度學習突破，這在五年前是不可想像的。用戶只需輸入，就可以讓 AI 用他們編程的任何聲音說出任何話。

“對我們來說，幾乎看起來像科幻小說的一件事是能夠重新輸入你在畫外音工作中可能犯的錯誤，”LeBoeuf 告訴 Toptal。 “你說錯了產品名稱、錯誤的發布日期，你通常不得不重做整個演示文稿或至少大部分內容。”

用戶只需輸入，就可以讓 AI 用他們編程的任何聲音說出任何話。

語音克隆和 Overdub 技術可以在不犧牲質量的情況下為內容創建者節省數小時的編輯和錄製時間。普希金工業公司是 Malcolm Gladwell 廣受歡迎的播客Revisionist History背後的公司，它使用 Descript 生成主持人聲音的數字版本，以便在組裝劇集時用作替身配音演員。以前，這個過程需要真正的 Gladwell 閱讀和錄製內容，以便製作團隊可以檢查劇集的時間安排和流程。花了很多時間和幾個小時的工作才能產生預期的結果。使用數字語音還可以讓團隊在後期進行小的編輯修復。

LeBoeuf 說，這項技術也被用於公司的內部通信。例如，一個 Descript 客戶正在克隆其培訓視頻中所有演講者的聲音，這樣公司就可以在後期製作中修改內容，而無需返回工作室。製作培訓視頻的成本從每分鐘 1,000 美元到 10,000 美元不等，因此語音克隆可以節省大量成本。

保護您的企業免受克隆語音犯罪的侵害

儘管它是一項相對較新的技術，但 2020 年全球語音克隆市場價值 7.613 億美元，預計到 2027 年將達到 38 億美元。Respeecher、Resemble AI 和 Veritone 等初創公司提供類似於 Descript 的服務； IBM、谷歌和微軟等大型科技公司在自己的研究和工具上投入了大量資金。

克隆聲音的持續發展、增長和可用性幾乎得到保證，技術的快速進步將使網絡攻擊無法避免。

該網格顯示了音頻深度偽造對企業的八種潛在惡意用途：破壞個人形象和信譽；進行敲詐勒索和欺詐；促進文件欺詐；偽造在線身份和欺騙了解你的客戶 (KYC) 機制；為刑事司法調查偽造或操縱電子證據；擾亂金融市場；散佈虛假信息，影響輿論；並引發社會動盪和政治兩極分化。

“你無法與深度偽造作鬥爭，”擁有 20 年領導安全和技術團隊經驗的全球網絡安全專家兼 Toptal 首席技術官 Ismael Peinado 說。 “越早接受越好。可能不是今天，但我們將面對完美的語音或視頻 deepfake。即使是受過全面風險意識培訓的員工也可能無法發現假貨。”

有專門用於檢測深度偽造的軟件解決方案，這些工具使用深度學習技術來捕捉各種內容中的偽造證據。但我們諮詢的每一位專家都無視此類投資。技術發展的速度意味著檢測技術很快就過時了。

Adobe 的內容真實性計劃 (CAI) 高級總監安迪·帕森斯 (Andy Parsons) 告訴 Toptal：“純粹追求檢測最終在某種程度上是一場失敗的戰鬥。” “坦率地說，壞人會贏，因為他們不必開源他們的數據集或訓練有素的模型。”

那麼解決方案是什麼？

遠離電子郵件

“首先，停止使用電子郵件進行內部溝通。百分之九十的安全問題都會消失，”Peinado 說。大多數網絡釣魚攻擊，包括旨在訪問 Zoom 等私人公司空間的攻擊，都源自電子郵件。 “所以使用不同的工具進行內部溝通，比如 Slack；為收到的每封電子郵件設置積極的安全協議；並改變網絡安全文化以解決最關鍵的漏洞。 “如果您收到電子郵件或短信，請不要相信它”；這是我們的政策，本組織的每個成員都知道這一點。這個單一的動作比市場上最好的殺毒軟件更強大。”

帶到雲端

Peinado 還表示，所有通信和協作工具都應該在雲端，並包括多因素身份驗證。這是減少虛假身份危險的最有效方法，因為它顯著減少了關鍵業務數據的入口點。即使您 CEO 的筆記本電腦被盜，惡意行為者使用它訪問公司信息或發動深度偽造攻擊的風險也很小。

支持數字來源工作

“隨著事情變得更加逼真和逼真，我們需要互聯網本身的另一個基礎來描繪真相或為消費者和事實核查人員提供透明度，”帕森斯說。為此，Adobe 的 CAI 是一個由創作者、技術人員和記者組成的聯盟，於 2019 年與 Twitter 和紐約時報合作成立，它與微軟、英特爾和其他主要參與者聯手開發了一個內容歸因和標準框架。數字出處。每次創建或修改數字內容時，它都會嵌入不可更改的信息，例如時間、作者和使用的設備類型。

該框架的功能是為使用 AI 創建內容營造一個安全的環境。甚至虛擬會議平台也可以集成這項技術，以證明呼叫者是他們聲稱的身份，無論與會者認為他們聽到的是什麼語音。 “在標準主體的成員中，我們有英特爾、Arm 和其他製造商正在研究潛在的硬件實現，以便各種捕獲設備——包括流媒體攝像機、音頻設備和計算機硬件本身——都可以受益。我們希望並期待看到這種採用，”帕森斯說。

投資於威脅評估和教育

由於手頭沒有技術工具，戰略安全行動有限，而且敵人一天天變得更大更聰明，所以沒有靈丹妙藥。但是，Beridze 說，政府、學術界和私營部門之間的合作旨在保護企業和整個社會。

“各國政府應採用國家網絡安全計劃，並對其需求和競爭優勢進行非常徹底的評估，”他說。 “私營部門也是如此：無論是小型、中型還是大型企業，他們都需要投資於威脅評估和知識。”

像 CAI 的標準框架這樣的計劃需要大量採用才能成功，這需要時間。目前，領導者必須優先考慮減少其組織的攻擊面並傳播帶有克隆聲音的竊賊正在為受害者拖釣的信息。