网络安全聚焦：让您的组织为 Deepfake 语音克隆欺诈做好准备

已发表: 2022-07-22

您听说过 deepfakes — 照片或视频显示公众人物或名人（如汤姆克鲁斯或威尔史密斯）在他们从未去过的地方，做着他们从未做过的事情。但您可能不知道，一类新兴的机器学习工具使音频的这种伪造成为可能。

自 1939 年贝尔实验室推出 Voder 以来，语音合成技术已经取得了长足的进步。曾经由操作员使用按键和踏板控制的机器人嗡嗡声已经演变成与真实事物无法区分的数字语音——由人工智能驱动。现在可用的语音合成技术非常逼真且易于使用，以至于音频工程师使用它来复制播客主持人或配音演员的语音，并在不录制单词的情况下为内容添加新信息。

网络犯罪分子和欺诈者也使用这项技术，迫使各行各业的组织采用新的网络安全模型，以尽量减少不可避免的风险。

盗贼合唱团崛起

2019 年，在已知的第一起语音克隆欺诈案件中，窃贼重现了一家未公开的英国能源公司母公司高管的声音。当公司的 CEO 接到“执行官”的电话时，他认出了同事的德国口音和说话的节奏，并迅速按要求进行了紧急资金转移。几个小时后，诈骗者再次联系，企图进行第二次盗窃，但这一次，CEO 注意到电话来自一个未知位置并开始怀疑。

为恶意目的大量使用语音克隆技术的所有要素都已准备就绪。

2022 年初，FBI 发布了一份报告，提醒公众注意虚拟会议平台上的一种新诈骗技术。在控制了高管的登录后，攻击者邀请员工参加会议，他们部署克隆语音，声称他们的视频无法正常工作，并要求提供受限信息或紧急转移资金。

语音克隆欺诈的突然出现在全球范围内引起了警觉。根据联合国区域间犯罪和司法研究所（UNICRI）人工智能和机器人中心负责人 Irakli Beridze 的说法，所有因素都已准备就绪，可以大规模地将这项技术用于恶意目的。 “无论是为了实施欺诈、陷害他人、破坏政治进程还是破坏政治结构，这都是可能的，”他告诉 Toptal。

这张图讲述了在香港发生的价值 3500 万美元的克隆语音银行抢劫案。 2020年，一位银行经理接到一个他认得声音的人的电话：客户公司的董事。董事告诉银行经理他需要紧急资金转帐，并说一位名叫 Martin Zelner 的律师将进行协调。此后，银行经理收到了 Zelner 的几封电子邮件，其中一封带有一封似乎来自客户公司董事的授权资金转账的信件。银行经理确信来电者的身份并通过电子邮件收到了必要的文件后，将 3500 万美元转入了多个账户。但泽尔纳并不是真正的律师。声音是一个deepfake克隆。一群 17 名犯罪分子成功策划了一起复杂的盗窃案。他们选择的武器是人工智能。

根据 FBI 的互联网犯罪投诉中心的数据，在 2016 年至 2019 年间，冒充某组织的高级管理人员进行欺诈使全球公司损失了超过 260 亿美元。这些只是向执法部门报告的案例——大多数受害者对此类攻击保密以保护他们的声誉。

犯罪分子也在快速学习，因此虽然语音克隆欺诈的发生率现在很低，但这种情况可能很快就会改变。 “五年前，甚至根本没有使用‘deepfake’这个词，”Beridze 说。 “从那时起，我们从非常不准确、非常原始的自动生成的语音或视觉内容转变为极其准确的深度伪造。如果从历史的角度分析趋势，这是一夜之间发生的。这是一个极其危险的现象。我们还没有看到它的全部潜力。”

制造假货

音频深度伪造在神经网络上运行。与人类程序员必须预先定义计算过程的每一步的传统算法不同，神经网络允许软件通过分析示例来学习执行规定的任务：向对象识别网络输入 10,000 张长颈鹿图像，将内容标记为“长颈鹿”，并且该网络最终将学会识别该特定哺乳动物，即使是在以前从未喂食过的图像中也是如此。

该模型的问题在于，它需要经过精心策划和标记的大型数据集，以及非常狭窄的问题才能回答，所有这些都需要人类程序员数月的计划、纠正和完善。在 2014 年引入生成对抗网络 (GAN) 后，这种情况迅速发生了变化。将 GAN 视为两个神经网络合二为一，通过测试和相互提供反馈来学习。 GAN 可以快速生成和评估数百万张图像，在几乎不需要人工干预的情况下，每一步都可以获取新信息。

GAN 还可以处理音频波形：给 GAN 几个小时的人类语音，它就会开始识别模式。从一个特定的人那里输入足够多的语音，它会学习是什么让那个语音变得独一无二。

Deepfake 语音合成的白帽用途

Descript 是由 Groupon 的 Andrew Mason 在 Andreessen Horowitz 的种子投资下创建的音频编辑和转录工具，只需几分钟的样本音频，就可以识别每个声音中的 DNA 等价物。然后，该软件可以生成该声音的副本，加入新词，但保持说话者的风格，该公司的业务和企业发展主管 Jay LeBoeuf 说。

Descript 最受欢迎的功能 Overdub 不仅可以复制语音，还可以让用户以与编辑文档相同的方式编辑语音。剪切一个单词或短语，它就会从音频中消失。键入其他文本，然后将其添加为口语。这种技术被称为基于文本的语音修复，是一项革命性的深度学习突破，这在五年前是不可想象的。用户只需输入，就可以让 AI 用他们编程的任何声音说出任何话。

“对我们来说，几乎看起来像科幻小说的一件事是能够重新输入你在画外音工作中可能犯的错误，”LeBoeuf 告诉 Toptal。 “你说错了产品名称、错误的发布日期，你通常不得不重做整个演示文稿或至少大部分内容。”

用户只需输入，就可以让 AI 用他们编程的任何声音说出任何话。

语音克隆和 Overdub 技术可以在不牺牲质量的情况下为内容创建者节省数小时的编辑和录制时间。普希金工业公司是 Malcolm Gladwell 广受欢迎的播客Revisionist History背后的公司，它使用 Descript 生成主持人声音的数字版本，以便在组装剧集时用作替身配音演员。以前，这个过程需要真正的 Gladwell 阅读和录制内容，以便制作团队可以检查剧集的时间安排和流程。花了很多时间和几个小时的工作才能产生预期的结果。使用数字语音还可以让团队在后期进行小的编辑修复。

LeBoeuf 说，这项技术也被用于公司的内部通信。例如，一个 Descript 客户正在克隆其培训视频中所有演讲者的声音，这样公司就可以在后期制作中修改内容，而无需返回工作室。制作培训视频的成本从每分钟 1,000 美元到 10,000 美元不等，因此语音克隆可以节省大量成本。

保护您的企业免受克隆语音犯罪的侵害

尽管它是一项相对较新的技术，但 2020 年全球语音克隆市场价值 7.613 亿美元，预计到 2027 年将达到 38 亿美元。Respeecher、Resemble AI 和 Veritone 等初创公司提供类似于 Descript 的服务； IBM、谷歌和微软等大型科技公司在自己的研究和工具上投入了大量资金。

克隆声音的持续发展、增长和可用性几乎得到保证，技术的快速进步将使网络攻击无法避免。

该网格显示了音频深度伪造对企业的八种潜在恶意用途：破坏个人形象和信誉；进行敲诈勒索和欺诈；促进文件欺诈；伪造在线身份和欺骗了解你的客户 (KYC) 机制；为刑事司法调查伪造或操纵电子证据；扰乱金融市场；散布虚假信息，影响舆论；并引发社会动荡和政治两极分化。

“你无法与深度伪造作斗争，”拥有 20 年领导安全和技术团队经验的全球网络安全专家兼 Toptal 首席技术官 Ismael Peinado 说。 “越早接受越好。可能不是今天，但我们将面对完美的语音或视频 deepfake。即使是受过全面风险意识培训的员工也可能无法发现假货。”

有专门用于检测深度伪造的软件解决方案，这些工具使用深度学习技术来捕捉各种内容中的伪造证据。但我们咨询的每一位专家都无视此类投资。技术发展的速度意味着检测技术很快就过时了。

Adobe 的内容真实性计划 (CAI) 高级总监安迪·帕森斯 (Andy Parsons) 告诉 Toptal：“纯粹追求检测最终在某种程度上是一场失败的战斗。” “坦率地说，坏人会赢，因为他们不必开源他们的数据集或训练有素的模型。”

那么解决方案是什么？

远离电子邮件

“首先，停止使用电子邮件进行内部沟通。百分之九十的安全问题都会消失，”Peinado 说。大多数网络钓鱼攻击，包括旨在访问 Zoom 等私人公司空间的攻击，都源自电子邮件。 “所以使用不同的工具进行内部沟通，比如 Slack；为收到的每封电子邮件设置积极的安全协议；并改变网络安全文化以解决最关键的漏洞。 “如果您收到电子邮件或短信，请不要相信它”；这是我们的政策，本组织的每个成员都知道这一点。这个单一的动作比市场上最好的杀毒软件更强大。”

带到云端

Peinado 还表示，所有通信和协作工具都应该在云端，并包括多因素身份验证。这是减少虚假身份危险的最有效方法，因为它显着减少了关键业务数据的入口点。即使您 CEO 的笔记本电脑被盗，恶意行为者使用它访问公司信息或发动深度伪造攻击的风险也很小。

支持数字来源工作

“随着事情变得更加逼真和逼真，我们需要互联网本身的另一个基础来描绘真相或为消费者和事实核查人员提供透明度，”帕森斯说。为此，Adobe 的 CAI 是一个由创作者、技术人员和记者组成的联盟，于 2019 年与 Twitter 和纽约时报合作成立，它与微软、英特尔和其他主要参与者联手开发了一个内容归因和标准框架。数字出处。每次创建或修改数字内容时，它都会嵌入不可更改的信息，例如时间、作者和使用的设备类型。

该框架的功能是为使用 AI 创建内容营造一个安全的环境。甚至虚拟会议平台也可以集成这项技术，以证明呼叫者是他们声称的身份，无论与会者认为他们听到的是什么语音。 “在标准主体的成员中，我们有英特尔、Arm 和其他制造商正在研究潜在的硬件实现，以便各种捕获设备——包括流媒体摄像机、音频设备和计算机硬件本身——都可以受益。我们希望并期待看到这种采用，”帕森斯说。

投资于威胁评估和教育

由于手头没有技术工具，战略安全行动有限，而且敌人一天天变得更大更聪明，所以没有灵丹妙药。但是，Beridze 说，政府、学术界和私营部门之间的合作旨在保护企业和整个社会。

“各国政府应采用国家网络安全计划，并对其需求和竞争优势进行非常彻底的评估，”他说。 “私营部门也是如此：无论是小型、中型还是大型企业，他们都需要投资于威胁评估和知识。”

像 CAI 的标准框架这样的计划需要大量采用才能成功，这需要时间。目前，领导者必须优先考虑减少其组织的攻击面并传播带有克隆声音的窃贼正在为受害者拖钓的信息。