Destaque de segurança cibernética: preparando sua organização para fraudes de clones de voz do Deepfake

Publicados: 2022-07-22

Você já ouviu falar de deepfakes — fotos ou vídeos que mostram uma figura pública ou celebridade (como Tom Cruise ou Will Smith) em algum lugar que nunca estiveram, fazendo algo que nunca fizeram. Mas você pode não saber que uma classe emergente de ferramentas de aprendizado de máquina possibilita esse mesmo tipo de falsificação para áudio.

As tecnologias de síntese de voz percorreram um longo caminho desde o Voder, revelado pela Bell Labs em 1939. Esse zumbido robótico, uma vez controlado por um operador usando teclas e pedais, evoluiu para vozes digitais que são indistinguíveis da real - alimentadas por inteligência artificial. A tecnologia de síntese de fala disponível agora é tão realista e acessível que os engenheiros de áudio a usam para duplicar a fala de hosts de podcast ou dubladores e adicionar novas informações ao conteúdo sem gravar uma palavra.

Essa tecnologia também está sendo usada por cibercriminosos e fraudadores, forçando organizações de todos os setores a adotar novos modelos de segurança cibernética para minimizar os riscos inevitáveis.

Um coro de ladrões em ascensão

Em 2019, no primeiro caso conhecido de fraude de clone de voz, os ladrões recriaram a voz de um executivo da empresa controladora de uma empresa de energia não divulgada com sede no Reino Unido. Quando o CEO da empresa recebeu uma ligação do “executivo”, ele reconheceu o sotaque alemão e a cadência da fala de seu colega e rapidamente fez a transferência urgente de fundos conforme solicitado. Os golpistas fizeram contato novamente algumas horas depois para tentar um segundo roubo, mas desta vez, o CEO percebeu que a ligação vinha de um local desconhecido e ficou desconfiado.

Todos os ingredientes estão prontos para o uso massivo da tecnologia de clonagem de voz para fins maliciosos.

No início de 2022, o FBI publicou um relatório alertando o público sobre uma nova técnica de fraude em plataformas de reuniões virtuais. Depois de assumir o controle do login de um executivo, os invasores convidam os funcionários para uma reunião em que implantam uma voz clonada, alegam que o vídeo não está funcionando e solicitam informações restritas ou uma transferência emergencial de fundos.

O súbito aparecimento de fraudes de clones de voz está despertando alarmes em todo o mundo. De acordo com Irakli Beridze, chefe do Centro de Inteligência Artificial e Robótica do Instituto Interregional de Pesquisa sobre Crime e Justiça das Nações Unidas (UNICRI), todos os ingredientes estão prontos para uma adaptação massiva dessa tecnologia para fins maliciosos. “Seja para cometer fraudes, enquadrar pessoas, descarrilar processos políticos ou minar estruturas políticas, tudo isso está dentro do campo de possibilidade”, diz ele a Toptal.

Este gráfico conta a história de um assalto a banco de voz clonada de US$ 35 milhões em Hong Kong. Em 2020, um gerente de banco recebeu uma ligação de uma pessoa cuja voz ele reconheceu: o diretor de uma empresa cliente. O diretor diz ao gerente do banco que ele precisa de uma transferência de fundos urgente e diz que um advogado chamado Martin Zelner irá coordenar. O gerente do banco recebe vários e-mails de Zelner posteriormente, incluindo um com uma carta que parece ser do diretor da empresa cliente autorizando a transferência de fundos. Confiante na identidade de quem ligou e tendo recebido os documentos necessários por e-mail, o gerente do banco transfere US$ 35 milhões para várias contas. Mas Zelner não era um advogado de verdade. A voz era um clone de deepfake. Um grupo de 17 criminosos havia orquestrado com sucesso um roubo sofisticado. Sua arma de escolha foi a IA.

Fazer-se passar por um alto executivo de uma organização para cometer fraudes custou às empresas em todo o mundo mais de US$ 26 bilhões entre 2016 e 2019, de acordo com o Internet Crime Complaint Center do FBI. E esses são apenas os casos relatados às autoridades – a maioria das vítimas mantém esses ataques em segredo para proteger suas reputações.

Os criminosos também estão aprendendo rápido, portanto, embora a incidência de fraudes de clones de voz seja baixa agora, isso pode mudar em breve. “Cinco anos atrás, nem mesmo o termo 'deepfake' era usado”, diz Beridze. “Daquele ponto em diante, passamos de uma voz ou conteúdo visual muito impreciso e muito primitivo gerado automaticamente para deepfakes extremamente precisos. Se você analisar a tendência do ponto de vista histórico, isso aconteceu da noite para o dia. E isso é um fenômeno extremamente perigoso. Ainda não vimos todo o seu potencial.”

Fazendo as falsificações

Deepfakes de áudio são executados em redes neurais. Ao contrário dos algoritmos tradicionais, nos quais um programador humano deve predefinir cada etapa de um processo computacional, as redes neurais permitem que o software aprenda a realizar uma tarefa prescrita analisando exemplos: alimentar uma rede de reconhecimento de objetos com 10.000 imagens de girafas, rotular o conteúdo como “girafa”, e a rede acabará aprendendo a identificar esse mamífero em particular, mesmo em imagens que nunca foi alimentada antes.

O problema com esse modelo era que ele precisava de conjuntos de dados grandes, cuidadosamente selecionados e rotulados, e perguntas muito restritas para responder, o que levou meses de planejamento, correção e refinamento por programadores humanos. Isso mudou rapidamente após a introdução de redes generativas de adversários (GANs) em 2014. Pense em uma GAN como duas redes neurais em uma que aprendem testando e dando feedback uma à outra. As GANs podem gerar e avaliar milhões de imagens rapidamente, obtendo novas informações a cada passo do caminho com pouca necessidade de intervenção humana.

As GANs também funcionam com formas de onda de áudio: dê a uma GAN algumas horas de fala humana e ela começará a reconhecer padrões. Insira fala suficiente de um humano em particular e ele aprenderá o que torna essa voz única.

Usos de chapéu branco para síntese de fala Deepfake

Descript, uma ferramenta de edição e transcrição de áudio fundada por Andrew Mason do Groupon com um investimento inicial da Andreessen Horowitz, pode identificar o equivalente de DNA em cada voz com apenas alguns minutos de amostra de áudio. Então, o software pode produzir uma cópia dessa voz, incorporando novas palavras, mas mantendo o estilo do orador, diz Jay LeBoeuf, chefe de negócios e desenvolvimento corporativo da empresa.

O recurso mais popular do Descript, o Overdub, não apenas clona a voz, mas também permite que o usuário edite a fala da mesma maneira que editaria um documento. Corte uma palavra ou frase e ela desaparece do áudio. Digite texto adicional e ele será adicionado como palavras faladas. Essa técnica, chamada de pintura de fala informada por texto, é um avanço revolucionário de aprendizado profundo que seria impensável apenas cinco anos atrás. Um usuário pode fazer a IA dizer qualquer coisa, em qualquer voz que tenha programado, apenas digitando.

“Uma das coisas que quase parecia ficção científica para nós era a capacidade de redigitar um erro que você poderia ter cometido em seu trabalho de narração”, disse LeBoeuf à Toptal. “Você diz o nome do produto errado, a data de lançamento errada e normalmente teria que refazer toda a apresentação ou pelo menos uma grande parte dela.”

Um usuário pode fazer a IA dizer qualquer coisa, em qualquer voz que tenha programado, apenas digitando.

A clonagem de voz e a tecnologia Overdub podem economizar horas de edição e gravação dos criadores de conteúdo sem sacrificar a qualidade. A Pushkin Industries, a empresa por trás do popular podcast Revisionist History de Malcolm Gladwell, usa o Descript para gerar uma versão digital da voz do apresentador para usar como dublador substituto durante a montagem de um episódio. Anteriormente, esse processo exigia que o verdadeiro Gladwell lesse e gravasse o conteúdo para que a equipe de produção pudesse verificar o tempo e o fluxo de um episódio. Foram necessárias muitas tomadas e várias horas de trabalho para produzir os resultados desejados. O uso de uma voz digital também libera a equipe para fazer pequenas correções editoriais posteriormente no processo.

Essa tecnologia também está sendo usada para comunicações internas das empresas, diz LeBoeuf. Um cliente da Descript, por exemplo, está clonando as vozes de todos os palestrantes em seus vídeos de treinamento para que a empresa possa modificar o conteúdo na pós-produção sem retornar ao estúdio. O custo para produzir vídeos de treinamento varia de US$ 1.000 a US$ 10.000 por minuto, de modo que a clonagem de voz pode gerar enormes economias.

Protegendo sua empresa contra crimes de voz clonada

Apesar de ser uma tecnologia relativamente nova, o mercado global de clonagem de voz valeu US$ 761,3 milhões em 2020 e deve chegar a US$ 3,8 bilhões até 2027. Startups como Respeecher, Resemble AI e Veritone oferecem serviços semelhantes ao Descript; e grandes empresas de tecnologia como IBM, Google e Microsoft investiram pesadamente em suas próprias pesquisas e ferramentas.

A evolução contínua, o crescimento e a disponibilidade de vozes clonadas estão praticamente garantidos, e os rápidos avanços na tecnologia tornarão impossíveis evitar ataques cibernéticos.

Esta grade mostra oito possíveis usos maliciosos de deepfakes de áudio contra empresas: Destruindo a imagem e a credibilidade de um indivíduo; perpetrar extorsão e fraude; facilitar a fraude de documentos; falsificar identidades on-line e enganar os mecanismos de conhecimento do cliente (KYC); falsificação ou manipulação de provas eletrônicas para investigações de justiça criminal; perturbar os mercados financeiros; distribuir desinformação e influenciar a opinião pública; e acariciando agitação social e polarização política.

“Você não pode combater deepfakes”, diz Ismael Peinado, especialista global em segurança cibernética com duas décadas de experiência na liderança de equipes de segurança e tecnologia e diretor de tecnologia da Toptal. “Quanto mais cedo você aceitar, melhor. Pode não ser hoje, mas enfrentaremos o deepfake de voz ou vídeo perfeito. Nem mesmo uma força de trabalho totalmente treinada em conscientização de risco pode identificar uma falsificação”.

Existem soluções de software especializadas para detectar deepfakes, ferramentas que utilizam técnicas de deep learning para detectar indícios de falsificação em todo tipo de conteúdo. Mas todos os especialistas que consultamos desconsideraram esses investimentos. A velocidade com que a tecnologia está evoluindo significa que as técnicas de detecção estão rapidamente desatualizadas.

“Em última análise, é uma batalha perdida buscar a detecção puramente”, diz Andy Parsons, diretor sênior da Iniciativa de Autenticidade de Conteúdo (CAI) da Adobe, à Toptal. “Para ser franco, os bandidos venceriam porque não precisam abrir o código-fonte de seus conjuntos de dados ou de seus modelos treinados.”

Então, qual é a solução?

Afaste-se do e-mail

“Primeiro, pare de usar e-mail para comunicação interna. Noventa por cento de suas preocupações com segurança desaparecerão”, diz Peinado. A maioria dos ataques de phishing, incluindo aqueles destinados a obter acesso a espaços privados da empresa, como o Zoom, se originam de e-mails. “Então use uma ferramenta diferente para se comunicar internamente, como o Slack; defina protocolos de segurança agressivos para cada e-mail recebido; e mudar a cultura de segurança cibernética para lidar com as vulnerabilidades mais críticas. 'Se você receber um e-mail ou SMS, não confie'; essa é a nossa política, e todos os membros da organização sabem disso. Essa ação única é mais poderosa que o melhor antivírus do mercado.”

Leve para a nuvem

Peinado também diz que todas as ferramentas de comunicação e colaboração devem estar na nuvem e incluir autenticação multifator. Essa é a maneira mais eficaz de reduzir o perigo de identidades falsas porque reduz significativamente os pontos de entrada para dados empresariais críticos. Mesmo que o laptop do seu CEO seja roubado, o risco de que um agente mal-intencionado possa usá-lo para acessar as informações da empresa ou realizar um ataque de deepfake seria mínimo.

Apoiar os esforços de proveniência digital

“À medida que as coisas se tornam mais fotorrealistas e audio-realistas, precisamos de outra base na própria internet para retratar a verdade ou fornecer transparência aos consumidores e verificadores de fatos”, diz Parsons. Para isso, o CAI da Adobe, uma aliança de criadores, tecnólogos e jornalistas fundada em 2019 em parceria com o Twitter e o New York Times, uniu forças com a Microsoft, Intel e outros grandes players para desenvolver uma estrutura padrão para atribuição de conteúdo e proveniência digital. Ele incorpora informações inalteráveis, como hora, autor e tipo de dispositivo usado, toda vez que um conteúdo digital é criado ou modificado.

A função desse framework é promover um ambiente seguro para a criação de conteúdo com IA. Até mesmo as plataformas de reunião virtual podem integrar essa tecnologia para provar que um chamador é quem afirma ser, independentemente da voz que os participantes pensam que estão ouvindo. “Entre os membros do corpo do padrão, temos Intel, Arm e outros fabricantes analisando possíveis implementações de hardware, para que dispositivos de captura de todos os tipos – incluindo câmeras de streaming, dispositivos de áudio e o próprio hardware de computador – possam se beneficiar. Esperamos e esperamos ver essa adoção”, diz Parsons.

Invista em Avaliação e Educação de Ameaças

Sem ferramentas tecnológicas à mão, ações de segurança estratégicas limitadas e um inimigo que fica maior e mais sábio a cada dia, não há balas de prata. Mas a colaboração entre governos, academia e setor privado visa proteger as empresas e a sociedade em geral, diz Beridze.

“Os governos devem adotar programas nacionais de segurança cibernética e devem fazer avaliações muito completas de suas necessidades e vantagens competitivas”, diz ele. “A mesma coisa acontece com o setor privado: sejam pequenas, médias ou grandes empresas, elas precisam investir em avaliação e conhecimento de ameaças.”

Iniciativas como a estrutura padrão do CAI exigem adoção em massa para serem bem-sucedidas, e isso levará tempo. Por enquanto, os líderes devem priorizar a redução da superfície de ataque de sua organização e espalhar a mensagem de que ladrões armados com vozes clonadas estão caçando vítimas.