Aspectos destacados de la seguridad cibernética: preparación de su organización para el fraude de clones de voz falsos profundos
Publicado: 2022-07-22Has oído hablar de los deepfakes: fotos o videos que muestran a una figura pública o celebridad (como Tom Cruise o Will Smith) en un lugar donde nunca estuvieron, haciendo algo que nunca hicieron. Pero es posible que no sepa que una clase emergente de herramientas de aprendizaje automático hace posible ese mismo tipo de falsificación para el audio.
Las tecnologías de síntesis de voz han recorrido un largo camino desde el Voder, presentado por Bell Labs en 1939. Ese zumbido robótico que alguna vez fue controlado por un operador usando teclas y pedales se ha convertido en voces digitales que son indistinguibles de las reales, impulsadas por inteligencia artificial. La tecnología de síntesis de voz disponible ahora es tan realista y accesible que los ingenieros de audio la utilizan para duplicar el habla de los anfitriones de podcasts o actores de voz y agregar nueva información al contenido sin grabar una palabra.
Esta tecnología también está siendo utilizada por ciberdelincuentes y estafadores, lo que obliga a las organizaciones de todos los sectores a adoptar nuevos modelos de ciberseguridad para minimizar los riesgos inevitables.
Un coro de ladrones en ascenso
En 2019, en el primer caso conocido de fraude de clonación de voz, los ladrones recrearon la voz de un ejecutivo de la empresa matriz de una empresa energética no revelada con sede en el Reino Unido. Cuando el director ejecutivo de la empresa recibió una llamada del “ejecutivo”, reconoció el acento alemán y la cadencia del habla de su colega, y rápidamente realizó la transferencia de fondos urgente según lo solicitado. Los estafadores volvieron a contactarse unas horas más tarde para intentar un segundo robo, pero esta vez, el director ejecutivo notó que la llamada provenía de un lugar desconocido y sospechó.
Todos los ingredientes están listos para el uso masivo de la tecnología de clonación de voz con fines maliciosos.
A principios de 2022, el FBI publicó un informe alertando al público sobre una nueva técnica de estafa en plataformas de reuniones virtuales. Después de tomar el control del inicio de sesión de un ejecutivo, los atacantes invitan a los empleados a una reunión en la que despliegan una voz clonada, afirman que su video no funciona y solicitan información restringida o una transferencia de fondos de emergencia.
La aparición repentina de fraudes de clones de voz está generando alarmas en todo el mundo. Según Irakli Beridze, Jefe del Centro de Inteligencia Artificial y Robótica del Instituto Interregional de las Naciones Unidas para la Investigación del Crimen y la Justicia (UNICRI), todos los ingredientes están listos para una adaptación masiva de esta tecnología con fines maliciosos. “Ya sea para cometer fraude, incriminar a personas, descarrilar procesos políticos o socavar estructuras políticas, todo eso está dentro del ámbito de la posibilidad”, le dice a Toptal.
Hacerse pasar por un alto ejecutivo en una organización para cometer fraude le costó a las empresas de todo el mundo más de $ 26 mil millones entre 2016 y 2019, según el Centro de Quejas de Delitos en Internet del FBI. Y esos son solo los casos denunciados a las fuerzas del orden: la mayoría de las víctimas mantienen estos ataques en secreto para proteger su reputación.
Los delincuentes también están aprendiendo rápido, por lo que si bien la incidencia del fraude de clones de voz es baja ahora, eso podría cambiar pronto. “Hace cinco años, ni siquiera se usaba el término 'deepfake'”, dice Beridze. “A partir de ese momento, pasamos de contenido visual o de voz generado automáticamente muy inexacto y muy primitivo a falsificaciones profundas extremadamente precisas. Si analiza la tendencia desde un punto de vista histórico, esto sucedió de la noche a la mañana. Y ese es un fenómeno extremadamente peligroso. Todavía no hemos visto todo su potencial”.
Haciendo las falsificaciones
Las falsificaciones profundas de audio se ejecutan en redes neuronales. A diferencia de los algoritmos tradicionales, en los que un programador humano debe predefinir cada paso de un proceso computacional, las redes neuronales permiten que el software aprenda a realizar una tarea prescrita mediante el análisis de ejemplos: alimentar una red de reconocimiento de objetos con 10 000 imágenes de jirafas, etiquetar el contenido como "jirafa" y la red finalmente aprenderá a identificar a ese mamífero en particular, incluso en imágenes que nunca antes se han alimentado.
El problema con ese modelo era que necesitaba conjuntos de datos grandes, cuidadosamente curados y etiquetados, y preguntas muy limitadas para responder, todo lo cual tomó meses de planificación, corrección y refinamiento por parte de programadores humanos. Esto cambió rápidamente luego de la introducción de las redes antagónicas generativas (GAN) en 2014. Piense en una GAN como dos redes neuronales en una que aprende probando y dándose retroalimentación entre sí. Las GAN pueden generar y evaluar millones de imágenes rápidamente, obteniendo nueva información en cada paso del camino con poca necesidad de intervención humana.
Las GAN también funcionan con formas de onda de audio: dale a una GAN una cantidad de horas de habla humana y comenzará a reconocer patrones. Ingrese suficiente voz de un ser humano en particular y aprenderá qué hace que esa voz sea única.
Usos de sombrero blanco para la síntesis de voz Deepfake
Descript, una herramienta de edición y transcripción de audio fundada por Andrew Mason de Groupon con una inversión inicial de Andreessen Horowitz, puede identificar el equivalente de ADN en cada voz con solo unos minutos de audio de muestra. Luego, el software puede producir una copia de esa voz, incorporando nuevas palabras pero manteniendo el estilo del orador, dice Jay LeBoeuf, director de negocios y desarrollo corporativo de la empresa.
La función más popular de Descript, Overdub, no solo clona la voz, sino que también permite que el usuario edite el habla de la misma manera que editaría un documento. Corta una palabra o frase y desaparece del audio. Escriba texto adicional y se agregará como palabras habladas. Esta técnica, llamada pintura de voz basada en texto, es un avance revolucionario en el aprendizaje profundo que habría sido impensable hace solo cinco años. Un usuario puede hacer que la IA diga cualquier cosa, en cualquier voz que haya programado, simplemente escribiendo.
“Una de las cosas que casi nos pareció ciencia ficción fue la capacidad de volver a escribir un error que podría haber cometido en su trabajo de doblaje”, le dice LeBoeuf a Toptal. “Dices el nombre del producto incorrecto, la fecha de lanzamiento incorrecta y, por lo general, tendrías que rehacer toda la presentación o al menos una gran parte de ella”.
Un usuario puede hacer que la IA diga cualquier cosa, en cualquier voz que haya programado, simplemente escribiendo.
La clonación de voz y la tecnología Overdub pueden ahorrarles a los creadores de contenido horas de tiempo de edición y grabación sin sacrificar la calidad. Pushkin Industries, la compañía detrás del popular podcast Revisionist History de Malcolm Gladwell, usa Descript para generar una versión digital de la voz del presentador para usarla como actor de voz suplente mientras ensambla un episodio. Anteriormente, este proceso requería que el Gladwell real leyera y grabara el contenido para que el equipo de producción pudiera verificar el tiempo y el flujo de un episodio. Tomó muchas tomas y varias horas de trabajo para producir los resultados deseados. El uso de una voz digital también libera al equipo para realizar pequeños arreglos editoriales más adelante en el proceso.
Esta tecnología también se está utilizando para las comunicaciones internas de las empresas, dice LeBoeuf. Un cliente de Descript, por ejemplo, está clonando las voces de todos los oradores en sus videos de capacitación para que la empresa pueda modificar el contenido en la posproducción sin regresar al estudio. El costo de producir videos de capacitación oscila entre $ 1000 y $ 10 000 por minuto, por lo que la clonación de voz podría generar enormes ahorros.
Proteja su negocio de los delitos de voz clonada
A pesar de ser una tecnología relativamente nueva, el mercado mundial de la clonación de voz valía 761,3 millones de dólares en 2020 y se prevé que alcance los 3800 millones de dólares para 2027. Startups como Respeecher, Resemble AI y Veritone ofrecen servicios similares a Descript; y las grandes empresas tecnológicas como IBM, Google y Microsoft han invertido mucho en sus propias investigaciones y herramientas.
La continua evolución, crecimiento y disponibilidad de las voces clonadas está prácticamente asegurada, y los rápidos avances tecnológicos harán que los ciberataques sean imposibles de evitar.
“No se puede luchar contra los deepfakes”, dice Ismael Peinado, experto mundial en ciberseguridad con dos décadas de experiencia liderando equipos de seguridad y tecnología, y director de tecnología de Toptal. “Cuanto antes lo aceptes, mejor. Puede que hoy no sea, pero nos encontraremos ante el deepfake perfecto de voz o vídeo. Ni siquiera una fuerza laboral completamente capacitada en conciencia de riesgos puede detectar una falsificación”.
Existen soluciones de software especializadas para detectar deepfakes, herramientas que utilizan técnicas de aprendizaje profundo para detectar evidencias de falsificación en todo tipo de contenido. Pero todos los expertos que consultamos ignoraron tales inversiones. La velocidad a la que evoluciona la tecnología significa que las técnicas de detección quedan obsoletas rápidamente.
“En última instancia, es algo así como una batalla perdida perseguir la detección puramente”, dice a Toptal Andy Parsons, director sénior de la Iniciativa de Autenticidad de Contenido (CAI) de Adobe. "Para decirlo sin rodeos, los malos ganarían porque no tienen que abrir sus conjuntos de datos o sus modelos entrenados".
Entonces, ¿cuál es la solución?
Aléjese del correo electrónico
“Primero, deja de usar el correo electrónico para la comunicación interna. El noventa por ciento de sus preocupaciones de seguridad desaparecerán”, dice Peinado. La mayoría de los ataques de phishing, incluidos los destinados a obtener acceso a espacios de empresas privadas como Zoom, se originan en correos electrónicos. “Así que usa una herramienta diferente para comunicarte internamente, como Slack; establecer protocolos de seguridad agresivos para cada correo electrónico recibido; y cambiar la cultura de ciberseguridad para abordar las vulnerabilidades más críticas. 'Si recibes un correo electrónico o un SMS, no te fíes'; esa es nuestra política, y todos los miembros de la organización lo saben. Esta sola acción es más poderosa que el mejor antivirus del mercado”.
Llévate a la nube
Peinado también dice que todas las herramientas de comunicación y colaboración deberían estar en la nube e incluir autenticación multifactor. Esta es la forma más efectiva de reducir el peligro de identidades falsas porque reduce significativamente los puntos de entrada a datos comerciales críticos. Incluso si le roban la computadora portátil a su director ejecutivo, el riesgo de que un actor malicioso pueda usarla para acceder a la información de la empresa o realizar un ataque falso sería mínimo.
Apoye los esfuerzos de procedencia digital
“A medida que las cosas se vuelven más fotorrealistas y audiorrealistas, necesitamos otra base en Internet para representar la verdad o brindar transparencia a los consumidores y verificadores de datos”, dice Parsons. Con ese fin, CAI de Adobe, una alianza de creadores, tecnólogos y periodistas fundada en 2019 en asociación con Twitter y el New York Times, ha unido fuerzas con Microsoft, Intel y otros actores importantes para desarrollar un marco estándar para la atribución y procedencia digital. Incorpora información inalterable, como la hora, el autor y el tipo de dispositivo utilizado, cada vez que se crea o modifica un contenido digital.
La función de este marco es fomentar un entorno seguro para crear contenido con IA. Incluso las plataformas de reuniones virtuales podrían integrar esta tecnología para demostrar que una persona que llama es quien dice ser, sin importar la voz que los asistentes crean que están escuchando. “Entre los miembros del cuerpo del estándar, tenemos a Intel, Arm y otros fabricantes que buscan posibles implementaciones de hardware, de modo que los dispositivos de captura de todo tipo, incluidas las cámaras de transmisión, los dispositivos de audio y el propio hardware de la computadora, puedan beneficiarse. Esperamos y esperamos ver esa adopción”, dice Parsons.
Invierta en evaluación y educación sobre amenazas
Sin herramientas tecnológicas a la mano, acciones de seguridad estratégicas limitadas y un enemigo que se vuelve más grande y más sabio cada día, no hay balas de plata. Pero la colaboración entre los gobiernos, la academia y el sector privado tiene como objetivo proteger a las empresas y la sociedad en general, dice Beridze.
“Los gobiernos deberían adoptar programas nacionales de ciberseguridad y deberían hacer evaluaciones muy exhaustivas de sus necesidades y ventajas competitivas”, dice. “Lo mismo ocurre con el sector privado: ya sean empresas pequeñas, medianas o grandes, necesitan invertir en evaluación de amenazas y conocimiento”.
Iniciativas como el marco estándar de CAI requieren una adopción masiva para tener éxito, y eso llevará tiempo. Por ahora, los líderes deben priorizar la reducción de la superficie de ataque de su organización y difundir el mensaje de que los ladrones armados con voces clonadas están buscando víctimas.