사이버 보안 집중 조명: Deepfake 음성 복제 사기에 대한 조직 준비

게시 됨: 2022-07-22

딥페이크(deepfake), 즉 톰 크루즈나 윌 스미스와 같은 유명인이나 유명인이 가본 적 없는 곳에서 해보지 않은 일을 하는 사진이나 비디오에 대해 들어본 적이 있을 것입니다. 그러나 새로운 종류의 기계 학습 도구가 오디오에 대해 동일한 종류의 가짜를 가능하게 한다는 사실을 모를 수도 있습니다.

음성 합성 기술은 1939년 Bell Labs에서 공개된 Voder 이후로 먼 길을 왔습니다. 한 때 운영자가 키와 페달을 사용하여 제어하는 ​​로봇 드론은 인공 지능으로 구동되는 실제 음성과 구별할 수 없는 디지털 음성으로 진화했습니다. 현재 사용 가능한 음성 합성 기술은 너무 현실적이고 접근이 용이하여 오디오 엔지니어가 이를 사용하여 팟캐스트 호스트 또는 성우의 음성을 복제하고 단어를 녹음하지 않고도 콘텐츠에 새로운 정보를 추가할 수 있습니다.

이 기술은 사이버 범죄자와 사기범도 사용하고 있어 모든 업계의 조직에서 피할 수 없는 위험을 최소화하기 위해 새로운 사이버 보안 모델을 채택해야 합니다.

부상하는 도둑들의 합창단

2019년, 음성 복제 사기의 첫 번째 알려진 사례에서 도둑들은 영국에 기반을 둔 비공개 에너지 회사의 모회사 임원의 목소리를 재현했습니다. 회사의 CEO는 "임원"에게서 전화를 받았을 때 동료의 독일어 억양과 말투를 알아차리고 요청에 따라 급히 자금을 이체했습니다. 사기범들은 몇 시간 후 다시 연락을 취해 2차 절도를 시도했지만, 이번에는 CEO가 알 수 없는 곳에서 걸려온 전화를 알아차리고 의심을 품게 됐다.

악의적 인 목적으로 음성 복제 기술을 대량으로 사용하기위한 모든 구성 요소가 있습니다.

2022년 초 FBI는 가상 회의 플랫폼의 새로운 사기 수법에 대해 대중에게 경고하는 보고서를 발표했습니다. 경영진의 로그인을 제어한 후 공격자는 직원을 회의에 초대하여 복제된 음성을 배포하고 비디오가 작동하지 않는다고 주장하며 제한된 정보 또는 긴급 자금 이체를 요청합니다.

음성 복제 사기의 갑작스런 출현은 전 세계적으로 경종을 울리고 있습니다. UNICRI(United Nations Interregional Crime and Justice Research Institute)의 인공 지능 및 로봇 공학 센터 책임자인 Irakli Beridze에 따르면 이 기술을 악의적인 목적으로 대규모로 적용하기 위한 모든 요소가 준비되어 있습니다. 그는 Toptal에 "사기 행위를 하든, 사람을 속이거나, 정치적 절차를 방해하거나, 정치 구조를 훼손하기 위한 것이든 모두 가능성의 영역 안에 있습니다."라고 말합니다.

이 그래픽은 홍콩에서 3,500만 달러 규모의 복제 음성 은행 강도 사건을 보여줍니다. 2020년, 은행 매니저는 자신의 목소리를 알아본 고객사 대표로부터 전화를 받았습니다. 이사는 은행 관리자에게 긴급 자금 이체가 필요하다고 말하며 Martin Zelner라는 변호사가 조정해 줄 것이라고 말합니다. 은행 관리자는 Zelner로부터 자금 이체를 승인하는 클라이언트 회사의 이사가 보낸 것으로 보이는 편지를 포함하여 여러 이메일을 받습니다. 발신자의 신원을 확신하고 이메일을 통해 필요한 문서를 받은 은행 관리자는 3,500만 달러를 여러 계좌로 이체합니다. 그러나 Zelner는 진정한 변호사가 아니었습니다. 목소리는 딥페이크 클론이었다. 17명의 범죄자 그룹이 교묘한 절도를 성공적으로 조직했습니다. 그들이 선택한 무기는 AI였습니다.

FBI의 인터넷 범죄 신고 센터(Internet Crime Complaint Center)에 따르면 2016년에서 2019년 사이에 전 세계 기업이 사기를 저지르기 위해 조직의 최고 경영자를 사칭하면 260억 달러 이상의 비용이 발생합니다. 그리고 이는 법 집행 기관에 보고된 사례일 뿐입니다. 대부분의 피해자는 자신의 평판을 보호하기 위해 이러한 공격을 비밀로 합니다.

범죄자들도 빠르게 학습하고 있으므로 음성 복제 사기의 발생률은 현재 낮지만 곧 바뀔 수 있습니다. "5년 전에는 '딥페이크'라는 용어조차 전혀 사용되지 않았습니다."라고 Beridze는 말합니다. “그 시점부터 우리는 매우 부정확하고 원시적인 자동 생성 음성 또는 시각적 콘텐츠에서 매우 정확한 딥페이크로 전환했습니다. 추세를 역사적 관점에서 분석하면 하룻밤 사이에 일어난 일입니다. 그리고 그것은 매우 위험한 현상입니다. 우리는 아직 그 잠재력을 충분히 보지 못했습니다.”

가짜 만들기

오디오 딥페이크는 신경망에서 실행됩니다. 인간 프로그래머가 계산 프로세스의 모든 단계를 미리 정의해야 하는 기존 알고리즘과 달리 신경망은 소프트웨어가 예제를 분석하여 규정된 작업을 수행하는 방법을 학습할 수 있도록 합니다. 네트워크는 결국 이전에 먹이를 준 적이 없는 이미지에서도 특정 포유동물을 식별하는 방법을 학습하게 됩니다.

이 모델의 문제는 크고 신중하게 선별되고 레이블이 지정된 데이터 세트와 매우 좁은 질문에 답해야 한다는 것이었습니다. 이 모든 문제는 인간 프로그래머가 계획하고 수정하고 다듬는 데 수개월이 걸렸습니다. 이는 2014년 GAN(Generative Adversarial Network)이 도입된 후 빠르게 변경되었습니다. GAN을 테스트하고 서로에게 피드백을 제공하여 학습하는 하나의 신경망으로 생각하십시오. GAN은 수백만 개의 이미지를 빠르게 생성하고 평가하여 사람의 개입 없이 모든 단계에서 새로운 정보를 얻을 수 있습니다.

GAN은 오디오 파형과도 작동합니다. GAN에 몇 시간 동안 사람의 말을 하면 패턴을 인식하기 시작합니다. 특정 사람의 음성을 충분히 입력하면 해당 음성을 고유하게 만드는 요소를 학습합니다.

딥페이크 음성 합성을 위한 화이트햇 사용

Groupon의 Andrew Mason이 Andreessen Horowitz의 시드 투자로 설립한 오디오 편집 및 전사 도구인 Descript는 단 몇 분의 샘플 오디오로 모든 음성에서 DNA에 해당하는 것을 식별할 수 있습니다. 그런 다음 소프트웨어는 새 단어를 통합하면서도 화자의 스타일을 유지하면서 해당 음성의 사본을 생성할 수 있다고 회사의 비즈니스 및 기업 개발 책임자인 Jay LeBoeuf는 말합니다.

Descript의 가장 인기 있는 기능인 Overdub은 음성을 복제할 뿐만 아니라 사용자가 문서를 편집하는 것과 동일한 방식으로 음성을 편집할 수 있도록 합니다. 단어나 구를 자르면 오디오에서 사라집니다. 추가 텍스트를 입력하면 음성으로 추가됩니다. 텍스트 기반 스피치 인페인팅(text-informed speech inpainting)이라고 하는 이 기술은 불과 5년 전에는 상상도 할 수 없었던 혁신적인 딥 러닝 돌파구입니다. 사용자는 입력하기만 하면 AI가 프로그래밍한 음성으로 무엇이든 말하게 할 수 있습니다.

LeBoeuf는 Toptal에 "우리에게 거의 공상 과학 소설처럼 보였던 것 중 하나는 음성 해설 작업에서 저지를 수 있는 실수를 다시 입력하는 기능이었습니다."라고 말합니다. "제품 이름을 잘못 말하고 출시 날짜를 잘못 말하면 일반적으로 프레젠테이션 전체 또는 적어도 상당 부분을 다시 해야 합니다."

사용자는 입력하기만 하면 AI가 프로그래밍한 음성으로 무엇이든 말하게 할 수 있습니다.

음성 복제 및 오버더빙 기술은 품질 저하 없이 콘텐츠 제작자의 편집 및 녹음 시간을 절약할 수 있습니다. Malcolm Gladwell의 인기 있는 팟캐스트 Revisionist History 를 제작한 회사인 Pushkin Industries는 Descript를 사용하여 에피소드를 구성하는 동안 대기 성우로 사용할 호스트 음성의 디지털 버전을 생성합니다. 이전에는 이 프로세스에서 실제 Gladwell이 콘텐츠를 읽고 녹음해야 제작 팀이 에피소드의 타이밍과 흐름을 확인할 수 있었습니다. 원하는 결과를 얻기까지 많은 시간과 노력이 필요했습니다. 또한 디지털 음성을 사용하면 팀이 나중에 프로세스에서 작은 편집 수정을 할 수 있습니다.

이 기술은 회사의 내부 커뮤니케이션에도 사용되고 있다고 LeBoeuf는 말합니다. 예를 들어 한 Descript 클라이언트는 회사가 스튜디오로 돌아가지 않고 후반 작업에서 콘텐츠를 수정할 수 있도록 교육 비디오에 있는 모든 발표자의 목소리를 복제하고 있습니다. 교육 비디오 제작 비용은 분당 1,000달러에서 10,000달러 사이이므로 음성 복제로 엄청난 비용을 절감할 수 있습니다.

복제된 음성 범죄로부터 비즈니스 보호

비교적 새로운 기술임에도 불구하고 음성 복제의 글로벌 시장은 2020년 7억 6,130만 달러였으며 2027년에는 38억 달러에 이를 것으로 예상됩니다. Respeecher, Resemble AI 및 Veritone과 같은 스타트업은 Descript와 유사한 서비스를 제공합니다. IBM, Google, Microsoft와 같은 Big Tech 회사는 자체 연구 및 도구에 막대한 투자를 했습니다.

복제된 음성의 지속적인 진화, 성장 및 가용성이 실질적으로 보장되며 기술의 급속한 발전으로 인해 사이버 공격을 피할 수 없게 될 것입니다.

이 표는 기업에 대한 오디오 딥페이크의 8가지 잠재적인 악의적 사용을 보여줍니다. 갈취 및 사기를 자행하는 행위; 문서 사기 조장; 온라인 신원을 위조하고 KYC(Know-You-Customer) 메커니즘을 속이는 행위 형사 사법 조사를 위한 전자 증거 위조 또는 조작; 금융 시장 교란; 허위 정보를 배포하고 여론에 영향을 미치는 행위 사회적 불안과 정치적 양극화를 쓰다듬어줍니다.

20년 동안 보안 및 기술 팀을 이끌고 있는 글로벌 사이버 보안 전문가이자 Toptal의 최고 기술 책임자인 Ismael Peinado는 "딥페이크와 싸울 수 없습니다. “수용은 빠를수록 좋습니다. 오늘은 아닐지 모르지만 우리는 완벽한 음성 또는 영상 딥페이크에 직면할 것입니다. 위험 인식에 대해 완전히 훈련된 인력조차도 가짜를 찾아낼 수 없습니다.”

모든 종류의 콘텐츠에서 위조 증거를 포착하기 위해 딥 러닝 기술을 사용하는 도구인 딥페이크를 탐지하는 데 특화된 소프트웨어 솔루션이 있습니다. 그러나 우리가 상담한 모든 전문가는 그러한 투자를 무시했습니다. 기술이 발전하는 속도는 탐지 기술이 빠르게 구식임을 의미합니다.

Adobe의 CAI(Content Authenticity Initiative) 수석 이사인 Andy Parsons는 Toptal에 "순전히 탐지만을 추구하는 것은 궁극적으로 다소 지는 싸움입니다."라고 말했습니다. "솔직히 말하면 데이터 세트나 훈련된 모델을 오픈소스화할 필요가 없기 때문에 나쁜 사람이 이길 것입니다."

그래서 해결책은 무엇입니까?

이메일에서 멀리 이동

“우선, 내부 커뮤니케이션을 위해 이메일을 사용하지 마십시오. 보안 문제의 90%가 사라질 것입니다.”라고 Peinado는 말합니다. Zoom과 같은 사적인 회사 공간에 대한 액세스를 목표로 하는 공격을 포함하여 대부분의 피싱 공격은 이메일에서 시작됩니다. “따라서 Slack과 같은 다른 도구를 사용하여 내부적으로 의사 소통하십시오. 수신된 모든 이메일에 대해 공격적인 보안 프로토콜을 설정합니다. 가장 중요한 취약점을 해결하기 위해 사이버 보안 문화를 변경합니다. '이메일이나 SMS를 받으면 믿지 마세요'; 그것이 우리의 정책이며 조직의 모든 구성원이 알고 있습니다. 이 단일 조치는 시장에서 가장 우수한 바이러스 백신보다 더 강력합니다.”

클라우드로 이동

Peinado는 또한 모든 커뮤니케이션 및 협업 도구가 클라우드에 있어야 하고 다단계 인증을 포함해야 한다고 말합니다. 이는 중요한 비즈니스 데이터에 대한 진입점을 크게 줄이므로 위조 ID의 위험을 줄이는 가장 효과적인 방법입니다. CEO의 노트북이 도난당하더라도 악의적인 행위자가 이를 사용하여 회사 정보에 ​​액세스하거나 딥페이크 공격을 수행할 위험이 최소화됩니다.

디지털 출처 노력 지원

Parsons는 "상황이 더욱 사실적이고 오디오처럼 현실적이 됨에 따라 진실을 묘사하거나 소비자와 팩트 체커에게 투명성을 제공하기 위해 인터넷 자체에 대한 또 다른 기반이 필요합니다."라고 말합니다. 이를 위해 2019년 Twitter 및 New York Times와 협력하여 설립된 제작자, 기술자 및 언론인 연합인 Adobe의 CAI는 Microsoft, Intel 및 기타 주요 업체와 협력하여 콘텐츠 속성 및 디지털 출처. 디지털 콘텐츠가 생성되거나 수정될 때마다 시간, 작성자 및 사용된 장치 유형과 같은 변경할 수 없는 정보가 포함됩니다.

이 프레임워크의 기능은 AI로 콘텐츠를 만들기 위한 안전한 환경을 조성하는 것입니다. 가상 회의 플랫폼에서도 이 기술을 통합하여 참석자가 듣고 있다고 생각하는 음성에 상관없이 발신자가 자신이 주장하는 사람임을 증명할 수 있습니다. “표준 기구의 구성원 중에는 Intel, Arm 및 기타 제조업체가 잠재적인 하드웨어 구현을 검토하고 있으므로 스트리밍 카메라, 오디오 장치 및 컴퓨터 하드웨어 자체를 포함한 모든 종류의 캡처 장치가 이점을 얻을 수 있습니다. 우리는 그러한 채택을 기대하고 기대합니다.”라고 Parsons는 말합니다.

위협 평가 및 교육에 투자

손에 쥔 기술 도구가 없고 전략적 보안 조치가 제한적이며 날이 갈수록 더 커지고 현명해지는 적에게 은총은 없습니다. 그러나 정부, 학계 및 민간 부문 간의 협력은 기업과 사회 전반을 보호하는 것을 목표로 한다고 Beridze는 말합니다.

"정부는 국가 사이버 보안 프로그램을 채택해야 하며 그들의 요구와 경쟁 우위에 대해 매우 철저한 평가를 수행해야 합니다."라고 그는 말합니다. "민간 부문도 마찬가지입니다. 중소기업이든 대기업이든 위협 평가와 지식에 투자해야 합니다."

CAI의 표준 프레임워크와 같은 이니셔티브는 성공하려면 대규모 채택이 필요하며 시간이 걸립니다. 현재로서는 리더가 조직의 공격 표면을 줄이고 복제된 음성으로 무장한 도둑이 희생자를 노리고 있다는 메시지를 전파하는 데 우선순위를 두어야 합니다.