Sorotan Keamanan Siber: Mempersiapkan Organisasi Anda untuk Penipuan Klon Suara Deepfake

Diterbitkan: 2022-07-22

Anda pernah mendengar tentang deepfake—foto atau video yang menunjukkan figur publik atau selebritas (seperti Tom Cruise atau Will Smith) di suatu tempat yang tidak pernah mereka kunjungi, melakukan sesuatu yang tidak pernah mereka lakukan. Tetapi Anda mungkin tidak tahu bahwa kelas alat pembelajaran mesin yang baru muncul memungkinkan jenis pemalsuan yang sama untuk audio.

Teknologi sintesis ucapan telah berkembang jauh sejak Voder, diluncurkan oleh Bell Labs pada tahun 1939. Dengung robot yang pernah dikendalikan oleh operator menggunakan kunci dan pedal telah berevolusi menjadi suara digital yang tidak dapat dibedakan dari suara aslinya—ditenagai oleh kecerdasan buatan. Teknologi sintesis ucapan yang tersedia sekarang sangat realistis dan dapat diakses sehingga teknisi audio menggunakannya untuk menduplikasi pidato pembawa acara podcast atau aktor suara dan menambahkan informasi baru ke konten tanpa merekam sepatah kata pun.

Teknologi ini juga digunakan oleh penjahat siber dan penipu, memaksa organisasi di setiap industri untuk mengadopsi model keamanan siber baru untuk meminimalkan risiko yang tidak dapat dihindari.

Paduan Suara Pencuri Naik Daun

Pada tahun 2019, dalam kasus penipuan klon suara pertama yang diketahui, pencuri menciptakan kembali suara seorang eksekutif di perusahaan induk dari sebuah perusahaan energi berbasis di Inggris yang dirahasiakan. Ketika CEO perusahaan menerima telepon dari "eksekutif", dia mengenali aksen Jerman dan irama bicara rekannya, dan dengan cepat melakukan transfer dana mendesak seperti yang diminta. Penipu melakukan kontak lagi beberapa jam kemudian untuk mencoba pencurian kedua, tetapi kali ini, CEO memperhatikan bahwa panggilan itu datang dari lokasi yang tidak diketahui dan menjadi curiga.

Semua bahan tersedia untuk penggunaan besar-besaran teknologi kloning suara untuk tujuan jahat.

Pada awal 2022, FBI menerbitkan laporan yang memperingatkan publik tentang teknik penipuan baru di platform pertemuan virtual. Setelah mengambil kendali login eksekutif, penyerang mengundang karyawan ke pertemuan di mana mereka menyebarkan suara kloning, mengklaim video mereka tidak berfungsi, dan meminta informasi terbatas atau transfer dana darurat.

Munculnya penipuan klon suara yang tiba-tiba meningkatkan alarm di seluruh dunia. Menurut Irakli Beridze, Kepala Pusat Kecerdasan Buatan dan Robotika di Institut Penelitian Kejahatan dan Keadilan Antar-Kawasan Perserikatan Bangsa-Bangsa (UNICRI), semua bahan sudah siap untuk adaptasi besar-besaran teknologi ini untuk tujuan jahat. “Apakah itu untuk melakukan penipuan, menjebak orang, menggagalkan proses politik, atau merusak struktur politik, itu semua dalam kemungkinan,” katanya kepada Toptal.

Grafik ini menceritakan kisah perampokan bank suara kloning senilai $35 juta di Hong Kong. Pada tahun 2020, seorang manajer bank menerima telepon dari seseorang yang suaranya dia kenali: Direktur perusahaan klien. Direktur memberi tahu manajer bank bahwa dia membutuhkan transfer dana mendesak dan mengatakan bahwa seorang pengacara bernama Martin Zelner akan berkoordinasi. Manajer bank menerima beberapa email dari Zelner setelahnya, termasuk satu dengan surat yang tampaknya berasal dari direktur perusahaan klien yang mengizinkan transfer dana. Yakin akan identitas penelepon dan setelah menerima dokumen yang diperlukan melalui email, manajer bank mentransfer $35 juta ke beberapa rekening. Tapi Zelner bukan pengacara sungguhan. Suara itu adalah tiruan deepfake. Sekelompok 17 penjahat telah berhasil mengatur pencurian yang canggih. Senjata pilihan mereka adalah AI.

Meniru seorang eksekutif puncak di sebuah organisasi untuk melakukan penipuan merugikan perusahaan di seluruh dunia lebih dari $26 miliar antara 2016 dan 2019, menurut Pusat Pengaduan Kejahatan Internet FBI. Dan itu hanya kasus yang dilaporkan ke penegak hukum—kebanyakan korban menyembunyikan serangan semacam itu untuk melindungi reputasi mereka.

Penjahat juga belajar dengan cepat, jadi sementara insiden penipuan klon suara rendah sekarang, itu bisa segera berubah. “Lima tahun lalu, bahkan istilah 'deepfake' tidak digunakan sama sekali,” kata Beridze. “Sejak saat itu, kami beralih dari konten suara atau visual yang dihasilkan secara otomatis sangat tidak akurat, sangat primitif menjadi deepfake yang sangat akurat. Jika Anda menganalisis tren dari sudut pandang historis, ini terjadi dalam semalam. Dan itu adalah fenomena yang sangat berbahaya. Kami belum melihat potensi penuhnya.”

Membuat Palsu

Audio deepfake berjalan di jaringan saraf. Tidak seperti algoritme tradisional, di mana seorang pemrogram manusia harus menentukan sebelumnya setiap langkah dari proses komputasi, jaringan saraf memungkinkan perangkat lunak untuk belajar melakukan tugas yang ditentukan dengan menganalisis contoh: Memberi makan jaringan pengenalan objek 10.000 gambar jerapah, memberi label konten "jerapah," dan jaringan akhirnya akan belajar mengidentifikasi mamalia tertentu bahkan dalam gambar yang belum pernah diberi makan sebelumnya.

Masalah dengan model itu adalah diperlukannya kumpulan data yang besar, dikuratori dengan hati-hati dan diberi label, dan pertanyaan yang sangat sempit untuk dijawab, yang semuanya membutuhkan perencanaan, koreksi, dan penyempurnaan berbulan-bulan oleh pemrogram manusia. Ini berubah dengan cepat setelah pengenalan jaringan permusuhan generatif (GAN) pada tahun 2014. Pikirkan GAN sebagai dua jaringan saraf dalam satu yang belajar dengan menguji dan memberikan umpan balik satu sama lain. GAN dapat menghasilkan dan menilai jutaan gambar dengan cepat, memperoleh informasi baru di setiap langkah dengan sedikit intervensi manusia.

GAN juga bekerja dengan bentuk gelombang audio: Berikan GAN beberapa jam bicara manusia, dan GAN akan mulai mengenali pola. Masukkan ucapan yang cukup dari manusia tertentu, dan ia akan mempelajari apa yang membuat suara itu unik.

Penggunaan White-hat untuk Deepfake Speech Synthesis

Descript, alat pengeditan dan transkripsi audio yang didirikan oleh Andrew Mason dari Groupon dengan investasi awal dari Andreessen Horowitz, dapat mengidentifikasi padanan DNA di setiap suara hanya dengan beberapa menit sampel audio. Kemudian, perangkat lunak dapat menghasilkan salinan suara itu, menggabungkan kata-kata baru tetapi mempertahankan gaya pembicara, kata Jay LeBoeuf, Kepala Pengembangan Bisnis dan Korporat perusahaan.

Fitur Descript yang paling populer, Overdub, tidak hanya mengkloning suara, tetapi juga memungkinkan pengguna mengedit ucapan dengan cara yang sama seperti mereka mengedit dokumen. Potong kata atau frasa dan itu menghilang dari audio. Ketik teks tambahan, dan itu akan ditambahkan sebagai kata yang diucapkan. Teknik ini, yang disebut text-informed speech inpainting, adalah terobosan pembelajaran mendalam revolusioner yang tidak terpikirkan hanya lima tahun yang lalu. Seorang pengguna dapat membuat AI mengatakan apa saja, dengan suara apa pun yang telah mereka program, hanya dengan mengetik.

“Salah satu hal yang hampir tampak seperti fiksi ilmiah bagi kami adalah kemampuan untuk mengetik ulang kesalahan yang mungkin Anda buat dalam pekerjaan sulih suara Anda,” kata LeBoeuf kepada Toptal. "Anda mengatakan nama produk yang salah, tanggal rilis yang salah, dan Anda biasanya harus mengulang seluruh presentasi atau setidaknya sebagian besar."

Seorang pengguna dapat membuat AI mengatakan apa saja, dengan suara apa pun yang telah mereka program, hanya dengan mengetik.

Kloning suara dan teknologi Overdub dapat menghemat waktu pembuat konten dalam mengedit dan merekam tanpa mengorbankan kualitas. Pushkin Industries, perusahaan di balik Revisionist History podcast populer Malcolm Gladwell, menggunakan Descript untuk menghasilkan versi digital dari suara pembawa acara untuk digunakan sebagai pengisi suara pengganti saat menyusun sebuah episode. Sebelumnya, proses ini membutuhkan Gladwell asli untuk membaca dan merekam konten sehingga tim produksi dapat memeriksa waktu dan alur episode. Butuh banyak waktu dan beberapa jam kerja untuk menghasilkan hasil yang diinginkan. Menggunakan suara digital juga membebaskan tim untuk melakukan perbaikan editorial kecil di kemudian hari.

Teknologi ini juga digunakan untuk komunikasi internal perusahaan, kata LeBoeuf. Salah satu klien Descript, misalnya, mengkloning suara semua pembicara dalam video pelatihannya sehingga perusahaan dapat memodifikasi konten pascaproduksi tanpa kembali ke studio. Biaya untuk memproduksi video pelatihan berkisar dari $1.000 hingga $10.000 per menit sehingga kloning suara dapat menghasilkan penghematan yang sangat besar.

Melindungi Bisnis Anda Dari Kejahatan Suara Terkloning

Meskipun merupakan teknologi yang relatif baru, pasar global untuk kloning suara bernilai $761,3 juta pada tahun 2020, dan diproyeksikan mencapai $3,8 miliar pada tahun 2027. Startup seperti Respeecher, Resemble AI, dan Veritone menawarkan layanan yang mirip dengan Descript; dan perusahaan Teknologi Besar seperti IBM, Google, dan Microsoft telah banyak berinvestasi dalam penelitian dan alat mereka sendiri.

Evolusi, pertumbuhan, dan ketersediaan suara kloning yang berkelanjutan secara praktis terjamin, dan kemajuan pesat dalam teknologi akan membuat serangan siber mustahil untuk dihindari.

Grid ini menunjukkan delapan potensi penggunaan audio deepfake yang berbahaya terhadap bisnis: Menghancurkan citra dan kredibilitas individu; melakukan pemerasan dan penipuan; memfasilitasi penipuan dokumen; memalsukan identitas online dan membodohi mekanisme know-you-customer (KYC); memalsukan atau memanipulasi bukti elektronik untuk penyidikan peradilan pidana; mengganggu pasar keuangan; menyebarkan disinformasi dan mempengaruhi opini publik; dan membelai kerusuhan sosial dan polarisasi politik.

“Anda tidak dapat melawan deepfake,” kata Ismael Peinado, pakar keamanan siber global dengan dua dekade pengalaman memimpin tim keamanan dan teknologi, dan Chief Technology Officer Toptal. “Semakin cepat Anda menerimanya, semakin baik. Mungkin tidak hari ini, tetapi kita akan menghadapi deepfake suara atau video yang sempurna. Bahkan tenaga kerja yang sepenuhnya terlatih dalam kesadaran risiko mungkin tidak dapat menemukan yang palsu. ”

Ada solusi perangkat lunak khusus untuk mendeteksi deepfake, alat yang menggunakan teknik pembelajaran mendalam untuk menangkap bukti pemalsuan di semua jenis konten. Tetapi setiap ahli yang kami konsultasikan mengabaikan investasi semacam itu. Kecepatan di mana teknologi berkembang berarti teknik deteksi cepat ketinggalan zaman.

"Ini pada akhirnya agak kalah dalam pertempuran untuk mengejar deteksi murni," Andy Parsons, Direktur Senior dari Adobe's Content Authenticity Initiative (CAI), mengatakan kepada Toptal. “Terus terang, orang-orang jahat akan menang karena mereka tidak harus open source set data mereka atau model terlatih mereka.”

Jadi apa solusinya?

Jauhi Email

“Pertama, hentikan penggunaan email untuk komunikasi internal. Sembilan puluh persen masalah keamanan Anda akan hilang,” kata Peinado. Sebagian besar serangan phishing, termasuk yang ditujukan untuk mendapatkan akses ke ruang perusahaan swasta seperti Zoom, berasal dari email. “Jadi gunakan alat yang berbeda untuk berkomunikasi secara internal, seperti Slack; mengatur protokol keamanan yang agresif untuk setiap email yang diterima; dan mengubah budaya keamanan siber untuk mengatasi kerentanan paling kritis. 'Jika Anda menerima email atau SMS, jangan percaya'; itulah kebijakan kami, dan setiap anggota organisasi mengetahuinya. Tindakan tunggal ini lebih kuat daripada antivirus terbaik di pasar.”

Bawa ke Awan

Peinado juga mengatakan semua alat komunikasi dan kolaborasi harus ada di cloud dan menyertakan otentikasi multifaktor. Ini adalah cara paling efektif untuk mengurangi bahaya identitas palsu karena secara signifikan mengurangi titik masuk ke data bisnis penting. Bahkan jika laptop CEO Anda dicuri, risiko bahwa aktor jahat dapat menggunakannya untuk mengakses informasi perusahaan atau melakukan serangan deepfake akan minimal.

Dukung Upaya Sumber Digital

“Ketika segala sesuatunya menjadi lebih realistis-foto dan audio-realistis, kami membutuhkan fondasi lain di internet itu sendiri untuk menggambarkan kebenaran atau memberikan transparansi kepada konsumen dan pemeriksa fakta,” kata Parsons. Untuk itu, CAI Adobe, aliansi pencipta, teknolog, dan jurnalis yang didirikan pada tahun 2019 dalam kemitraan dengan Twitter dan New York Times, telah bergabung dengan Microsoft, Intel, dan pemain besar lainnya untuk mengembangkan kerangka kerja standar untuk atribusi konten dan asal digital. Ini menyematkan informasi yang tidak dapat diubah, seperti waktu, penulis, dan jenis perangkat yang digunakan, setiap kali konten digital dibuat atau dimodifikasi.

Fungsi kerangka kerja ini adalah untuk mendorong lingkungan yang aman untuk membuat konten dengan AI. Bahkan platform pertemuan virtual dapat mengintegrasikan teknologi ini untuk membuktikan bahwa penelepon adalah siapa yang mereka klaim, tidak peduli suara apa yang menurut para peserta sedang mereka dengar. “Di antara anggota badan standar, kami memiliki Intel, Arm, dan produsen lain yang melihat potensi implementasi perangkat keras, sehingga perangkat penangkap dari semua jenis—termasuk kamera streaming, perangkat audio, dan perangkat keras komputer itu sendiri—dapat memperoleh manfaat. Kami berharap dan berharap untuk melihat adopsi itu, ”kata Parsons.

Berinvestasi dalam Penilaian Ancaman dan Pendidikan

Tanpa alat teknologi di tangan, tindakan keamanan strategis yang terbatas, dan musuh yang semakin besar dan bijaksana dari hari ke hari, tidak ada peluru perak. Tetapi kolaborasi antara pemerintah, akademisi, dan sektor swasta bertujuan untuk melindungi bisnis dan masyarakat pada umumnya, kata Beridze.

“Pemerintah harus mengadopsi program keamanan siber nasional dan harus melakukan penilaian yang sangat menyeluruh terhadap kebutuhan dan keunggulan kompetitif mereka,” katanya. “Hal yang sama berlaku untuk sektor swasta: Apakah mereka perusahaan kecil, menengah, atau besar, mereka perlu berinvestasi dalam penilaian ancaman dan pengetahuan.”

Inisiatif seperti kerangka standar CAI membutuhkan adopsi besar-besaran agar berhasil, dan itu akan memakan waktu. Untuk saat ini, para pemimpin harus memprioritaskan pengurangan permukaan serangan organisasi mereka dan menyebarkan pesan bahwa pencuri yang dipersenjatai dengan suara kloning sedang mencari korban.