Siber Güvenlik Spotlight: Kuruluşunuzu Deepfake Voice Clone Dolandırıcılığına Hazırlama

Yayınlanan: 2022-07-22

Deepfake'leri duymuşsunuzdur; tanınmış bir kişiyi veya ünlüyü (Tom Cruise veya Will Smith gibi) hiç olmadıkları bir yerde, hiç yapmadıkları bir şeyi yaparken gösteren fotoğraflar veya videolar. Ancak, yeni ortaya çıkan bir makine öğrenimi araçları sınıfının ses için aynı tür sahtekarlığı mümkün kıldığını bilmiyor olabilirsiniz.

Konuşma sentezi teknolojileri, 1939'da Bell Labs tarafından piyasaya sürülen Voder'dan bu yana çok yol kat etti. Bir zamanlar tuşları ve pedalları kullanan bir operatör tarafından kontrol edilen bu robotik droning, yapay zeka tarafından desteklenen gerçek seslerden ayırt edilemeyen dijital seslere dönüştü. Şu anda mevcut olan konuşma sentezi teknolojisi o kadar gerçekçi ve erişilebilir ki, ses mühendisleri bunu podcast sunucularının veya ses aktörlerinin konuşmalarını çoğaltmak ve bir kelime kaydetmeden içeriğe yeni bilgiler eklemek için kullanıyor.

Bu teknoloji aynı zamanda siber suçlular ve dolandırıcılar tarafından da kullanılıyor ve her sektördeki kuruluşları kaçınılmaz riskleri en aza indirgemek için yeni siber güvenlik modelleri benimsemeye zorluyor.

Yükselen Hırsızlar Korosu

2019'da, bilinen ilk ses klonu dolandırıcılığı vakasında, hırsızlar, İngiltere merkezli bir enerji şirketinin ana şirketindeki bir yöneticinin sesini yeniden yarattı. Firmanın CEO'su “yöneticiden” bir telefon aldığında, meslektaşının Alman aksanını ve konuşma ritmini tanıdı ve istendiği gibi çabucak acil para transferini yaptı. Dolandırıcılar birkaç saat sonra ikinci bir hırsızlık girişiminde bulunmak için tekrar temas kurdular, ancak bu sefer CEO, aramanın bilinmeyen bir yerden geldiğini fark etti ve şüpheli hale geldi.

Ses klonlama teknolojisinin kötü amaçlı amaçlarla yoğun kullanımı için tüm bileşenler mevcuttur.

2022'nin başlarında FBI, sanal toplantı platformlarında halkı yeni bir dolandırıcılık tekniği konusunda uyaran bir rapor yayınladı. Bir yöneticinin oturum açma kontrolünü ele geçirdikten sonra, saldırganlar çalışanları klonlanmış bir ses dağıttıkları, videolarının çalışmadığını iddia ettikleri ve kısıtlı bilgi ya da acil para transferi talep ettikleri bir toplantıya davet ediyor.

Ses klonlama dolandırıcılıklarının aniden ortaya çıkması, dünya çapında alarmları artırıyor. Birleşmiş Milletler Bölgeler Arası Suç ve Adalet Araştırma Enstitüsü'nde (UNICRI) Yapay Zeka ve Robotik Merkezi Başkanı Irakli Beridze'ye göre, bu teknolojinin kötü amaçlar için büyük bir şekilde uyarlanması için tüm malzemeler yerinde. Toptal'a, “İster sahtekarlık yapmak, isterse insanları suçlamak, siyasi süreçleri rayından çıkarmak veya siyasi yapıları baltalamak için olsun, bunların hepsi olasılık dahilinde” diyor.

Bu grafik, Hong Kong'daki 35 milyon dolarlık klonlanmış sesli banka soygunu hikayesini anlatıyor. 2020'de bir banka müdürü, sesini tanıdığı bir kişiden bir telefon aldı: Müşteri bir şirketin müdürü. Müdür, banka müdürüne acil bir para transferine ihtiyacı olduğunu söyler ve Martin Zelner adında bir avukatın koordine edeceğini söyler. Banka müdürü daha sonra Zelner'den birkaç e-posta alır; bunlardan biri, müşteri şirketin yöneticisinden para transferini yetkilendiren bir mektup gibi görünüyor. Arayanın kimliğinden emin olan ve gerekli belgeleri e-posta yoluyla alan banka müdürü, birkaç hesaba 35 milyon dolar aktarır. Ama Zelner gerçek bir avukat değildi. Ses derin sahte bir klondu. 17 suçludan oluşan bir grup, sofistike bir hırsızlığı başarıyla yönetmişti. Seçtikleri silah yapay zekaydı.

FBI'ın İnternet Suçları Şikayet Merkezi'ne göre, dünyanın dört bir yanındaki şirketlere 2016 ile 2019 arasında 26 milyar dolardan fazla dolandırıcılık yapmak için bir kuruluşta üst düzey bir yöneticiyi taklit etmek. Ve bunlar sadece kolluk kuvvetlerine bildirilen vakalardır - çoğu kurban, itibarlarını korumak için bu tür saldırıları gizli tutar.

Suçlular da hızlı öğreniyor, bu nedenle ses klonu sahtekarlığı vakası şu anda düşük olsa da, bu yakında değişebilir. Beridze, “Beş yıl önce 'deepfake' terimi bile hiç kullanılmıyordu” diyor. "O andan itibaren, çok yanlış, çok ilkel, otomatik olarak oluşturulan ses veya görsel içerikten son derece hassas derin sahtekarlara geçtik. Eğilimi tarihsel bir bakış açısıyla analiz ederseniz, bu bir gecede oldu. Ve bu son derece tehlikeli bir fenomen. Henüz tam potansiyelini görmedik.”

Sahte Yapmak

Ses derin sahtekarlıkları sinir ağlarında çalışır. Bir insan programcının bir hesaplama sürecinin her adımını önceden tanımlaması gereken geleneksel algoritmalardan farklı olarak, sinir ağları, yazılımın örnekleri analiz ederek önceden belirlenmiş bir görevi yerine getirmeyi öğrenmesini sağlar: Bir nesne tanıma ağını 10.000 zürafa görüntüsü besleyin, içeriği "zürafa" olarak etiketleyin. ve ağ sonunda o memeliyi daha önce hiç beslemediği görüntülerde bile tanımlamayı öğrenecek.

Bu modelle ilgili sorun, büyük, özenle seçilmiş ve etiketlenmiş veri kümelerine ve yanıtlanması gereken çok dar sorulara ihtiyaç duymasıydı; bunların hepsi insan programcılar tarafından aylarca planlama, düzeltme ve iyileştirme aldı. Bu, 2014'te üretken rakip ağların (GAN'lar) piyasaya sürülmesinden sonra hızla değişti. GAN'ı, birbirine test ederek ve geri bildirimde bulunarak öğrenen iki sinir ağı olarak düşünün. GAN'lar, insan müdahalesine çok az ihtiyaç duyarak her adımda yeni bilgiler elde ederek milyonlarca görüntüyü hızla oluşturup değerlendirebilir.

GAN'lar ayrıca ses dalga formlarıyla da çalışır: Bir GAN'a birkaç saat insan konuşması verin, kalıpları tanımaya başlayacaktır. Belirli bir insandan yeterince konuşma girin ve o sesi neyin benzersiz kıldığını öğrenecektir.

Deepfake Konuşma Sentezi için Beyaz Şapka Kullanımları

Andreessen Horowitz'in tohum yatırımıyla Groupon'dan Andrew Mason tarafından kurulan bir ses düzenleme ve transkripsiyon aracı olan Descript, sadece birkaç dakikalık örnek ses ile her sesteki DNA'nın eşdeğerini belirleyebiliyor. Şirketin İş ve Kurumsal Geliştirme Başkanı Jay LeBoeuf, daha sonra yazılımın yeni kelimeler ekleyerek ancak konuşmacının tarzını koruyarak bu sesin bir kopyasını üretebileceğini söylüyor.

Descript'in en popüler özelliği olan Overdub, yalnızca sesi klonlamakla kalmaz, aynı zamanda kullanıcının bir belgeyi düzenler gibi konuşmayı düzenlemesine de olanak tanır. Bir kelimeyi veya cümleyi kestiğinizde sesten kaybolur. Ek metin yazın ve konuşulan sözcükler olarak eklenir. Metin bilgili konuşma içi boyama olarak adlandırılan bu teknik, sadece beş yıl önce düşünülemeyecek olan, devrim niteliğinde bir derin öğrenme atılımıdır. Bir kullanıcı, programladıkları herhangi bir sesle, sadece yazarak yapay zekanın her şeyi söylemesini sağlayabilir.

Toptal'a konuşan LeBoeuf, "Bize neredeyse bilim kurgu gibi görünen şeylerden biri, seslendirme çalışmanızda yapmış olabileceğiniz bir hatayı yeniden yazabilme yeteneğiydi" diyor. “Yanlış ürün adını, yanlış çıkış tarihini söylüyorsunuz ve genellikle sunumun tamamını veya en azından büyük bir bölümünü yeniden yapmanız gerekecek.”

Bir kullanıcı, programladıkları herhangi bir sesle, sadece yazarak yapay zekanın her şeyi söylemesini sağlayabilir.

Ses klonlama ve Overdub teknolojisi, içerik oluşturuculara kaliteden ödün vermeden saatlerce düzenleme ve kayıt süresi kazandırabilir. Malcolm Gladwell'in popüler podcast Revisionist History'nin arkasındaki şirket olan Pushkin Industries, bir bölümü oluştururken seslendirme sanatçısı olarak kullanmak üzere sunucunun sesinin dijital bir versiyonunu oluşturmak için Descript'i kullanıyor. Önceden, bu süreç, gerçek Gladwell'in içeriği okumasını ve kaydetmesini gerektiriyordu, böylece yapım ekibi bir bölümün zamanlamasını ve akışını kontrol edebilirdi. İstenen sonuçları elde etmek için birçok çalışma ve birkaç saatlik çalışma gerekti. Dijital bir ses kullanmak, ekibi daha sonra süreçte küçük editoryal düzeltmeler yapmak için serbest bırakır.

LeBoeuf, bu teknolojinin şirketlerin iç iletişimleri için de kullanıldığını söylüyor. Örneğin bir Descript istemcisi, şirketin stüdyoya dönmeden post prodüksiyonda içeriği değiştirebilmesi için eğitim videolarındaki tüm konuşmacıların seslerini klonluyor. Eğitim videoları üretmenin maliyeti dakikada 1.000 ila 10.000 ABD Doları arasında değişmektedir, bu nedenle ses klonlama çok büyük tasarruflar sağlayabilir.

İşletmenizi Klonlanmış Ses Suçlarından Koruma

Nispeten yeni bir teknoloji olmasına rağmen, küresel ses klonlama pazarı 2020'de 761,3 milyon dolar değerindeydi ve 2027'de 3,8 milyar dolara ulaşması bekleniyor. Respeecher, Resemble AI ve Veritone gibi girişimler, Descript'e benzer hizmetler sunuyor; IBM, Google ve Microsoft gibi Büyük Teknoloji şirketleri, kendi araştırmalarına ve araçlarına büyük yatırımlar yaptılar.

Klonlanmış seslerin sürekli evrimi, büyümesi ve kullanılabilirliği pratik olarak garanti edilir ve teknolojideki hızlı gelişmeler siber saldırılardan kaçınmayı imkansız hale getirecektir.

Bu tablo, işletmelere karşı derin ses dosyalarının sekiz olası kötü niyetli kullanımını göstermektedir: Bir kişinin imajını ve güvenilirliğini yok etmek; gasp ve dolandırıcılık yapmak; belge sahtekarlığını kolaylaştırmak; çevrimiçi kimlikleri tahrif etmek ve müşteriyi tanı (KYC) mekanizmalarını kandırmak; ceza adaleti soruşturmaları için elektronik kanıtları tahrif etmek veya manipüle etmek; finansal piyasaları bozmak; dezenformasyon yaymak ve kamuoyunu etkilemek; ve toplumsal huzursuzluğu ve siyasi kutuplaşmayı okşayarak.

Güvenlik ve teknoloji ekiplerine liderlik eden yirmi yıllık deneyime sahip küresel bir siber güvenlik uzmanı ve Toptal'ın Baş Teknoloji Sorumlusu Ismael Peinado, “Deepfaks'larla savaşamazsınız” diyor. "Ne kadar erken kabul edersen o kadar iyi. Bugün olmayabilir ama mükemmel ses veya video deepfake ile karşı karşıya kalacağız. Risk farkındalığı konusunda tam olarak eğitilmiş bir iş gücü bile bir sahtekarlığı fark edemez.”

Deepfake'leri tespit etmek için özel yazılım çözümleri, her türlü içerikte sahtecilik kanıtlarını yakalamak için derin öğrenme tekniklerini kullanan araçlar var. Ancak danıştığımız her uzman bu tür yatırımları göz ardı etti. Teknolojinin gelişme hızı, algılama tekniklerinin hızla eskidiği anlamına geliyor.

Adobe Content Authenticity Initiative'in (CAI) Kıdemli Direktörü Andy Parsons, Toptal'a “Yalnızca algılamanın peşinden gitmek bir şekilde kaybedilen bir savaş” diyor. Açıkça söylemek gerekirse, kötü adamlar kazanır çünkü veri kümelerini veya eğitimli modellerini açık kaynaklı hale getirmek zorunda kalmazlar.”

Çözüm nedir?

E-postadan Uzaklaş

“İlk olarak, dahili iletişim için e-posta kullanmayı bırakın. Peinado, güvenlik endişelerinizin yüzde doksanını ortadan kaldıracak" diyor. Zoom gibi özel şirket alanlarına erişim sağlamayı amaçlayanlar da dahil olmak üzere çoğu kimlik avı saldırısı, e-postalardan kaynaklanır. “Bu nedenle, dahili olarak iletişim kurmak için Slack gibi farklı bir araç kullanın; alınan her e-posta için agresif güvenlik protokolleri ayarlayın; ve en kritik güvenlik açıklarını ele almak için siber güvenlik kültürünü değiştirin. 'Bir e-posta veya SMS alırsanız, ona güvenmeyin'; bu bizim politikamız ve organizasyonun her üyesi bunu biliyor. Bu tek eylem, piyasadaki en iyi antivirüsten daha güçlü.”

Buluta götür

Peinado ayrıca tüm iletişim ve işbirliği araçlarının bulutta olması ve çok faktörlü kimlik doğrulama içermesi gerektiğini söylüyor. Bu, kritik iş verilerine giriş noktalarını önemli ölçüde azalttığı için sahte kimlik tehlikesini azaltmanın en etkili yoludur. CEO'nuzun dizüstü bilgisayarı çalınsa bile, kötü niyetli bir aktörün onu şirketin bilgilerine erişmek veya derin bir sahte saldırı düzenlemek için kullanma riski minimum olacaktır.

Dijital Kaynak Çabalarını Destekleyin

Parsons, "İşler daha foto-gerçekçi ve işitsel-gerçekçi hale geldikçe, gerçeği tasvir etmek veya tüketicilere ve teyitçilere şeffaflık sağlamak için internetin kendisinde başka bir temele ihtiyacımız var" diyor. Bu amaçla, 2019 yılında Twitter ve New York Times ile ortaklaşa kurulan içerik oluşturucular, teknoloji uzmanları ve gazetecilerden oluşan bir ittifak olan Adobe CAI, içerik atıf ve dijital kaynak. Dijital içerik her oluşturulduğunda veya değiştirildiğinde, zaman, yazar ve kullanılan cihazın türü gibi değiştirilemez bilgileri gömer.

Bu çerçevenin işlevi, AI ile içerik oluşturmak için güvenli bir ortam sağlamaktır. Sanal toplantı platformları bile, arayanın iddia ettiği kişi olduğunu kanıtlamak için bu teknolojiyi entegre edebilir, ses katılımcıları duyduklarını düşündüklerinden bağımsız olarak. “Standartın üyeleri arasında, potansiyel donanım uygulamalarına bakan Intel, Arm ve diğer üreticiler var, böylece akış kameraları, ses cihazları ve bilgisayar donanımının kendisi de dahil olmak üzere her türlü yakalama cihazı yararlanabilir. Bu evlat edinmeyi görmeyi umuyoruz ve bekliyoruz, ”diyor Parsons.

Tehdit Değerlendirmesi ve Eğitimine Yatırım Yapın

Eldeki teknolojik araçlar, sınırlı stratejik güvenlik eylemleri ve gün geçtikçe daha büyük ve daha akıllı hale gelen bir düşman olmadan, gümüş kurşun yoktur. Ancak hükümetler, akademi ve özel sektör arasındaki işbirliği, işletmeleri ve toplumu genel olarak korumayı hedefliyor, diyor Beridze.

“Hükümetler ulusal siber güvenlik programlarını benimsemeli ve ihtiyaçları ile rekabet avantajları konusunda çok kapsamlı değerlendirmeler yapmalıdır” diyor. "Aynı şey özel sektör için de geçerli: Küçük, orta veya büyük işletmeler olsun, tehdit değerlendirmesine ve bilgisine yatırım yapmaları gerekiyor."

CAI'nin standart çerçevesi gibi girişimler, başarılı olmak için büyük ölçüde benimsenmeyi gerektirir ve bu zaman alacaktır. Şimdilik liderler, kuruluşlarının saldırı yüzeyini azaltmaya ve klonlanmış seslerle donanmış hırsızların kurbanlar için trollük yaptığı mesajını yaymaya öncelik vermelidir.