Cybersecurity Spotlight: เตรียมองค์กรของคุณให้พร้อมสำหรับการฉ้อโกง Deepfake Voice Clone

เผยแพร่แล้ว: 2022-07-22

คุณเคยได้ยินเกี่ยวกับ Deepfakes รูปภาพหรือวิดีโอที่แสดงบุคคลสาธารณะหรือผู้มีชื่อเสียง (เช่น Tom Cruise หรือ Will Smith) ที่ไหนสักแห่งที่พวกเขาไม่เคยเป็น ทำในสิ่งที่พวกเขาไม่เคยทำ แต่คุณอาจไม่ทราบว่าเครื่องมือการเรียนรู้ของเครื่องรุ่นใดทำให้เกิดการปลอมแปลงเสียงแบบเดียวกันได้

เทคโนโลยีการสังเคราะห์เสียงพูดมาไกลตั้งแต่ Voder ซึ่งเปิดตัวโดย Bell Labs ในปี 1939 โดรนหุ่นยนต์ตัวนั้นที่เคยควบคุมโดยผู้ควบคุมด้วยปุ่มและแป้นเหยียบ ได้พัฒนาเป็นเสียงดิจิทัลที่แยกไม่ออกจากของจริง ซึ่งขับเคลื่อนโดยปัญญาประดิษฐ์ เทคโนโลยีการสังเคราะห์เสียงพูดที่มีอยู่ในขณะนี้มีความสมจริงและเข้าถึงได้มากจนวิศวกรเสียงใช้เพื่อทำซ้ำคำพูดของโฮสต์พอดคาสต์หรือผู้พากย์เสียง และเพิ่มข้อมูลใหม่ลงในเนื้อหาโดยไม่ต้องบันทึกคำใดๆ

เทคโนโลยีนี้ยังถูกใช้โดยอาชญากรไซเบอร์และผู้ฉ้อโกง บังคับให้องค์กรในทุกอุตสาหกรรมนำรูปแบบการรักษาความปลอดภัยทางไซเบอร์แบบใหม่มาใช้เพื่อลดความเสี่ยงที่หลีกเลี่ยงไม่ได้

คณะนักร้องประสานเสียงของโจรขึ้นมือ

ในปี 2019 ในกรณีแรกของการฉ้อโกงเสียงแบบโคลน โจรสร้างเสียงของผู้บริหารในบริษัทแม่ของบริษัทพลังงานที่ไม่เปิดเผยชื่อในสหราชอาณาจักร เมื่อ CEO ของบริษัทได้รับโทรศัพท์จาก "ผู้บริหาร" เขาจำสำเนียงเยอรมันและจังหวะการพูดของเพื่อนร่วมงานได้ และโอนเงินด่วนตามคำขอ นักต้มตุ๋นได้ติดต่ออีกครั้งในสองสามชั่วโมงต่อมาเพื่อพยายามขโมยครั้งที่สอง แต่คราวนี้ CEO สังเกตเห็นว่าสายนั้นมาจากสถานที่ที่ไม่รู้จักและกลายเป็นที่น่าสงสัย

ส่วนผสมทั้งหมดพร้อมสำหรับการใช้เทคโนโลยีการโคลนเสียงจำนวนมากเพื่อจุดประสงค์ที่เป็นอันตราย

ในช่วงต้นปี 2022 FBI ได้เผยแพร่รายงานที่แจ้งเตือนสาธารณชนถึงเทคนิคการฉ้อฉลแบบใหม่บนแพลตฟอร์มการประชุมเสมือนจริง หลังจากเข้าควบคุมการเข้าสู่ระบบของผู้บริหารแล้ว ผู้โจมตีจะเชิญพนักงานเข้าร่วมการประชุมที่พวกเขาส่งเสียงปลอม อ้างว่าวิดีโอของพวกเขาไม่ทำงาน และขอข้อมูลที่ถูกจำกัดหรือการโอนเงินฉุกเฉิน

การปรากฏตัวอย่างกะทันหันของการฉ้อโกงเสียงโคลนกำลังส่งสัญญาณเตือนไปทั่วโลก Irakli Beridze หัวหน้าศูนย์ปัญญาประดิษฐ์และวิทยาการหุ่นยนต์ของสถาบันวิจัยอาชญากรรมระหว่างภูมิภาคและความยุติธรรมแห่งสหประชาชาติ (UNICRI) ระบุว่า ส่วนผสมทั้งหมดพร้อมสำหรับการดัดแปลงเทคโนโลยีนี้อย่างมหาศาลเพื่อจุดประสงค์ที่เป็นอันตราย “ไม่ว่าจะเป็นการฉ้อโกง วางกรอบผู้คน ทำให้กระบวนการทางการเมืองเสียหาย หรือทำลายโครงสร้างทางการเมือง ล้วนแต่อยู่ในขอบเขตของความเป็นไปได้” เขากล่าวกับท็อปทัล

กราฟิกนี้บอกเล่าเรื่องราวของการปล้นธนาคารเสียงโคลนมูลค่า 35 ล้านดอลลาร์ในฮ่องกง ในปี 2020 ผู้จัดการธนาคารได้รับโทรศัพท์จากบุคคลที่เขาจำเสียงได้: ผู้อำนวยการบริษัทลูกค้า ผู้อำนวยการบอกผู้จัดการธนาคารว่าเขาต้องการโอนเงินด่วน และบอกว่าทนายความชื่อ Martin Zelner จะประสานงาน หลังจากนั้น ผู้จัดการธนาคารจะได้รับอีเมลหลายฉบับจาก Zelner รวมถึงอีเมลฉบับหนึ่งที่มีจดหมายซึ่งดูเหมือนว่ามาจากผู้อำนวยการของบริษัทลูกค้าที่อนุมัติการโอนเงิน ด้วยความมั่นใจในตัวตนของผู้โทรและได้รับเอกสารที่จำเป็นทางอีเมล ผู้จัดการธนาคารจึงโอนเงินจำนวน 35 ล้านดอลลาร์ไปยังหลายบัญชี แต่เซลเนอร์ไม่ใช่ทนายความตัวจริง เสียงนั้นเป็นโคลนลึกปลอม กลุ่มอาชญากร 17 คนประสบความสำเร็จในการจัดเตรียมการโจรกรรมที่ซับซ้อน อาวุธที่พวกเขาเลือกคือ AI

ศูนย์รับเรื่องร้องเรียนอาชญากรรมทางอินเทอร์เน็ตของ FBI ระบุว่า การแอบอ้างเป็นผู้บริหารระดับสูงในองค์กรเพื่อกระทำการฉ้อโกง บริษัททั่วโลกมีมูลค่ามากกว่า 26,000 ล้านดอลลาร์สหรัฐฯ ระหว่างปี 2559 ถึง 2562 และนั่นเป็นเพียงกรณีที่รายงานไปยังหน่วยงานบังคับใช้กฎหมาย ผู้ที่ตกเป็นเหยื่อส่วนใหญ่ปกปิดการโจมตีดังกล่าวเพื่อปกป้องชื่อเสียงของพวกเขา

อาชญากรก็เรียนรู้ได้อย่างรวดเร็วเช่นกัน ดังนั้นในขณะที่อุบัติการณ์ของการฉ้อโกงด้วยเสียงยังต่ำอยู่ในขณะนี้ ซึ่งอาจเปลี่ยนแปลงได้ในเร็วๆ นี้ “เมื่อ 5 ปีที่แล้ว แม้แต่คำว่า 'deepfake' ก็ยังไม่เคยใช้เลย” Beridze กล่าว “จากจุดนั้น เราเปลี่ยนจากเนื้อหาเสียงหรือภาพที่สร้างขึ้นโดยอัตโนมัติที่ไม่แม่นยำและดั้งเดิมมากไปเป็นการปลอมแปลงลึกที่แม่นยำอย่างยิ่ง หากคุณวิเคราะห์แนวโน้มจากมุมมองทางประวัติศาสตร์ สิ่งนี้จะเกิดขึ้นในชั่วข้ามคืน และนั่นเป็นปรากฏการณ์ที่อันตรายอย่างยิ่ง เรายังไม่เห็นศักยภาพอย่างเต็มที่”

ของปลอม

เสียง Deepfakes ทำงานบนเครือข่ายประสาทเทียม ต่างจากอัลกอริธึมแบบดั้งเดิม ซึ่งโปรแกรมเมอร์ที่เป็นมนุษย์ต้องกำหนดไว้ล่วงหน้าในทุกขั้นตอนของกระบวนการคำนวณ โครงข่ายประสาทเทียมยอมให้ซอฟต์แวร์เรียนรู้การทำงานตามที่กำหนดโดยการวิเคราะห์ตัวอย่าง: ป้อนเครือข่ายการรู้จำวัตถุ 10,000 ภาพของยีราฟ ติดป้ายกำกับเนื้อหาว่า "ยีราฟ" และในที่สุดเครือข่ายจะเรียนรู้ที่จะระบุสัตว์เลี้ยงลูกด้วยนมนั้นแม้ในภาพที่ไม่เคยได้รับอาหารมาก่อน

ปัญหาของโมเดลดังกล่าวคือต้องใช้ชุดข้อมูลขนาดใหญ่ จัดระเบียบและติดป้ายกำกับอย่างระมัดระวัง และคำถามที่แคบมากในการตอบ ซึ่งทั้งหมดนี้ใช้เวลาหลายเดือนในการวางแผน แก้ไข และปรับแต่งโดยโปรแกรมเมอร์ที่เป็นมนุษย์ สิ่งนี้เปลี่ยนไปอย่างรวดเร็วหลังจากมีการแนะนำเครือข่ายปฏิปักษ์กำเนิด (GAN) ในปี 2014 ลองนึกถึง GAN เป็นโครงข่ายประสาทเทียมสองเครือข่ายในเครือข่ายเดียวที่เรียนรู้จากการทดสอบและให้ข้อเสนอแนะซึ่งกันและกัน GAN สามารถสร้างและประเมินภาพหลายล้านภาพได้อย่างรวดเร็ว โดยได้รับข้อมูลใหม่ๆ ในทุกขั้นตอนโดยไม่ต้องอาศัยการแทรกแซงจากมนุษย์

GAN ยังทำงานกับรูปคลื่นเสียง: ให้ GAN พูดมนุษย์สักกี่ชั่วโมง แล้ว GAN จะเริ่มจดจำรูปแบบ ป้อนคำพูดจากมนุษย์คนใดคนหนึ่งให้เพียงพอ แล้วเครื่องจะเรียนรู้สิ่งที่ทำให้เสียงนั้นมีเอกลักษณ์เฉพาะตัว

White-hat ใช้สำหรับการสังเคราะห์เสียงพูดของ Deepfake

Descript เครื่องมือแก้ไขและถอดเสียงเสียงที่ก่อตั้งโดย Andrew Mason ของ Groupon ด้วยการลงทุนเริ่มต้นจาก Andreessen Horowitz สามารถระบุ DNA ที่เทียบเท่าในทุกเสียงด้วยตัวอย่างเสียงเพียงไม่กี่นาที Jay LeBoeuf หัวหน้าฝ่ายธุรกิจและการพัฒนาองค์กรของบริษัทกล่าว

คุณลักษณะยอดนิยมของ Descript คือ Overdub ไม่เพียงแต่โคลนเสียงเท่านั้น แต่ยังให้ผู้ใช้แก้ไขคำพูดในลักษณะเดียวกับที่พวกเขาจะแก้ไขเอกสาร ตัดคำหรือวลีแล้วหายไปจากเสียง พิมพ์ข้อความเพิ่มเติม และเพิ่มเป็นคำพูด เทคนิคนี้เรียกว่าการบรรยายด้วยข้อความในภาพวาด เป็นความก้าวหน้าของการเรียนรู้เชิงลึกที่ปฏิวัติวงการซึ่งคิดไม่ถึงเมื่อห้าปีก่อน ผู้ใช้สามารถทำให้ AI พูดอะไรก็ได้ ไม่ว่าพวกเขาจะตั้งโปรแกรมเสียงใดไว้ เพียงแค่พิมพ์

LeBoeuf บอกกับ Toptal ว่า "สิ่งหนึ่งที่เราเกือบจะดูเหมือนนิยายวิทยาศาสตร์ก็คือความสามารถในการพิมพ์ข้อผิดพลาดที่คุณอาจทำขึ้นใหม่ในงานพากย์เสียงของคุณ" “คุณพูดชื่อผลิตภัณฑ์ผิด วันที่วางจำหน่ายไม่ถูกต้อง และโดยปกติคุณจะต้องทำการนำเสนอใหม่ทั้งหมดหรืออย่างน้อยก็ส่วนใหญ่”

ผู้ใช้สามารถทำให้ AI พูดอะไรก็ได้ ไม่ว่าพวกเขาจะตั้งโปรแกรมเสียงใดไว้ เพียงแค่พิมพ์

เทคโนโลยีการโคลนเสียงและ Overdub ช่วยให้ผู้สร้างเนื้อหาประหยัดเวลาในการแก้ไขและบันทึกได้หลายชั่วโมงโดยไม่ลดทอนคุณภาพลง Pushkin Industries บริษัทที่อยู่เบื้องหลัง Podcast Revisionist History ยอดนิยมของ Malcolm Gladwell ใช้ Descript เพื่อสร้างเวอร์ชันดิจิทัลของเสียงของผู้ดำเนินรายการเพื่อใช้เป็นนักแสดงเสียงแทนขณะประกอบตอน ก่อนหน้านี้ กระบวนการนี้ต้องการให้ Gladwell ตัวจริงต้องอ่านและบันทึกเนื้อหา เพื่อให้ทีมผู้ผลิตสามารถตรวจสอบเวลาและขั้นตอนของตอนได้ ต้องใช้เวลาหลายชั่วโมงและหลายชั่วโมงในการทำงานเพื่อให้ได้ผลลัพธ์ที่ต้องการ การใช้เสียงดิจิทัลยังช่วยให้ทีมสามารถแก้ไขบทบรรณาธิการเล็กๆ น้อยๆ ได้ในภายหลัง

เทคโนโลยีนี้ยังใช้สำหรับการสื่อสารภายในของบริษัทอีกด้วย LeBoeuf กล่าว ตัวอย่างเช่น ลูกค้า Descript รายหนึ่งกำลังลอกเลียนเสียงของผู้พูดทั้งหมดในวิดีโอการฝึกอบรมของตน เพื่อให้บริษัทสามารถแก้ไขเนื้อหาในขั้นตอนหลังการผลิตได้โดยไม่ต้องกลับไปที่สตูดิโอ ต้นทุนในการผลิตวิดีโอฝึกอบรมมีตั้งแต่ 1,000 ถึง 10,000 ดอลลาร์ต่อนาที ดังนั้นการโคลนเสียงจึงสามารถประหยัดเงินได้มหาศาล

ปกป้องธุรกิจของคุณจากอาชญากรรมทางเสียง

แม้ว่าจะเป็นเทคโนโลยีที่ค่อนข้างใหม่ แต่ตลาดการทำสำเนาเสียงทั่วโลกมีมูลค่า 761.3 ล้านดอลลาร์ในปี 2020 และคาดว่าจะสูงถึง 3.8 พันล้านดอลลาร์ในปี 2027 สตาร์ทอัพอย่าง Respeecher, Resemble AI และ Veritone ให้บริการที่คล้ายกับ Descript; และบริษัทเทคโนโลยีขนาดใหญ่ เช่น IBM, Google และ Microsoft ได้ลงทุนอย่างมากในการวิจัยและเครื่องมือของตนเอง

วิวัฒนาการอย่างต่อเนื่อง การเติบโต และความพร้อมใช้งานของเสียงโคลนนั้นสามารถมั่นใจได้จริง และความก้าวหน้าอย่างรวดเร็วของเทคโนโลยีจะทำให้การโจมตีทางไซเบอร์เป็นไปไม่ได้ที่จะหลีกเลี่ยง

ตารางนี้แสดงการใช้เสียง Deepfakes ที่เป็นอันตรายที่อาจเกิดขึ้นกับธุรกิจแปดประการ: ทำลายภาพและความน่าเชื่อถือของแต่ละบุคคล กรรโชกและฉ้อฉล; อำนวยความสะดวกในการฉ้อโกงเอกสาร ปลอมแปลงข้อมูลประจำตัวออนไลน์และหลอกลวงกลไกการรู้จักลูกค้า (KYC) การปลอมแปลงหรือจัดการหลักฐานทางอิเล็กทรอนิกส์สำหรับการสอบสวนความยุติธรรมทางอาญา ทำลายตลาดการเงิน เผยแพร่ข้อมูลที่บิดเบือนและมีอิทธิพลต่อความคิดเห็นของประชาชน และกระทบกระเทือนความไม่สงบทางสังคมและการแบ่งขั้วทางการเมือง

“คุณไม่สามารถต่อสู้กับ Deepfakes ได้” Ismael Peinado ผู้เชี่ยวชาญด้านความปลอดภัยทางไซเบอร์ระดับโลกที่มีประสบการณ์สองทศวรรษในทีมรักษาความปลอดภัยและเทคโนโลยีชั้นนำ และ Chief Technology Officer ของ Toptal กล่าว “ยิ่งคุณยอมรับได้เร็วเท่าไหร่ก็ยิ่งดีเท่านั้น อาจไม่ใช่วันนี้ แต่เราจะต้องเผชิญกับเสียงหรือวิดีโอที่สมบูรณ์แบบ แม้แต่พนักงานที่ได้รับการฝึกฝนอย่างเต็มที่ในเรื่องการรับรู้ความเสี่ยงก็อาจไม่สามารถตรวจพบของปลอมได้”

มีโซลูชันซอฟต์แวร์ที่เชี่ยวชาญในการตรวจจับ Deepfakes ซึ่งเป็นเครื่องมือที่ใช้เทคนิคการเรียนรู้เชิงลึกเพื่อตรวจจับหลักฐานการปลอมแปลงในเนื้อหาทุกประเภท แต่ผู้เชี่ยวชาญทุกคนที่เราปรึกษาไม่สนใจการลงทุนดังกล่าว ความเร็วที่เทคโนโลยีพัฒนาขึ้นหมายความว่าเทคนิคการตรวจจับล้าสมัยอย่างรวดเร็ว

Andy Parsons ผู้อำนวยการอาวุโสของ Adobe's Content Authenticity Initiative (CAI) บอกกับ Toptal “พูดตรงๆ คนเลวจะชนะ เพราะพวกเขาไม่ต้องโอเพนซอร์สชุดข้อมูลหรือโมเดลที่ได้รับการฝึกมา”

แล้วทางออกคืออะไร?

ย้ายออกจากอีเมล

“ขั้นแรก หยุดใช้อีเมลเพื่อการสื่อสารภายใน เก้าสิบเปอร์เซ็นต์ของปัญหาด้านความปลอดภัยของคุณจะหายไป” Peinado กล่าว การโจมตีแบบฟิชชิงส่วนใหญ่ รวมถึงการโจมตีที่มุ่งเป้าไปที่การเข้าถึงพื้นที่ส่วนตัวของบริษัท เช่น Zoom นั้นมาจากอีเมล “ดังนั้น ใช้เครื่องมืออื่นเพื่อสื่อสารภายใน เช่น Slack; กำหนดโปรโตคอลความปลอดภัยเชิงรุกสำหรับอีเมลทุกฉบับที่ได้รับ และเปลี่ยนวัฒนธรรมการรักษาความปลอดภัยทางไซเบอร์เพื่อแก้ไขจุดอ่อนที่สำคัญที่สุด 'หากคุณได้รับอีเมลหรือ SMS อย่าเชื่อถือ'; นั่นคือนโยบายของเรา และสมาชิกทุกคนในองค์กรก็รู้ดี การดำเนินการเดียวนี้มีประสิทธิภาพมากกว่าแอนติไวรัสที่ดีที่สุดในตลาด”

ไปที่คลาวด์

Peinado ยังกล่าวอีกว่าเครื่องมือสื่อสารและการทำงานร่วมกันทั้งหมดควรอยู่บนคลาวด์และรวมการรับรองความถูกต้องแบบหลายปัจจัย นี่เป็นวิธีที่มีประสิทธิภาพที่สุดในการลดอันตรายของข้อมูลประจำตัวปลอม เนื่องจากช่วยลดจุดเข้าถึงข้อมูลทางธุรกิจที่สำคัญได้อย่างมาก แม้ว่าแล็ปท็อปของ CEO ของคุณจะถูกขโมย ความเสี่ยงที่ผู้ประสงค์ร้ายอาจใช้ในการเข้าถึงข้อมูลของบริษัทหรือทำการโจมตีแบบ Deepfake นั้นก็น้อยมาก

สนับสนุนความพยายามในการพิสูจน์ดิจิทัล

“ในขณะที่สิ่งต่างๆ กลายเป็นภาพเสมือนจริงและเสียงสมจริงมากขึ้น เราต้องการรากฐานอื่นบนอินเทอร์เน็ตเพื่อพรรณนาความจริงหรือให้ความโปร่งใสแก่ผู้บริโภคและผู้ตรวจสอบข้อเท็จจริง” พาร์สันส์กล่าว ด้วยเหตุนี้ CAI ของ Adobe ซึ่งเป็นพันธมิตรของครีเอเตอร์ นักเทคโนโลยี และนักข่าว ซึ่งก่อตั้งขึ้นในปี 2019 โดยความร่วมมือกับ Twitter และ New York Times ได้ร่วมมือกับ Microsoft, Intel และผู้เล่นหลักอื่นๆ เพื่อพัฒนาเฟรมเวิร์กมาตรฐานสำหรับการระบุแหล่งที่มาของเนื้อหาและ ที่มาของดิจิทัล โดยจะฝังข้อมูลที่ไม่สามารถเปลี่ยนแปลงได้ เช่น เวลา ผู้แต่ง และประเภทของอุปกรณ์ที่ใช้ ทุกครั้งที่มีการสร้างหรือแก้ไขเนื้อหาดิจิทัล

หน้าที่ของเฟรมเวิร์กนี้คือการส่งเสริมสภาพแวดล้อมที่ปลอดภัยสำหรับการสร้างเนื้อหาด้วย AI แม้แต่แพลตฟอร์มการประชุมเสมือนจริงก็สามารถผสานเทคโนโลยีนี้เพื่อพิสูจน์ว่าผู้โทรเป็นคนที่พวกเขาอ้างว่าเป็น ไม่ว่าผู้เข้าร่วมประชุมด้วยเสียงจะคิดว่าพวกเขากำลังได้ยินอะไรอยู่ก็ตาม “ในบรรดาสมาชิกของมาตรฐาน เรามี Intel, Arm และผู้ผลิตรายอื่นๆ ที่มองหาการใช้งานฮาร์ดแวร์ที่เป็นไปได้ เพื่อให้สามารถจับภาพอุปกรณ์ได้ทุกประเภท—รวมถึงกล้องสตรีมมิ่ง อุปกรณ์เสียง และฮาร์ดแวร์คอมพิวเตอร์เอง—จะได้รับประโยชน์ เราหวังและคาดหวังว่าจะได้เห็นการรับเลี้ยงบุตรบุญธรรมนั้น” พาร์สันส์กล่าว

ลงทุนในการประเมินภัยคุกคามและการศึกษา

เมื่อไม่มีเครื่องมือทางเทคโนโลยีอยู่ในมือ การดำเนินการด้านความปลอดภัยเชิงกลยุทธ์ที่จำกัด และศัตรูที่ใหญ่ขึ้นและฉลาดขึ้นในแต่ละวัน ไม่มีกระสุนเงิน แต่ความร่วมมือระหว่างรัฐบาล สถาบันการศึกษา และภาคเอกชนมีเป้าหมายที่จะปกป้องธุรกิจและสังคมโดยรวม Beridze กล่าว

“รัฐบาลควรใช้โปรแกรมความปลอดภัยทางไซเบอร์ระดับชาติ และควรทำการประเมินความต้องการและความได้เปรียบในการแข่งขันอย่างละเอียดถี่ถ้วน” เขากล่าว “ภาคเอกชนก็เช่นเดียวกัน ไม่ว่าองค์กรขนาดเล็ก ขนาดกลาง หรือขนาดใหญ่ พวกเขาจำเป็นต้องลงทุนในการประเมินภัยคุกคามและความรู้”

ความคิดริเริ่มเช่นกรอบมาตรฐานของ CAI ต้องการการยอมรับอย่างมากจึงจะประสบความสำเร็จ และอาจต้องใช้เวลา สำหรับตอนนี้ ผู้นำต้องจัดลำดับความสำคัญในการลดพื้นผิวการโจมตีขององค์กรและเผยแพร่ข้อความที่โจรติดอาวุธด้วยเสียงโคลนกำลังหลอกล่อเหยื่อ