تسليط الضوء على الأمن السيبراني: تحضير منظمتك للاحتيال على استنساخ الصوت باستخدام تقنية Deepfake

نشرت: 2022-07-22

لقد سمعت عن التزييف العميق - صور أو مقاطع فيديو تُظهر شخصية عامة أو أحد المشاهير (مثل توم كروز أو ويل سميث) في مكان ما لم يكونوا موجودون فيه مطلقًا ، وهم يفعلون شيئًا لم يفعلوه مطلقًا. لكنك قد لا تعرف أن فئة ناشئة من أدوات التعلم الآلي تجعل نفس النوع من التزييف ممكنًا للصوت.

لقد قطعت تقنيات تركيب الكلام شوطًا طويلاً منذ Voder ، التي كشفت عنها Bell Labs في عام 1939. وقد تطورت تلك التقنيات الروبوتية بدون طيار التي كان يسيطر عليها المشغل باستخدام المفاتيح والدواسات إلى أصوات رقمية لا يمكن تمييزها عن الأشياء الحقيقية - مدعومة بالذكاء الاصطناعي. تعد تقنية تركيب الكلام المتاحة الآن واقعية للغاية ويمكن الوصول إليها بحيث يستخدمها مهندسو الصوت لتكرار خطاب مضيفي البودكاست أو الممثلين الصوتيين وإضافة معلومات جديدة إلى المحتوى دون تسجيل كلمة.

يتم استخدام هذه التكنولوجيا أيضًا من قبل مجرمي الإنترنت والمحتالين ، مما يجبر المؤسسات في كل صناعة على اعتماد نماذج جديدة للأمن السيبراني لتقليل المخاطر التي لا مفر منها.

جوقة لصوص على صعود

في عام 2019 ، في أول حالة معروفة للاحتيال في استنساخ الصوت ، أعاد اللصوص صياغة صوت مدير تنفيذي في الشركة الأم لشركة طاقة مقرها المملكة المتحدة لم يكشف عنها. عندما تلقى الرئيس التنفيذي للشركة مكالمة من "المدير التنفيذي" ، تعرف على اللهجة الألمانية لزميله وإيقاع الكلام ، وسرعان ما أجرى تحويل الأموال العاجل على النحو المطلوب. اتصل المحتالون مرة أخرى بعد بضع ساعات لمحاولة سرقة ثانية ، ولكن هذه المرة ، لاحظ الرئيس التنفيذي أن المكالمة قادمة من مكان غير معروف وأصبح مشبوهًا.

جميع المكونات جاهزة للاستخدام المكثف لتقنية استنساخ الصوت لأغراض ضارة.

في أوائل عام 2022 ، نشر مكتب التحقيقات الفيدرالي تقريرًا ينبه الجمهور إلى تقنية احتيال جديدة على منصات الاجتماعات الافتراضية. بعد السيطرة على تسجيل دخول مسؤول تنفيذي ، يدعو المهاجمون الموظفين إلى اجتماع حيث ينشرون صوتًا مستنسخًا ، ويدعون أن الفيديو الخاص بهم لا يعمل ، ويطلبون معلومات مقيدة أو تحويل طارئ للأموال.

يثير الظهور المفاجئ لعمليات الاحتيال في استنساخ الصوت إنذارات حول العالم. وفقًا لإيراكلي بيريدز ، رئيس مركز الذكاء الاصطناعي والروبوتات في معهد الأمم المتحدة الأقاليمي لأبحاث الجريمة والعدالة (يونيكري) ، فإن جميع المكونات موجودة لتكييف هائل لهذه التكنولوجيا للأغراض الخبيثة. يقول توبتال: "سواء كان ذلك لارتكاب الاحتيال ، أو تأطير الناس ، أو إخراج العمليات السياسية عن مسارها ، أو تقويض الهياكل السياسية ، فهذا كله يقع في نطاق الاحتمال".

يروي هذا الرسم قصة سرقة بنك بقيمة 35 مليون دولار مستنسخ الصوت في هونغ كونغ. في عام 2020 ، تلقى مدير بنك مكالمة من شخص تعرف على صوته: مدير شركة العميل. يخبر المدير مدير البنك أنه يحتاج إلى تحويل أموال عاجل ويقول إن المحامي مارتن زيلنر سيتولى التنسيق. يتلقى مدير البنك عدة رسائل بريد إلكتروني من Zelner بعد ذلك ، بما في ذلك رسالة بها رسالة يبدو أنها من مدير الشركة العميلة التي تسمح بتحويل الأموال. واثقًا من هوية المتصل واستلم المستندات اللازمة عبر البريد الإلكتروني ، قام مدير البنك بتحويل 35 مليون دولار إلى عدة حسابات. لكن زيلنر لم يكن محامياً حقيقياً. كان الصوت استنساخًا عميقًا. نجحت مجموعة من 17 مجرماً في تنظيم عملية سرقة معقدة. كان سلاحهم المفضل هو الذكاء الاصطناعي.

تكلف انتحال شخصية مسؤول تنفيذي كبير في إحدى المؤسسات لارتكاب عمليات احتيال الشركات في جميع أنحاء العالم أكثر من 26 مليار دولار بين عامي 2016 و 2019 ، وفقًا لمركز شكاوى جرائم الإنترنت التابع لمكتب التحقيقات الفيدرالي. وهذه ليست سوى الحالات التي تم إبلاغ سلطات إنفاذ القانون بها - فمعظم الضحايا يحافظون على سرية مثل هذه الهجمات لحماية سمعتهم.

يتعلم المجرمون بسرعة أيضًا ، لذا في حين أن معدل احتيال استنساخ الصوت منخفض الآن ، فقد يتغير ذلك قريبًا. يقول بيريدز: "قبل خمس سنوات ، حتى مصطلح" التزييف العميق "لم يُستخدم على الإطلاق. "من تلك النقطة فصاعدًا ، انتقلنا من محتوى صوتي أو مرئي غير دقيق للغاية وبدائي للغاية تم إنشاؤه تلقائيًا إلى محتوى مزيف دقيق للغاية. إذا قمت بتحليل الاتجاه من وجهة نظر تاريخية ، فقد حدث هذا بين عشية وضحاها. وهذه ظاهرة خطيرة للغاية. لم نشهد بعد إمكاناته الكاملة ".

صنع المقلد

يعمل التزييف العميق للصوت على الشبكات العصبية. على عكس الخوارزميات التقليدية ، حيث يجب على المبرمج البشري تحديد كل خطوة من خطوات العملية الحسابية مسبقًا ، تسمح الشبكات العصبية للبرنامج بتعلم أداء مهمة محددة من خلال تحليل الأمثلة: تغذية شبكة التعرف على الكائنات بـ 10000 صورة من الزرافات ، وتسمية المحتوى "زرافة" ، وستتعلم الشبكة في النهاية التعرف على تلك الثدييات المعينة حتى في الصور التي لم يتم إطعامها من قبل.

كانت المشكلة في هذا النموذج أنه يحتاج إلى مجموعات بيانات كبيرة ومُنظمة بعناية ومُصنَّفة ، وأسئلة ضيقة جدًا للإجابة عليها ، وكلها استغرقت شهورًا من التخطيط والتصحيح والتنقيح من قبل المبرمجين البشريين. تغير هذا بسرعة بعد إدخال شبكات الخصومة التوليدية (GANs) في عام 2014. فكر في GAN كشبكتين عصبيتين في واحدة تتعلم عن طريق الاختبار وإعطاء الملاحظات لبعضها البعض. يمكن لشبكات GAN إنشاء ملايين الصور وتقييمها بسرعة ، واكتساب معلومات جديدة في كل خطوة على الطريق دون الحاجة إلى تدخل بشري.

تعمل شبكات GAN أيضًا مع أشكال الموجات الصوتية: امنح شبكة GAN عددًا من ساعات الكلام البشري ، وستبدأ في التعرف على الأنماط. أدخل ما يكفي من الكلام من إنسان معين ، وسوف يتعلم ما الذي يجعل هذا الصوت فريدًا.

يستخدم القبعة البيضاء لتركيب الكلام

يمكن لـ Descript ، وهي أداة لتحرير الصوت ونسخه أسسها أندرو ماسون من Groupon باستثمار أولي من Andreessen Horowitz ، تحديد مكافئ الحمض النووي في كل صوت ببضع دقائق فقط من عينة الصوت. بعد ذلك ، يمكن للبرنامج إنتاج نسخة من هذا الصوت ، مع دمج كلمات جديدة مع الحفاظ على أسلوب المتحدث ، كما يقول جاي ليبوف ، رئيس قسم الأعمال وتطوير الشركات في الشركة.

الميزة الأكثر شيوعًا في Descript ، Overdub ، لا تستنسخ الصوت فحسب ، بل تتيح أيضًا للمستخدم تحرير الكلام بنفس الطريقة التي يحرر بها المستند. قص كلمة أو عبارة وتختفي من الصوت. اكتب نصًا إضافيًا ، وستتم إضافته ككلمات منطوقة. هذه التقنية ، المسماة برسم الكلام المستنير بالنص ، هي اختراق ثوري للتعلم العميق لم يكن من الممكن تصوره قبل خمس سنوات فقط. يمكن للمستخدم أن يجعل الذكاء الاصطناعي يقول أي شيء ، بأي صوت برمجوه ، فقط عن طريق الكتابة.

"أحد الأشياء التي بدت لنا تقريبًا مثل الخيال العلمي هو القدرة على إعادة كتابة خطأ ربما ارتكبت في عمل التعليق الصوتي الخاص بك ،" قال ليبوف لـ Toptal. "أنت تقول اسم منتج خاطئ ، وتاريخ إصدار خاطئ ، وستضطر عادةً إلى إعادة العرض التقديمي بأكمله أو على الأقل جزء كبير منه."

يمكن للمستخدم أن يجعل الذكاء الاصطناعي يقول أي شيء ، بأي صوت برمجوه ، فقط عن طريق الكتابة.

يمكن أن توفر تقنية استنساخ الصوت و Overdub على منشئي المحتوى ساعات من التحرير ووقت التسجيل دون التضحية بالجودة. تستخدم شركة Pushkin Industries ، الشركة التي تقف وراء البودكاست الشهير Revisionist History لمالكولم جلادويل ، Descript لإنشاء نسخة رقمية من صوت المضيف لاستخدامها كممثل صوتي احتياطي أثناء تجميع حلقة. في السابق ، كانت هذه العملية تتطلب من جلادويل الحقيقي قراءة المحتوى وتسجيله حتى يتمكن فريق الإنتاج من التحقق من توقيت الحلقة وتدفقها. لقد استغرق الأمر عدة ساعات وعدة ساعات من العمل لتحقيق النتائج المرجوة. يؤدي استخدام الصوت الرقمي أيضًا إلى تحرير الفريق لإجراء إصلاحات تحريرية صغيرة في وقت لاحق من العملية.

يقول ليبوف إن هذه التكنولوجيا تُستخدم أيضًا في الاتصالات الداخلية للشركات. على سبيل المثال ، يقوم أحد عملاء Descript باستنساخ أصوات جميع المتحدثين في مقاطع الفيديو التدريبية الخاصة به حتى تتمكن الشركة من تعديل المحتوى في مرحلة ما بعد الإنتاج دون العودة إلى الاستوديو. تتراوح تكلفة إنتاج مقاطع فيديو تدريبية من 1000 دولار إلى 10000 دولار في الدقيقة ، لذلك يمكن أن يؤدي استنساخ الصوت إلى توفيرات هائلة.

حماية عملك من جرائم الصوت المستنسخ

على الرغم من كونها تقنية جديدة نسبيًا ، فقد بلغت قيمة السوق العالمية لاستنساخ الصوت 761.3 مليون دولار في عام 2020 ، ومن المتوقع أن تصل إلى 3.8 مليار دولار بحلول عام 2027. تقدم الشركات الناشئة مثل Respeecher و Resemble AI و Veritone خدمات مشابهة لـ Descript ؛ وشركات Big Tech مثل IBM و Google و Microsoft استثمرت بكثافة في أبحاثها وأدواتها.

إن استمرار تطور الأصوات المستنسخة ونموها وتوافرها مضمون عمليًا ، كما أن التقدم السريع في التكنولوجيا سيجعل من المستحيل تجنب الهجمات الإلكترونية.

تُظهر هذه الشبكة ثمانية استخدامات ضارة محتملة لتزييف الصوت العميق ضد الشركات: تدمير صورة الفرد ومصداقيته ؛ ارتكاب الابتزاز والاحتيال ؛ تسهيل تزوير المستندات ؛ تزوير الهويات على الإنترنت وخداع آليات معرفة العميل (KYC) ؛ تزوير أو التلاعب بالأدلة الإلكترونية لتحقيقات العدالة الجنائية ؛ اضطراب الأسواق المالية. نشر معلومات مضللة والتأثير على الرأي العام ؛ وتأجيج الاضطرابات الاجتماعية والاستقطاب السياسي.

يقول إسماعيل بينادو ، خبير الأمن السيبراني العالمي الذي يتمتع بخبرة عقدين من الخبرة في قيادة فرق الأمن والتكنولوجيا ، ورئيس قسم التكنولوجيا في Toptal: "لا يمكنك محاربة التزييف العميق". "كلما قبلته مبكرًا ، كان ذلك أفضل. قد لا يكون الأمر كذلك اليوم ، لكننا سنواجه الصوت المثالي أو الفيديو المزيف العميق. قد لا تتمكن حتى قوة عاملة مدربة تدريباً كاملاً على الوعي بالمخاطر من اكتشاف مزيف ".

هناك حلول برمجية متخصصة لاكتشاف التزييف العميق ، وهي أدوات تستخدم تقنيات التعلم العميق للقبض على أدلة التزوير في جميع أنواع المحتوى. لكن كل خبير استشرناه تجاهل مثل هذه الاستثمارات. السرعة التي تتطور بها التكنولوجيا تعني أن تقنيات الكشف عفا عليها الزمن بسرعة.

قال آندي بارسونز ، المدير الأول لمبادرة مصادقة المحتوى في Adobe (CAI) لـ Toptal: "إنها في النهاية معركة خاسرة إلى حد ما لمتابعة الاكتشاف فقط". "بصراحة ، سيفوز الأشرار لأنهم ليسوا مضطرين لفتح مصادر مجموعات بياناتهم أو نماذجهم المدربة."

إذن ما هو الحل؟

الابتعاد عن البريد الإلكتروني

"أولاً ، توقف عن استخدام البريد الإلكتروني للاتصال الداخلي. يقول بينادو: "ستختفي تسعين بالمائة من مخاوفك الأمنية". تنشأ معظم هجمات التصيد الاحتيالي ، بما في ذلك تلك التي تهدف إلى الوصول إلى مساحات الشركة الخاصة مثل Zoom ، من رسائل البريد الإلكتروني. "لذا استخدم أداة مختلفة للتواصل داخليًا ، مثل Slack ؛ تعيين بروتوكولات أمان صارمة لكل بريد إلكتروني يتم تلقيه ؛ وتغيير ثقافة الأمن السيبراني لمعالجة نقاط الضعف الأكثر خطورة. "إذا تلقيت بريدًا إلكترونيًا أو رسالة نصية قصيرة ، فلا تثق بها" ؛ هذه هي سياستنا ، وكل عضو في المنظمة يعرفها. هذا الإجراء الفردي أقوى من أفضل مضاد فيروسات في السوق ".

انطلق إلى السحابة

يقول Peinado أيضًا أن جميع أدوات الاتصال والتعاون يجب أن تكون على السحابة وتتضمن مصادقة متعددة العوامل. هذه هي الطريقة الأكثر فعالية لتقليل خطر الهويات المزيفة لأنها تقلل بشكل كبير من نقاط الدخول إلى بيانات الأعمال الهامة. حتى في حالة سرقة الكمبيوتر المحمول الخاص برئيسك التنفيذي ، فإن خطر استخدام ممثل ضار للوصول إلى معلومات الشركة أو شن هجوم مزيف سيكون ضئيلاً.

دعم جهود إنشاء الرقمية

يقول بارسونز: "عندما تصبح الأشياء أكثر واقعية من الصور الفوتوغرافية وواقعية الصوت ، نحتاج إلى أساس آخر على الإنترنت نفسه لتصوير الحقيقة أو توفير الشفافية للمستهلكين ومدققي الحقائق". تحقيقًا لهذه الغاية ، انضم تحالف CAI من Adobe ، وهو تحالف من المبدعين والتقنيين والصحفيين تأسس في عام 2019 بالشراكة مع Twitter و New York Times ، إلى Microsoft و Intel واللاعبين الرئيسيين الآخرين لتطوير إطار عمل قياسي لإسناد المحتوى و المصدر الرقمي. يقوم بتضمين معلومات غير قابلة للتغيير ، مثل الوقت والمؤلف ونوع الجهاز المستخدم ، في كل مرة يتم فيها إنشاء محتوى رقمي أو تعديله.

تتمثل وظيفة هذا الإطار في تعزيز بيئة آمنة لإنشاء محتوى باستخدام الذكاء الاصطناعي. حتى منصات الاجتماعات الافتراضية يمكنها دمج هذه التقنية لإثبات أن المتصل هو من يدعي أنه ، بغض النظر عن الصوت الذي يعتقد الحاضرين أنهم يسمعونه. "من بين أعضاء جسم المعيار ، لدينا Intel و Arm ومصنعون آخرون يبحثون في تطبيقات الأجهزة المحتملة ، بحيث يمكن أن تستفيد أجهزة الالتقاط من جميع الأنواع - بما في ذلك كاميرات البث وأجهزة الصوت وأجهزة الكمبيوتر نفسها. يقول بارسونز: "نأمل ونتوقع أن نرى هذا التبني".

استثمر في تقييم التهديد والتعليم

مع عدم وجود أدوات تكنولوجية في متناول اليد ، وإجراءات أمنية إستراتيجية محدودة ، وعدو يزداد حجمه وأكثر حكمة يومًا بعد يوم ، فلا يوجد حل سحري. يقول بيريدز إن التعاون بين الحكومات والأوساط الأكاديمية والقطاع الخاص يهدف إلى حماية الشركات والمجتمع ككل.

يقول: "ينبغي على الحكومات أن تتبنى برامج وطنية للأمن السيبراني ويجب أن تجري تقييمات دقيقة للغاية لاحتياجاتها ومزاياها التنافسية". "الشيء نفسه ينطبق على القطاع الخاص: سواء كانت مؤسسات صغيرة أو متوسطة أو كبيرة ، فهم بحاجة إلى الاستثمار في تقييم التهديدات والمعرفة."

تتطلب المبادرات مثل الإطار المعياري لـ CAI اعتمادًا كبيرًا حتى تكون ناجحة ، وسيستغرق ذلك وقتًا. في الوقت الحالي ، يجب على القادة إعطاء الأولوية لتقليل سطح هجوم منظمتهم ونشر رسالة مفادها أن اللصوص المسلحين بأصوات مستنسخة يتصيدون الضحايا.