التعلم بلقطة واحدة باستخدام شبكة سيامي [للتعرف على الوجه]

نشرت: 2021-02-08

تتحدث المقالة التالية عن الحاجة إلى استخدام التعلم بلقطة واحدة جنبًا إلى جنب مع اختلافاته وعيوبه.

بادئ ذي بدء ، من أجل تدريب أي نموذج تعلم عميق ، نحتاج إلى كمية كبيرة من البيانات حتى ينفذ نموذجنا مهمة التنبؤ أو التصنيف المطلوبة بكفاءة. على سبيل المثال ، سيتطلب منك اكتشاف كلب من الصور تدريب نموذج شبكة عصبية على مئات وآلاف من الصور الخاصة بالكلاب وغير الكلاب لتمييز أحدها عن الآخر بدقة. ومع ذلك ، فإن نموذج الشبكة العصبية هذا سيفشل في العمل إذا تم تدريبه على واحد أو عدد قليل جدًا من بيانات التدريب.

مع نقص البيانات ، يصبح استخراج الميزات ذات الصلة في طبقات مختلفة أمرًا صعبًا. لن يكون النموذج قادرًا على التعميم جيدًا بين الفئات المختلفة مما يؤثر على أدائه العام.

للتوضيح ، ضع في اعتبارك مثال التعرف على الوجه في المطار. في هذا ، ليس لدينا الحرية في تدريب نموذجنا المكون من مئات وآلاف من الصور لكل شخص تحتوي على تعبيرات مختلفة ، وإضاءة خلفية ، وآخرون. مع وصول أكثر من آلاف الركاب يوميًا ، إنها مهمة مستحيلة! إلى جانب ذلك ، فإن تخزين مثل هذا الكم الهائل من البيانات يضيف إلى التكلفة.

لمعالجة المشكلة المذكورة أعلاه ، نستخدم أسلوبًا يمكن من خلاله تحقيق مهام التصنيف أو التصنيف بأمثلة أو أمثلة قليلة لتصنيف العديد من الأمثلة الجديدة. تسمى هذه التقنية التعلم بلقطة واحدة.

في السنوات الأخيرة ، يتم استخدام تقنية التعلم ذات الطلقة الواحدة على نطاق واسع في التعرف على الوجه وفحص جوازات السفر. المفهوم المستخدم هو - يأخذ النموذج صورتين للإدخال ؛ أحدهما صورة من جواز السفر والآخر هو صورة الشخص الذي ينظر إلى الكاميرا. ثم يقوم النموذج بإخراج قيمة هي التشابه بين الصورتين. إذا كانت قيمة المخرجات منخفضة ، فإن الصورتين متشابهتان ، وإلا فهما مختلفتان.

جدول المحتويات

شبكة سيامي

تسمى البنية المستخدمة للتعلم بلقطة واحدة شبكة سيامي. تتكون هذه العمارة من شبكتين عصبيتين متوازيين كل منهما تأخذ مدخلات مختلفة. ناتج النموذج هو قيمة أو فهرس تشابه يشير إلى ما إذا كانت صورتا الإدخال متشابهتين أم لا. تتوافق القيمة الأقل من الحد المحدد مسبقًا مع التشابه الكبير بين الصورتين والعكس بالعكس.

عندما يتم تمرير الصور سلسلة من الطبقات التلافيفية ، وطبقات التجميع القصوى ، والطبقات المتصلة بالكامل ، فإن ما نحققه هو ناقل يقوم بترميز ميزات الصور. هنا لأننا أدخلنا صورتين ، سيتم إنشاء متجهين يشتملان على ميزات صور الإدخال. القيمة التي كنا نتحدث عنها هي المسافة بين متجهي السمة والتي يمكن حسابها من خلال إيجاد معيار الفرق بين المتجهين.

دالة خسارة ثلاثية

كما يوحي الاسم ، لتدريب النموذج ، نحتاج إلى ثلاث صور - صورة مرساة (A) ، وصورة واحدة موجبة (P) ، وصورة سلبية (N). نظرًا لأنه يمكن توفير مدخلين للنموذج ، يتم تقديم صورة مرساة مع صورة موجبة أو سلبية. يتعلم النموذج المعلمة بطريقة تجعل المسافة بين صورة الارتساء والصورة الإيجابية منخفضة بينما تكون المسافة بين صورة الارتساء والصورة السلبية عالية.

تعاقب دالة الخسارة البناءة النموذج إذا كانت المسافة بين A و N منخفضة أو A و P عالية ، بينما تشجع النموذج أو تتعلم الميزات عندما تكون المسافة بين A و N عالية و A و P منخفضة.

لفهم المزيد عن المرساة والصور الإيجابية والسلبية ، دعنا ننظر إلى المثال السابق لذلك في المطار. في مثل هذه الحالة ، ستكون صورة الإرساء هي صورتك عندما تنظر إلى الكاميرا ، وستكون الصورة الإيجابية هي تلك الموجودة على صورة جواز السفر ، وستكون الصورة السلبية صورة عشوائية لأحد الركاب الموجودين في المطار.

عندما نقوم بتدريب شبكة Siaseme ، نوفر لها صور APN الثلاثية (المرساة ، الإيجابية والسلبية). يعد إنشاء مجموعة البيانات هذه أسهل بكثير وسيتطلب عددًا أقل من الصور للتدريب.

حدود التعلم دفعة واحدة

لا يزال التعلم بلقطة واحدة خوارزمية تعلم آلي ناضجة ولديه بعض القيود. على سبيل المثال ، لن يعمل النموذج بشكل جيد إذا كانت الصورة المدخلة بها بعض التعديلات - شخص يرتدي قبعة ، ونظارة شمسية وآخرون. علاوة على ذلك ، لا يمكن تعميم النموذج الذي تم تدريبه لتطبيق واحد لتطبيق آخر.

بالمضي قدمًا ، دعونا نرى بعض الاختلافات في التعلم بلقطة واحدة والذي يستلزم التعلم بدون طلقة والتعلم بلقطة قليلة.

التعلم من الصفر

التعلم بدون طلقة هو قدرة النموذج على تحديد البيانات المصنفة الجديدة أو غير المرئية أثناء التدريب على البيانات المرئية ومعرفة السمات الدلالية للبيانات الجديدة أو غير المرئية. على سبيل المثال ، يمكن للطفل الذي رأى قطة التعرف عليها من خلال سماتها المميزة. علاوة على ذلك ، إذا كان الطفل يدرك أن لحاء الكلب ولديه خصائص أكثر صلابة من القط ، فلن يواجه الطفل مشكلة في التعرف على الكلب.

في الختام ، يمكننا القول أن التعرف على ZSL يعمل بطريقة تأخذ في الاعتبار مجموعة التدريب المسمى للفصول المرئية إلى جانب المعرفة حول كيفية ارتباط كل فصل غير مرئي ارتباطًا معنويًا بالفصول المرئية.

التعلم N- شوت

كما يوحي الاسم ، في التعلم بالرصاص N ، سيكون لدينا بيانات مصنفة لكل فصل متاحة للتدريب. يتم تدريب النموذج على فئات K كل منها يحتوي على n بيانات مسماة. بعد استخراج الميزات والأنماط ذات الصلة ، يتعين على النموذج تصنيف صورة جديدة غير موسومة في إحدى فئات K. يستخدمون شبكات المطابقة التي تعمل على النهج القائم على الجيران الأقرب والمدربين بشكل كامل.

خاتمة

في الختام ، يتمتع مجال التعلم بلقطة واحدة ونظرائه بإمكانيات هائلة لحل بعض المشكلات الصعبة. على الرغم من كونه مجالًا بحثيًا جديدًا نسبيًا ، إلا أنه يحرز تقدمًا سريعًا ، ويعمل الباحثون في محاولة لسد الفجوة بين الآلات والبشر.

بهذا نكون قد وصلنا إلى نهاية هذا المنشور ، أتمنى أن تكون قد استمتعت بقراءته.

إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad's في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهام ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.

تعلم دورة ML من أفضل الجامعات في العالم. احصل على درجة الماجستير أو برنامج PGP التنفيذي أو برامج الشهادات المتقدمة لتسريع مسار حياتك المهنية.

قيادة الثورة التكنولوجية التي يقودها الذكاء الاصطناعي

تقدم بطلب للحصول على برنامج الشهادة المتقدمة في تعلم الآلة و البرمجة اللغوية العصبية