التعلم المعزز في تعلم الآلة: كيف يعمل ، نماذج وأنواع التعلم

نشرت: 2021-06-11

جدول المحتويات

ما هو التعلم المعزز؟
كيف يعمل التعلم المعزز؟
خوارزمية التعلم المعزز
- 1. القيمة على أساس
- 2. تستند السياسة
- 3. نموذج قائم
نماذج التعلم في التعزيز
الفرق بين التعلم المعزز والتعلم تحت الإشراف
أنواع التعزيز
- 1. إيجابي
- 2. سلبي
التحديات في التعلم المعزز
- تطبيقات التعزيز
ما فائدة التعلم المعزز؟
خاتمة
كيف يبدو المستقبل لوظائف التعلم الآلي؟
ما هي سحابة الذكاء الاصطناعي؟
أين يتم استخدام خوارزمية التعلم المعزز؟

ما هو التعلم المعزز؟

يشير التعلم المعزز إلى عملية اتخاذ القرارات المناسبة من خلال نماذج التعلم الآلي المناسبة. يعتمد على عملية تدريب طريقة التعلم الآلي. إنها تقنية التعلم الآلي القائمة على التغذية الراجعة ، حيث يتعلم الوكيل التصرف في بيئة من خلال مراقبة أخطائه وتنفيذ الإجراءات.

يطبق التعلم المعزز طريقة التعلم من خلال التفاعل والتغذية الراجعة. بعض المصطلحات المستخدمة في التعلم المعزز هي:

الوكيل : هو المتعلم أو صانع القرار الذي يقوم بالأعمال للحصول على مكافأة.
البيئة : هو السيناريو الذي يتعلم فيه الوكيل ويؤدي المهام المستقبلية.
الإجراء : الإجراءات التي يقوم بها الوكيل.
الحالة : الوضع الحالي
السياسة : وظيفة اتخاذ القرار للوكيل حيث يقرر الوكيل الإجراء المستقبلي بناءً على الحالة الحالية.
المكافأة : المرتجعات التي توفرها البيئة إلى وكيل لتنفيذ كل إجراء.
القيمة : مقارنة بالمكافأة ، فإن هذا هو العائد المتوقع على المدى الطويل مع الخصم.
دالة القيمة : تشير إلى قيمة الدولة ، وهي المبلغ الإجمالي للعائد.
مقرب الوظيفة : استحداث وظيفة من أمثلة التدريب.
نموذج البيئة: هو نموذج يحاكي البيئة الحقيقية للتنبؤ بالاستدلالات.
الأساليب القائمة على النموذج : تستخدم لحل النماذج القائمة على التعزيز.
قيمة Q أو قيمة الإجراء : تشبه القيمة ولكن تعتبر المعلمات الإضافية مثل الإجراء الحالي.
عملية قرار ماركوف : نموذج احتمالي لمشكلة القرار التتابعي.
البرمجة الديناميكية : فئة من الطرق لحل مشاكل القرار المتسلسل.

يهتم التعلم المعزز في الغالب بحقيقة كيفية قيام وكلاء البرمجيات باتخاذ الإجراءات في البيئة. التعلم القائم على الشبكات العصبية يسمح بتحقيق هدف معقد.

كيف يعمل التعلم المعزز؟

يتم عرض مثال التعلم المعزز أدناه لعرض كيفية عمل التعلم المعزز.

لا تفهم القطط أي شكل من أشكال اللغة وبالتالي يجب اتباع استراتيجية مختلفة للتواصل مع القط.
يتم إنشاء موقف حيث تتصرف القطة بطرق مختلفة. يكافأ القطة بالسمك إذا كانت بالطريقة المرغوبة. لذلك تتصرف القطة بنفس الطريقة كلما واجهت هذا الموقف متوقعًا المزيد من الطعام كمكافأة.
يحدد السيناريو عملية التعلم من التجارب الإيجابية.
أخيرًا ، تتعلم القطة أيضًا ما لا يجب فعله من خلال التجارب السلبية.

هذا يؤدي إلى التفسير التالي

تعمل القطة كوكيل لأنها تتعرض لبيئة. في المثال المذكور أعلاه ، المنزل هو البيئة. قد تكون الدول أي شيء مثل القط جالسًا أو يمشي.
يقوم الوكيل بعمل ما بالانتقال من حالة إلى أخرى مثل الانتقال من وضعية الجلوس إلى المشي.
الفعل هو رد فعل العامل. تتضمن السياسة طريقة اختيار إجراء في حالة معينة مع توقع نتيجة أفضل في الحالة المستقبلية.
قد يمنح انتقال الدول مكافأة أو عقوبة.

نقاط قليلة يجب ملاحظتها في التعلم المعزز

يجب توفير الحالة الأولية للمدخلات التي سيبدأ منها النموذج.
يتم إنشاء العديد من المخرجات المحتملة من خلال حلول متنوعة لمشكلة معينة.
يعتمد التدريب على طريقة RL على المدخلات. بعد توليد المخرجات ، سيقرر النموذج ما إذا كان سيكافئ النموذج أم لا. لذلك ، يستمر النموذج في التدريب.
يستمر النموذج في التعلم باستمرار.
يتم تحديد أفضل حل لمشكلة ما على أقصى مكافأة تتلقاها.

خوارزمية التعلم المعزز

هناك ثلاث طرق لتنفيذ طريقة التعلم المعزز.

1. القيمة على أساس

تتضمن الطريقة القائمة على القيمة تعظيم وظيفة القيمة V (s). توقع عودة طويلة الأجل للوضع الحالي متوقع بموجب السياسة. SARSA و Q Learning هي بعض الخوارزميات القائمة على القيمة. النهج القائمة على القيمة مستقرة تمامًا لأنها غير قادرة على نمذجة بيئة مستمرة. كلا الخوارزميتين سهل التنفيذ ، لكنهما لا يستطيعان تقدير قيم حالة غير مرئية.

2. تستند السياسة

يتضمن هذا النوع من الطرق تطوير سياسة تساعد على إرجاع أقصى قدر من المكافأة من خلال أداء كل إجراء.

هناك نوعان من الأساليب القائمة على السياسة:

حتمية: هذا يعني أن السياسة في ظل أي حالة تنتج نفس الإجراء.
ستوكاستيك: يوجد احتمال لكل إجراء محدد بواسطة المعادلة

n {a \ s) = P \ A ، = a \ S ، = S]

الخوارزميات القائمة على السياسة هي تدرج سياسة مونت كارلو (REINFORCE) وتدرج السياسة الحتمية (DPG). تؤدي مناهج التعلم القائمة على السياسات إلى عدم الاستقرار لأنها تعاني من تباين كبير.

تم تطوير خوارزمية "الممثل-الناقد" من خلال مزيج من النهج القائم على القيمة والنهج القائم على السياسة. تتيح معلمات كل من دالة القيمة (الناقد) والسياسة (الفاعل) تقاربًا مستقرًا من خلال الاستخدام الفعال لبيانات التدريب.

3. نموذج قائم

يتم إنشاء نموذج افتراضي لكل بيئة ويتعلم الوكيل بناءً على هذا النموذج. يتضمن بناء النموذج خطوات أخذ عينات من الدول ، واتخاذ الإجراءات ، ومراقبة المكافآت. في كل حالة في بيئة ما ، يتنبأ النموذج بالحالة المستقبلية والمكافأة المتوقعة. مع توفر النموذج القائم على RL ، يمكن للوكيل التخطيط بناءً على الإجراءات. يحصل الوكيل على القدرة على التعلم عندما تتشابك عملية التخطيط مع تقدير السياسة.

يهدف التعلم المعزز إلى تحقيق هدف من خلال استكشاف عامل في بيئة غير معروفة. تنص فرضية RL على أنه يمكن وصف الأهداف بأنها تعظيم المكافآت. يجب أن يكون الوكيل قادرًا على الحصول على أقصى قدر من المكافأة من خلال اضطراب الدول في شكل أفعال. يمكن تصنيف خوارزميات RL على نطاق واسع إلى نموذج قائم على النموذج وخالي من النماذج.

نماذج التعلم في التعزيز

1. عملية اتخاذ القرار ماركوف

مجموعة المعلمات المستخدمة في عملية اتخاذ قرار ماركوف هي

مجموعة من الإجراءات- أ

مجموعة من الدول- S.

مكافأة- R

نهج- ن

القيمة- V

عملية قرار ماركوف هي النهج الرياضي لرسم خريطة حل في التعلم المعزز.

2. س التعلم

توفر هذه العملية معلومات إلى الوكيل لإعلامه بالإجراء الذي يجب المضي فيه. إنه شكل من أشكال النهج الحر. تستمر قيم Q في التحديث ، مما يدل على قيمة القيام بعمل "a" في الحالة "s".

الفرق بين التعلم المعزز والتعلم تحت الإشراف

التعلم الخاضع للإشراف هو عملية تعلم الآلة حيث يُطلب من المشرف تغذية المعرفة في خوارزمية التعلم. تشمل الوظيفة الرئيسية للمشرف جمع بيانات التدريب مثل الصور ومقاطع الصوت وما إلى ذلك.

بينما في RL ، تتضمن مجموعة بيانات التدريب في الغالب مجموعة من المواقف والإجراءات. لا يتطلب التعلم المعزز في التعلم الآلي أي شكل من أشكال الإشراف. أيضًا ، ينتج عن الجمع بين التعلم المعزز والتعلم العميق التعلم المعزز العميق للحقل الفرعي.

الاختلافات الرئيسية بين التعلم الخاضع للإشراف والتعليم الخاضع للإشراف مُدرجة في الجدول أدناه.

تعزيز التعلم	التعلم الخاضع للإشراف
يتم اتخاذ القرارات بالتتابع. يعتمد ناتج العملية على حالة المدخلات الحالية. سيعتمد الإدخال التالي على إخراج الإدخال السابق وما إلى ذلك.	يتم اتخاذ القرار بشأن الإدخال الأولي أو عند الإدخال الذي يتم تغذيته في بداية العملية.
تعتمد القرارات. لذلك ، يتم وضع العلامات على تسلسل القرارات التابعة.	القرارات مستقلة عن بعضها البعض. ومن ثم ، يتم وضع العلامات على جميع القرارات.
يحدث التفاعل مع البيئة في RL.	لا يوجد تفاعل مع البيئة. تعمل العملية على مجموعة البيانات الحالية.
تشبه عملية اتخاذ القرار في RL عملية صنع القرار في الدماغ البشري.	تشبه عملية صنع القرار القرار الذي يتخذه دماغ بشري تحت إشراف مرشد.
لا توجد مجموعة بيانات مصنفة.	مجموعة البيانات المصنفة.
التدريب السابق غير مطلوب من وكيل التعلم.	يتم توفير التدريب السابق للتنبؤ بالإخراج.
يتم دعم RL بشكل أفضل مع الذكاء الاصطناعي ، حيث ينتشر التفاعل البشري.	يتم تشغيل التعلم الخاضع للإشراف في الغالب مع التطبيقات أو أنظمة البرامج التفاعلية.
مثال: لعبة الشطرنج	مثال: التعرف على الأشياء

أنواع التعزيز

هناك نوعان من التعلم المعزز

1. إيجابي

يتم تعريف التعلم التعزيزي الإيجابي على أنه حدث ناتج عن سلوك معين. يؤثر هذا بشكل إيجابي على العامل لأنه يزيد من قوة وتكرار التعلم. نتيجة لذلك ، يتم تعظيم الأداء. لذلك ، يتم الحفاظ على التغييرات لفترة أطول من الوقت. ولكن ، الإفراط في تحسين الحالات يمكن أن يؤثر على نتائج التعلم. لذلك ، يجب ألا يكون التعلم المعزز كثيرًا.

مزايا التعزيز الإيجابي هي:

تعظيم الأداء.
التغييرات المستمرة لفترة أطول.

2. سلبي

يتم تعريف التعزيز السلبي عندما يتم تعزيز السلوك في ظل ظروف سلبية. يتم تحديد الحد الأدنى من مستوى الأداء من خلال التعزيز السلبي

مزايا التعلم التعزيزي السلبي هي:

يزيد من السلوك.
قدم تحديًا للحد الأدنى من معايير الأداء

مساوئ التعلم المعزز

يوفر فقط ما يكفي لتلبية الحد الأدنى من السلوك.

التحديات في التعلم المعزز

التعلم المعزز ، على الرغم من أنه لا يتطلب الإشراف على النموذج ، ليس نوعًا من التعلم غير الخاضع للإشراف. ومع ذلك ، فهو جزء مختلف من التعلم الآلي.

بعض التحديات المرتبطة بالتعلم المعزز هي:

إعداد بيئة المحاكاة. هذا يعتمد على المهمة التي يتعين القيام بها. يعد إنشاء جهاز محاكاة واقعي مهمة صعبة. يجب أن يكتشف النموذج كل دقيقة وتفاصيل مهمة عن البيئة.
تعد مشاركة تصميم الميزة والمكافأة أمرًا مهمًا للغاية.
قد تتأثر سرعة التعلم بالمعلمات.
نقل النموذج إلى بيئة التدريب.
يعد التحكم في الوكيل من خلال الشبكات العصبية تحديًا آخر لأن الاتصال الوحيد مع الشبكات العصبية يكون من خلال نظام المكافآت والعقوبات. في بعض الأحيان قد يؤدي هذا إلى النسيان الكارثي ، أي حذف المعرفة القديمة أثناء اكتساب معرفة جديدة.
يعد الوصول إلى الحد الأدنى المحلي تحديًا للتعلم المعزز.
في ظل ظروف البيئة الحقيقية ، قد تكون الملاحظة الجزئية موجودة.
يجب تنظيم تطبيق التعلم المعزز. تؤدي الكمية الزائدة من RL إلى زيادة التحميل على الدول. قد يؤدي هذا إلى تقليص النتائج.
البيئات الحقيقية غير ثابتة.

تطبيقات التعزيز

في مجال الروبوتات للأتمتة الصناعية.
يمكن استخدام RL في التخطيط الاستراتيجي للأعمال.
يمكن استخدام RL في تقنيات معالجة البيانات التي تتضمن خوارزميات التعلم الآلي.
يمكن استخدامه لإعداد المواد التدريبية المخصصة للطلاب وفقًا لمتطلباتهم.
يمكن تطبيق RL في التحكم في الطائرات وحركة الروبوتات.

في البيئات الكبيرة ، يمكن تطبيق التعزيز في المواقف التالية

إذا لم يتوفر حل تحليلي لنموذج معروف للبيئة.
إذا تم توفير نموذج محاكاة للبيئة فقط.
عندما تكون هناك طريقة واحدة فقط لجمع البيانات وهي التفاعل مع البيئة.

ما فائدة التعلم المعزز؟

يساعد التعلم المعزز في تحديد الموقف الذي يتطلب إجراءً.
يساعد تطبيق RL في معرفة الإجراء الذي ينتج عنه أعلى مكافأة.
تكمن فائدة RL في تزويد الوكيل بوظيفة المكافأة.
أخيرًا ، تساعد RL في تحديد الطريقة التي تؤدي إلى مكافآت أكبر.

خاتمة

لا يمكن تطبيق RL على كل حالة. هناك قيود معينة في استخدامه.

يسمح توافر البيانات الكافية باستخدام نهج التعلم الخاضع للإشراف بدلاً من طريقة RL.
يستغرق حساب RL وقتًا طويلاً ، لا سيما في الحالات التي يتم فيها النظر في بيئة كبيرة.

إذا كنت مهتمًا بمعرفة المزيد عن التعلم الآلي ، فراجع برنامج IIIT-B & upGrad's Executive PG في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT -ب حالة الخريجين ، 5+ مشاريع التخرج العملية العملية والمساعدة في العمل مع الشركات الكبرى.

كيف يبدو المستقبل لوظائف التعلم الآلي؟

ازداد اعتماد التعلم الآلي بسرعة عبر قطاعات الصناعة المختلفة اليوم. بدءًا من قطاعي التمويل والاستثمار إلى الترفيه والإعلام والسيارات والرعاية الصحية والألعاب - من الصعب العثور على أي صناعة لا تستخدم الذكاء الاصطناعي والتعلم الآلي اليوم. وبالتالي ، فإن نطاق وظائف التعلم الآلي أعلى بكثير من العديد من وظائف التكنولوجيا الأخرى. وفقًا لتقارير Gartner ، بحلول نهاية عام 2022 ، سيكون هناك ما يقدر بنحو 2.3 مليون وظيفة للتعلم الآلي والذكاء الاصطناعي في السوق. علاوة على ذلك ، من المتوقع أيضًا أن يكون التعويض المقدم للمهنيين في هذا المجال أعلى بكثير ، حيث تتراوح رواتب البداية في INR 9 lakhs سنويًا.

ما هي سحابة الذكاء الاصطناعي؟

سحابة الذكاء الاصطناعي هي مفهوم جديد نسبيًا بدأت المؤسسات في اختياره مؤخرًا. يجمع هذا المفهوم بين الذكاء الاصطناعي والحوسبة السحابية وهو مدفوع بعاملين. توفر برامج وأدوات الذكاء الاصطناعي إضافة قيمة جديدة ومحسّنة إلى الحوسبة السحابية التي تلعب الآن دورًا مهمًا بشكل متزايد في تبني الذكاء الاصطناعي. تشتمل سحابة الذكاء الاصطناعي على بنية أساسية مشتركة لحالات استخدام محددة يتم الاستفادة منها في وقت واحد من خلال مختلف المشاريع وأعباء العمل. تتمثل أكبر ميزة لـ AI cloud في أنها تجمع بنجاح بين أجهزة AI وبرامج مفتوحة المصدر لتزويد العملاء (المؤسسات) بـ AI SaaS في إعداد سحابي مختلط.

أين يتم استخدام خوارزمية التعلم المعزز؟

تأتي خوارزميات التعلم المعزز مع تطبيقات مختلفة مثل تخطيط إستراتيجية الأعمال ، والروبوتات لأتمتة العمليات الصناعية ، والتحكم في الطائرات والتحكم الآلي في الحركة ، والتعلم الآلي ، وتطوير نظام تدريب مخصص للطلاب ، ومعالجة البيانات وغير ذلك الكثير. يعد استخدام خوارزمية التعلم المعزز فعالاً بشكل خاص في هذه الحالات لأنه يمكن أن يساعد بسهولة في اكتشاف المواقف التي تحتاج فعلاً إلى اتخاذ إجراءات والإجراءات التي تأتي مع أعلى المكافآت على مدار فترة. ومع ذلك ، لا ينبغي تطبيق التعلم المعزز عندما تكون هناك بيانات كافية لتقديم حل باستخدام طريقة التعلم تحت الإشراف.