كل ما تحتاج لمعرفته حول وظيفة التنشيط في ML
نشرت: 2022-11-08ما هي وظيفة التنشيط في التعلم الآلي؟
أثبتت وظائف تنشيط التعلم الآلي أنها عناصر حاسمة في نموذج ML الذي يشتمل على جميع أوزانه وتحيزاته. هم موضوع بحث يتطور باستمرار ولعبوا دورًا مهمًا في جعل تدريب الشبكة العصبية العميقة حقيقة واقعة. في جوهرها ، يقررون قرار تحفيز الخلايا العصبية. إذا كانت المعلومات التي تتلقاها الخلية العصبية ذات صلة بالمعلومات الموجودة بالفعل أو إذا كان يجب تجاهلها. يسمى التعديل غير الخطي الذي نطبقه على إشارة الدخل بوظيفة التنشيط. تستقبل الطبقة التالية من الخلايا العصبية هذا الناتج المتغير كمدخل.
نظرًا لأن وظائف التنشيط تجري حسابات غير خطية على مدخلات الشبكة العصبية ، فإنها تسمح لها بالتعلم والقيام بمهام أكثر تعقيدًا بدونها ، وهو نموذج انحدار خطي في التعلم الآلي.
من الضروري فهم تطبيقات وظائف التنشيط وموازنة مزايا وعيوب كل وظيفة تنشيط لتحديد النوع المناسب لوظيفة التنشيط التي قد توفر عدم الخطية والدقة في نموذج شبكة عصبية معين.
قم بالتسجيل في دورة التعلم الآلي من أفضل الجامعات في العالم. احصل على درجة الماجستير أو برنامج PGP التنفيذي أو برامج الشهادات المتقدمة لتسريع مسار حياتك المهنية.
نماذج وظيفة تنشيط التعلم الآلي هي في الأساس نوعان -
- طبقات مخفية
- طبقات الإخراج
طبقات مخفية
وظائف التنشيط المستخدمة في الطبقات المخفية للدور الأساسي للنماذج العصبية هي توفير اللاخطية التي تتطلبها الشبكات العصبية لمحاكاة التفاعلات غير الخطية.
طبقات الإخراج
طرق التنشيط التي تستخدمها طبقات إخراج نماذج التعلم الآلي لها هدف رئيسي محدد: ضغط القيمة ضمن نطاق مقيد ، مثل 0 إلى 1.
دعونا نفهم أولاً الأنواع المختلفة من وظائف التنشيط في التعلم الآلي -
1. وظيفة الخطوة الثنائية
المصنف القائم على العتبة ، والذي يحدد ما إذا كان يجب إشراك العصبون أم لا ، هو أول ما يتبادر إلى الذهن عندما يكون لدينا وظيفة تنشيط. يتم تشغيل الخلية العصبية إذا كانت القيمة Y أكبر من قيمة العتبة المحددة ؛ وإلا ، فقد تُركت في سبات.
غالبًا ما يتم تعريفه على أنه -
و (س) = 1 ، س> = 0
و (س) = 0 ، س <0
الوظيفة الثنائية واضحة ومباشرة. إنه قابل للتطبيق أثناء تطوير مصنف ثنائي. هناك حاجة إلى التقييمات ، وهي الخيارات المثالية عندما نحتاج فقط للإجابة بنعم أو لا لفئة واحدة لأنها إما تقوم بتشغيل الخلايا العصبية أو تركها خالية.
2. الوظيفة الخطية
قد يتسبب المنحدر الإيجابي في ارتفاع معدل إطلاق النار مع ارتفاع معدل الإدخال. وظائف التنشيط الخطي متفوقة في توفير مجموعة واسعة من التنشيطات.
تتناسب الوظيفة بشكل دقيق مع التركيبة الموزونة للخلايا العصبية أو المدخلات في وظيفة التنشيط الأفقي المباشر.
قد يكون العصبون يطلق النار أو لا يطلق النار في ثنائي. قد تلاحظ أن مشتق هذه الوظيفة ثابت إذا كنت معتادًا على النسب المتدرج في التعلم الآلي.
أفضل دورات التعلم الآلي ودورات الذكاء الاصطناعي عبر الإنترنت
ماجستير العلوم في التعلم الآلي والذكاء الاصطناعي من جامعة جون مورس بليفربول | برنامج الدراسات العليا التنفيذية في التعلم الآلي والذكاء الاصطناعي من IIITB | |
برنامج شهادة متقدم في تعلم الآلة و البرمجة اللغوية العصبية من IIITB | برنامج الشهادة المتقدم في التعلم الآلي والتعلم العميق من IIITB | برنامج الدراسات العليا التنفيذية في علوم البيانات والتعلم الآلي من جامعة ماريلاند |
لاستكشاف جميع دوراتنا ، قم بزيارة صفحتنا أدناه. | ||
دورات تعلم الآلة |
3. الوظيفة غير الخطية
ReLU
من حيث وظائف التنشيط ، فإن الوحدة الخطية المصححة هي الأفضل. هذه هي وظيفة التنشيط الأكثر شيوعًا والافتراضية لمعظم المشكلات. عندما تكون سالبة ، فإنها تقتصر على 0 ، بينما عندما تصبح موجبة ، فإنها غير محدودة. يمكن أن تستفيد الشبكة العصبية العميقة من التنظيم الجوهري الناتج عن هذا المزيج من الحدود وعدم الحدود. يخلق التنظيم تمثيلًا ضئيلًا يجعل التدريب والاستدلال فعالين من الناحية الحسابية.
يحافظ اللامحدود الإيجابي على البساطة الحسابية مع تسريع تقارب الانحدار الخطي. ReLU لديه عيب واحد فقط: الخلايا العصبية الميتة. تم إيقاف تشغيل بعض الخلايا العصبية الميتة في وقت مبكر من مرحلة التدريب ولم يتم إعادة تنشيطها سلبًا إلى الصفر. نظرًا لأن الوظيفة تنتقل بسرعة من غير المحدودة عندما تكون x> 0 إلى محدودة عندما تكون x 0 ، فلا يمكن التمييز بينها بشكل مستمر. ومع ذلك ، من الناحية العملية ، يمكن التغلب على هذا دون آثار دائمة على الأداء إذا كان هناك معدل تعليمي منخفض وتحيز سلبي كبير.
الايجابيات:
- تتطلب ReLU عمليات رياضية أقل من الوظائف غير الخطية الأخرى ، مما يجعلها أقل تكلفة من الناحية الحسابية وخطية.
- يمنع ويصلح مشكلة التدرج التلاشي.
يستخدم:
- تُستخدم في نماذج RNN و CNN وغيرها من نماذج التعلم الآلي.
تعديلات مختلفة على ReLU -
متسرب ReLU
البديل الأفضل لوظيفة ReLU هو وظيفة Leaky ReLU. نظرًا لأن التدرج اللوني لوظيفة ReLU هو 0 ، حيث x <0 ، أدت التنشيطات في تلك المنطقة إلى موت الخلايا العصبية ، وثبت أن ReLU المتسربة هي الأكثر فائدة لحل مثل هذه المشكلات. نحدد وظيفة ReLU على أنها مكون خطي صغير من x بدلاً من 0 ، حيث x <0.
يمكن رؤيتها على أنها -
و (س) = فأس ، س <0
و (س) = س ، س> = 0
الايجابيات -
- كان Leaky ReLU ، الذي يحتوي على منحدر سلبي قليلاً ، محاولة لمعالجة مشكلة "الموت ReLU" (0.01 أو نحو ذلك).
يستخدم -
- تُستخدم في المهام التي تتضمن التدرجات اللونية مثل GAN.
حدودي ReLU
يعد هذا تحسينًا على Leaky ReLU ، حيث يتم تدريب المضاعف القياسي على البيانات بدلاً من اختياره عشوائيًا. نظرًا لأن النموذج تم تدريبه باستخدام البيانات ، فهو حساس لمعامل القياس (أ) ، ويعاقب بشكل مختلف اعتمادًا على قيمة.
يستخدم -
- عندما يفشل Leaky ReLU ، يمكن استخدام ReLU حدودي لحل مشكلة الخلايا العصبية الميتة.
GeLU (وحدة خطأ غاوسي الخطية)
أحدث طفل في الكتلة ، ولا شك في أن المنتصر في المهام ذات الصلة بمعالجة اللغة الطبيعية هي وحدة خطأ غاوسي الخطية ، والتي تُستخدم في الأنظمة القائمة على المحولات وخوارزميات SOTA مثل GPT-3 و BERT. تجمع GeLU بين ReLU و Zone Out و Dropout (التي تزيل الخلايا العصبية بشكل عشوائي لشبكة متفرقة). أصبح ReLU أكثر سلاسة مع GeLU لأنه يزن المدخلات حسب النسبة المئوية بدلاً من البوابات.
يستخدم -
- رؤية الكمبيوتر ، البرمجة اللغوية العصبية ، التعرف على الكلام
ELU (وحدة خطية أسية)
إن ELU المقدم في عام 2015 غير محدود بشكل إيجابي ويستخدم منحنى لوغاريتمي للقيم السالبة. مقارنةً بـ Leaky و Parameter ReLU ، تختلف هذه الإستراتيجية لحل مشكلة الخلايا العصبية الميتة قليلاً. على عكس ReLU ، فإن القيم السلبية تتلاشى تدريجياً وتصبح مقيدة لمنع الخلايا العصبية الميتة. ومع ذلك ، فهو مكلف نظرًا لاستخدام دالة أسية لوصف المنحدر السالب. عند استخدام تقنية بدء أقل من مثالية ، تؤدي الوظيفة الأسية أحيانًا إلى توسيع التدرج.
حفيف
لا تزال القيم السلبية الصغيرة لـ Swish ، والتي تم تقديمها لأول مرة في عام 2017 ، مفيدة في التقاط الأنماط الأساسية ، في حين أن القيم السلبية الكبيرة سيكون لها مشتق من 0. يمكن استخدام Swish لاستبدال ReLU بسهولة بسبب شكلها المثير للاهتمام.
الايجابيات -
- والنتيجة هي حل بديل بين الدالة السينية و RELU التي تساعد في تسوية النتيجة.
- لديه القدرة على التعامل مع مشكلة التدرج المتلاشي.
يستخدم -
- من حيث تصنيف الصور والترجمة الآلية ، فهي على قدم المساواة مع ReLU أو حتى متفوقة عليها.
مهارات التعلم الآلي عند الطلب
دورات الذكاء الاصطناعي | دورات تابلو |
دورات البرمجة اللغوية العصبية | دورات التعلم العميق |
4. وظيفة تنشيط Softmax
مثل وظائف التنشيط السيني ، يتم استخدام softmax بشكل أساسي في الطبقة النهائية ، أو طبقة الإخراج ، لاتخاذ القرارات. يقوم softmax ببساطة بتعيين قيم لمتغيرات الإدخال بناءً على أوزانها ، ويساوي إجمالي هذه الأوزان في النهاية واحدًا.
الايجابيات -
- عند المقارنة بوظيفة RELU ، يكون تقارب التدرج أكثر سلاسة في Softmax.
- لديها القدرة على التعامل مع قضية التدرج التلاشي.
يستخدم -
- تصنيف متعدد الطبقات ومتعدد اللغات.
5. السيني
تعد الوظيفة السينية في التعلم الآلي واحدة من أكثر وظائف التنشيط شيوعًا. المعادلة -
و (س) = 1 / (1 + ه ^ -x)
تتمتع وظائف التنشيط هذه بميزة تقليل المدخلات إلى قيمة تتراوح من 0 و 1 ، مما يجعلها مثالية لنمذجة الاحتمالية. عند تطبيقها على شبكة عصبية عميقة ، تصبح الوظيفة قابلة للتفاضل ولكنها تتشبع بسرعة بسبب الحدود ، مما يؤدي إلى تناقص التدرج. تزداد تكلفة الحوسبة الأسية عندما يحتاج نموذج يحتوي على مئات الطبقات والخلايا العصبية إلى التدريب.
المشتق مقيد بين -3 و 3 ، في حين أن الوظيفة مقيدة بين 0 و 1. إنها ليست مثالية لتدريب الطبقات المخفية لأن الناتج ليس متماثلًا حول الصفر ، مما قد يجعل جميع الخلايا العصبية تتبنى نفس الإشارة أثناء التدريب .
الايجابيات -
- يوفر تدرجًا سلسًا أثناء التقارب.
- غالبًا ما يعطي تصنيفًا دقيقًا للتنبؤ بـ 0 و 1.
يستخدم -
- عادةً ما تُستخدم الدالة السينية في التعلم الآلي في التصنيف الثنائي ونماذج الانحدار اللوجستي في طبقة الإخراج.
مدونات التعلم الآلي والذكاء الاصطناعي الشعبية
إنترنت الأشياء: التاريخ والحاضر والمستقبل | دروس تعلم الآلة: تعلم ML | ما هي الخوارزمية؟ بسيط سهل |
راتب مهندس الروبوتات في الهند: جميع الأدوار | يوم في حياة مهندس التعلم الآلي: ماذا يفعلون؟ | ما هو إنترنت الأشياء (إنترنت الأشياء) |
التقليب مقابل الجمع: الفرق بين التقليب والجمع | أهم 7 اتجاهات في الذكاء الاصطناعي وتعلم الآلة | التعلم الآلي باستخدام R: كل ما تحتاج إلى معرفته |
6. Tanh - وظيفة تنشيط الظل الزائدية
على غرار وظيفة Sigmoid في التعلم الآلي ، تُستخدم وظيفة التنشيط هذه للتنبؤ أو التمييز بين فئتين ، باستثناء أنها تنقل الإدخال السلبي حصريًا إلى كميات سالبة ولها نطاق من -1 إلى 1.
tanh (x) = 2sigmoid (2x) -1
أو
tanh (x) = 2 / (1 + e ^ (- 2x)) -1
إنه يحل مشكلتنا بشكل أساسي مع القيم التي لها نفس العلامة. الخصائص الأخرى مماثلة لتلك الخاصة بالوظيفة السينية. في أي وقت ، هو مستمر ومتميز.
الايجابيات -
- على عكس السيني ، لديه وظيفة مركزية صفرية.
- تحتوي هذه الوظيفة أيضًا على تدرج سلس.
على الرغم من أنه يمكن استخدام وظائف Tahn و Sigmoid في التعلم الآلي في طبقات مخفية بسبب حدودها الإيجابية ، إلا أن الشبكات العصبية العميقة لا يمكنها استخدامها بسبب تشبع التدريب وتلاشي التدرجات.
ابدأ حياتك المهنية في تعلم الآلة بالدورة الصحيحة
هل أنت مهتم بالتعمق في وظائف التنشيط ومساعدتها في تحسين التعلم الآلي؟ احصل على نظرة عامة على التعلم الآلي مع جميع التفاصيل مثل AI و Deep Learning و NLP و Reinforcement Learning مع دورة UpGrad المعترف بها من WES على درجة الماجستير في العلوم في التعلم الآلي والذكاء الاصطناعي . توفر هذه الدورة التدريبية خبرات عملية أثناء العمل على أكثر من 12 مشروعًا وإجراء البحوث وفصول ترميز عالية والتدريب مع بعض من أفضل الأساتذة.
اشترك لمعرفة المزيد!
استنتاج
تعمل العمليات الحرجة المعروفة باسم وظائف التنشيط على تغيير المدخلات بطريقة غير خطية ، مما يمكنها من استيعاب المهام الأكثر تعقيدًا وتنفيذها. تناولنا وظائف التنشيط الأكثر شيوعًا واستخداماتها التي قد تنطبق ؛ توفر وظائف التنشيط هذه نفس الوظيفة ولكن يتم تطبيقها في ظل ظروف مختلفة.
كيف يمكنك تحديد وظيفة التنشيط الأفضل؟
يعد اختيار وظيفة التنشيط قرارًا معقدًا يعتمد كليًا على المشكلة المطروحة. ومع ذلك ، قد ترغب في البدء بالوظيفة السينية إذا كنت جديدًا على التعلم الآلي قبل المتابعة للآخرين.
هل يجب أن تكون وظيفة التنشيط خطية أم غير خطية؟
بغض النظر عن مدى تعقيد التصميم ، فإن وظيفة التنشيط الخطي تكون فعالة فقط حتى عمق طبقة واحدة. ومن ثم لا يمكن أن تكون طبقة التنشيط خطية. بالإضافة إلى ذلك ، فإن العالم اليوم وتحدياته غير خطية للغاية.
ما هي وظيفة التنشيط التي يمكن تعلمها بسهولة؟
تانه. من خلال توسيع النطاق ليشمل -1 إلى 1 ، فإنه يعالج عيب وظيفة التنشيط السيني. ينتج عن هذا مركزية صفرية ، مما يجعل متوسط أوزان الطبقة المخفية يقترب من الصفر. ونتيجة لذلك ، يصبح التعلم أسرع وأسهل.