ما هي الفرضية في التعلم الآلي؟ كيف تصنع فرضية؟

نشرت: 2021-03-12

يعد اختبار الفرضيات موضوعًا واسعًا ينطبق على العديد من المجالات. عندما ندرس الإحصائيات ، يتضمن اختبار الفرضية هناك بيانات من مجموعات سكانية متعددة والاختبار هو معرفة مدى أهمية التأثير على السكان.

يتضمن ذلك حساب القيمة الاحتمالية ومقارنتها بالقيمة الحرجة أو ألفا. عندما يتعلق الأمر بالتعلم الآلي ، يتعامل اختبار الفرضيات مع إيجاد الوظيفة التي تقرب بشكل أفضل الميزات المستقلة للهدف. بمعنى آخر ، قم بتعيين المدخلات إلى المخرجات.

بنهاية هذا البرنامج التعليمي ، ستعرف ما يلي:

  • ما هي الفرضية في الإحصاء مقابل التعلم الآلي
  • ما هي مساحة الفرضية؟
  • عملية تكوين الفرضية

جدول المحتويات

الفرضية في الإحصاء

الفرضية هي افتراض نتيجة قابلة للدحض ، مما يعني أنه يمكن إثبات خطأها من خلال بعض الأدلة. يمكن رفض الفرضية أو عدم رفضها. نحن لا نقبل أبدًا أي فرضية في الإحصاء لأن الأمر كله يتعلق بالاحتمالات ولسنا متأكدين أبدًا بنسبة 100٪. قبل بدء التجربة نحدد فرضيتين:

1. فرضية لاغية: تقول أنه لا يوجد تأثير معنوي

2. الفرضية البديلة: تقول أن هناك بعض التأثير المعنوي

في الإحصاء ، نقارن قيمة P (التي يتم حسابها باستخدام أنواع مختلفة من الاختبارات الإحصائية) مع القيمة الحرجة أو ألفا. كلما زادت قيمة P ، زادت الاحتمالية ، وهذا بدوره يدل على أن التأثير ليس مهمًا ونخلص إلى أننا فشلنا في رفض فرضية العدم .

بمعنى آخر ، من المحتمل جدًا أن يكون التأثير قد حدث بالصدفة ولا توجد دلالة إحصائية له. من ناحية أخرى ، إذا حصلنا على قيمة P صغيرة جدًا ، فهذا يعني أن الاحتمال ضئيل. هذا يعني أن احتمال وقوع الحدث بالصدفة منخفض للغاية.

انضم إلى دورة ML و AI عبر الإنترنت من أفضل الجامعات في العالم - الماجستير ، وبرامج الدراسات العليا التنفيذية ، وبرنامج الشهادات المتقدمة في ML & AI لتسريع حياتك المهنية.

مستوى الأهمية

يتم تعيين مستوى الأهمية قبل بدء التجربة. يحدد هذا مقدار التسامح مع الخطأ وعلى أي مستوى يمكن اعتبار التأثير كبيرًا. القيمة المشتركة لمستوى الأهمية هي 95٪ مما يعني أيضًا أن هناك فرصة بنسبة 5٪ لخداعنا من خلال الاختبار وارتكاب خطأ. بمعنى آخر ، القيمة الحرجة هي 0.05 والتي تعمل بمثابة عتبة. وبالمثل ، إذا تم تحديد مستوى الأهمية عند 99٪ ، فهذا يعني قيمة حرجة قدرها 0.01٪.

P- القيمة

يتم إجراء اختبار إحصائي على المجتمع والعينة لمعرفة القيمة الاحتمالية التي يتم مقارنتها بعد ذلك بالقيمة الحرجة. إذا كانت القيمة P أقل من القيمة الحرجة ، فيمكننا أن نستنتج أن التأثير مهم وبالتالي نرفض فرضية Null (التي قيلت أنه لا يوجد تأثير كبير). إذا كانت القيمة P أكثر من القيمة الحرجة ، فيمكننا أن نستنتج أنه لا يوجد تأثير كبير وبالتالي نفشل في رفض فرضية Null.

الآن ، نظرًا لأننا لا نستطيع أبدًا أن نكون متأكدين بنسبة 100٪ ، فهناك دائمًا فرصة أن تكون اختباراتنا صحيحة ولكن النتائج مضللة. هذا يعني أننا إما نرفض القيمة الصفرية عندما تكون غير خاطئة في الواقع. يمكن أن يعني أيضًا أننا لا نرفض القيمة الصفرية عندما تكون خاطئة بالفعل. هذه هي أخطاء النوع 1 والنوع 2 من اختبار الفرضيات.

مثال

ضع في اعتبارك أنك تعمل لدى شركة تصنيع لقاح وأن فريقك يطور لقاح Covid-19. لإثبات فعالية هذا اللقاح ، فإنه يحتاج إلى إثبات إحصائيًا أنه فعال على البشر. لذلك ، نأخذ مجموعتين من الأشخاص من نفس الحجم والخصائص. نعطي اللقاح للمجموعة (أ) ونعطي المجموعة (ب) علاجًا وهميًا. ونجري تحليلًا لمعرفة عدد الأشخاص في المجموعة (أ) الذين أصيبوا بالعدوى وعدد المصابين في المجموعة (ب).

قمنا باختبار هذا عدة مرات لمعرفة ما إذا كانت المجموعة A قد طورت أي مناعة كبيرة ضد Covid-19 أم لا. نحسب قيمة P لجميع هذه الاختبارات ونستنتج أن قيم P دائمًا ما تكون أقل من القيمة الحرجة. ومن ثم ، يمكننا رفض الفرضية الصفرية بأمان واستنتاج أن هناك بالفعل تأثيرًا مهمًا.

قراءة: شرح نماذج التعلم الآلي

الفرضية في التعلم الآلي

يتم استخدام الفرضية في التعلم الآلي عندما نحتاج في التعلم الآلي الخاضع للإشراف إلى العثور على الوظيفة التي تعين أفضل مدخلات للإخراج. يمكن أن يسمى هذا أيضًا تقريب الوظيفة لأننا نقترب من دالة مستهدفة أفضل ميزة خرائط للهدف.

1. الفرضية (ح): يمكن أن تكون الفرضية نموذجًا واحدًا يعيّن الميزات للهدف ، ومع ذلك ، قد تكون النتيجة / المقاييس. يتم الإشارة إلى الفرضية بالحرف " h ".

2. مساحة الفرضية (H): مساحة الفرضية هي مجموعة كاملة من النماذج ومعلماتها المحتملة التي يمكن استخدامها لنمذجة البيانات. يشار إليه بالحرف " H ". بمعنى آخر ، الفرضية هي مجموعة فرعية من مساحة الفرضية.

عملية تكوين الفرضية

في الأساس ، لدينا بيانات التدريب (الميزات المستقلة والهدف) ووظيفة الهدف التي تحدد الميزات للهدف. يتم تشغيل هذه بعد ذلك على أنواع مختلفة من الخوارزميات باستخدام أنواع مختلفة من التكوين لمساحة المعلمة التشعبية الخاصة بهم للتحقق من التكوين الذي ينتج أفضل النتائج. تُستخدم بيانات التدريب لصياغة وإيجاد أفضل فرضية من مساحة الفرضية. تُستخدم بيانات الاختبار للتحقق من صحة النتائج التي تنتجها الفرضية أو التحقق منها.

ضع في اعتبارك مثالًا حيث لدينا مجموعة بيانات من 10000 مثيل مع 10 ميزات وهدف واحد. الهدف ثنائي ، مما يعني أنه مشكلة تصنيف ثنائي. الآن ، على سبيل المثال ، قمنا بنمذجة هذه البيانات باستخدام الانحدار اللوجستي وحصلنا على دقة 78٪. يمكننا رسم خط الانحدار الذي يفصل بين كلتا الفئتين. هذه فرضية (ح). ثم نختبر هذه الفرضية على بيانات الاختبار ونحصل على درجة 74٪.

الآن ، نفترض مرة أخرى أننا نلائم نموذج RandomForests على نفس البيانات ونحصل على درجة دقة تبلغ 85٪. هذا تحسن جيد بالفعل عن الانحدار اللوجستي. الآن قررنا ضبط المعلمات الفائقة لـ RandomForests للحصول على درجة أفضل على نفس البيانات. نحن نجري بحثًا في الشبكة ونشغل نماذج RandomForest متعددة على البيانات ونتحقق من أدائها. في هذه الخطوة ، نبحث أساسًا في مساحة الفرضية (H) للعثور على وظيفة أفضل. بعد الانتهاء من البحث الشبكي ، حصلنا على أفضل نتيجة بنسبة 89٪ وننهي البحث.

الآن نجرب أيضًا المزيد من النماذج مثل XGBoost و Support Vector Machine و Naive Bayes theorem لاختبار أدائها على نفس البيانات. ثم نختار النموذج الأفضل أداءً ونختبره على بيانات الاختبار للتحقق من أدائه والحصول على درجة 87٪.

تسجيل الخروج: مواضيع ومشاريع تعلم الآلة

قبل ان تذهب

تعتبر الفرضية جانبًا مهمًا من جوانب التعلم الآلي وعلوم البيانات. إنه موجود في جميع مجالات التحليلات وهو العامل الحاسم فيما إذا كان ينبغي إدخال التغيير أم لا. سواء كانت أدوية أو برامج أو مبيعات ، إلخ. تغطي الفرضية مجموعة بيانات التدريب الكاملة للتحقق من أداء النماذج من مساحة الفرضية.

يجب أن تكون الفرضية قابلة للدحض ، مما يعني أنه يجب أن يكون من الممكن اختبارها وإثباتها إذا كانت النتائج تتعارض معها. تستغرق عملية البحث عن أفضل تكوين للنموذج وقتًا طويلاً عندما يلزم التحقق من الكثير من التكوينات المختلفة. هناك طرق لتسريع هذه العملية أيضًا باستخدام تقنيات مثل البحث العشوائي للمعلمات الفائقة.

إذا كنت مهتمًا بمعرفة المزيد عن التعلم الآلي ، فراجع برنامج IIIT-B & upGrad's Executive PG في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT -ب حالة الخريجين ، 5+ مشاريع التخرج العملية العملية والمساعدة في العمل مع الشركات الكبرى.

لماذا يجب علينا عمل مشاريع مفتوحة المصدر؟

هناك العديد من الأسباب للقيام بمشاريع مفتوحة المصدر. أنت تتعلم أشياء جديدة ، وتساعد الآخرين ، وتتواصل مع الآخرين ، وتخلق سمعة وغيرها الكثير. المصدر المفتوح ممتع ، وفي النهاية ستحصل على شيء ما. أحد أهم الأسباب هو أنها تبني مجموعة من الأعمال الرائعة التي يمكنك تقديمها للشركات والحصول على وظائف. تعد المشاريع مفتوحة المصدر طريقة رائعة لتعلم أشياء جديدة. قد تعزز معرفتك بتطوير البرامج أو تتعلم مهارة جديدة. لا توجد طريقة أفضل للتعلم من التدريس.

هل يمكنني المساهمة في المصادر المفتوحة كمبتدئ؟

نعم. لا تميز المشاريع مفتوحة المصدر. تتكون المجتمعات مفتوحة المصدر من أشخاص يحبون كتابة التعليمات البرمجية. هناك دائما مكان للمبتدئ. سوف تتعلم الكثير وستتاح لك الفرصة أيضًا للمشاركة في مجموعة متنوعة من المشاريع مفتوحة المصدر. سوف تتعلم ما الذي يصلح وما لا يصلح وستتاح لك أيضًا فرصة لجعل الكود الخاص بك مستخدمًا من قبل مجتمع كبير من المطورين. هناك قائمة بالمشاريع مفتوحة المصدر التي تبحث دائمًا عن مساهمين جدد.

كيف تعمل مشاريع جيثب؟

يوفر GitHub للمطورين طريقة لإدارة المشاريع والتعاون مع بعضهم البعض. كما أنه بمثابة نوع من السيرة الذاتية للمطورين ، مع إدراج المساهمين في المشروع والوثائق والإصدارات. تُظهر المساهمات في المشروع لأصحاب العمل المحتملين أن لديك المهارات والحافز للعمل في فريق. غالبًا ما تكون المشاريع أكثر من مجرد رمز ، لذلك لدى GitHub طريقة يمكنك من خلالها هيكلة مشروعك تمامًا كما تفعل مع إنشاء موقع ويب. يمكنك إدارة موقع الويب الخاص بك من خلال فرع. الفرع يشبه تجربة أو نسخة من موقع الويب الخاص بك. عندما تريد تجربة ميزة جديدة أو إصلاح شيء ما ، فإنك تصنع فرعًا وتجربه هناك. إذا نجحت التجربة ، يمكنك دمج الفرع مرة أخرى في موقع الويب الأصلي.