إحصائيات لتعلم الآلة: كل ما تحتاج إلى معرفته
نشرت: 2021-03-12تشكل الإحصائيات والاحتمالات جوهر التعلم الآلي وعلوم البيانات. إن التحليل الإحصائي المقترن بقوة الحوسبة والتحسين هو ما يجعل التعلم الآلي قادرًا على تحقيق ما يحققه اليوم. من أساسيات الاحتمالية إلى الإحصائيات الوصفية والاستنتاجية ، تشكل هذه الموضوعات أساس التعلم الآلي.
بنهاية هذا البرنامج التعليمي ، ستعرف ما يلي:
- أساسيات الاحتمالية
- التوزيعات الاحتمالية
- التوزيع الطبيعي
- مقاييس النزعة المركزية
- نظرية الحد المركزي
- الانحراف المعياري والخطأ المعياري
- الانحراف التفرطح
جدول المحتويات
أساسيات الاحتمالية
الأحداث المستقلة والمعتمدة
لنفكر في حدثين ، الحدث A والحدث B. عندما لا يعتمد احتمال وقوع الحدث A على وقوع الحدث B ، فإن A و B هما حدثان مستقلان. على سبيل المثال ، إذا كان لديك عملتان عاديتان ، فإن احتمال الحصول على وجه على كلتا القطعتين سيكون 0.5 لكليهما. ومن ثم فإن الأحداث مستقلة.
فكر الآن في صندوق يحتوي على 5 كرات - 2 أسود و 3 أحمر. سيكون احتمال سحب كرة سوداء أولاً 2/5. الآن سيكون احتمال سحب كرة سوداء مرة أخرى من الكرات الأربع المتبقية 1/4. في هذه الحالة ، يعتمد الحدثان لأن احتمال سحب كرة سوداء للمرة الثانية يعتمد على الكرة التي تم سحبها في المرة الأولى.
الاحتمال الهامشي
إنه احتمال وقوع حدث بغض النظر عن نتائج المتغيرات العشوائية الأخرى ، مثل P (A) أو P (B).
الاحتمال المشترك
إنه احتمال وقوع حدثين مختلفين في نفس الوقت ، أي حدثين (أو أكثر) متزامنين ، على سبيل المثال P (A و B) أو P (A ، B).
احتمال مشروط
إنه احتمال وقوع حدث (أو أكثر) ، بالنظر إلى وقوع حدث آخر أو بعبارة أخرى ، هو احتمال وقوع حدث A عندما يكون حدث ثانوي B صحيحًا. على سبيل المثال P (A معطى B) أو P (A | B).
انضم إلى دورة ML عبر الإنترنت من أفضل الجامعات في العالم - الماجستير ، وبرامج الدراسات العليا التنفيذية ، وبرنامج الشهادة المتقدم في ML & AI لتسريع حياتك المهنية.
التوزيعات الاحتمالية
توزيعات الاحتمالية تصور توزيع نقاط البيانات في مساحة العينة. يساعدنا في معرفة احتمالية أخذ عينات معينة من نقاط البيانات عند أخذ عينات عشوائية من السكان. على سبيل المثال ، إذا كان عدد السكان يتكون من علامات طلاب مدرسة ، فسيكون لتوزيع الاحتمالات علامات على المحور "س" وعدد الطلاب الذين يحملون هذه العلامات على المحور "ص". يسمى هذا أيضًا الرسم البياني . المدرج التكراري هو نوع من التوزيع الاحتمالي المنفصل . الأنواع الرئيسية للتوزيع المنفصل هي التوزيع ذو الحدين وتوزيع بواسون والتوزيع الموحد.
من ناحية أخرى ، يتم إجراء توزيع احتمالي مستمر للبيانات ذات القيمة المستمرة. بمعنى آخر ، عندما يمكن أن تحتوي على مجموعة لا حصر لها من القيم مثل الارتفاع والسرعة ودرجة الحرارة وما إلى ذلك. تستخدم التوزيعات الاحتمالية المستمرة بشكل هائل في علوم البيانات والتحليل الإحصائي للتحقق من أهمية الميزة وتوزيع البيانات والاختبارات الإحصائية وما إلى ذلك.
اقرأ أيضًا الرياضيات وراء التعلم الآلي
التوزيع الطبيعي
التوزيع المستمر الأكثر شهرة هو التوزيع الطبيعي ، والذي يُعرف أيضًا بالتوزيع الغاوسي أو "منحنى الجرس".
ضع في اعتبارك التوزيع الطبيعي لمرتفعات الأشخاص. تتجمع معظم الارتفاعات في الجزء الأوسط وهو أطول ويتقلص تدريجيًا نحو أقصى اليمين واليسار مما يشير إلى احتمال أقل للحصول على هذه القيمة بشكل عشوائي.
يتمركز هذا المنحنى عند وسطه ويمكن أن يكون طويلًا ونحيفًا أو يمكن أن يكون قصيرًا ومنتشرًا. يشير الرقم النحيف إلى أن هناك عددًا أقل من القيم المميزة التي يمكننا أخذ عينات منها. ويظهر منحنى أكثر انتشارًا أن هناك نطاقًا أكبر من القيم. يتم تحديد هذا السبريد من خلال الانحراف المعياري .
كلما زاد الانحراف المعياري ، ستكون بياناتك أكثر انتشارًا. الانحراف المعياري هو مجرد اشتقاق رياضي لخاصية أخرى تسمى التباين ، والتي تحدد مدى "تباين" البيانات. والتباين هو ما تدور حوله البيانات ، والتباين هو معلومات. لا فرق ، لا توجد معلومات. التوزيع الطبيعي له دور حاسم في الإحصائيات - نظرية الحدود المركزية.
مقاييس النزعة المركزية
مقاييس الاتجاه المركزي هي الطرق التي يمكننا من خلالها تلخيص مجموعة البيانات من خلال أخذ قيمة واحدة. هناك 3 مقاييس للميل بشكل رئيسي:
1. المتوسط: المتوسط هو مجرد الوسط الحسابي أو متوسط القيم في البيانات / الميزة. مجموع كل القيم مقسومًا على عدد القيم يعطينا المتوسط. الوسيلة هي الطريقة الأكثر شيوعًا لقياس مركز أي بيانات ، ولكنها قد تكون مضللة في بعض الحالات. على سبيل المثال ، عندما يكون هناك الكثير من القيم المتطرفة ، سيبدأ المتوسط في التحول نحو القيم المتطرفة ويكون مقياسًا سيئًا لمركز بياناتك.
2. الوسيط : الوسيط هو نقطة البيانات التي تقع بالضبط في المركز عندما يتم فرز البيانات بترتيب تصاعدي أو تنازلي. عندما يكون عدد نقاط البيانات فرديًا ، يتم اختيار الوسيط بسهولة باعتباره النقطة المركزية في معظمها. عندما يكون عدد نقاط البيانات متساويًا ، يتم حساب الوسيط على أنه متوسط مركزين لمعظم نقاط البيانات.
3. الوضع: الوضع هو نقطة البيانات الأكثر تواجدًا في مجموعة البيانات. يظل الوضع أقوى بالنسبة إلى القيم المتطرفة لأنه سيظل ثابتًا في النقطة الأكثر تكرارًا.
نظرية الحد المركزي
تنص نظرية الحد المركزي في الإحصاء على أنه ، بالنظر إلى حجم عينة كبير بما فيه الكفاية ، فإن توزيع العينات سيقارب التوزيع الطبيعي بغض النظر عن توزيع ذلك المتغير. اسمحوا لي أن أقدم جوهر البيان أعلاه بكلمات واضحة.
قد تكون البيانات من أي توزيع. يمكن أن يكون مثاليًا أو منحرفًا بشكل طبيعي ، أو قد يكون أسيًا أو (تقريبًا) أي توزيع قد تفكر فيه. ومع ذلك ، إذا أخذت عينات من السكان بشكل متكرر وواصلت رسم الرسم البياني لوسائلهم ، فستجد في النهاية أن هذا التوزيع الجديد لجميع الوسائل يشبه التوزيع الطبيعي!
في الأساس ، لا يهم توزيع بياناتك ، فسيظل توزيع وسائلها أمرًا طبيعيًا دائمًا.
ولكن كم عدد العينات اللازمة لجعل CLT صحيحًا؟ تنص قاعدة الإبهام على أنه يجب أن يكون> 30. لذلك إذا أخذت 30 عينة أو أكثر من أي توزيع ، فسيتم توزيع الوسائل بشكل طبيعي بغض النظر عن نوع التوزيع الأساسي.
الانحراف المعياري والخطأ المعياري
غالبًا ما يتم الخلط بين الانحراف المعياري والخطأ المعياري. الانحراف المعياري ، كما تعلم ، يصف أو يحدد التباين في البيانات على جانبي التوزيع - أقل من المتوسط وأكبر من المتوسط. إذا كانت نقاط البيانات الخاصة بك منتشرة عبر نطاق كبير من القيم ، فسيكون الانحراف المعياري مرتفعًا.
الآن ، كما ناقشنا أعلاه ، من خلال نظرية الحدود المركزية ، إذا رسمنا وسائل جميع العينات من السكان ، فسيكون توزيع هذه الوسائل مرة أخرى توزيعًا طبيعيًا. لذلك سيكون لها انحرافها المعياري ، أليس كذلك؟
يسمى الانحراف المعياري لوسائل جميع العينات المأخوذة من المجتمع بالخطأ المعياري. عادةً ما تكون قيمة الخطأ المعياري أقل من الانحراف المعياري لأنك تحسب الانحراف المعياري للوسائل ، وستكون قيمة الوسائل أقل انتشارًا من نقاط البيانات الفردية بسبب التجميع.
يمكنك حتى حساب الانحراف المعياري للوسيط أو الوضع أو حتى الانحراف المعياري للانحرافات المعيارية!
قبل ان تذهب
تشكل المفاهيم الإحصائية النواة الحقيقية لعلوم البيانات وتعلم الآلة. لتكون قادرًا على إجراء استنتاجات صحيحة وفهم البيانات الموجودة بشكل فعال ، يجب أن يكون لديك فهم قوي للمفاهيم الإحصائية والاحتمالية التي تمت مناقشتها في هذا البرنامج التعليمي.
توفر upGrad برنامج PG تنفيذي في التعلم الآلي والذكاء الاصطناعي وماجستير العلوم في التعلم الآلي والذكاء الاصطناعي الذي قد يوجهك نحو بناء مستقبل مهني. ستوضح هذه الدورات التدريبية الحاجة إلى التعلم الآلي والخطوات الإضافية لجمع المعرفة في هذا المجال والتي تغطي مفاهيم متنوعة تتراوح من الانحدار التدريجي إلى التعلم الآلي.
هل المعرفة الإحصائية إلزامية لتحقيق أداء جيد في التعلم الآلي؟
الإحصاء مجال واسع جدا. في التعلم الآلي ، تساعد الإحصائيات بشكل أساسي في فهم البيانات بعمق. هناك حاجة إلى بعض المفاهيم الإحصائية مثل الاحتمال وتفسير البيانات وما إلى ذلك في العديد من خوارزميات التعلم الآلي. ومع ذلك ، ليس عليك أن تكون خبيرًا في جميع موضوعات الإحصاء لتؤدي بشكل جيد في التعلم الآلي. من خلال معرفة المفاهيم الأساسية فقط ، ستتمكن من الأداء بكفاءة.
هل ستكون معرفة بعض الترميز مسبقًا مفيدة في التعلم الآلي؟
الترميز هو قلب التعلم الآلي ، والمبرمجون الذين يفهمون كيفية البرمجة بشكل جيد سيكون لديهم فهم عميق لكيفية عمل الخوارزميات ، وبالتالي ، سيكونون قادرين على مراقبة تلك الخوارزميات وتحسينها بشكل أكثر فعالية. لست بحاجة إلى أن تكون خبيرًا في أي لغة برمجة ، على الرغم من أن أي معرفة مسبقة ستكون مفيدة. إذا كنت مبتدئًا ، فإن Python يعد اختيارًا جيدًا لأنه سهل التعلم وله بناء جملة سهل الاستخدام.
كيف نستخدم حساب التفاضل والتكامل في الحياة اليومية؟
تعتمد توقعات الطقس على عدد من المتغيرات ، مثل سرعة الرياح ومحتوى الرطوبة ودرجة الحرارة ، والتي لا يمكن حسابها إلا باستخدام حساب التفاضل والتكامل. يمكن أيضًا رؤية استخدام حساب التفاضل والتكامل في هندسة الطيران بعدة طرق. يتم استخدام حساب التفاضل والتكامل أيضًا في صناعات المركبات لتحسين وضمان السلامة الجيدة للمركبات. يتم استخدامه أيضًا من قبل شركات بطاقات الائتمان لأغراض الدفع.