دالة الكتلة الاحتمالية: التوزيع المنفصل والخصائص

نشرت: 2021-02-08

جدول المحتويات

مقدمة

كان الاحتمال جانبًا مهمًا عندما يتعلق الأمر بمجال علوم البيانات. لقد لعبت دورًا محوريًا في حياة محللي البيانات وعلماء البيانات. المفاهيم المستخدمة في نظرية الاحتمالات يجب أن يعرفها الأشخاص في مجال علوم البيانات. تعتمد الأساليب الإحصائية المستخدمة لإجراء تنبؤات معينة على نظريات الاحتمال والإحصاء ، مما يجعل الاحتمال جزءًا مهمًا من مجال علم البيانات.

يعطي الاحتمال معلومات حول حدوث حدث معين في ظل بعض الافتراضات ، أي أنه يشير إلى احتمال وقوع حدث ما. لتمثيل القيم المختلفة التي يمكن أن يأخذها المتغير العشوائي ، نستخدم التوزيع الاحتمالي.

يمكن الإشارة إلى المتغير العشوائي على أنه النتائج المختلفة الممكنة في حالة معينة. للتوضيح ، إذا تم دحرجة قالب نرد ، فإن النتائج المحتملة لهذا الموقف هي قيم تتراوح من 1 إلى 6 والتي تصبح قيم المتغير العشوائي.

يمكن أن يكون التوزيع الاحتمالي من نوعين: - منفصل ومستمر. التوزيعات المنفصلة هي للمتغيرات التي تأخذ فقط عددًا محدودًا من القيم ضمن النطاق. التوزيعات المستمرة هي للمتغيرات التي يمكن أن تأخذ عددًا لا حصر له من القيم داخل نطاق. في هذه المقالة ، سنستكشف المزيد في التوزيع المنفصل ولاحقًا في دالة الكتلة الاحتمالية.

التوزيع المنفصل

يمثل التوزيع المنفصل احتمالات النتائج المختلفة لمتغير عشوائي منفصل. بعبارات بسيطة ، يسمح لنا بفهم نمط النتائج المختلفة في المتغير العشوائي. إنه ليس سوى تمثيل لجميع احتمالات المتغير العشوائي مجتمعة.

لإنشاء توزيع احتمالي لمتغير عشوائي ، نحتاج إلى الحصول على نتائج المتغير العشوائي جنبًا إلى جنب مع الاحتمالات المرتبطة به ومن ثم يمكننا حساب دالة التوزيع الاحتمالي الخاصة به.

يتم سرد بعض أنواع التوزيعات المنفصلة على النحو التالي: -

  1. التوزيع ذو الحدين: - يمكن أن يكون عدد النتائج في تجربة واحدة اثنين فقط (نعم أو لا ، نجاح أو فشل ، إلخ). مثال: - إلقاء قطعة نقود
  2. توزيع برنولي: - نسخة خاصة من التوزيع ذي الحدين حيث عدد التجارب التي أجريت في التجربة يساوي دائمًا 1.
  3. توزيع بواسون: - يوفر احتمالية وقوع حدث لعدد معين من المرات في فترة زمنية محددة. مثال: - عدد المرات التي سيتم فيها بث فيلم في ليلة السبت.
  4. التوزيع المنتظم: - يفترض هذا التوزيع أن الاحتمال لجميع النتائج في متغير عشوائي هو نفسه. مثال: دحرجة نرد (حيث أن احتمالية ظهور جميع الجوانب متساوية).

يمكنك الرجوع إلى هذا الارتباط لمزيد من التفاصيل حول أنواع التوزيعات المستمرة والمنفصلة. لحساب احتمال متغير عشوائي مع تساوي قيمته مع بعض القيم ضمن النطاق ، يتم استخدام دالة الكتلة الاحتمالية (PMF). لكل توزيع ، تختلف معادلة دالة الكتلة الاحتمالية وفقًا لذلك.

من أجل توضيح أفضل لوظيفة الكتلة الاحتمالية ، دعونا نلقي نظرة على مثال. لنفترض أنه يتعين علينا معرفة أي من مواقع الضرب في لعبة الكريكيت لديها احتمالية أكبر للتسجيل لمدة قرن داخل الفريق ، بشرط أن يكون لدينا بعض البيانات ذات الصلة. الآن بما أنه لا يمكن أن يكون هناك سوى 11 موقعًا للعب في الفريق ، فإن المتغير العشوائي سيأخذ قيمًا تتراوح من 1 إلى 11.

ستسمح لنا دالة الكتلة الاحتمالية ، التي تسمى أيضًا دالة الكثافة المنفصلة ، بمعرفة احتمال تسجيل قرن لكل موضع ، أي P (X = 1) ، P (X = 2) ... P (X = 11). بعد حساب جميع الاحتمالات ، يمكننا حساب التوزيع الاحتمالي لهذا المتغير العشوائي.

الصيغة العامة لوظيفة الكتلة الاحتمالية هي كما يلي: -

الفوسفور X ك ) = الفوسفور (س = س ك ) ل ل = 1،2 ، ... ك

أين،

X = متغير عشوائي منفصل.

x k = القيمة المحتملة للمتغير العشوائي.

P = احتمال المتغير العشوائي عندما يساوي x k .

يدخل الكثير في الخلط بين دالة الكتلة الاحتمالية (PMF) ودالة الكثافة الاحتمالية (PDF). لتوضيح ذلك ، فإن دالة الكتلة الاحتمالية هي للمتغيرات العشوائية المنفصلة ، أي المتغيرات التي يمكن أن تأخذ عددًا محدودًا من القيم داخل النطاق.

يتم استخدام دالة كثافة الاحتمال للمتغيرات العشوائية المستمرة. أي المتغيرات التي يمكن أن تأخذ عددًا لا حصر له من القيم في النطاق. تساعد دالة كتلة الاحتمال في حساب الإحصائيات العامة مثل المتوسط ​​والتباين في التوزيع المنفصل.

احصل على شهادة علوم البيانات من أفضل الجامعات في العالم. انضم إلى برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

خصائص دالة الكتلة الاحتمالية

  1. يجب أن يكون مجموع احتمالات جميع القيم الممكنة للمتغير العشوائي يصل إلى 1. [P X (x k ) = 1]
  2. يجب أن تكون جميع الاحتمالات إما 0 أو أكبر من 0. [P (x k ) ≥ 0]
  3. يتراوح احتمال وقوع كل حدث من 0 إلى 1. [1 ≥ P (x k ) ≥ 0]

خاتمة

كانت مفاهيم الاحتمال مثل دالة الكتلة الاحتمالية مفيدة جدًا في مجال علم البيانات. لا يجوز استخدام هذه المفاهيم في كل جانب من جوانب مشروع علم البيانات أو لهذه المسألة في المشروع بأكمله أيضًا. لكن هذا لا يقلل من أهمية نظرية الاحتمالات في هذا المجال.

قدمت تطبيقات نظرية الاحتمالية نتائج رائعة ليس فقط في مجال علم البيانات ولكن في مجالات أخرى من الصناعة أيضًا لأنها يمكن أن تساعد في رؤى مثيرة للاهتمام وصنع القرار الذي يجعل الأمر يستحق المحاولة دائمًا.

قدمت هذه المقالة نظرة عامة على أهمية الاحتمال في مجال علم البيانات ، وقدمت المفاهيم الأساسية للاحتمال مثل توزيع الاحتمالات ودالة كتلة الاحتمال. ركزت المقالة بشكل أساسي على المصطلحات المتغيرة المنفصلة حيث يتم استخدام دالة الكتلة الاحتمالية لها. تختلف المصطلحات المستخدمة للمتغيرات المستمرة ، لكن الأيديولوجية العامة لهذه المفاهيم تظل مماثلة لتلك الموضحة في هذه المقالة.

كيف يختلف التوزيع الاحتمالي المنفصل عن التوزيع الاحتمالي المستمر؟

يحسب التوزيع الاحتمالي المنفصل أو التوزيع المنفصل ببساطة احتمالات متغير عشوائي يمكن أن يكون منفصلاً. على سبيل المثال ، إذا ألقينا عملة معدنية مرتين ، فإن القيم المحتملة للمتغير العشوائي X الذي يشير إلى العدد الإجمالي للرؤوس ستكون {0 ، 1 ، 2} وليس أي قيمة عشوائية.
برنولي ، ذو الحدين ، القياس الفائق هي بعض الأمثلة على التوزيع الاحتمالي المنفصل.
من ناحية أخرى ، يوفر التوزيع الاحتمالي المستمر احتمالات قيمة عشوائية يمكن أن تكون أي رقم عشوائي. على سبيل المثال ، يمكن أن تكون قيمة المتغير العشوائي X الذي يشير إلى ارتفاع مواطني المدينة أي رقم مثل 161.2 ، 150.9 ، إلخ.
يعد Normal و Student's T و Chi-square بعضًا من أمثلة التوزيع المستمر.

اشرح التوزيع الهندسي الفائق؟

التوزيع الهندسي الفائق هو توزيع منفصل حيث نأخذ في الاعتبار عدد النجاحات على عدد المحاولات دون أي استبدال. هذا النوع من التوزيع مفيد في الحالات التي نحتاج فيها إلى إيجاد احتمال وجود شيء ما دون استبداله.
لنفترض أن لدينا حقيبة مليئة بالكرات الحمراء والخضراء وعلينا إيجاد احتمالية التقاط كرة خضراء في 5 محاولات ولكن في كل مرة نلتقط كرة ، لا نعيدها إلى الحقيبة. هذا مثال مناسب للتوزيع الهندسي الفائق.

ما هي أهمية الاحتمال في علم البيانات؟

نظرًا لأن علم البيانات يدور حول دراسة البيانات ، يلعب الاحتمال دورًا رئيسيًا هنا. تصف الأسباب التالية كيف أن الاحتمال جزء لا غنى عنه في علم البيانات:
1. يساعد المحللين والباحثين على عمل تنبؤات من مجموعات البيانات. هذه الأنواع من النتائج المقدرة هي الأساس لمزيد من تحليل البيانات.
2. يستخدم الاحتمال أيضًا أثناء تطوير الخوارزميات المستخدمة في نماذج التعلم الآلي. يساعد في تحليل مجموعات البيانات المستخدمة لتدريب النماذج.
3. يسمح لك بتحديد البيانات واستخلاص النتائج مثل المشتقات والمتوسط ​​والتوزيع.
4. جميع النتائج التي تحققت باستخدام الاحتمال تلخص البيانات في النهاية. يساعد هذا الملخص أيضًا في تحديد القيم المتطرفة الموجودة في مجموعات البيانات.