التوزيع ذو الحدين في بايثون مع أمثلة من العالم الحقيقي [2022]

نشرت: 2021-01-09

كانت قيمة الاحتمالات والإحصاءات في مجال علم البيانات هائلة ، حيث يعتمد الذكاء الاصطناعي والتعلم الآلي عليها بشكل كبير. نحن نستخدم نماذج عملية للتوزيع الطبيعي في كل مرة نجري فيها اختبار A / B ونمذجة الاستثمار.

ومع ذلك ، يتم تطبيق التوزيع ذي الحدين في بايثون بطرق متعددة لتنفيذ العديد من العمليات. ولكن ، قبل البدء في التوزيع ذي الحدين في Python ، يجب أن تعرف التوزيع ذي الحدين بشكل عام واستخدامه في الحياة اليومية. إذا كنت مبتدئًا ومهتمًا بمعرفة المزيد عن علم البيانات ، فراجع تدريبنا على علوم البيانات من أفضل الجامعات.

جدول المحتويات

ما هو التوزيع ذو الحدين ؟

هل سبق لك أن قلبت عملة معدنية؟ إذا كان لديك ، فيجب أن تعرف أن احتمالية الحصول على رؤوس أو ذيول متساوية. ولكن ، ماذا عن احتمال الحصول على سبعة ذيول في إجمالي عشر تقلبات لعملة واحدة؟ هذا هو المكان الذي يمكن أن يساعد فيه التوزيع ذي الحدين في حساب نتائج كل قلب ، وبالتالي معرفة احتمال الحصول على سبعة ذيول لعشر تقليب لعملة واحدة.

يأتي جوهر توزيع الاحتمالات من تباين أي حدث. لكل عشر مجموعات من العملات المعدنية ، يمكن أن يكون احتمال الحصول على صورة وذيول في أي مكان بين مرة إلى عشر مرات ، بالتساوي وعلى الأرجح. يساعد عدم اليقين في النتيجة (المعروف أيضًا باسم التباين) في توليد توزيع النتائج الناتجة.

بمعنى آخر ، التوزيع ذي الحدين هو عملية لا يوجد فيها سوى نتيجتين محتملتين: صحيح أو خطأ. لذلك ، لها احتمالية متساوية لكل من النتائج عبر جميع الأحداث ، حيث يتم تنفيذ نفس الإجراءات في كل مرة. هناك شرط واحد فقط ... يجب ألا تتأثر الخطوات ببعضها البعض تمامًا ، وقد تكون النتائج محتملة أو لا تكون متساوية.

لذلك ، فإن دالة الاحتمال للتوزيع ذي الحدين هي:

و و ( ك ك ، ن ن ، ع p) = P r Pr ( ك ك ؛ n n ، p p) = P r Pr ( X X = k k) =

مصدر

أين،

= ن ن! ك ك ! ( ن ن! - ك ك!)

هنا ، n = إجمالي عدد المحاولات

ع = احتمالية النجاح

ك = العدد المستهدف للنجاحات

التوزيع ذو الحدين في بايثون

بالنسبة للتوزيع ذي الحدين عبر Python ، يمكنك إنتاج متغير عشوائي مميز من دالة binom.rvs () ، حيث يتم تعريف "n" على أنه إجمالي تكرار التجارب ، و "p" يساوي احتمال النجاح.

يمكنك أيضًا تحريك التوزيع باستخدام وظيفة loc ، ويحدد الحجم تكرار الإجراء الذي يتكرر في السلسلة. يمكن أن تساعد إضافة Random_state في الحفاظ على قابلية التكاثر.

مصدر

أمثلة من العالم الحقيقي للتوزيع ذي الحدين في بايثون

هناك العديد من الأحداث (أكبر من رمي العملات المعدنية) التي يمكن معالجتها من خلال التوزيع ذي الحدين في بايثون. يمكن أن تساعد بعض حالات الاستخدام في تتبع وتحسين العائد على الاستثمار (ROI) للشركات الكبيرة والصغيرة. إليك الطريقة:

  • فكر في مركز اتصال حيث يتم تعيين 50 مكالمة لكل موظف يوميًا في المتوسط.
  • احتمالية التحويل لكل مكالمة تساوي 4٪.
  • يبلغ متوسط ​​الإيرادات المولدة للشركة بناءً على كل تحويل 20 دولارًا أمريكيًا.
  • إذا قمت بتحليل 100 من هؤلاء الموظفين ، الذين يتقاضون 200 دولار أمريكي كل يوم ، إذن

ن = 50

ع = 4٪

يمكن للكود إنشاء مخرجات على النحو التالي:

  • متوسط ​​معدل التحويل لكل موظف = 2.13
  • الانحراف المعياري للتحويلات لكل موظف بمركز الاتصال = 1.48
  • التحويل الإجمالي = 213
  • إجمالي توليد الإيرادات = 21300 دولار أمريكي
  • المصاريف الإجمالية = 20000 دولار أمريكي
  • إجمالي الأرباح = 1،300 دولار أمريكي

يمكن لنماذج التوزيع ذات الحدين والتوزيعات الاحتمالية الأخرى أن تتنبأ فقط بالتقريب الذي يمكن أن يقترب من العالم الحقيقي من حيث معلمات الإجراء ، "n" و "p". إنها تساعدنا على فهم مجالات تركيزنا وتحديدها وتحسين الفرص الإجمالية لأداء وفعالية أفضل.

اقرأ أيضًا: 13 فكرة مثيرة للاهتمام لمشروع هيكل البيانات وموضوعات للمبتدئين

ماذا بعد؟

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع برنامج IIIT-B & upGrad التنفيذي PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1 - في 1 مع موجهين في الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

ما هو الفرق بين التوزيع الاحتمالي المنفصل والتوزيع الاحتمالي المستمر؟

يحسب التوزيع الاحتمالي المنفصل أو التوزيع المنفصل ببساطة احتمالات متغير عشوائي يمكن أن يكون منفصلاً. على سبيل المثال ، إذا ألقينا عملة معدنية مرتين ، فإن القيم المحتملة للمتغير العشوائي X الذي يشير إلى العدد الإجمالي للرؤوس ستكون {0 ، 1 ، 2} وليس أي قيمة عشوائية. برنولي ، ذو الحدين ، القياس الفائق هي بعض الأمثلة على التوزيع الاحتمالي المنفصل. من ناحية أخرى ، يوفر التوزيع الاحتمالي المستمر احتمالات قيمة عشوائية يمكن أن تكون أي رقم عشوائي. على سبيل المثال ، يمكن أن تكون قيمة المتغير العشوائي X الذي يشير إلى ارتفاع المواطنين في المدينة أي رقم مثل 161.2 ، 150.9 ، إلخ. يعتبر Normal و Student T و Chi-square بعضًا من أمثلة التوزيع المستمر.

ما هي أهمية الاحتمالية في علم البيانات؟

نظرًا لأن علم البيانات يدور حول دراسة البيانات ، يلعب الاحتمال دورًا رئيسيًا هنا. تصف الأسباب التالية كيف أن الاحتمال جزء لا غنى عنه في علم البيانات: فهو يساعد المحللين والباحثين على عمل تنبؤات من مجموعات البيانات. هذه الأنواع من النتائج المقدرة هي الأساس لمزيد من تحليل البيانات. يتم استخدام الاحتمالية أيضًا أثناء تطوير الخوارزميات المستخدمة في نماذج التعلم الآلي. يساعد في تحليل مجموعات البيانات المستخدمة لتدريب النماذج. يسمح لك بتحديد البيانات واستخلاص النتائج مثل المشتقات والمتوسط ​​والتوزيع. جميع النتائج التي تحققت باستخدام الاحتمال تلخص البيانات في النهاية. يساعد هذا الملخص أيضًا في تحديد القيم المتطرفة الموجودة في مجموعات البيانات.

اشرح التوزيع الهندسي الفائق. في أي حالة يميل إلى أن يكون التوزيع ذو الحدين؟

نجاحات على عدد المحاولات دون أي بديل. لنفترض أن لدينا حقيبة مليئة بالكرات الحمراء والخضراء وعلينا إيجاد احتمالية التقاط كرة خضراء في 5 محاولات ولكن في كل مرة نلتقط كرة ، لا نعيدها إلى الحقيبة. هذا مثال مناسب للتوزيع الهندسي الفائق.
بالنسبة إلى N الأكبر ، من الصعب جدًا حساب التوزيع الهندسي الفائق ولكن عندما يكون N صغيرًا ، فإنه يميل إلى التوزيع ذي الحدين في هذه الحالة.