الشروع في الانحدار السلبي ذي الحدين: دليل خطوة بخطوة
نشرت: 2022-04-17يتم استخدام تقنية الانحدار السلبي ذي الحدين لتنفيذ نمذجة متغيرات العد. تشبه الطريقة تقريبًا طريقة الانحدار المتعدد. ومع ذلك ، هناك فرق في حالة الانحدار السلبي ذي الحدين ، فإن المتغير التابع ، أي Y ، يتبع التوزيع السالب ذي الحدين. لذلك ، يمكن أن تكون قيم المتغير أعدادًا صحيحة غير سالبة مثل 0 ، 1 ، 2.
الطريقة هي أيضًا امتداد لانحدار بواسون الذي يجعل الاسترخاء في افتراض أن المتوسط يساوي التباين. يعتمد أحد النماذج التقليدية للانحدار ذي الحدين ، والمعروف باسم "NB2" ، على التوزيع المختلط لـ Poisson-gamma.
يتم تعميم طريقة انحدار بواسون من خلال إضافة متغير من ضوضاء جاما. هذا المتغير له قيمة متوسط واحد وأيضًا معلمة مقياس وهي "v."
فيما يلي بعض الأمثلة على الانحدار السلبي ذي الحدين:
- أجرى مديرو المدرسة دراسة لدراسة سلوك الحضور لطلاب المدارس الثانوية من مدرستين. قد تشمل العوامل التي قد تؤثر على سلوك الحضور الأيام التي تغيب فيها الصغار عن المدرسة. أيضا البرنامج الذي التحقوا به.
- أجرى باحث من دراسة متعلقة بالصحة دراسة حول عدد كبار السن الذين زاروا المستشفى في الأشهر الـ 12 الماضية. واعتمدت الدراسة على خصائص الفرد والخطط الصحية التي يشتريها كبار السن.
مثال على الانحدار السلبي ذي الحدين
افترض أن هناك ورقة حضور لحوالي 314 طالبًا من المدرسة الثانوية. يتم أخذ البيانات من مدرستين حضريتين ويتم تخزينها في ملف يسمى nb_data.dta. متغير الاستجابة المثير للاهتمام في هذا المثال هو الأيام الغائبة والتي تسمى "dayabs". يوجد متغير واحد ، "رياضيات" ، والذي يحدد درجة الرياضيات لكل طالب. هناك متغير آخر وهو "prog". يشير هذا المتغير إلى البرنامج الذي التحق به الطلاب.
مصدر
يحتوي كل متغير على حوالي 314 ملاحظة. لذلك ، التوزيعات بين المتغيرات معقولة أيضًا. أيضًا ، بالنظر إلى متغير النتيجة ، يكون المتوسط غير المشروط أقل من التباين.
الآن ، ركز على وصف المتغير المدروس في مجموعة البيانات. جدول يسجل متوسط الأيام التي تغيب فيها الطالب عن المدرسة في كل نوع من البرامج. يشير هذا إلى أن برنامج النوع المتغير يمكنه التنبؤ بالأيام التي تغيب فيها الطالب عن المدرسة. يمكنك أيضًا استخدامه للتنبؤ بمتغير النتيجة. هذا لأن القيمة المتوسطة لمتغير النتيجة تختلف حسب المتغير prog. أيضًا ، تكون قيم التباينات أعلى مما هي عليه في كل مستوى من مستويات المتغير. تسمى هذه القيم الفروق والوسائل. تشير الاختلافات الحالية إلى وجود تشتت مفرط ، وبالتالي سيكون من المناسب استخدام نموذج ذي حدين سالب.
مصدر
يمكن للباحث التفكير في العديد من طرق التحليل لهذا النوع من الدراسة. هذه المواضيع موصوفة في الاسفل. بعض طرق التحليل التي يمكن للمستخدم استخدامها لتحليل نموذج الانحدار هي:
1. الانحدار السلبي ذي الحدين
يتم استخدام طريقة الانحدار السلبي ذي الحدين عند وجود بيانات مفرطة التشتت. هذا يعني أن قيمة التباين الشرطي أعلى أو تتجاوز قيمة المتوسط الشرطي. تعتبر الطريقة معممة من طريقة بواسون الانحدار. هذا لأن كلتا الطريقتين لهما نفس بنية المتوسط. ولكن ، هناك معلمة إضافية في الانحدار السلبي ذي الحدين المستخدم لنمذجة التشتت المفرط. تعتبر فترات الثقة أضيق من انحدار العاطفة عندما يكون التوزيع الشرطي مشتتًا بشكل مفرط من متغير النتيجة.
2. انحدار بواسون
يتم استخدام طريقة انحدار بواسون في نمذجة بيانات العد. يمكن استخدام العديد من الامتدادات لنمذجة متغيرات العد في انحدار بواسون.
3. انحدار OLS
يتم تحويل نتائج متغيرات العد في بعض الأحيان ثم يتم تحليلها من خلال طريقة انحدار OLS. ومع ذلك ، توجد أحيانًا مشكلات تتعلق بطريقة انحدار OLS. قد تكون هذه المشكلات هي فقدان البيانات بسبب إنشاء أي قيمة غير محددة من خلال النظر في سجل القيمة صفر. أيضًا ، قد يتم إنشاؤه بسبب عدم وجود نمذجة للبيانات المشتتة.
4. نماذج منفوخة صفرية
تحاول هذه الأنواع من النماذج حساب جميع الأصفار الزائدة في النموذج.
التحليل باستخدام الانحدار السلبي ذي الحدين
يتم استخدام الأمر "nbreg" لتقدير نموذج الانحدار السلبي ذي الحدين. يوجد حرف "i" قبل المتغير "prog". يشير وجود "i" إلى أن المتغير من عامل النوع ، أي المتغير الفئوي. يجب تضمينها كمتغيرات مؤشر في النموذج.
- يبدأ إخراج النموذج بسجل التكرار. يبدأ من خلال تركيب نموذج بواسون ، متبوعًا بنموذج فارغ ، ثم نموذج ذي الحدين السالب. تستخدم الطريقة تقدير الاحتمالية القصوى وتستمر في التكرار حتى يحدث تغيير في قيمة السجل النهائي. يتم استخدام احتمالية السجل للمقارنة بين النماذج.
- المعلومات التالية موجودة في ملف الرأس.
- توجد معلومات عن معاملات الانحدار السلبي ذي الحدين أسفل الرأس مباشرةً. يتم إنشاء المعاملات لكل متغير مع الأخطاء مثل قيم p و z-scores. هناك أيضًا فاصل ثقة بنسبة 95٪ لجميع المعاملات. المعامل لمتغير "الرياضيات" هو -0.006 ، مما يدل على أنه ذو دلالة إحصائية. النتيجة تعني أنه إذا كانت هناك زيادة في وحدة واحدة على المتغير "الرياضيات" ، فإن عدد السجلات المتوقع لعدد الأيام الغائبة ينخفض بقيمة 0.006. كما أن قيمة 2. prog ، متغير المؤشر ، هي الفرق المتوقع في عدد السجل بين المجموعتين (المجموعة 2 والمجموعة المرجعية).
- يتم إجراء تقدير المعلمة للتشتت المفرط المنقولة للسجل ثم عرضها بالقيمة غير المحولة. في نموذج بواسون ، القيمة هي صفر.
- توجد معلومات احتمالية اختبار النسبة أسفل جدول المعاملات. يمكن فهم النموذج بشكل أكبر من خلال استخدام الأوامر "الهوامش".
عملية تحليل الانحدار السلبي ذي الحدين في بايثون
يجب استيراد الحزم المطلوبة لتنفيذ عملية الانحدار من Python. هذه الحزم مذكورة أدناه:
- استيراد statsmodels.api كـ sm
- استيراد matplotlib.pyplot كـ PLT
- استيراد numpy كـ np
- من dmatrices الاستيراد باتسي
- استيراد الباندا كما pd
اعتبارات الانحدار السلبي ذي الحدين
هناك بعض الأشياء التي يجب مراعاتها أثناء تطبيق طريقة تحليل الانحدار السلبي ذي الحدين. وتشمل هذه:
- إذا كان هناك عينات صغيرة ، فلا يوصى باستخدام طريقة الانحدار السلبي ذي الحدين.
- في بعض الأحيان توجد أصفار زائدة قد تكون سببًا في التشتت المفرط. قد يتم إنشاء هذه الأصفار بسبب عملية إضافة إنشاء البيانات. في حالة حدوث مثل هذا النوع من الحالات ، يوصى باستخدام طريقة النموذج الصفري المتضخم.
- إذا كانت عملية إنشاء البيانات لا تأخذ في الاعتبار أي أصفار ، ففي مثل هذه الحالات ، يوصى باستخدام طريقة النموذج الصفري المقطوع.
- يوجد متغير تعرض مرتبط ببيانات العد. يشير المتغير إلى الأوقات التي توجد فيها فرصة لحدوث الحدث. هذا المتغير ضروري ليتم دمجه في نموذج الانحدار السلبي ذي الحدين. يتم ذلك من خلال خيار exp ().
- لا يمكن أن يكون متغير النتيجة أي قيمة سالبة في نموذج تحليل الانحدار السلبي ذي الحدين. أيضًا ، لا يمكن أن يكون لمتغير التعريض القيمة 0.
- يمكن أيضًا استخدام الأمر "glm" لتشغيل طريقة تحليل الانحدار السلبي ذي الحدين. يمكن القيام بذلك من خلال ارتباط السجل وكذلك من خلال عائلة ذات الحدين.
- الأمر "glm" مطلوب للحصول على القيم المتبقية. هذا للتحقق مما إذا كانت هناك أي افتراضات أخرى في نموذج الانحدار السلبي ذي الحدين.
- هناك وجود مقاييس مختلفة لمربع Pseudo-R-squared. ومع ذلك ، يوفر كل مقياس معلومات مشابهة للمعلومات التي يوفرها R-squared في انحدار OLS.
استنتاج
ناقش المقال موضوع الانحدار السلبي ذي الحدين . لقد رأينا أنه يشبه تقريبًا طريقة الانحدارات المتعددة وهو شكل معمم لتوزيع بواسون. هناك عدة تطبيقات لهذه الطريقة. يمكن أيضًا تطبيق هذه التقنية من خلال لغة برمجة Python أو في R.
كما توجد العديد من دراسات الحالة التي تظهر تطبيقه في دراسات مثل الشيخوخة. أيضًا ، النماذج الكلاسيكية للانحدارات التي يمكن استخدامها في بيانات العد هي انحدار بواسون ، والانحدار السالب ذي الحدين ، والانحدار الهندسي. تنتمي هذه الطرق إلى عائلة النماذج الخطية وتم تضمينها في جميع الحزم الإحصائية تقريبًا مثل نظام R.
إذا كنت ترغب في التفوق في التعلم الآلي وترغب في استكشاف مجال البيانات ، فيمكنك التحقق من الدورة التدريبية Executive PG Program in Machine Learning & AI التي تقدمها upGrad. لذلك ، إذا كنت محترفًا عاملاً وتحلم بأن تكون خبيرًا في التعلم الآلي ، تعال واكتسب خبرة الحصول على تدريب تحت إشراف خبراء. يمكن الحصول على مزيد من التفاصيل من خلال موقعنا على شبكة الإنترنت. لأية استفسارات ، يمكن لفريقنا مساعدتك على الفور.