تحليل القوة في الإحصاء: ما هو وكيف يتم تنفيذه؟

نشرت: 2021-01-08

يعد اختبار الفرضيات جانبًا حاسمًا في أي تحليل إحصائي. ومع ذلك ، هناك الكثير من الأشياء التي يجب تحديدها مسبقًا حتى يكون الاختبار الذي نجريه صحيحًا قدر الإمكان. هنا يأتي دور مفهوم القوة ويحدد الاستدلال على الاختبار الإحصائي.

بنهاية هذا البرنامج التعليمي ، ستعرف:

  • الاستدلال من الاختبارات الإحصائية
  • ما هي قوة الاختبار؟
  • ما هي الحاجة لتحليل الطاقة؟
  • كيفية إجراء تحليل القوة

جدول المحتويات

الاستدلال من الاختبارات الإحصائية

إجراء الاختبارات الإحصائية الصحيحة بناءً على العديد من الاستدلالات التي تحتاج إلى الإعداد المسبق قبل إجراء الاختبار. من المهم للغاية تعيين الأساليب التجريبية الصحيحة حيث لا يمكن تغييرها بمجرد بدء الاختبار. دعونا نلقي نظرة على القليل من هؤلاء.

1. مستوى الأهمية وفاصل الثقة

قبل البدء في أي اختبار إحصائي ، يجب تعيين حد الاحتمال. يسمى هذا الحد أو مستوى الأهمية القيمة الحرجة (ألفا). المنطقة الكاملة الواقعة تحت منحنى الاحتمالية التي تتجاوز قيمة ألفا تسمى المنطقة الحرجة.

تخبرنا قيمة ألفا إلى أي مدى يجب أن تكون نقطة بيانات العينة (أو النقطة التجريبية) عن الفرضية الصفرية (نقطة الوسط الأصلية) قبل أن نستنتج أنه من غير المعتاد بما يكفي لرفض الفرضية الصفرية. القيمة الشائعة لـ alpha المستخدمة هي 0.05 أو 95٪ مجال ثقة.

2. P- القيمة

لتقييم ما إذا كانت نتائج الاختبار التي حصلنا عليها ذات دلالة إحصائية أم لا ، نقارن القيمة الحرجة (ألفا) التي حددناها قبل الاختبار بالقيمة P للاختبار. القيمة الاحتمالية هي احتمال الحصول على قيم متطرفة أو أكثر تطرفًا مثل القيمة التي نختبر من أجلها.

3. أخطاء من النوع 1 والنوع 2

لا يمكن أن تكون الاختبارات الإحصائية مؤكدة بنسبة 100٪. هناك دائمًا مجال للخطأ والتضليل بالنتائج. كما نوقش أعلاه ، إذا قمنا بتعيين قيمة ألفا قدرها 0.05 ، فهناك فاصل ثقة بنسبة 95٪. لذلك ، هناك احتمال بنسبة 5٪ أن النتيجة التي حصلت عليها غير صحيحة ومضللة. هذه النتائج غير الصحيحة هي ما نسميه أخطاء. هناك نوعان من الأخطاء - النوع 1 والنوع 2.

قيمة مستوى الأهمية 0.05 تعني أن اختبارك الإحصائي سيكون صحيحًا بنسبة 95٪. مما يعني أيضًا أن هناك فرصة بنسبة 5٪ لكونها غير صحيحة! ستكون هذه حالة رفضك للفرضية الصفرية عندما كانت صحيحة. هذا مثال على خطأ من النوع 1. ويمكننا أيضًا أن نقول أن alpha ( α ) هو احتمال ارتكاب خطأ من النوع 1.

يمكن أن تكون أيضًا حالة عندما تستنتج أن الفرضية الصفرية صحيحة أو تقبلها عندما تكون خاطئة. من الناحية الفنية ، لا يمكننا أبدًا قبول الفرضية الصفرية. لا يسعنا إلا أن نفشل في رفضه. هذا ما نسميه خطأ من النوع 2. وبالمثل ، فإن احتمالية ارتكابك لخطأ من النوع 2 تعطى بواسطة Beta - β .

قراءة: محللو البيانات: أفضل المهارات والأدوات لإتقانها

ما هي قوة الاختبار الإحصائي؟

قوة الاختبار هي احتمال رفض فرضية Null بشكل صحيح عندما تكون خاطئة. أو بعبارة أخرى ، تتناسب القوة عكسياً مع احتمال ارتكاب خطأ من النوع 2. لذلك ، القوة = 1- β. على سبيل المثال ، إذا قمنا بتعيين الطاقة لتكون 80٪ ، فإننا نعني أن 80٪ من اختباراتنا الإحصائية صحيحة وليست وهمية. لذلك ، كلما زادت قيمة الطاقة ، قل احتمال ارتكاب خطأ من النوع 2.

لكن لماذا يمكن أن تكون النتائج زائفة؟ هذا لأننا نتعامل هنا مع عينات عشوائية. وأحيانًا تكون العينة التي يتم أخذها بعيدة جدًا عن متوسط ​​التوزيع وبالتالي تعطي نتائج غير واقعية ، مما يجبرنا على اتخاذ قرارات غير صحيحة. الهدف الكامل من تحليل الطاقة هو منعنا من اتخاذ هذه القرارات غير الصحيحة.

هل نحن القرصنة الإلكترونية؟

لنأخذ مثالاً حيث صنعنا لقاحًا لـ COVID-19 ونحن على يقين تام من أن اللقاح سيكون له نتائج مهمة. ننتقل إلى إجراء اختبار إحصائي لمعرفة ما إذا كان إيماننا صحيحًا من الناحية الإحصائية أيضًا. لذلك اضبط ألفا على 0.05 وقم بإجراء اختبار باستخدام 100 عينة.

بعد الاختبار ، نحصل على قيمة P مثل 0.06. نرى أنها قريبة جدًا من ألفا ولكن ليس أقل منها حتى نتمكن من رفض الفرضية الصفرية بأمان. من المغري معرفة ما سيحدث إذا قمنا بزيادة العينات وإعادة الاختبار.

لذا أضفنا 50 عينة أخرى ونرى أن القيمة الاحتمالية تأتي الآن على شكل 0.045. هل أثبتنا للتو أن لقاحنا ذو دلالة إحصائية؟ رقم! لقد اخترقنا P حيث زدنا عدد العينات بعد حصولنا على النتيجة الأولى. تعرف على المزيد حول ما المقصود بالقرصنة الإلكترونية وكيفية تجنبها؟

ما هو تحليل القوة؟

كما رأينا في المثال أعلاه ، وجدنا أن حجم العينة كان صغيرًا وقمنا بزيادته لاحقًا. هذا خطأ ولا ينبغي القيام به. يجب ضبط قيمة حجم العينة مسبقًا قبل بدء الاختبار نفسه. ولكن ما هي قيمة حجم العينة المناسبة لنا؟

دعنا نفكر في أحد الأمثلة حيث نجري اختبارات متعددة باستخدام حجم العينة على أنه 1. لذلك ، عندما نقوم بأخذ عينة من نقطة بيانات واحدة بشكل عشوائي من السكان ، يمكن أن يكون إما حول المتوسط ​​الذي يمثل بياناتنا بشكل صحيح ، أو يمكن أن يكون أيضًا كثيرًا بعيدًا عن المتوسط ​​ولا يمثل البيانات جيدًا.

تنشأ المشكلة عندما نجري اختبارات إحصائية باستخدام نقاط البيانات البعيدة هذه. ستكون القيمة الاحتمالية التي سنحصل عليها غير صحيحة. نجري الآن سلسلة أخرى من الاختبارات مع أخذ 2 من حجم العينة. الآن حتى إذا كانت إحدى القيم بعيدة عن متوسط ​​البيانات ، فإن القيمة الأخرى الموجودة على الجانب الآخر من التوزيع ستسحب متوسطها إلى المركز ، وبالتالي تقليل تأثير تلك القيمة البعيدة. لذلك ، مع حجم العينة 2 ، ستكون نتائجنا صحيحة بدرجة أكبر مع قيم P الصحيحة.

تحليل الطاقة هو الأسلوب المستخدم لمعرفة المقدار الصحيح من حجم العينة المطلوب لإجراء الاختبارات قدر الإمكان. كلما زادت الطاقة التي نحتاجها أكثر هو مقدار حجم العينة المطلوب. لذلك قد تعتقد لماذا لا نأخذ حجم عينة كبير فقط لأن حجم العينة الكبير يعني نتائج أفضل وأكثر موثوقية. هذا ليس صحيحًا لأن جمع البيانات مكلف ومعرفة حجم العينة المطلوبة ضرورية.

كيف يتم إجراء تحليل القوة؟

تعتمد قوة الاختبار على بعض العوامل. تتمثل الخطوة الأولى لإجراء تحليل للطاقة في تعيين قيمة الطاقة. ضع في اعتبارك أنك قمت بتعيين قوة مشتركة مقدارها 0.8 ، مما يعني أنك تريد أن يكون لديك فرصة بنسبة 80٪ على الأقل لرفض فرضية العدم بشكل صحيح. إذا كنا نتحقق من صحة تأثير لقاح COVID-19 على مجموعة من الأشخاص ، فنحن نريد أن نثبت أن توزيع نقاط البيانات للأشخاص الذين تم تطعيمهم يختلف عن توزيع الأشخاص الذين تم إعطاؤهم دواءً وهميًا.

1. مقدار التداخل

نحتاج إلى النظر في مقدار التداخل بين التوزيعين اللذين نقارنهما. كلما زاد التداخل ، سيكون من الصعب علينا رفض العدد الفارغ بأمان ، وبالتالي سنحتاج إلى حجم عينة أكبر. ومع ذلك ، إذا كان التداخل أقل بكثير ، فيمكننا بسهولة رفض الصفري بأمان. وسنطلب حجم عينة أقل. يعتمد التداخل على المسافة بين وسيلتي التوزيعين وانحرافاتهما المعيارية.

2. حجم التأثير

حجم التأثير هو وسيلة للجمع بين آثار الفرق بين المتوسطات والانحرافات المعيارية للسكان. يتم حساب حجم التأثير (د) على أنه الفرق المقدر بين الوسائل مقسومًا على الانحرافات المعيارية المقدرة المجمعة. من أبسط الطرق لحساب الانحرافات المعيارية المُقدَّرة المُجمَّعة هي الجذر التربيعي للمبلغ التربيعي للانحرافات المعيارية مقسومًا على 2.

لذلك بمجرد أن نحصل على قيمة الطاقة وقيمة ألفا وحجم التأثير ، يمكننا توصيل هذه القيم في حاسبة الطاقة الإحصائية والحصول على قيمة حجم العينة. مثل حاسبة الطاقة الإحصائية هذه متاحة بسهولة على الإنترنت.

احصل على شهادة علوم البيانات من أفضل الجامعات في العالم. تعلم برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

قبل ان تذهب

قمنا بحساب حجم العينة من خلال إجراء تحليل الطاقة باستخدام حجم القدرة وألفا والتأثير. لذلك إذا حصلنا على قيمة حجم عينة 7 ، فهذا يعني أننا بحاجة إلى حجم عينة 7 ليكون لدينا فرصة بنسبة 80٪ لرفض فرضية Null بشكل صحيح. إن امتلاك المقدار المناسب من الخبرة في المجال أمر حاسم أيضًا لتقدير الوسائل السكانية والتداخلات والقوة المطلوبة.

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع دبلوم PG في IIIT-B & upGrad في علوم البيانات والذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1- على - 1 مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

ما هو تحليل القوة؟

قوة الاختبار أو تحليل القدرة هي احتمال رفض فرضية Null بشكل صحيح عندما تكون خاطئة. أو بعبارة أخرى ، تتناسب القوة عكسياً مع احتمال ارتكاب خطأ من النوع 2. لذلك ، الطاقة = 1-β. على سبيل المثال ، إذا قمنا بتعيين الطاقة لتكون 80٪ ، فإننا نعني أن 80٪ من اختباراتنا الإحصائية صحيحة وليست وهمية. لذلك ، كلما زادت قيمة الطاقة ، قل احتمال ارتكاب خطأ من النوع 2. يدور تحليل القوة حول منع القرارات الخاطئة لأننا نتعامل مع عينات عشوائية مختلفة وهناك احتمال كبير أن متوسطها سيعطي وسيلة غير واقعية ويقودنا إلى اتخاذ قرارات غير صحيحة.

ما العوامل التي يتم أخذها في الاعتبار أثناء إجراء تحليل القوة لدينا؟

هناك عوامل معينة تؤثر على اختبار تحليل الطاقة. الخطوة الأولى هي تحديد قيمة الطاقة. افترض أن لدينا قيمة بقيمة 0.7 مما يعني أن لديك فرصة بنسبة 70٪ لرفض فرضية العدم. فيما يلي العوامل المؤثرة في تحليل الطاقة. مقدار التداخل هو التداخل بين التوزيعين اللذين يتم مقارنتهما. يجب أن يكون التداخل صغيرًا قدر الإمكان لأن مقدار التداخل يتناسب بشكل مباشر مع صعوبة حساب القيمة الصفرية. حجم التأثير هو طريقة لضرب الفرق بين المتوسط ​​والانحراف المعياري للمجموعات السكانية. يشار إليه بالحرف "d" ويحسب على أنه الفرق المقدر بين الوسيلة مقسومًا على الانحرافات المعيارية المقدرة المجمعة. منذ أن أصبح لدينا الآن قيمة الطاقة وقيمة ألفا (مقدار التداخل) وحجم التأثير ، يمكننا بسهولة إجراء تحليل الطاقة.

ما هو P-Hacking؟

القرصنة الإلكترونية أو تجريف البيانات هي طريقة لإساءة استخدام تقنيات تحليل البيانات للعثور على أنماط في البيانات تبدو مهمة ولكنها ليست كذلك. تؤثر هذه الطريقة على الدراسة سلبًا لأنها تعطي وعودًا كاذبة لتوفير أنماط بيانات مهمة يمكن أن تؤدي بدورها إلى زيادة كبيرة في عدد الإيجابيات الكاذبة. لا يمكن منع القرصنة الإلكترونية بشكل كامل ولكن هناك بعض الطرق التي يمكن أن تقللها بالتأكيد وتساعد على تجنب الوقوع في المصيدة.