การวิเคราะห์กำลังในสถิติ: มันคืออะไร & จะทำอย่างไร?

เผยแพร่แล้ว: 2021-01-08

การทดสอบสมมติฐานเป็นส่วนสำคัญของการวิเคราะห์ทางสถิติ อย่างไรก็ตาม มีหลายสิ่งที่ต้องกำหนดไว้ล่วงหน้าเพื่อให้การทดสอบที่เราดำเนินการนั้นถูกต้องที่สุด นี่คือจุดเริ่มต้นของแนวคิดเรื่องอำนาจและกำหนดฮิวริสติกของการทดสอบทางสถิติ

ในตอนท้ายของบทช่วยสอนนี้ คุณจะรู้ว่า:

  • การวิเคราะห์พฤติกรรมของการทดสอบทางสถิติ
  • พลังของการทดสอบคืออะไร?
  • การวิเคราะห์กำลังไฟฟ้ามีความจำเป็นอย่างไร?
  • วิธีดำเนินการวิเคราะห์กำลัง

สารบัญ

การวิเคราะห์พฤติกรรมของการทดสอบทางสถิติ

ดำเนินการทดสอบทางสถิติที่ถูกต้องตามการวิเคราะห์พฤติกรรมหลายอย่างซึ่งจำเป็นต้องตั้งค่าล่วงหน้าก่อนทำการทดสอบ การกำหนดฮิวริสติกที่ถูกต้องเป็นสิ่งสำคัญอย่างยิ่ง เนื่องจากไม่สามารถเปลี่ยนแปลงได้เมื่อเริ่มการทดสอบ เรามาดูสิ่งเหล่านี้กันเล็กน้อย

1. ระดับความสำคัญและช่วงความเชื่อมั่น

ก่อนเริ่มการทดสอบทางสถิติใดๆ จะต้องมีการตั้งค่าเกณฑ์ความน่าจะเป็น เกณฑ์หรือระดับนัยสำคัญนี้เรียกว่าค่าวิกฤต (อัลฟา) บริเวณที่สมบูรณ์ภายใต้เส้นโค้งความน่าจะเป็นที่อยู่นอกเหนือค่าอัลฟาเรียกว่าบริเวณวิกฤต

ค่าอัลฟ่าบอกเราว่าจุดข้อมูลตัวอย่าง (หรือจุดทดลอง) ต้องอยู่ห่างจากสมมติฐานว่าง (จุดเฉลี่ยดั้งเดิม) มากเพียงใด ก่อนที่จะสรุปว่ามันผิดปกติพอที่จะปฏิเสธสมมติฐานว่าง ค่าอัลฟาทั่วไปที่ใช้คือช่วงความเชื่อมั่น 0.05 หรือ 95%

2. P-Value

ในการประเมินว่าผลการทดสอบที่เราได้รับมีนัยสำคัญทางสถิติหรือไม่ เราเปรียบเทียบค่าวิกฤต (อัลฟา) ที่เราตั้งค่าไว้ก่อนการทดสอบกับค่า P ของการทดสอบ ค่า p คือความน่าจะเป็นที่จะได้รับค่ามากหรือมากยิ่งกว่านั้นตามค่าที่เรากำลังทดสอบ

3. ข้อผิดพลาดประเภทที่ 1 และประเภทที่ 2

การทดสอบทางสถิติไม่สามารถมั่นใจได้ 100% มีที่ว่างสำหรับข้อผิดพลาดและถูกเข้าใจผิดโดยผลลัพธ์เสมอ ตามที่กล่าวไว้ข้างต้น หากเราตั้งค่าอัลฟาเป็น 0.05 จะมีช่วงความเชื่อมั่นที่ 95% ดังนั้นจึงมีโอกาส 5% ที่ผลลัพธ์ที่คุณได้รับจะไม่ถูกต้องและทำให้เข้าใจผิด ผลลัพธ์ที่ไม่ถูกต้องเหล่านี้คือสิ่งที่เราเรียกว่าข้อผิดพลาด ข้อผิดพลาดมี 2 ประเภท – ประเภทที่ 1 และประเภทที่ 2

ค่าระดับนัยสำคัญเท่ากับ 0.05 หมายความว่าการทดสอบทางสถิติของคุณจะถูกต้อง 95% เท่า ซึ่งหมายความว่ามีโอกาส 5% ที่จะผิดพลาด! นั่นจะเป็นกรณีของคุณปฏิเสธสมมติฐานว่างเมื่อมันถูกต้อง นี่คือตัวอย่างของข้อผิดพลาดประเภทที่ 1 และเรายังสามารถพูดได้ว่า alpha( α ) คือความน่าจะเป็นที่จะเกิดข้อผิดพลาดประเภทที่ 1

นอกจากนี้ยังอาจเป็นกรณีเมื่อคุณสรุปว่าสมมติฐานว่างเป็นจริงหรือยอมรับเมื่อเป็นเท็จ ในทางเทคนิค เราไม่สามารถยอมรับสมมติฐานว่างได้ เราทำได้เพียงล้มเหลวในการปฏิเสธ นี่คือสิ่งที่เราเรียกว่าข้อผิดพลาดประเภทที่ 2 ในทำนองเดียวกัน ความน่าจะเป็นที่คุณสร้างข้อผิดพลาดประเภท 2 จะได้รับจากเบต้า β

อ่าน: นักวิเคราะห์ข้อมูล: ทักษะและเครื่องมือยอดนิยมสู่การเป็นผู้เชี่ยวชาญ

พลังของการทดสอบทางสถิติคืออะไร?

พลังของการทดสอบคือความน่าจะเป็นที่จะปฏิเสธ Null Hypothesis ได้อย่างถูกต้องเมื่อเป็นเท็จ หรือกล่าวอีกนัยหนึ่ง กำลังเป็นสัดส่วนผกผันกับความน่าจะเป็นที่จะเกิดข้อผิดพลาดประเภทที่ 2 ดังนั้น กำลัง = 1- β ตัวอย่างเช่น หากเราตั้งค่ากำลังเป็น 80% แสดงว่าเราหมายความว่า 80% ของการทดสอบทางสถิติของเรานั้นถูกต้อง ไม่ใช่แบบปลอม ดังนั้น ยิ่งค่ากำลังสูงเท่าไร ความน่าจะเป็นที่จะเกิดข้อผิดพลาดประเภทที่ 2 ก็ยิ่งน้อยลงเท่านั้น

แต่ทำไมผลลัพธ์ถึงได้หลอกลวง? นี่เป็นเพราะว่าเรากำลังจัดการกับตัวอย่างสุ่มที่นี่ และบางครั้งกลุ่มตัวอย่างที่หามาได้อยู่ไกลจากค่าเฉลี่ยของการกระจายตัวเกินไป และด้วยเหตุนี้จึงให้ผลลัพธ์ที่ไม่สมจริง ซึ่งทำให้เราต้องตัดสินใจผิดพลาด เป้าหมายทั้งหมดของ Power Analysis คือการป้องกันไม่ให้เราตัดสินใจผิดพลาดเหล่านี้

เรากำลัง P-hacking?

ลองมาดูตัวอย่างที่เราได้ทำวัคซีนสำหรับ COVID-19 และเรามั่นใจมากว่าวัคซีนจะมีผลลัพธ์ที่สำคัญ เราดำเนินการทดสอบทางสถิติเพื่อดูว่าความเชื่อของเราเป็นจริงตามสถิติด้วยหรือไม่ ดังนั้นให้ตั้งค่าอัลฟาเป็น 0.05 และทำการทดสอบโดยใช้ตัวอย่าง 100 ตัวอย่าง

หลังจากการทดสอบ เราได้ค่า P เป็น 0.06 เราเห็นว่ามันอยู่ใกล้กับอัลฟ่าของเรามาก แต่ไม่น้อยกว่านั้น เพื่อที่เราจะสามารถปฏิเสธสมมติฐานว่างได้อย่างปลอดภัย การดูว่าเกิดอะไรขึ้นถ้าเราเพิ่มตัวอย่างและทำการทดสอบซ้ำจะเป็นเรื่องที่น่าดึงดูดใจ

ดังนั้นเราจึงเพิ่มตัวอย่างอีก 50 ตัวอย่าง และเห็นว่า P-Value ตอนนี้มาเป็น 0.045 เราเพิ่งพิสูจน์วัคซีนของเราว่ามีนัยสำคัญทางสถิติหรือไม่? ไม่! เราเพิ่ง P-hacked เมื่อเราเพิ่มจำนวนตัวอย่างหลังจากที่เราได้ผลลัพธ์แรก เรียนรู้เพิ่มเติมเกี่ยวกับ P-Hacking คืออะไรและจะหลีกเลี่ยงได้อย่างไร

การวิเคราะห์กำลังคืออะไร?

ดังที่เราเห็นในตัวอย่างข้างต้น เราพบว่าขนาดตัวอย่างมีขนาดเล็กและเราเพิ่มในภายหลัง สิ่งนี้ผิดและไม่ควรทำ ควรตั้งค่าขนาดตัวอย่างไว้ล่วงหน้าก่อนเริ่มการทดสอบ แต่ค่าขนาดกลุ่มตัวอย่างที่เหมาะกับเราขนาดไหน?

ลองพิจารณาตัวอย่างที่เราดำเนินการทดสอบหลายชุดโดยใช้ขนาดตัวอย่างเพียง 1 ดังนั้นเมื่อเราสุ่มตัวอย่าง 1 จุดข้อมูลแบบสุ่มจากประชากร มันอาจเป็นค่ารอบค่าเฉลี่ยที่แสดงข้อมูลของเราอย่างถูกต้อง หรืออาจเป็นมากก็ได้ ห่างไกลจากค่าเฉลี่ยและแสดงข้อมูลได้ไม่ดี

ปัญหานี้เกิดขึ้นเมื่อเราทำการทดสอบทางสถิติโดยใช้จุดข้อมูลที่อยู่ห่างไกลเหล่านี้ ค่า P ที่เราจะได้รับจะไม่ถูกต้อง ตอนนี้เราทำการทดสอบอีกชุดโดยใช้ 2 เป็นขนาดกลุ่มตัวอย่าง แม้ว่าค่าหนึ่งจะอยู่ห่างจากค่าเฉลี่ยของข้อมูล ค่าอื่นซึ่งอยู่อีกด้านหนึ่งของการแจกแจงจะดึงค่าเฉลี่ยของค่าเหล่านั้นมาที่กึ่งกลาง ซึ่งจะเป็นการลดผลกระทบของค่าที่อยู่ไกลออกไป ดังนั้น ด้วยขนาดกลุ่มตัวอย่าง 2 ผลลัพธ์ของเราจะเป็นจริงมากขึ้นด้วยค่า P ที่ถูกต้อง

การวิเคราะห์กำลังเป็นเทคนิคที่ใช้เพื่อค้นหาขนาดตัวอย่างที่เหมาะสมซึ่งจำเป็นสำหรับการทดสอบให้ดีที่สุดเท่าที่เป็นไปได้ พลังงานที่สูงขึ้นที่เราต้องการมากขึ้นคือจำนวนขนาดตัวอย่างที่จะต้องใช้ ดังนั้น คุณอาจคิดว่าทำไมไม่ลองเอาขนาดตัวอย่างขนาดใหญ่มาใช้ เพราะขนาดตัวอย่างที่ใหญ่หมายถึงผลลัพธ์ที่ดีและเชื่อถือได้มากกว่า ไม่ถูกต้องเนื่องจากการรวบรวมข้อมูลมีค่าใช้จ่ายสูงและความรู้เกี่ยวกับขนาดกลุ่มตัวอย่างที่จำเป็นเป็นสิ่งจำเป็น

จะดำเนินการวิเคราะห์พลังงานได้อย่างไร

พลังของการทดสอบขึ้นอยู่กับปัจจัยบางอย่าง ขั้นตอนแรกในการวิเคราะห์กำลังไฟฟ้าคือการตั้งค่าพลังงาน พิจารณาว่าคุณตั้งค่ากำลังร่วมกันไว้ที่ 0.8 ซึ่งหมายความว่าคุณต้องการมีโอกาสอย่างน้อย 80% ที่จะปฏิเสธสมมติฐานว่างได้อย่างถูกต้อง หากเรากำลังตรวจสอบผลกระทบของวัคซีนโควิด-19 กับคนกลุ่มหนึ่ง เราต้องการพิสูจน์ว่าการกระจายจุดข้อมูลของผู้ที่ได้รับวัคซีนนั้นแตกต่างจากผู้ที่ได้รับยาหลอก

1. ปริมาณคาบเกี่ยวกัน

เราจำเป็นต้องพิจารณาจำนวนการทับซ้อนระหว่างการแจกแจงทั้งสองที่เรากำลังเปรียบเทียบ ความเหลื่อมล้ำกันมากขึ้น ยากขึ้นสำหรับเราที่จะปฏิเสธค่า null อย่างปลอดภัย และด้วยเหตุนี้เราจึงต้องการขนาดตัวอย่างมากขึ้น อย่างไรก็ตาม หากการเหลื่อมกันน้อยมาก เราก็สามารถปฏิเสธค่า null ได้อย่างปลอดภัย และเราต้องการขนาดตัวอย่างค่อนข้างน้อย คาบเกี่ยวกันขึ้นอยู่กับระยะห่างระหว่างค่าเฉลี่ยของการแจกแจงทั้งสองกับค่าเบี่ยงเบนมาตรฐาน

2. ขนาดเอฟเฟกต์

ขนาดผลกระทบเป็นวิธีการรวมผลกระทบของความแตกต่างระหว่างค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของประชากร ขนาดผล (d) คำนวณจากผลต่างโดยประมาณระหว่างค่าเฉลี่ยหารด้วยค่าเบี่ยงเบนมาตรฐานโดยประมาณแบบรวมกลุ่ม วิธีที่ง่ายที่สุดวิธีหนึ่งในการคำนวณค่าเบี่ยงเบนมาตรฐานโดยประมาณแบบพูลคือ รากที่สองของผลรวมกำลังสองของค่าเบี่ยงเบนมาตรฐาน หารด้วย 2

เมื่อเรามีค่าพลังงาน ค่าอัลฟา และขนาดเอฟเฟกต์ เราสามารถเสียบค่าเหล่านี้ลงในเครื่องคำนวณพลังสถิติ และรับค่าขนาดตัวอย่าง เครื่องคำนวณพลังสถิติดังกล่าวมีให้ใช้งานบนอินเทอร์เน็ตได้อย่างง่ายดาย

รับ ใบรับรองวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก เรียนรู้หลักสูตร Executive PG Programs, Advanced Certificate Programs หรือ Masters Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

ก่อนที่คุณจะไป

เราคำนวณขนาดตัวอย่างโดยทำการวิเคราะห์กำลังโดยใช้ขนาดกำลัง อัลฟา และเอฟเฟกต์ ดังนั้นหากเราได้ค่าขนาดกลุ่มตัวอย่างเป็น 7 หมายความว่าเราต้องการขนาดตัวอย่างที่ 7 เพื่อให้มีโอกาส 80% ที่จะปฏิเสธ Null Hypothesis ได้อย่างถูกต้อง การมีความชำนาญด้านโดเมนในปริมาณที่เหมาะสมนั้นเป็นสิ่งสำคัญเช่นกันในการประเมินค่าเฉลี่ยประชากร ความเหลื่อมล้ำ และกำลังที่ต้องการ

หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ให้ลองดูประกาศนียบัตร PG ด้านวิทยาศาสตร์ข้อมูลของ IIIT-B และ upGrad ซึ่งสร้างขึ้นสำหรับมืออาชีพด้านการทำงานและเสนอกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1- on-1 กับที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

การวิเคราะห์กำลังคืออะไร?

พลังของการทดสอบหรือการวิเคราะห์กำลังคือความน่าจะเป็นที่จะปฏิเสธ Null Hypothesis ได้อย่างถูกต้องเมื่อเป็นเท็จ หรือกล่าวอีกนัยหนึ่ง กำลังเป็นสัดส่วนผกผันกับความน่าจะเป็นที่จะเกิดข้อผิดพลาดประเภทที่ 2 ดังนั้น กำลัง = 1-β ตัวอย่างเช่น หากเราตั้งค่าอำนาจเป็น 80% แสดงว่าเราหมายความว่า 80% ของการทดสอบทางสถิติของเรานั้นถูกต้องและไม่ใช่แบบปลอม ดังนั้น ยิ่งค่ากำลังสูงเท่าไร ความน่าจะเป็นที่จะเกิดข้อผิดพลาดประเภทที่ 2 ก็ยิ่งน้อยลงเท่านั้น การวิเคราะห์กำลังทั้งหมดเกี่ยวกับการป้องกันการตัดสินใจที่ผิดพลาด ในขณะที่เรากำลังจัดการกับตัวอย่างสุ่มต่างๆ และมีโอกาสสูงที่ค่าเฉลี่ยของพวกมันจะให้ค่าเฉลี่ยที่ไม่สมจริง และทำให้เราตัดสินใจผิดพลาดได้

มีการพิจารณาปัจจัยใดบ้างขณะดำเนินการวิเคราะห์กำลังของเรา

มีปัจจัยบางอย่างที่ส่งผลต่อการทดสอบการวิเคราะห์กำลัง ขั้นตอนแรกสุดคือการตั้งค่าพลังงาน สมมติว่าเรามีค่ายกกำลัง 0.7 ซึ่งหมายความว่าคุณมีโอกาส 70% ที่จะปฏิเสธสมมติฐานว่าง ด้านล่างนี้คือปัจจัยที่ส่งผลต่อการวิเคราะห์กำลัง จำนวนการทับซ้อนคือการทับซ้อนระหว่างการแจกแจงทั้งสองที่กำลังเปรียบเทียบ การทับซ้อนควรมีขนาดเล็กที่สุดเท่าที่จะเป็นไปได้ เนื่องจากปริมาณการทับซ้อนเป็นสัดส่วนโดยตรงกับความยากในการคำนวณค่าว่าง ขนาดผลกระทบเป็นวิธีการคลับความแตกต่างระหว่างค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของประชากร มันเขียนแทนด้วย "d" และคำนวณจากผลต่างโดยประมาณระหว่างค่าเฉลี่ยหารด้วยค่าเบี่ยงเบนมาตรฐานโดยประมาณแบบรวมกลุ่ม เนื่องจากตอนนี้เรามีค่าพลังงาน ค่าอัลฟา (จำนวนการทับซ้อน) และขนาดเอฟเฟกต์ เราจึงสามารถดำเนินการวิเคราะห์กำลังได้อย่างง่ายดาย

P-Hacking คืออะไร?

P-Hacking หรือ Data dredging เป็นวิธีการใช้เทคนิคการวิเคราะห์ข้อมูลในทางที่ผิดเพื่อค้นหารูปแบบในข้อมูลที่ปรากฏว่ามีนัยสำคัญแต่ไม่มีนัยสำคัญ วิธีการนี้ส่งผลกระทบในทางลบต่อการศึกษา เนื่องจากให้คำมั่นสัญญาที่ผิดพลาดในการจัดเตรียมรูปแบบข้อมูลที่มีนัยสำคัญ ซึ่งอาจส่งผลให้จำนวนผลบวกลวงเพิ่มขึ้นอย่างมาก P-hacking ไม่สามารถป้องกันได้อย่างสมบูรณ์ แต่มีบางวิธีที่สามารถลดและช่วยหลีกเลี่ยงกับดักได้อย่างแน่นอน