การทดสอบ Chi Square: บทนำ วิธีการคำนวณ เมื่อใดควรใช้

เผยแพร่แล้ว: 2022-11-09

ในสถิติ การทดสอบไคสแควร์ใช้เพื่อวิเคราะห์ข้อมูลจากข้อสังเกตของการรวบรวมตัวแปรแบบกระจายตามปกติ โดยทั่วไปแล้ว สิ่งนี้เกี่ยวข้องกับการเปรียบเทียบข้อมูลตัวเลขสองชุด ครั้งแรกที่ Karl Pearson เสนอวิธีการวิเคราะห์และแจกจ่ายข้อมูลที่เป็นหมวดหมู่ โดยตั้งชื่อว่าการทดสอบไคสแควร์ของ Pearson

การทดสอบไคสแควร์ที่พัฒนาโดยเพียร์สันใช้ในตารางฉุกเฉินเพื่อประเมินว่ามีความแตกต่างทางสถิติอย่างมีนัยสำคัญระหว่างความถี่ที่คาดการณ์และความถี่จริงในหมวดหมู่หนึ่งของตารางไคสแควร์อย่างน้อยหนึ่งหมวดหมู่

ในทางสถิติ นักสถิติใช้การทดสอบไคสแควร์เพื่อพิจารณาว่าตัวแบบเหมาะสมกับข้อมูลมากน้อยเพียงใด สถิติไคสแควร์ต้องการตัวอย่างข้อมูลตัวแปรสุ่ม สุ่ม แยกเฉพาะ ดิบ และมีขนาดเพียงพอ

ลงทะเบียน เรียนหลักสูตร Machine Learning จากมหาวิทยาลัยชั้นนำของโลก รับ Masters, Executive PGP หรือ Advanced Certificate Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

สารบัญ

คำศัพท์พื้นฐานของการทดสอบไคสแควร์

สูตรมาตรฐานสำหรับการคำนวณการทดสอบไคสแควร์คือผลรวมของความผิดพลาดกำลังสองหรือผลบวกลวงหารด้วยค่าความแปรปรวนตัวอย่าง มีคำศัพท์สองสามคำที่นำมาใช้เมื่อใช้การทดสอบ Chi-square ข้อกำหนดเหล่านี้ได้รับการกำหนดไว้ด้านล่าง:

p-value

ค่า p คือความน่าจะเป็นที่จะได้ไคสแควร์ที่เท่ากับหรือมากกว่านั้นในการทดลองปัจจุบัน และข้อมูลยังคงสนับสนุนสมมติฐาน ความน่าจะเป็นนี้แสดงเป็นเปอร์เซ็นต์ หมายถึงความเป็นไปได้ที่รูปแบบที่คาดการณ์ไว้จะเกิดจากการเกิดขึ้นแบบสุ่ม
หากค่า p น้อยกว่าเท่ากับ 0.05 จะยอมรับสมมติฐานที่นำมาพิจารณา หากค่ามากกว่า 0.05 สมมติฐานจะถูกปฏิเสธ

องศาแห่งอิสรภาพ

ปัญหาการประมาณค่ามีระดับความเป็นอิสระเท่ากับจำนวนตัวแปรอิสระ แม้ว่าค่าของตัวแปรเหล่านี้จะไม่มีการจำกัดแบบตายตัว แต่ก็มีการจำกัดค่าของตัวแปรอื่นๆ หากเราต้องการให้ชุดข้อมูลของเราสอดคล้องกับพารามิเตอร์ที่ประมาณการไว้

คำจำกัดความหนึ่งของ "ระดับความเป็นอิสระ" คือจำนวนค่าที่มากที่สุดในชุดข้อมูลซึ่งไม่ขึ้นกับค่าอื่นตามตรรกะ และอาจมีการเปลี่ยนแปลงได้ การหักหนึ่งรายการจากจำนวนการสังเกตทั้งหมดในชุดข้อมูลจะทำให้เกิดระดับความเป็นอิสระ

บริบทที่โดดเด่นอย่างหนึ่งซึ่งมีการกล่าวถึงแนวคิดเรื่องระดับความเป็นอิสระอยู่ในบริบทของการทดสอบสมมติฐานทางสถิติ เช่น ไคสแควร์

การเข้าใจถึงความสำคัญของสถิติไคสแควร์และความแข็งแกร่งของสมมติฐานว่างนั้นอาศัยการคำนวณระดับความเป็นอิสระอย่างแม่นยำอย่างมาก

ความแปรปรวน

ความแปรปรวนของจำนวนสุ่มตัวอย่างคือการวัดการกระจายรอบค่าเฉลี่ย คำนวณโดยการยกกำลังสองค่าของส่วนเบี่ยงเบนมาตรฐาน

คุณสมบัติในการทำการทดสอบไคสแควร์

การทดสอบไคสแควร์มีคุณสมบัติดังต่อไปนี้:

  • การกระจายเฉลี่ยเท่ากับจำนวนองศาอิสระ
  • ความแปรปรวนควรเท่ากับสองเท่าของระดับความเป็นอิสระ
  • เมื่อระดับความเป็นอิสระเพิ่มขึ้น เส้นการแจกแจงแบบไคสแควร์เริ่มคล้ายกับเส้นโค้งการแจกแจงแบบปกติ กล่าวคือ เส้นโค้งรูประฆัง

สุดยอดหลักสูตรการเรียนรู้ของเครื่องและหลักสูตร AI ออนไลน์

วิทยาศาสตรมหาบัณฑิตสาขาวิชา Machine Learning & AI จาก LJMU Executive Post Graduate Program in Machine Learning & AI จาก IIITB
โปรแกรมประกาศนียบัตรขั้นสูงในการเรียนรู้ของเครื่อง & NLP จาก IIITB โปรแกรมประกาศนียบัตรขั้นสูงในการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกจาก IIITB Executive Post Graduate Program in Data Science & Machine Learning จาก University of Maryland
หากต้องการสำรวจหลักสูตรทั้งหมดของเรา โปรดไปที่หน้าด้านล่าง
หลักสูตรการเรียนรู้ของเครื่อง

จะทำการทดสอบไคสแควร์ได้อย่างไร?

Chi-square สำหรับการแจกแจงคำนวณโดยใช้สูตรด้านล่าง:

2 = [(มูลค่าที่สังเกต – มูลค่าที่คาดหวัง ) 2 / มูลค่าที่คาดหวัง]

ขั้นตอนในการคำนวณสถิติไคสแควร์

  1. คำนวณค่าที่สังเกตได้และค่าที่คาดหวัง
  2. ลบค่าที่คาดไว้แต่ละค่าออกจากค่าที่สังเกตได้ในตารางการแจกแจง
  3. ยกกำลังสองค่าสำหรับการสังเกตแต่ละครั้งที่คุณได้รับในขั้นตอนที่ 2
  4. หารค่ากำลังสองเหล่านี้แต่ละค่าด้วยค่าที่คาดหวังที่สอดคล้องกัน
  5. การเพิ่มค่าทั้งหมดที่เราได้รับในขั้นตอนที่ 4 จะให้ค่าที่กำหนดสถิติไคสแควร์
  6. คำนวณระดับความอิสระในการตรวจสอบความพึงพอใจของคุณสมบัติดังกล่าวของการทดสอบไคสแควร์

ประเภทของการทดสอบ Chi-Square

ความดีของ Fit

หากคุณต้องการดูว่ากลุ่มตัวอย่างเป็นตัวแทนของประชากรทั้งหมดได้ดีเพียงใด คุณอาจใช้การทดสอบ Chi-square goodness-of-fit ประชากรตัวอย่างและประชากรตัวอย่างที่คาดการณ์จะถูกเปรียบเทียบโดยใช้เทคนิคนี้

ทดสอบความเป็นอิสระ

การทดสอบ Chi-square เพื่อความเป็นอิสระของประชากรหนึ่งกลุ่มเพื่อตรวจสอบว่ามีความสัมพันธ์กันระหว่างสองตัวแปรตามหมวดหมู่หรือไม่ การทดสอบอิสระแตกต่างจากการทดสอบความพอดีเนื่องจากไม่ได้เปรียบเทียบพารามิเตอร์ที่สังเกตได้เพียงตัวเดียวกับประชากรตามทฤษฎี การทดสอบความเป็นอิสระจะเปรียบเทียบค่าสองค่าภายในชุดตัวอย่างแทนกัน

ทดสอบความเป็นเนื้อเดียวกัน

เช่นเดียวกับการทดสอบความเป็นอิสระ การทดสอบความเป็นเนื้อเดียวกันเป็นไปตามรูปแบบและขั้นตอนเดียวกัน ความแตกต่างที่สำคัญระหว่างทั้งสองคือการทดสอบความเป็นเนื้อเดียวกันตรวจสอบว่าตัวแปรมีการแจกแจงแบบเดียวกันในประชากรจำนวนมากหรือไม่ ในทางตรงกันข้าม การทดสอบความเป็นอิสระจะตรวจสอบการมีอยู่ของความเชื่อมโยงระหว่างสองตัวแปรตามหมวดหมู่ภายในประชากรที่คล้ายคลึงกัน

คุณควรใช้การทดสอบ Chi-square เมื่อใด

การทดสอบ Chi-Square กำหนดว่าค่าจริงสอดคล้องกับความน่าจะเป็นทางทฤษฎีหรือไม่ Chi-Square เป็นการทดสอบที่น่าเชื่อถือที่สุดที่จะใช้เมื่อข้อมูลที่วิเคราะห์มาจากตัวอย่างแบบสุ่มและตัวแปรที่เป็นปัญหามีการจัดหมวดหมู่

ทักษะการเรียนรู้ของเครื่องตามความต้องการ

หลักสูตรปัญญาประดิษฐ์ หลักสูตร Tableau
หลักสูตร NLP หลักสูตรการเรียนรู้เชิงลึก

การทดสอบไคสแควร์ใช้ที่ไหน?

ให้เรายกตัวอย่างของบริษัทการตลาด
บริษัทการตลาดกำลังมองหาความสัมพันธ์ระหว่างภูมิศาสตร์ผู้บริโภคกับการเลือกแบรนด์ ดังนั้น chi-square จึงมีบทบาทสำคัญ และมูลค่าของสถิติจะแจ้งให้ทราบว่าบริษัทสามารถปรับแนวทางการตลาดของตนตามภูมิภาคต่างๆ ได้อย่างไรเพื่อเพิ่มรายได้สูงสุด
เมื่อวิเคราะห์ข้อมูล การทดสอบ Chi-square มีประโยชน์ในการตรวจสอบความสอดคล้องหรือความเป็นอิสระของตัวแปรตามหมวดหมู่ ตลอดจนแบบจำลองความพอดีที่อยู่ระหว่างการพิจารณา

ในทำนองเดียวกัน สถิติไคสแควร์อาจพบว่ามีการใช้ในวิชาชีพแพทย์ การทดสอบไคสแควร์เหมาะสำหรับการกำหนดประสิทธิภาพของยาเมื่อเปรียบเทียบกับกลุ่มควบคุม

บล็อกการเรียนรู้ของเครื่องยอดนิยมและปัญญาประดิษฐ์

IoT: ประวัติศาสตร์ ปัจจุบัน และอนาคต บทช่วยสอนการเรียนรู้ของเครื่อง: เรียนรู้ ML อัลกอริทึมคืออะไร? ง่ายและสะดวก
เงินเดือนวิศวกรหุ่นยนต์ในอินเดีย: บทบาททั้งหมด วันหนึ่งในชีวิตของวิศวกรแมชชีนเลิร์นนิง: พวกเขาทำอะไร? IoT คืออะไร (Internet of Things)
การเปลี่ยนแปลงและการรวมกัน: ความแตกต่างระหว่างการเปลี่ยนแปลงและการรวมกัน แนวโน้ม 7 อันดับแรกในปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง แมชชีนเลิร์นนิงกับ R: ทุกสิ่งที่คุณต้องรู้

บทสรุป

ในบทความนี้ คุณได้เรียนรู้เกี่ยวกับสถิติ Chi-square และวิธีการคำนวณค่าของมัน เนื่องจาก Chi-square ทำงานร่วมกับตัวแปรตามหมวดหมู่ จึงมักใช้โดยนักวิชาการที่กำลังตรวจสอบข้อมูลการตอบแบบสำรวจ รูปแบบการศึกษานี้เป็นเรื่องปกติในหลายสาขา เช่น สังคมวิทยา จิตวิทยา เศรษฐศาสตร์ รัฐศาสตร์ และการตลาด

รับวิทยาศาสตรมหาบัณฑิตในการเรียนรู้ของเครื่องและ AI ด้วย upGrad

ในที่สุดคุณกำลังมองหาที่จะบรรลุวิทยาศาสตรมหาบัณฑิตหรือไม่? upGrad ได้ร่วมมือกับ IIIT-B และ Liverpool John Moores University เพื่อนำเสนอหลักสูตรที่มีการดูแลจัดการมากที่สุดเท่าที่จะเป็นไปได้ ด้วย วิทยาศาสตรมหาบัณฑิตสาขาการเรียนรู้ของเครื่องและ AI คุณจะได้เรียนรู้ทุกทักษะที่ต้องการในด้าน ML และ AI เช่น การประมวลผลภาษาธรรมชาติ การเรียนรู้เชิงลึก การเรียนรู้การเสริมกำลัง ฯลฯ

เกณฑ์คุณสมบัติ:

  • จบปริญญาตรี 50%
  • จบ หลักสูตร Executive Post Graduate Programme in Machine Learning & AI โดย IIIT-B
  • มีประสบการณ์การทำงานอย่างน้อย 1 ปี จะได้รับการพิจารณาเป็นพิเศษ

หลักสูตรนี้มีอะไรให้คุณบ้าง:

  • สื่อการเรียนการสอนมากกว่า 750 ชั่วโมงให้เรียนรู้จาก
  • ออกแบบมาสำหรับมืออาชีพในการทำงาน
  • มากกว่า 15 งานและกรณีศึกษา
  • มากกว่า 12 โครงการ โดย 6 โครงการเป็นโครงการหลัก
  • ชั้นเรียนการเข้ารหัสสด
  • เวิร์กช็อปสร้างโปรไฟล์
  • อาชีพ Bootcamp
  • การฝึกสอนแบบตัวต่อตัวที่มีประสิทธิภาพสูง
  • การให้คำปรึกษาด้านอาชีพแบบตัวต่อตัว
  • โอกาสในการทำงานพิเศษ
  • เซสชันอุตสาหกรรมส่วนบุคคล

ค่า p เกี่ยวข้องกับการทดสอบ Chi-square อย่างไร

ค่า p คือพื้นที่ใต้เส้นโค้งความหนาแน่นของไคสแควร์ซึ่งอยู่ทางด้านขวาของค่าสถิติการทดสอบ สถิติการทดสอบไคสแควร์มีขนาดใหญ่พอที่จะปฏิเสธสมมติฐานว่างหรือไม่เป็นขั้นตอนสุดท้ายในการทดสอบไคสแควร์ที่มีนัยสำคัญ ค่า p ใช้เพื่อจุดประสงค์นี้

มีข้อ จำกัด หรือข้อเสียในการใช้การทดสอบ Chi-square หรือไม่?

บุคคลทุกคนที่กำลังศึกษาต้องไม่ซ้ำกัน มิฉะนั้นผลลัพธ์จะไม่มีความหมาย ไม่ควรใช้การทดสอบไคสแควร์หากผู้ตอบที่กำหนดอาจแบ่งออกเป็นสองกลุ่มที่แตกต่างกัน ข้อจำกัดอีกประการหนึ่งของไคสแควร์คือสามารถใช้ได้กับข้อมูลความถี่เท่านั้น นอกจากนี้ ผลรวมของบุคคลที่คาดการณ์ทั้งหมดในทุกชั้นเรียนควรมากกว่า 5

จุดแข็งของการทดสอบไคสแควร์คืออะไร?

จุดแข็งหลักประการหนึ่งคือสามารถคำนวณไคสแควร์ได้อย่างรวดเร็วและง่ายดาย ข้อมูลที่ระบุอาจใช้วิธีนี้ได้เช่นกัน นอกจากนี้ยังอาจใช้เพื่อเปรียบเทียบตัวแปรตามหมวดหมู่มากกว่าสองกลุ่มสำหรับนัยสำคัญทางสถิติ