การทดสอบ Chi Square: บทนำ วิธีการคำนวณ เมื่อใดควรใช้
เผยแพร่แล้ว: 2022-11-09ในสถิติ การทดสอบไคสแควร์ใช้เพื่อวิเคราะห์ข้อมูลจากข้อสังเกตของการรวบรวมตัวแปรแบบกระจายตามปกติ โดยทั่วไปแล้ว สิ่งนี้เกี่ยวข้องกับการเปรียบเทียบข้อมูลตัวเลขสองชุด ครั้งแรกที่ Karl Pearson เสนอวิธีการวิเคราะห์และแจกจ่ายข้อมูลที่เป็นหมวดหมู่ โดยตั้งชื่อว่าการทดสอบไคสแควร์ของ Pearson
การทดสอบไคสแควร์ที่พัฒนาโดยเพียร์สันใช้ในตารางฉุกเฉินเพื่อประเมินว่ามีความแตกต่างทางสถิติอย่างมีนัยสำคัญระหว่างความถี่ที่คาดการณ์และความถี่จริงในหมวดหมู่หนึ่งของตารางไคสแควร์อย่างน้อยหนึ่งหมวดหมู่
ในทางสถิติ นักสถิติใช้การทดสอบไคสแควร์เพื่อพิจารณาว่าตัวแบบเหมาะสมกับข้อมูลมากน้อยเพียงใด สถิติไคสแควร์ต้องการตัวอย่างข้อมูลตัวแปรสุ่ม สุ่ม แยกเฉพาะ ดิบ และมีขนาดเพียงพอ
ลงทะเบียน เรียนหลักสูตร Machine Learning จากมหาวิทยาลัยชั้นนำของโลก รับ Masters, Executive PGP หรือ Advanced Certificate Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว
คำศัพท์พื้นฐานของการทดสอบไคสแควร์
สูตรมาตรฐานสำหรับการคำนวณการทดสอบไคสแควร์คือผลรวมของความผิดพลาดกำลังสองหรือผลบวกลวงหารด้วยค่าความแปรปรวนตัวอย่าง มีคำศัพท์สองสามคำที่นำมาใช้เมื่อใช้การทดสอบ Chi-square ข้อกำหนดเหล่านี้ได้รับการกำหนดไว้ด้านล่าง:
p-value
ค่า p คือความน่าจะเป็นที่จะได้ไคสแควร์ที่เท่ากับหรือมากกว่านั้นในการทดลองปัจจุบัน และข้อมูลยังคงสนับสนุนสมมติฐาน ความน่าจะเป็นนี้แสดงเป็นเปอร์เซ็นต์ หมายถึงความเป็นไปได้ที่รูปแบบที่คาดการณ์ไว้จะเกิดจากการเกิดขึ้นแบบสุ่ม
หากค่า p น้อยกว่าเท่ากับ 0.05 จะยอมรับสมมติฐานที่นำมาพิจารณา หากค่ามากกว่า 0.05 สมมติฐานจะถูกปฏิเสธ
องศาแห่งอิสรภาพ
ปัญหาการประมาณค่ามีระดับความเป็นอิสระเท่ากับจำนวนตัวแปรอิสระ แม้ว่าค่าของตัวแปรเหล่านี้จะไม่มีการจำกัดแบบตายตัว แต่ก็มีการจำกัดค่าของตัวแปรอื่นๆ หากเราต้องการให้ชุดข้อมูลของเราสอดคล้องกับพารามิเตอร์ที่ประมาณการไว้
คำจำกัดความหนึ่งของ "ระดับความเป็นอิสระ" คือจำนวนค่าที่มากที่สุดในชุดข้อมูลซึ่งไม่ขึ้นกับค่าอื่นตามตรรกะ และอาจมีการเปลี่ยนแปลงได้ การหักหนึ่งรายการจากจำนวนการสังเกตทั้งหมดในชุดข้อมูลจะทำให้เกิดระดับความเป็นอิสระ
บริบทที่โดดเด่นอย่างหนึ่งซึ่งมีการกล่าวถึงแนวคิดเรื่องระดับความเป็นอิสระอยู่ในบริบทของการทดสอบสมมติฐานทางสถิติ เช่น ไคสแควร์
การเข้าใจถึงความสำคัญของสถิติไคสแควร์และความแข็งแกร่งของสมมติฐานว่างนั้นอาศัยการคำนวณระดับความเป็นอิสระอย่างแม่นยำอย่างมาก
ความแปรปรวน
ความแปรปรวนของจำนวนสุ่มตัวอย่างคือการวัดการกระจายรอบค่าเฉลี่ย คำนวณโดยการยกกำลังสองค่าของส่วนเบี่ยงเบนมาตรฐาน
คุณสมบัติในการทำการทดสอบไคสแควร์
การทดสอบไคสแควร์มีคุณสมบัติดังต่อไปนี้:
- การกระจายเฉลี่ยเท่ากับจำนวนองศาอิสระ
- ความแปรปรวนควรเท่ากับสองเท่าของระดับความเป็นอิสระ
- เมื่อระดับความเป็นอิสระเพิ่มขึ้น เส้นการแจกแจงแบบไคสแควร์เริ่มคล้ายกับเส้นโค้งการแจกแจงแบบปกติ กล่าวคือ เส้นโค้งรูประฆัง
สุดยอดหลักสูตรการเรียนรู้ของเครื่องและหลักสูตร AI ออนไลน์
วิทยาศาสตรมหาบัณฑิตสาขาวิชา Machine Learning & AI จาก LJMU | Executive Post Graduate Program in Machine Learning & AI จาก IIITB | |
โปรแกรมประกาศนียบัตรขั้นสูงในการเรียนรู้ของเครื่อง & NLP จาก IIITB | โปรแกรมประกาศนียบัตรขั้นสูงในการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกจาก IIITB | Executive Post Graduate Program in Data Science & Machine Learning จาก University of Maryland |
หากต้องการสำรวจหลักสูตรทั้งหมดของเรา โปรดไปที่หน้าด้านล่าง | ||
หลักสูตรการเรียนรู้ของเครื่อง |
จะทำการทดสอบไคสแควร์ได้อย่างไร?
Chi-square สำหรับการแจกแจงคำนวณโดยใช้สูตรด้านล่าง:
2 = [(มูลค่าที่สังเกต – มูลค่าที่คาดหวัง ) 2 / มูลค่าที่คาดหวัง]
ขั้นตอนในการคำนวณสถิติไคสแควร์
- คำนวณค่าที่สังเกตได้และค่าที่คาดหวัง
- ลบค่าที่คาดไว้แต่ละค่าออกจากค่าที่สังเกตได้ในตารางการแจกแจง
- ยกกำลังสองค่าสำหรับการสังเกตแต่ละครั้งที่คุณได้รับในขั้นตอนที่ 2
- หารค่ากำลังสองเหล่านี้แต่ละค่าด้วยค่าที่คาดหวังที่สอดคล้องกัน
- การเพิ่มค่าทั้งหมดที่เราได้รับในขั้นตอนที่ 4 จะให้ค่าที่กำหนดสถิติไคสแควร์
- คำนวณระดับความอิสระในการตรวจสอบความพึงพอใจของคุณสมบัติดังกล่าวของการทดสอบไคสแควร์
ประเภทของการทดสอบ Chi-Square
ความดีของ Fit
หากคุณต้องการดูว่ากลุ่มตัวอย่างเป็นตัวแทนของประชากรทั้งหมดได้ดีเพียงใด คุณอาจใช้การทดสอบ Chi-square goodness-of-fit ประชากรตัวอย่างและประชากรตัวอย่างที่คาดการณ์จะถูกเปรียบเทียบโดยใช้เทคนิคนี้
ทดสอบความเป็นอิสระ
การทดสอบ Chi-square เพื่อความเป็นอิสระของประชากรหนึ่งกลุ่มเพื่อตรวจสอบว่ามีความสัมพันธ์กันระหว่างสองตัวแปรตามหมวดหมู่หรือไม่ การทดสอบอิสระแตกต่างจากการทดสอบความพอดีเนื่องจากไม่ได้เปรียบเทียบพารามิเตอร์ที่สังเกตได้เพียงตัวเดียวกับประชากรตามทฤษฎี การทดสอบความเป็นอิสระจะเปรียบเทียบค่าสองค่าภายในชุดตัวอย่างแทนกัน
ทดสอบความเป็นเนื้อเดียวกัน
เช่นเดียวกับการทดสอบความเป็นอิสระ การทดสอบความเป็นเนื้อเดียวกันเป็นไปตามรูปแบบและขั้นตอนเดียวกัน ความแตกต่างที่สำคัญระหว่างทั้งสองคือการทดสอบความเป็นเนื้อเดียวกันตรวจสอบว่าตัวแปรมีการแจกแจงแบบเดียวกันในประชากรจำนวนมากหรือไม่ ในทางตรงกันข้าม การทดสอบความเป็นอิสระจะตรวจสอบการมีอยู่ของความเชื่อมโยงระหว่างสองตัวแปรตามหมวดหมู่ภายในประชากรที่คล้ายคลึงกัน
คุณควรใช้การทดสอบ Chi-square เมื่อใด
การทดสอบ Chi-Square กำหนดว่าค่าจริงสอดคล้องกับความน่าจะเป็นทางทฤษฎีหรือไม่ Chi-Square เป็นการทดสอบที่น่าเชื่อถือที่สุดที่จะใช้เมื่อข้อมูลที่วิเคราะห์มาจากตัวอย่างแบบสุ่มและตัวแปรที่เป็นปัญหามีการจัดหมวดหมู่
ทักษะการเรียนรู้ของเครื่องตามความต้องการ
หลักสูตรปัญญาประดิษฐ์ | หลักสูตร Tableau |
หลักสูตร NLP | หลักสูตรการเรียนรู้เชิงลึก |
การทดสอบไคสแควร์ใช้ที่ไหน?
ให้เรายกตัวอย่างของบริษัทการตลาด
บริษัทการตลาดกำลังมองหาความสัมพันธ์ระหว่างภูมิศาสตร์ผู้บริโภคกับการเลือกแบรนด์ ดังนั้น chi-square จึงมีบทบาทสำคัญ และมูลค่าของสถิติจะแจ้งให้ทราบว่าบริษัทสามารถปรับแนวทางการตลาดของตนตามภูมิภาคต่างๆ ได้อย่างไรเพื่อเพิ่มรายได้สูงสุด
เมื่อวิเคราะห์ข้อมูล การทดสอบ Chi-square มีประโยชน์ในการตรวจสอบความสอดคล้องหรือความเป็นอิสระของตัวแปรตามหมวดหมู่ ตลอดจนแบบจำลองความพอดีที่อยู่ระหว่างการพิจารณา
ในทำนองเดียวกัน สถิติไคสแควร์อาจพบว่ามีการใช้ในวิชาชีพแพทย์ การทดสอบไคสแควร์เหมาะสำหรับการกำหนดประสิทธิภาพของยาเมื่อเปรียบเทียบกับกลุ่มควบคุม
บล็อกการเรียนรู้ของเครื่องยอดนิยมและปัญญาประดิษฐ์
IoT: ประวัติศาสตร์ ปัจจุบัน และอนาคต | บทช่วยสอนการเรียนรู้ของเครื่อง: เรียนรู้ ML | อัลกอริทึมคืออะไร? ง่ายและสะดวก |
เงินเดือนวิศวกรหุ่นยนต์ในอินเดีย: บทบาททั้งหมด | วันหนึ่งในชีวิตของวิศวกรแมชชีนเลิร์นนิง: พวกเขาทำอะไร? | IoT คืออะไร (Internet of Things) |
การเปลี่ยนแปลงและการรวมกัน: ความแตกต่างระหว่างการเปลี่ยนแปลงและการรวมกัน | แนวโน้ม 7 อันดับแรกในปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง | แมชชีนเลิร์นนิงกับ R: ทุกสิ่งที่คุณต้องรู้ |
บทสรุป
ในบทความนี้ คุณได้เรียนรู้เกี่ยวกับสถิติ Chi-square และวิธีการคำนวณค่าของมัน เนื่องจาก Chi-square ทำงานร่วมกับตัวแปรตามหมวดหมู่ จึงมักใช้โดยนักวิชาการที่กำลังตรวจสอบข้อมูลการตอบแบบสำรวจ รูปแบบการศึกษานี้เป็นเรื่องปกติในหลายสาขา เช่น สังคมวิทยา จิตวิทยา เศรษฐศาสตร์ รัฐศาสตร์ และการตลาด
รับวิทยาศาสตรมหาบัณฑิตในการเรียนรู้ของเครื่องและ AI ด้วย upGrad
ในที่สุดคุณกำลังมองหาที่จะบรรลุวิทยาศาสตรมหาบัณฑิตหรือไม่? upGrad ได้ร่วมมือกับ IIIT-B และ Liverpool John Moores University เพื่อนำเสนอหลักสูตรที่มีการดูแลจัดการมากที่สุดเท่าที่จะเป็นไปได้ ด้วย วิทยาศาสตรมหาบัณฑิตสาขาการเรียนรู้ของเครื่องและ AI คุณจะได้เรียนรู้ทุกทักษะที่ต้องการในด้าน ML และ AI เช่น การประมวลผลภาษาธรรมชาติ การเรียนรู้เชิงลึก การเรียนรู้การเสริมกำลัง ฯลฯ
เกณฑ์คุณสมบัติ:
- จบปริญญาตรี 50%
- จบ หลักสูตร Executive Post Graduate Programme in Machine Learning & AI โดย IIIT-B
- มีประสบการณ์การทำงานอย่างน้อย 1 ปี จะได้รับการพิจารณาเป็นพิเศษ
หลักสูตรนี้มีอะไรให้คุณบ้าง:
- สื่อการเรียนการสอนมากกว่า 750 ชั่วโมงให้เรียนรู้จาก
- ออกแบบมาสำหรับมืออาชีพในการทำงาน
- มากกว่า 15 งานและกรณีศึกษา
- มากกว่า 12 โครงการ โดย 6 โครงการเป็นโครงการหลัก
- ชั้นเรียนการเข้ารหัสสด
- เวิร์กช็อปสร้างโปรไฟล์
- อาชีพ Bootcamp
- การฝึกสอนแบบตัวต่อตัวที่มีประสิทธิภาพสูง
- การให้คำปรึกษาด้านอาชีพแบบตัวต่อตัว
- โอกาสในการทำงานพิเศษ
- เซสชันอุตสาหกรรมส่วนบุคคล
ค่า p เกี่ยวข้องกับการทดสอบ Chi-square อย่างไร
ค่า p คือพื้นที่ใต้เส้นโค้งความหนาแน่นของไคสแควร์ซึ่งอยู่ทางด้านขวาของค่าสถิติการทดสอบ สถิติการทดสอบไคสแควร์มีขนาดใหญ่พอที่จะปฏิเสธสมมติฐานว่างหรือไม่เป็นขั้นตอนสุดท้ายในการทดสอบไคสแควร์ที่มีนัยสำคัญ ค่า p ใช้เพื่อจุดประสงค์นี้
มีข้อ จำกัด หรือข้อเสียในการใช้การทดสอบ Chi-square หรือไม่?
บุคคลทุกคนที่กำลังศึกษาต้องไม่ซ้ำกัน มิฉะนั้นผลลัพธ์จะไม่มีความหมาย ไม่ควรใช้การทดสอบไคสแควร์หากผู้ตอบที่กำหนดอาจแบ่งออกเป็นสองกลุ่มที่แตกต่างกัน ข้อจำกัดอีกประการหนึ่งของไคสแควร์คือสามารถใช้ได้กับข้อมูลความถี่เท่านั้น นอกจากนี้ ผลรวมของบุคคลที่คาดการณ์ทั้งหมดในทุกชั้นเรียนควรมากกว่า 5
จุดแข็งของการทดสอบไคสแควร์คืออะไร?
จุดแข็งหลักประการหนึ่งคือสามารถคำนวณไคสแควร์ได้อย่างรวดเร็วและง่ายดาย ข้อมูลที่ระบุอาจใช้วิธีนี้ได้เช่นกัน นอกจากนี้ยังอาจใช้เพื่อเปรียบเทียบตัวแปรตามหมวดหมู่มากกว่าสองกลุ่มสำหรับนัยสำคัญทางสถิติ