จะทำการวิเคราะห์การถดถอยพหุคูณได้อย่างไร
เผยแพร่แล้ว: 2021-11-23ในการวิเคราะห์ทางสถิติ ตัวแบบการถดถอยส่วนใหญ่จะใช้เมื่อจำเป็นเพื่อพัฒนาความสัมพันธ์ระหว่างตัวแปรที่พิจารณา ความสัมพันธ์ถูกสร้างขึ้นโดยวางเส้นแบ่งระหว่างตัวแปรทั้งหมด เพื่อให้เข้าใจถึงพฤติกรรมของตัวแปรตาม จะใช้ตัวแบบการถดถอย พวกเขาแจ้งให้ผู้ใช้ทราบว่าตัวแปรตามมีการเปลี่ยนแปลงอย่างไรเมื่อมีการเปลี่ยนแปลงของตัวแปรอิสระ
การถดถอยเชิงเส้นพหุคูณเป็นเทคนิคหนึ่งที่ช่วยให้เราประมาณความสัมพันธ์ระหว่างตัวแปรเหล่านั้น กล่าวคือ ตัวแปรตามและตัวแปรอิสระ บทความนี้จะเน้นที่เทคนิคการถดถอยเชิงเส้นพหุคูณและวิธีการดำเนินการ
สารบัญ
การถดถอยเชิงเส้นพหุคูณ
การถดถอยเชิงเส้นพหุคูณเป็นรูปแบบหนึ่งของเทคนิคทางสถิติที่ใช้ในการทำนายผลลัพธ์ของตัวแปรตอบสนองใดๆ เป้าหมายหนึ่งของเทคนิคนี้คือการสร้างความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระและตัวแปรตาม การวิเคราะห์การถดถอยเชิงเส้นพหุคูณ เป็นรูปแบบหนึ่งของ การวิเคราะห์หลายตัวแปร ที่เกี่ยวข้องกับการสังเกตมากกว่าหนึ่งรูปแบบ
เทคนิคส่วนใหญ่สามารถทำได้หากคุณต้องการทราบเกี่ยวกับสิ่งต่อไปนี้:
- เพื่อให้เข้าใจว่าความสัมพันธ์ระหว่างตัวแปรมีความแข็งแกร่งเพียงใด นอกจากนี้ ถ้าคุณต้องการเข้าใจความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตาม ในกรณีเหล่านั้น เราสามารถใช้เทคนิคการถดถอยเชิงเส้นพหุคูณ
- เทคนิคนี้สามารถใช้เพื่อทำนายค่าของตัวแปรตามที่เกี่ยวข้องกับตัวแปรอิสระ
สมมติฐานที่พิจารณาในการถดถอยเชิงเส้นพหุคูณ
สมมติฐานบางข้อได้รับการพิจารณาในเทคนิคการถดถอยเชิงเส้นพหุคูณ ต่อไปนี้เป็นข้อสันนิษฐานบางประการสำหรับ MLR:
1. ความสม่ำเสมอของความแปรปรวน
เป็นที่รู้จักกันว่า homoscedasticity ซึ่งหมายความว่าในขณะที่ทำนายผลลัพธ์ ไม่มีการเปลี่ยนแปลงที่สำคัญในข้อผิดพลาดที่เกี่ยวข้องกับการทำนายผลลัพธ์ผ่านค่าของตัวแปรอิสระ วิธีนี้จะถือว่าจำนวนข้อผิดพลาดจะเท่ากันตลอดทั้งโมเดลของ MLR นักวิเคราะห์ต้องพล็อตส่วนที่เหลือที่เป็นมาตรฐานเทียบกับค่าที่คาดการณ์ไว้ ซึ่งจะช่วยในการพิจารณาว่ามีการกระจายจุดอย่างยุติธรรมในตัวแปรอิสระหรือไม่ สามารถใช้ scatterplot ในการลงจุดข้อมูลได้
2. ความเป็นอิสระของการสังเกต
การสังเกตที่พิจารณาในการถดถอยเชิงเส้นพหุคูณถูกรวบรวมโดยใช้เทคนิคทางสถิติที่ถูกต้อง ซึ่งหมายความว่าไม่มีความสัมพันธ์ที่ซ่อนอยู่หรือที่มีอยู่ระหว่างตัวแปรที่รวบรวม บางครั้ง ในเทคนิคนี้ มีบางสถานการณ์ที่ตัวแปรบางตัวมีความสัมพันธ์กับตัวแปรอื่นๆ ดังนั้นก่อนที่จะพัฒนาแบบจำลองการถดถอย การตรวจสอบตัวแปรที่สัมพันธ์กันเหล่านี้จึงเป็นสิ่งสำคัญเสมอ การลบตัวแปรตัวใดตัวหนึ่งออกจากการพัฒนาแบบจำลองนั้นดีกว่าเสมอสำหรับตัวแปรที่แสดงความสัมพันธ์สูง
3. ไม่มีความสัมพันธ์ระหว่างตัวแปรอิสระ
ในอีกทางหนึ่ง อาจกล่าวได้ว่าไม่ควรมี multicollinearity ในข้อมูล หากมีหลายคอลลิเนียร์ นักวิเคราะห์จะพบว่าเป็นการยากที่จะระบุตัวแปรที่มีส่วนทำให้เกิดความแปรปรวนของตัวแปรตาม ดังนั้น วิธีการหนึ่งที่ถือว่าดีที่สุดสำหรับการทดสอบสมมติฐานคือวิธีการแปรผันของปัจจัยเงินเฟ้อ
4. ความปกติ:
ซึ่งหมายความว่าชุดข้อมูลตามการแจกแจงแบบปกติ
5. ความเป็นเส้นตรง
ขณะค้นหาความสัมพันธ์ระหว่างตัวแปร จะมีการพยายามใส่เส้นตรงระหว่างตัวแปร มีการสันนิษฐานกันอย่างกว้างขวางว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอิสระและตัวแปรตาม วิธีหนึ่งในการตรวจสอบความสัมพันธ์เชิงเส้นคือผ่านการสร้าง scatterplot และแสดงภาพ scatterplots ทำให้ผู้ใช้สามารถสังเกตความเป็นเส้นตรงที่มีอยู่ในการสังเกตได้ หากในกรณีที่ไม่มีความสัมพันธ์เชิงเส้นตรง นักวิเคราะห์จะต้องทำการวิเคราะห์ซ้ำ ซอฟต์แวร์ทางสถิติ เช่น SPSS สามารถใช้ในการดำเนินการ MLR ได้
การแสดงทางคณิตศาสตร์ของการถดถอยเชิงเส้นพหุคูณ
ภาพทางคณิตศาสตร์ของตัวแบบการถดถอยพหุคูณเชิงเส้นแสดงอยู่ในสมการด้านล่าง:
ในสมการข้างต้น
- Y แทนตัวแปรเอาต์พุต
- X แทนตัวแปรอินพุต
- Β หมายถึงสัมประสิทธิ์ที่เกี่ยวข้องกับแต่ละเทอม
- B0 คือค่าของการสกัดกั้น y ซึ่งหมายถึงค่าของ Y เมื่อไม่มีตัวทำนายอื่นๆ ทั้งหมด
บางครั้งสมการของ MLR ประกอบด้วยระยะข้อผิดพลาดที่แสดงด้วยคำว่า "e" ที่ส่วนท้ายของพจน์ในสมการ
ในขณะที่หาความพอดีของเส้นตรง ที่สุด สมการ MLR จะใช้ในการคำนวณสิ่งต่อไปนี้:
- การคำนวณค่าสัมประสิทธิ์การถดถอยที่ส่งผลให้เกิดข้อผิดพลาดน้อยที่สุดในสมการ MLR
- สำหรับแบบจำลองโดยรวม สมการจะคำนวณค่าสถิติ t
- P-value ของโมเดล
สี่เหลี่ยมจัตุรัสน้อยที่สุดสามัญ
วิธีการของการถดถอยเชิงเส้นพหุคูณเรียกอีกอย่างว่ากำลังสองน้อยที่สุดสามัญ (OLS) นี่เป็นเพราะวิธีการของ MLR พยายามหาผลรวมของกำลังสองน้อยที่สุด ดังนั้นจึงเรียกอีกอย่างว่าวิธี OLS หลามภาษาการเขียนโปรแกรมสามารถใช้สำหรับการนำวิธีการเหล่านี้ไปใช้ สองวิธีที่สามารถใช้วิธี OLS ใน python คือ:
1. SciKit เรียนรู้
นี่เป็นแพ็คเกจที่พร้อมใช้งานในภาษาการเขียนโปรแกรมหลาม โมดูลการถดถอยเชิงเส้นจะต้องนำเข้าจากแพ็คเกจของ Scikit Learn จากนั้นโมเดลจะพอดีกับข้อมูล เป็นวิธีที่ตรงไปตรงมาและสามารถใช้ได้อย่างกว้างขวาง
2. สถิติโมเดล
อีกวิธีหนึ่งที่ใช้ในภาษาโปรแกรม python คือแพ็คเกจของ Statsmodels แพ็คเกจนี้สามารถช่วยในการนำเทคนิค OLS ไปใช้
ตัวอย่างการถดถอยเชิงเส้นพหุคูณ
ตัวอย่างบางส่วนของ MLR มีดังต่อไปนี้:
- แบบจำลองการถดถอยเชิงเส้นพหุคูณ สามารถใช้สำหรับการทำนายผลผลิตพืชผล นี่เป็นเพราะใน MLR มีความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ ในการศึกษาประเภทดังกล่าว จะพิจารณาปัจจัยเพิ่มเติม เช่น ปัจจัยด้านสภาพอากาศ ปริมาณน้ำฝน ระดับปุ๋ย และอุณหภูมิ
- หากจำเป็นต้องสร้างการเชื่อมต่อระหว่างจำนวนชั่วโมงของการศึกษาที่ดำเนินการกับเกรดเฉลี่ยของชั้นเรียน คุณสามารถใช้วิธี MLR ได้ ในกรณีเช่นนี้ เกรดเฉลี่ยจะเป็นตัวแปรตาม ในขณะที่ตัวแปรอื่นๆ เช่น ชั่วโมงการศึกษา จะเป็นตัวแปรอธิบาย
- เทคนิค MLR สามารถใช้กำหนดเงินเดือนของผู้บริหารในบริษัทตามประสบการณ์และอายุของผู้บริหารได้ ในกรณีเช่นนี้ เงินเดือนจะกลายเป็นตัวแปรตาม ในขณะที่อายุและประสบการณ์จะเป็นตัวแปรอิสระ
เวิร์กโฟลว์ของ MLR
ข้อมูลจะต้องเตรียมและวิเคราะห์ก่อนเข้าสู่แบบจำลองการถดถอย ข้อมูลส่วนใหญ่จะได้รับการวิเคราะห์เพื่อหาข้อผิดพลาด ค่าผิดปกติ ค่าที่หายไป ฯลฯ ต่อไปนี้คือขั้นตอนบางส่วนที่แสดงให้คุณเห็นถึงวิธีการใช้หรือใช้เทคนิคการถดถอยเชิงเส้นหลายแบบ
1. การเลือกตัวแปร
MLR จำเป็นต้องมีชุดข้อมูลที่มีค่าตัวทำนายที่มีความสัมพันธ์มากที่สุดกับตัวแปรตอบสนอง ซึ่งหมายความว่าควรดึงข้อมูลสูงสุดจากตัวแปรจำนวนน้อยที่สุด การเลือกตัวแปรสามารถทำได้จากกระบวนการต่อไปนี้
- สามารถเลือกขั้นตอนอัตโนมัติสำหรับการค้นหาตัวแปรได้ สามารถใช้เครื่องมือร่วมกับแพ็คเกจการเขียนโปรแกรมของ R และ Python เพื่อตัดสินใจเลือกตัวแปรที่ดีที่สุดสำหรับการศึกษา MLR
- สามารถเลือกการถดถอยที่เป็นไปได้ทั้งหมดเพื่อตรวจสอบการมีอยู่ของส่วนย่อยของตัวแปรอิสระใดๆ
- ค่าของ R2 สามารถนำมาพิจารณาเพื่อวิเคราะห์ตัวแปรที่ดีที่สุด ตัวแปรเหล่านั้นที่มีค่า R2 มากกว่าถือว่าเป็นตัวแปรที่เหมาะสมที่สุดในแบบจำลอง ค่าของ R2 สามารถมาจากตัวเลขสองตัวคือ 0 และ 1 ค่า 0 หมายความว่าไม่มีตัวแปรอิสระตัวใดที่สามารถทำนายผลลัพธ์ของตัวแปรตามได้ ค่า 1 หมายถึงการทำนายโดยตัวแปรอิสระและไม่มีข้อผิดพลาด
- นอกจากนี้ยังมีอีกคำหนึ่งซึ่งก็คือผลรวมของกำลังสองที่คาดการณ์ไว้ (PRESSp) หากแบบจำลองของ MLR มี PRESSp น้อยกว่า แสดงว่าแบบจำลองนั้นมีความแข็งแกร่งในการทำนายที่ดีกว่า
2. การปรับแต่งโมเดล
แบบจำลองของ MLR สามารถปรับปรุงได้โดยการพิจารณาเกณฑ์ดังต่อไปนี้
- ค่าของ Global F-test ใช้สำหรับทดสอบความสำคัญของการทำนายผลลัพธ์ของตัวแปรตามโดยตัวแปรอิสระ
- ปรับ R2 สำหรับตรวจสอบความแปรผันของตัวอย่างทั้งหมดหลังจากปรับพารามิเตอร์และขนาดตัวอย่างแล้ว ค่าที่มากกว่าของคำบ่งชี้ว่าตัวแปรมีความเหมาะสมกับข้อมูลมากกว่า
- ค่าเฉลี่ยส่วนเบี่ยงเบนกำลังสองของรากหรือ RMSE ใช้เพื่อประมาณค่าเบี่ยงเบนมาตรฐานสำหรับข้อผิดพลาดแบบสุ่ม
- แบบจำลอง MLR ถือว่าให้การคาดการณ์ที่แม่นยำหากค่าสัมประสิทธิ์การแปรผันเท่ากับ 10% หรือน้อยกว่านั้น
3. การทดสอบสมมติฐานของแบบจำลอง
สมมติฐานที่พิจารณาได้รับการทดสอบในรูปแบบการถดถอยเชิงเส้น สมมติฐานเหล่านี้ควรจะเป็นที่พอใจ
4. การจัดการปัญหาที่เกี่ยวข้องกับโมเดล
ในกรณีที่สมมติฐานบางข้อที่พิจารณาในแบบจำลองถูกละเมิด ควรดำเนินการตามขั้นตอนเพื่อลดปัญหาดังกล่าวให้เหลือน้อยที่สุด
5. การตรวจสอบแบบจำลอง
นี่เป็นขั้นตอนสุดท้ายในการสร้างแบบจำลอง MLR และถือเป็นขั้นตอนที่สำคัญ หลังจากสร้างแบบจำลองแล้ว แบบจำลองนั้นจะต้องได้รับการตรวจสอบความถูกต้อง เมื่อตรวจสอบความถูกต้องแล้ว สามารถใช้สำหรับ การวิเคราะห์การถดถอยพหุคูณแบบ ใด ก็ได้
บทสรุป
การถดถอยเชิงเส้นพหุคูณเป็นหนึ่งในเทคนิคที่ใช้กันอย่างแพร่หลายในการศึกษาวิจัยใดๆ เพื่อสร้างความสัมพันธ์ระหว่างตัวแปร นอกจากนี้ยังถือเป็นอัลกอริธึมที่สำคัญในโลกของการเรียนรู้ด้วยเครื่อง อย่างไรก็ตาม หากคุณยังใหม่ต่อการวิเคราะห์การถดถอย จะดีกว่าเสมอที่จะเข้าใจแบบจำลองการถดถอยและการถดถอยเชิงเส้นอย่างง่าย
รับหลักสูตรการเรียนรู้ของเครื่องจากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว