จะทำการวิเคราะห์การถดถอยพหุคูณได้อย่างไร

เผยแพร่แล้ว: 2021-11-23

ในการวิเคราะห์ทางสถิติ ตัวแบบการถดถอยส่วนใหญ่จะใช้เมื่อจำเป็นเพื่อพัฒนาความสัมพันธ์ระหว่างตัวแปรที่พิจารณา ความสัมพันธ์ถูกสร้างขึ้นโดยวางเส้นแบ่งระหว่างตัวแปรทั้งหมด เพื่อให้เข้าใจถึงพฤติกรรมของตัวแปรตาม จะใช้ตัวแบบการถดถอย พวกเขาแจ้งให้ผู้ใช้ทราบว่าตัวแปรตามมีการเปลี่ยนแปลงอย่างไรเมื่อมีการเปลี่ยนแปลงของตัวแปรอิสระ

การถดถอยเชิงเส้นพหุคูณเป็นเทคนิคหนึ่งที่ช่วยให้เราประมาณความสัมพันธ์ระหว่างตัวแปรเหล่านั้น กล่าวคือ ตัวแปรตามและตัวแปรอิสระ บทความนี้จะเน้นที่เทคนิคการถดถอยเชิงเส้นพหุคูณและวิธีการดำเนินการ

สารบัญ

การถดถอยเชิงเส้นพหุคูณ

การถดถอยเชิงเส้นพหุคูณเป็นรูปแบบหนึ่งของเทคนิคทางสถิติที่ใช้ในการทำนายผลลัพธ์ของตัวแปรตอบสนองใดๆ เป้าหมายหนึ่งของเทคนิคนี้คือการสร้างความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระและตัวแปรตาม การวิเคราะห์การถดถอยเชิงเส้นพหุคูณ เป็นรูปแบบหนึ่งของ การวิเคราะห์หลายตัวแปร ที่เกี่ยวข้องกับการสังเกตมากกว่าหนึ่งรูปแบบ

เทคนิคส่วนใหญ่สามารถทำได้หากคุณต้องการทราบเกี่ยวกับสิ่งต่อไปนี้:

  • เพื่อให้เข้าใจว่าความสัมพันธ์ระหว่างตัวแปรมีความแข็งแกร่งเพียงใด นอกจากนี้ ถ้าคุณต้องการเข้าใจความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตาม ในกรณีเหล่านั้น เราสามารถใช้เทคนิคการถดถอยเชิงเส้นพหุคูณ
  • เทคนิคนี้สามารถใช้เพื่อทำนายค่าของตัวแปรตามที่เกี่ยวข้องกับตัวแปรอิสระ

สมมติฐานที่พิจารณาในการถดถอยเชิงเส้นพหุคูณ

สมมติฐานบางข้อได้รับการพิจารณาในเทคนิคการถดถอยเชิงเส้นพหุคูณ ต่อไปนี้เป็นข้อสันนิษฐานบางประการสำหรับ MLR:

1. ความสม่ำเสมอของความแปรปรวน

เป็นที่รู้จักกันว่า homoscedasticity ซึ่งหมายความว่าในขณะที่ทำนายผลลัพธ์ ไม่มีการเปลี่ยนแปลงที่สำคัญในข้อผิดพลาดที่เกี่ยวข้องกับการทำนายผลลัพธ์ผ่านค่าของตัวแปรอิสระ วิธีนี้จะถือว่าจำนวนข้อผิดพลาดจะเท่ากันตลอดทั้งโมเดลของ MLR นักวิเคราะห์ต้องพล็อตส่วนที่เหลือที่เป็นมาตรฐานเทียบกับค่าที่คาดการณ์ไว้ ซึ่งจะช่วยในการพิจารณาว่ามีการกระจายจุดอย่างยุติธรรมในตัวแปรอิสระหรือไม่ สามารถใช้ scatterplot ในการลงจุดข้อมูลได้

2. ความเป็นอิสระของการสังเกต

การสังเกตที่พิจารณาในการถดถอยเชิงเส้นพหุคูณถูกรวบรวมโดยใช้เทคนิคทางสถิติที่ถูกต้อง ซึ่งหมายความว่าไม่มีความสัมพันธ์ที่ซ่อนอยู่หรือที่มีอยู่ระหว่างตัวแปรที่รวบรวม บางครั้ง ในเทคนิคนี้ มีบางสถานการณ์ที่ตัวแปรบางตัวมีความสัมพันธ์กับตัวแปรอื่นๆ ดังนั้นก่อนที่จะพัฒนาแบบจำลองการถดถอย การตรวจสอบตัวแปรที่สัมพันธ์กันเหล่านี้จึงเป็นสิ่งสำคัญเสมอ การลบตัวแปรตัวใดตัวหนึ่งออกจากการพัฒนาแบบจำลองนั้นดีกว่าเสมอสำหรับตัวแปรที่แสดงความสัมพันธ์สูง

3. ไม่มีความสัมพันธ์ระหว่างตัวแปรอิสระ

ในอีกทางหนึ่ง อาจกล่าวได้ว่าไม่ควรมี multicollinearity ในข้อมูล หากมีหลายคอลลิเนียร์ นักวิเคราะห์จะพบว่าเป็นการยากที่จะระบุตัวแปรที่มีส่วนทำให้เกิดความแปรปรวนของตัวแปรตาม ดังนั้น วิธีการหนึ่งที่ถือว่าดีที่สุดสำหรับการทดสอบสมมติฐานคือวิธีการแปรผันของปัจจัยเงินเฟ้อ

4. ความปกติ:

ซึ่งหมายความว่าชุดข้อมูลตามการแจกแจงแบบปกติ

5. ความเป็นเส้นตรง

ขณะค้นหาความสัมพันธ์ระหว่างตัวแปร จะมีการพยายามใส่เส้นตรงระหว่างตัวแปร มีการสันนิษฐานกันอย่างกว้างขวางว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอิสระและตัวแปรตาม วิธีหนึ่งในการตรวจสอบความสัมพันธ์เชิงเส้นคือผ่านการสร้าง scatterplot และแสดงภาพ scatterplots ทำให้ผู้ใช้สามารถสังเกตความเป็นเส้นตรงที่มีอยู่ในการสังเกตได้ หากในกรณีที่ไม่มีความสัมพันธ์เชิงเส้นตรง นักวิเคราะห์จะต้องทำการวิเคราะห์ซ้ำ ซอฟต์แวร์ทางสถิติ เช่น SPSS สามารถใช้ในการดำเนินการ MLR ได้

การแสดงทางคณิตศาสตร์ของการถดถอยเชิงเส้นพหุคูณ

ภาพทางคณิตศาสตร์ของตัวแบบการถดถอยพหุคูณเชิงเส้นแสดงอยู่ในสมการด้านล่าง:

ในสมการข้างต้น

  • Y แทนตัวแปรเอาต์พุต
  • X แทนตัวแปรอินพุต
  • Β หมายถึงสัมประสิทธิ์ที่เกี่ยวข้องกับแต่ละเทอม
  • B0 คือค่าของการสกัดกั้น y ซึ่งหมายถึงค่าของ Y เมื่อไม่มีตัวทำนายอื่นๆ ทั้งหมด

บางครั้งสมการของ MLR ประกอบด้วยระยะข้อผิดพลาดที่แสดงด้วยคำว่า "e" ที่ส่วนท้ายของพจน์ในสมการ

ในขณะที่หาความพอดีของเส้นตรง ที่สุด สมการ MLR จะใช้ในการคำนวณสิ่งต่อไปนี้:

  • การคำนวณค่าสัมประสิทธิ์การถดถอยที่ส่งผลให้เกิดข้อผิดพลาดน้อยที่สุดในสมการ MLR
  • สำหรับแบบจำลองโดยรวม สมการจะคำนวณค่าสถิติ t
  • P-value ของโมเดล

สี่เหลี่ยมจัตุรัสน้อยที่สุดสามัญ

วิธีการของการถดถอยเชิงเส้นพหุคูณเรียกอีกอย่างว่ากำลังสองน้อยที่สุดสามัญ (OLS) นี่เป็นเพราะวิธีการของ MLR พยายามหาผลรวมของกำลังสองน้อยที่สุด ดังนั้นจึงเรียกอีกอย่างว่าวิธี OLS หลามภาษาการเขียนโปรแกรมสามารถใช้สำหรับการนำวิธีการเหล่านี้ไปใช้ สองวิธีที่สามารถใช้วิธี OLS ใน python คือ:

1. SciKit เรียนรู้

นี่เป็นแพ็คเกจที่พร้อมใช้งานในภาษาการเขียนโปรแกรมหลาม โมดูลการถดถอยเชิงเส้นจะต้องนำเข้าจากแพ็คเกจของ Scikit Learn จากนั้นโมเดลจะพอดีกับข้อมูล เป็นวิธีที่ตรงไปตรงมาและสามารถใช้ได้อย่างกว้างขวาง

2. สถิติโมเดล

อีกวิธีหนึ่งที่ใช้ในภาษาโปรแกรม python คือแพ็คเกจของ Statsmodels แพ็คเกจนี้สามารถช่วยในการนำเทคนิค OLS ไปใช้

ตัวอย่างการถดถอยเชิงเส้นพหุคูณ

ตัวอย่างบางส่วนของ MLR มีดังต่อไปนี้:

  • แบบจำลองการถดถอยเชิงเส้นพหุคูณ สามารถใช้สำหรับการทำนายผลผลิตพืชผล นี่เป็นเพราะใน MLR มีความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ ในการศึกษาประเภทดังกล่าว จะพิจารณาปัจจัยเพิ่มเติม เช่น ปัจจัยด้านสภาพอากาศ ปริมาณน้ำฝน ระดับปุ๋ย และอุณหภูมิ
  • หากจำเป็นต้องสร้างการเชื่อมต่อระหว่างจำนวนชั่วโมงของการศึกษาที่ดำเนินการกับเกรดเฉลี่ยของชั้นเรียน คุณสามารถใช้วิธี MLR ได้ ในกรณีเช่นนี้ เกรดเฉลี่ยจะเป็นตัวแปรตาม ในขณะที่ตัวแปรอื่นๆ เช่น ชั่วโมงการศึกษา จะเป็นตัวแปรอธิบาย
  • เทคนิค MLR สามารถใช้กำหนดเงินเดือนของผู้บริหารในบริษัทตามประสบการณ์และอายุของผู้บริหารได้ ในกรณีเช่นนี้ เงินเดือนจะกลายเป็นตัวแปรตาม ในขณะที่อายุและประสบการณ์จะเป็นตัวแปรอิสระ

เวิร์กโฟลว์ของ MLR

ข้อมูลจะต้องเตรียมและวิเคราะห์ก่อนเข้าสู่แบบจำลองการถดถอย ข้อมูลส่วนใหญ่จะได้รับการวิเคราะห์เพื่อหาข้อผิดพลาด ค่าผิดปกติ ค่าที่หายไป ฯลฯ ต่อไปนี้คือขั้นตอนบางส่วนที่แสดงให้คุณเห็นถึงวิธีการใช้หรือใช้เทคนิคการถดถอยเชิงเส้นหลายแบบ

1. การเลือกตัวแปร

MLR จำเป็นต้องมีชุดข้อมูลที่มีค่าตัวทำนายที่มีความสัมพันธ์มากที่สุดกับตัวแปรตอบสนอง ซึ่งหมายความว่าควรดึงข้อมูลสูงสุดจากตัวแปรจำนวนน้อยที่สุด การเลือกตัวแปรสามารถทำได้จากกระบวนการต่อไปนี้

  • สามารถเลือกขั้นตอนอัตโนมัติสำหรับการค้นหาตัวแปรได้ สามารถใช้เครื่องมือร่วมกับแพ็คเกจการเขียนโปรแกรมของ R และ Python เพื่อตัดสินใจเลือกตัวแปรที่ดีที่สุดสำหรับการศึกษา MLR
  • สามารถเลือกการถดถอยที่เป็นไปได้ทั้งหมดเพื่อตรวจสอบการมีอยู่ของส่วนย่อยของตัวแปรอิสระใดๆ
  • ค่าของ R2 สามารถนำมาพิจารณาเพื่อวิเคราะห์ตัวแปรที่ดีที่สุด ตัวแปรเหล่านั้นที่มีค่า R2 มากกว่าถือว่าเป็นตัวแปรที่เหมาะสมที่สุดในแบบจำลอง ค่าของ R2 สามารถมาจากตัวเลขสองตัวคือ 0 และ 1 ค่า 0 หมายความว่าไม่มีตัวแปรอิสระตัวใดที่สามารถทำนายผลลัพธ์ของตัวแปรตามได้ ค่า 1 หมายถึงการทำนายโดยตัวแปรอิสระและไม่มีข้อผิดพลาด
  • นอกจากนี้ยังมีอีกคำหนึ่งซึ่งก็คือผลรวมของกำลังสองที่คาดการณ์ไว้ (PRESSp) หากแบบจำลองของ MLR มี PRESSp น้อยกว่า แสดงว่าแบบจำลองนั้นมีความแข็งแกร่งในการทำนายที่ดีกว่า

2. การปรับแต่งโมเดล

แบบจำลองของ MLR สามารถปรับปรุงได้โดยการพิจารณาเกณฑ์ดังต่อไปนี้

  • ค่าของ Global F-test ใช้สำหรับทดสอบความสำคัญของการทำนายผลลัพธ์ของตัวแปรตามโดยตัวแปรอิสระ
  • ปรับ R2 สำหรับตรวจสอบความแปรผันของตัวอย่างทั้งหมดหลังจากปรับพารามิเตอร์และขนาดตัวอย่างแล้ว ค่าที่มากกว่าของคำบ่งชี้ว่าตัวแปรมีความเหมาะสมกับข้อมูลมากกว่า
  • ค่าเฉลี่ยส่วนเบี่ยงเบนกำลังสองของรากหรือ RMSE ใช้เพื่อประมาณค่าเบี่ยงเบนมาตรฐานสำหรับข้อผิดพลาดแบบสุ่ม
  • แบบจำลอง MLR ถือว่าให้การคาดการณ์ที่แม่นยำหากค่าสัมประสิทธิ์การแปรผันเท่ากับ 10% หรือน้อยกว่านั้น

3. การทดสอบสมมติฐานของแบบจำลอง

สมมติฐานที่พิจารณาได้รับการทดสอบในรูปแบบการถดถอยเชิงเส้น สมมติฐานเหล่านี้ควรจะเป็นที่พอใจ

4. การจัดการปัญหาที่เกี่ยวข้องกับโมเดล

ในกรณีที่สมมติฐานบางข้อที่พิจารณาในแบบจำลองถูกละเมิด ควรดำเนินการตามขั้นตอนเพื่อลดปัญหาดังกล่าวให้เหลือน้อยที่สุด

5. การตรวจสอบแบบจำลอง

นี่เป็นขั้นตอนสุดท้ายในการสร้างแบบจำลอง MLR และถือเป็นขั้นตอนที่สำคัญ หลังจากสร้างแบบจำลองแล้ว แบบจำลองนั้นจะต้องได้รับการตรวจสอบความถูกต้อง เมื่อตรวจสอบความถูกต้องแล้ว สามารถใช้สำหรับ การวิเคราะห์การถดถอยพหุคูณแบบ ใด ก็ได้

บทสรุป

การถดถอยเชิงเส้นพหุคูณเป็นหนึ่งในเทคนิคที่ใช้กันอย่างแพร่หลายในการศึกษาวิจัยใดๆ เพื่อสร้างความสัมพันธ์ระหว่างตัวแปร นอกจากนี้ยังถือเป็นอัลกอริธึมที่สำคัญในโลกของการเรียนรู้ด้วยเครื่อง อย่างไรก็ตาม หากคุณยังใหม่ต่อการวิเคราะห์การถดถอย จะดีกว่าเสมอที่จะเข้าใจแบบจำลองการถดถอยและการถดถอยเชิงเส้นอย่างง่าย

รับหลักสูตรการเรียนรู้ของเครื่องจากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

ยกระดับอาชีพของคุณในการเรียนรู้ของเครื่องและปัญญาประดิษฐ์

สมัครตอนนี้เพื่อรับ Executive Certification ใน Ai-ml จาก IIITB