แบบจำลองการถดถอยประเภทต่างๆ ที่คุณต้องรู้

เผยแพร่แล้ว: 2022-01-07

ปัญหาการถดถอยเป็นเรื่องธรรมดาในการเรียนรู้ของเครื่อง และเทคนิคทั่วไปในการแก้ปัญหาคือการวิเคราะห์การถดถอย มันขึ้นอยู่กับการสร้างแบบจำลองข้อมูลและเกี่ยวข้องกับการสร้างเส้นที่พอดีที่สุด ซึ่งผ่านจุดข้อมูลทั้งหมดเพื่อให้ระยะห่างระหว่างเส้นกับจุดข้อมูลแต่ละจุดมีน้อยที่สุด แม้ว่าจะมีเทคนิคการวิเคราะห์การถดถอยที่แตกต่างกันอยู่มากมาย การถดถอยเชิงเส้นและการถดถอยแบบลอจิสติกเป็นเทคนิคที่โดดเด่นที่สุด ประเภทของแบบจำลองการวิเคราะห์การถดถอยที่เราใช้ในที่สุดจะขึ้นอยู่กับลักษณะของข้อมูลที่เกี่ยวข้อง

มาหาข้อมูลเพิ่มเติมเกี่ยวกับการวิเคราะห์การถดถอยและตัวแบบการวิเคราะห์การถดถอยประเภทต่างๆ

สารบัญ

การวิเคราะห์การถดถอยคืออะไร?

การวิเคราะห์การถดถอยเป็นเทคนิคการสร้างแบบจำลองการคาดการณ์สำหรับกำหนดความสัมพันธ์ระหว่างตัวแปรตาม (เป้าหมาย) และตัวแปรอิสระในชุดข้อมูล โดยทั่วไปจะใช้เมื่อตัวแปรเป้าหมายมีค่าต่อเนื่อง และตัวแปรตามและตัวแปรอิสระมีความสัมพันธ์แบบเชิงเส้นหรือไม่เป็นเชิงเส้น ดังนั้น เทคนิคการวิเคราะห์การถดถอยจึงหาประโยชน์ในการกำหนดความสัมพันธ์ของผลเชิงสาเหตุระหว่างตัวแปร การสร้างแบบจำลองอนุกรมเวลา และการพยากรณ์ ตัวอย่างเช่น สามารถศึกษาความสัมพันธ์ระหว่างค่าใช้จ่ายในการขายและค่าโฆษณาของบริษัทได้ดีที่สุดโดยใช้การวิเคราะห์การถดถอย

ประเภทของการวิเคราะห์การถดถอย

มีเทคนิคการวิเคราะห์การถดถอยหลายประเภทที่เราสามารถใช้ทำนายได้ นอกจากนี้ การใช้แต่ละเทคนิคยังถูกขับเคลื่อนโดยปัจจัยต่างๆ เช่น จำนวนของตัวแปรอิสระ รูปร่างของเส้นการถดถอย และประเภทของตัวแปรตาม

ให้เราเข้าใจวิธีวิเคราะห์การถดถอยที่ใช้บ่อยที่สุด:

1. การถดถอยเชิงเส้น

การถดถอยเชิงเส้นเป็นเทคนิคการสร้างแบบจำลองที่รู้จักกันอย่างแพร่หลายมากที่สุด และถือว่าความสัมพันธ์เชิงเส้นระหว่างตัวแปรตาม (Y) และตัวแปรอิสระ (X) มันสร้างความสัมพันธ์เชิงเส้นนี้โดยใช้เส้นการถดถอยหรือที่เรียกว่าเส้นที่พอดีที่สุด ความสัมพันธ์เชิงเส้นแสดงโดยสมการ Y = c+m*X + e โดยที่ 'c' คือจุดตัด 'm' คือความชันของเส้นตรง และ 'e' คือระยะที่ผิดพลาด

ตัวแบบการถดถอยเชิงเส้นสามารถทำได้อย่างง่าย (โดยมีตัวแปรอิสระหนึ่งตัวและตัวแปรอิสระหนึ่งตัว) หรือหลายตัว (โดยมีตัวแปรตามหนึ่งตัวแปรและตัวแปรอิสระมากกว่าหนึ่งตัว)

แหล่งที่มา

2. การถดถอยโลจิสติก

เทคนิคการวิเคราะห์การถดถอยโลจิสติกพบการใช้งานเมื่อตัวแปรตามไม่ต่อเนื่อง กล่าวอีกนัยหนึ่ง เทคนิคนี้ใช้เพื่อประมาณความน่าจะเป็นของเหตุการณ์ที่ไม่เกิดร่วมกัน เช่น ผ่าน/ล้มเหลว จริง/เท็จ 0/1 เป็นต้น ดังนั้น ตัวแปรเป้าหมายสามารถมีค่าได้เพียงหนึ่งในสองค่า และเส้นโค้งซิกมอยด์แทน ความสัมพันธ์กับตัวแปรอิสระ ค่าของความน่าจะเป็นอยู่ระหว่าง 0 ถึง 1

แหล่งที่มา

3. การถดถอยพหุนาม

เทคนิคการวิเคราะห์การถดถอยพหุนามจำลองความสัมพันธ์แบบไม่เชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระ มันคือรูปแบบที่แก้ไขของตัวแบบการถดถอยเชิงเส้นพหุคูณ แต่เส้นที่พอดีที่สุดที่ผ่านจุดข้อมูลทั้งหมดนั้นโค้งและไม่ตรง

แหล่งที่มา

4. การถดถอยของสันเขา

เทคนิคการวิเคราะห์การถดถอยสันเขาจะใช้เมื่อข้อมูลแสดง นั่นคือตัวแปรอิสระมีความสัมพันธ์กันสูง แม้ว่าค่าประมาณกำลังสองน้อยที่สุดในพหุคอลลิเนียร์จะไม่มีความเอนเอียง แต่ความแปรปรวนของพวกมันก็มากพอที่จะเบี่ยงเบนค่าที่สังเกตพบจากค่าจริง การถดถอยริดจ์ช่วยลดข้อผิดพลาดมาตรฐานโดยการแนะนำระดับอคติในการประมาณการถดถอย

แลมบ์ดา (λ) ในสมการถดถอยสันเขาแก้ปัญหาพหุเส้นตรง

แหล่งที่มา

แหล่งที่มา

5. การถดถอยแบบ Lasso

เช่นเดียวกับการถดถอยสันเขา เทคนิคการถดถอยแบบบ่วงบาศ (การหดตัวน้อยที่สุดและตัวดำเนินการคัดเลือก) จะลงโทษขนาดสัมบูรณ์ของสัมประสิทธิ์การถดถอย นอกจากนี้ เทคนิคการถดถอยแบบ Lasso ยังใช้การเลือกตัวแปร ซึ่งส่งผลให้ค่าสัมประสิทธิ์หดตัวลงจนเหลือศูนย์สัมบูรณ์

แหล่งที่มา

6. การถดถอยเชิงปริมาณ

เทคนิคการวิเคราะห์การถดถอยเชิงควอนไทล์เป็นส่วนเสริมของการวิเคราะห์การถดถอยเชิงเส้น ใช้เมื่อไม่เป็นไปตามเงื่อนไขสำหรับการถดถอยเชิงเส้น หรือข้อมูลมีค่าผิดปกติ การถดถอยเชิงปริมาณพบการใช้งานในสถิติและเศรษฐมิติ

แหล่งที่มา

7. การถดถอยเชิงเส้นแบบเบย์

การถดถอยเชิงเส้นแบบเบย์เป็นหนึ่งในประเภทของเทคนิคการวิเคราะห์การถดถอยในการเรียนรู้ของเครื่องที่ใช้ทฤษฎีบทของเบย์เพื่อกำหนดค่าสัมประสิทธิ์การถดถอย แทนที่จะค้นหากำลังสองน้อยที่สุด เทคนิคนี้จะกำหนดการกระจายส่วนหลังของจุดสนใจ เป็นผลให้เทคนิคนี้มีความเสถียรมากกว่าการถดถอยเชิงเส้นอย่างง่าย

แหล่งที่มา

8. การถดถอยส่วนประกอบหลัก

เทคนิคการถดถอยองค์ประกอบหลักโดยทั่วไปจะใช้ในการวิเคราะห์ข้อมูลการถดถอยพหุคูณด้วยมัลติคอลลิเนียร์ เช่นเดียวกับเทคนิคการถดถอยของสันเขา วิธีการถดถอยส่วนประกอบหลักจะลดข้อผิดพลาดมาตรฐานให้เหลือน้อยที่สุดโดยให้ระดับอคติในการประมาณการถดถอย เทคนิคนี้มีสองขั้นตอน – ขั้นแรก การวิเคราะห์องค์ประกอบหลักจะถูกนำไปใช้กับข้อมูลการฝึกอบรม จากนั้นตัวอย่างที่แปลงแล้วจะถูกนำมาใช้ในการฝึกตัวถดถอย

9. การถดถอยกำลังสองน้อยที่สุดบางส่วน

เทคนิคการถดถอยกำลังสองน้อยที่สุดบางส่วนเป็นหนึ่งในเทคนิคการวิเคราะห์การถดถอยที่รวดเร็วและมีประสิทธิภาพโดยอิงตามความแปรปรวนร่วม เป็นประโยชน์สำหรับปัญหาการถดถอยที่จำนวนของตัวแปรอิสระสูงโดยมีความเป็นไปได้ที่หลายคอลลิเนียร์ระหว่างตัวแปร เทคนิคนี้ลดตัวแปรให้เป็นชุดตัวทำนายที่เล็กกว่า ซึ่งจะใช้สำหรับการถดถอย

10. การถดถอยสุทธิยืดหยุ่น

เทคนิคการถดถอยสุทธิแบบยืดหยุ่นเป็นลูกผสมของแบบจำลองสันเขาและการถดถอยแบบลาสโซ่ และมีประโยชน์เมื่อต้องจัดการกับตัวแปรที่มีความสัมพันธ์สูง ใช้บทลงโทษจากวิธีสันเขาและบ่วงบาศในการทำให้แบบจำลองการถดถอยเป็นปกติ

แหล่งที่มา

สรุป

นอกเหนือจากเทคนิคการวิเคราะห์การถดถอยที่เรากล่าวถึงในที่นี้แล้ว ยังมีการใช้แบบจำลองการถดถอยประเภทอื่นๆ อีกหลายประเภทในการเรียนรู้ของเครื่อง เช่น การถดถอยทางนิเวศวิทยา การถดถอยแบบขั้นตอน การถดถอยแบบมีดสั้น และการถดถอยแบบสมบูรณ์ กรณีการใช้งานเฉพาะของเทคนิคการถดถอยประเภทต่างๆ เหล่านี้ขึ้นอยู่กับลักษณะของข้อมูลที่มีอยู่และระดับความถูกต้องที่สามารถทำได้ โดยรวมแล้ว การวิเคราะห์การถดถอยมีประโยชน์หลักสองประการ เหล่านี้มีดังนี้:

  • แสดงถึงความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ
  • มันแสดงให้เห็นความแข็งแกร่งของผลกระทบของตัวแปรอิสระต่อตัวแปรตาม

ก้าวไปข้างหน้า: รับปริญญาวิทยาศาสตรมหาบัณฑิตสาขาการเรียนรู้ของเครื่องและ AI

คุณกำลังมองหาโปรแกรมออนไลน์ที่ครอบคลุมเพื่อเตรียมพร้อมสำหรับการเรียนรู้ด้วยเครื่องและอาชีพด้านปัญญาประดิษฐ์หรือไม่?

upGrad เปิดสอน หลักสูตรวิทยาศาสตรมหาบัณฑิตสาขาการเรียนรู้ด้วยเครื่องและ AI ร่วมกับมหาวิทยาลัย Liverpool John Moores และ IIIT Bangalore เพื่อผลิตผู้เชี่ยวชาญด้าน AI และนักวิทยาศาสตร์ข้อมูล

โปรแกรมออนไลน์ 20 เดือนที่ครอบคลุมนี้ได้รับการออกแบบมาโดยเฉพาะสำหรับมืออาชีพด้านการทำงานที่ต้องการฝึกฝนแนวคิดและทักษะขั้นสูง เช่น Deep Learning, NLP, Graphical Models, Reinforcement Learning และอื่นๆ นอกจากนี้ โปรแกรมตั้งใจที่จะให้พื้นฐานที่มั่นคงในด้านสถิติพร้อมกับภาษาโปรแกรมหลักและเครื่องมือต่างๆ เช่น Python, Keras, TensorFlow, Kubernetes, MySQL และอื่นๆ

ไฮไลท์ของโปรแกรม:

  • ปริญญาโทจาก Liverpool John Moores University
  • Executive PGP จาก IIIT Bangalore
  • เซสชันสดมากกว่า 40 รายการ กรณีศึกษาและโครงการมากกว่า 12 รายการ การมอบหมายการเข้ารหัส 11 รายการ โครงการหลัก 6 โครงการ
  • 25+ เซสชั่นการให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม
  • ความช่วยเหลือด้านอาชีพ 360 องศาและการสนับสนุนการเรียนรู้
  • โอกาสในการสร้างเครือข่ายแบบเพียร์ทูเพียร์

ด้วยคณาจารย์ระดับโลก การสอน เทคโนโลยี และผู้เชี่ยวชาญในอุตสาหกรรม upGrad ได้กลายเป็นแพลตฟอร์ม EdTech ระดับสูงที่ใหญ่ที่สุดในเอเชียใต้และส่งผลกระทบต่อผู้เชี่ยวชาญด้านการทำงานกว่า 500,000 คนทั่วโลก สมัครวันนี้ เพื่อเป็นส่วนหนึ่งของฐานผู้เรียนทั่วโลก 40,000+ แห่งของ upGrad ในกว่า 80 ประเทศ!

1. นิยามการทดสอบการถดถอยคืออะไร?

การทดสอบการถดถอยถูกกำหนดให้เป็นประเภทของการทดสอบซอฟต์แวร์ที่ทำขึ้นเพื่อตรวจสอบว่าการเปลี่ยนแปลงรหัสในซอฟต์แวร์ไม่มีผลกระทบต่อการทำงานของผลิตภัณฑ์ที่ออกหรือไม่ ช่วยให้มั่นใจได้ว่าผลิตภัณฑ์ทำงานได้ดีกับฟังก์ชันการทำงานใหม่หรือการเปลี่ยนแปลงคุณลักษณะที่มีอยู่ การทดสอบการถดถอยเกี่ยวข้องกับการเลือกกรณีทดสอบที่ดำเนินการก่อนหน้านี้บางส่วนหรือทั้งหมดซึ่งจะดำเนินการใหม่เพื่อตรวจสอบสภาพการทำงานของฟังก์ชันที่มีอยู่

จุดประสงค์ของตัวแบบการถดถอยคืออะไร?

การวิเคราะห์การถดถอยทำเพื่อวัตถุประสงค์สองประการ - เพื่อทำนายค่าของตัวแปรตามที่มีข้อมูลบางอย่างเกี่ยวกับตัวแปรอิสระหรือเพื่อทำนายผลกระทบของตัวแปรอิสระต่อตัวแปรตาม

การวิเคราะห์การถดถอยทำเพื่อวัตถุประสงค์สองประการ - เพื่อทำนายค่าของตัวแปรตามที่มีข้อมูลบางอย่างเกี่ยวกับตัวแปรอิสระหรือเพื่อทำนายผลกระทบของตัวแปรอิสระต่อตัวแปรตาม

ขนาดตัวอย่างที่เหมาะสมมีความสำคัญอย่างยิ่งต่อความถูกต้องและความถูกต้องของผลลัพธ์ แม้ว่าจะไม่มีกฎง่ายๆ ในการกำหนดขนาดตัวอย่างที่เหมาะสมในการวิเคราะห์การถดถอย นักวิจัยบางคนพิจารณาการสังเกตอย่างน้อยสิบครั้งต่อตัวแปร ดังนั้น หากเราใช้ตัวแปรอิสระสามตัว ขนาดตัวอย่างขั้นต่ำจะเท่ากับ 30 นักวิจัยหลายคนใช้สูตรทางสถิติเพื่อกำหนดขนาดตัวอย่าง