อธิบายการถดถอยเชิงเส้นด้วยตัวอย่าง
เผยแพร่แล้ว: 2021-10-13การถดถอยเชิงเส้นเป็นหนึ่งในอัลกอริธึมที่พบบ่อยที่สุดในการสร้างความสัมพันธ์ระหว่างตัวแปรของชุดข้อมูล แบบจำลองทางคณิตศาสตร์เป็นเครื่องมือที่จำเป็นสำหรับนักวิทยาศาสตร์ด้านข้อมูลในการวิเคราะห์เชิงคาดการณ์ บล็อกนี้จะเติมเต็มคุณในแนวคิดพื้นฐานและอภิปรายตัวอย่างการถดถอยเชิงเส้น
สารบัญ
แบบจำลองการถดถอยคืออะไร?
ตัวแบบการถดถอยอธิบายความสัมพันธ์ระหว่างตัวแปรชุดข้อมูลโดยปรับเส้นให้พอดีกับข้อมูลที่สังเกตได้ เป็นการวิเคราะห์ทางคณิตศาสตร์ที่แยกแยะว่าตัวแปรใดมีผลกระทบและมีความสำคัญมากที่สุด นอกจากนี้ยังกำหนดว่าเรามีความแน่นอนเกี่ยวกับปัจจัยที่เกี่ยวข้อง ตัวแปรสองประเภทคือ:
- ขึ้นอยู่กับ : ปัจจัยที่คุณพยายามทำนายหรือทำความเข้าใจ
- อิสระ: ปัจจัยที่คุณสงสัยว่ามีผลกระทบต่อตัวแปรตาม
ตัวแบบการถดถอยจะใช้เมื่อตัวแปรตามเป็นเชิงปริมาณ อาจเป็นเลขฐานสองในกรณีของการถดถอยโลจิสติก แต่ในบล็อกนี้ เราจะเน้นที่ตัวแบบการถดถอยเชิงเส้นเป็นหลัก โดยที่ตัวแปรทั้งสองเป็นเชิงปริมาณ
สมมติว่าคุณมีข้อมูลเกี่ยวกับยอดขายรายเดือนและปริมาณน้ำฝนเฉลี่ยรายเดือนในช่วงสามปีที่ผ่านมา สมมติว่าคุณพล็อตข้อมูลนี้บนแผนภูมิ แกน y แสดงถึงจำนวนการขาย (ตัวแปรตาม) และแกน x แสดงถึงปริมาณน้ำฝนทั้งหมด แต่ละจุดบนแผนภูมิจะแสดงปริมาณน้ำฝนในแต่ละเดือนและยอดขายที่เกี่ยวข้อง
หากคุณดูข้อมูลอีกครั้ง คุณอาจสังเกตเห็นรูปแบบ สันนิษฐานว่ายอดขายจะสูงขึ้นในวันที่ฝนตกมากขึ้น แต่คงเป็นเรื่องยากที่จะประมาณว่าโดยปกติคุณจะขายได้เท่าไรเมื่อฝนตกในปริมาณที่กำหนด เช่น 3 หรือ 4 นิ้ว คุณอาจได้รับความแน่นอนในระดับหนึ่ง ถ้าคุณลากเส้นผ่านตรงกลางของจุดข้อมูลทั้งหมดบนแผนภูมิ
ทุกวันนี้ Excel และซอฟต์แวร์สถิติ เช่น SPSS, R หรือ STATA สามารถช่วยให้คุณวาดเส้นที่เหมาะกับข้อมูลในมือได้มากที่สุด นอกจากนี้ คุณยังสามารถแสดงสูตรที่อธิบายความชันของเส้นได้อีกด้วย
พิจารณาสูตรนี้สำหรับตัวอย่างข้างต้น: Y = 200 + 3X มันบอกคุณว่าคุณขาย 200 หน่วยเมื่อฝนไม่ตกเลย (เช่น เมื่อ X=0) สมมติว่าตัวแปรยังคงเหมือนเดิมในขณะที่เราเคลื่อนไปข้างหน้า ปริมาณน้ำฝนที่เพิ่มขึ้นทุกๆ นิ้วจะส่งผลให้มียอดขายเฉลี่ยเพิ่มขึ้นอีกสามหน่วย คุณจะขาย 203 หน่วยถ้าฝนตก 1 นิ้ว 206 หน่วยถ้าฝนตก 2 นิ้ว 209 นิ้วถ้าฝนตก 3 นิ้ว เป็นต้น
โดยปกติ สูตรเส้นถดถอยจะรวมคำที่ผิดพลาดด้วย (Y = 200 + 3 X + ระยะของข้อผิดพลาด) โดยคำนึงถึงความเป็นจริงที่ตัวทำนายอิสระอาจไม่ใช่ตัวทำนายที่สมบูรณ์แบบของตัวแปรตามเสมอไป และเส้นก็ให้ค่าประมาณตามข้อมูลที่มีเท่านั้น ยิ่งระยะข้อผิดพลาดมากเท่าไหร่ เส้นการถดถอยของคุณก็จะยิ่งมีความแน่นอนน้อยลงเท่านั้น
พื้นฐานการถดถอยเชิงเส้น
ตัวแบบการถดถอยเชิงเส้นอย่างง่ายใช้เส้นตรงในการประมาณความสัมพันธ์ระหว่างตัวแปรเชิงปริมาณสองตัว หากคุณมีตัวแปรอิสระมากกว่าหนึ่งตัว คุณจะใช้การถดถอยเชิงเส้นหลายตัวแทน
การวิเคราะห์การถดถอยเชิงเส้นอย่างง่ายเกี่ยวข้องกับสองสิ่ง อย่างแรก มันบอกคุณถึงความแข็งแกร่งของความสัมพันธ์ระหว่างปัจจัยที่ขึ้นกับและเป็นอิสระของข้อมูลในอดีต ประการที่สอง จะให้ค่าของตัวแปรตามเป็นค่าหนึ่งของตัวแปรอิสระ
ลองพิจารณาตัวอย่างการถดถอยเชิงเส้นนี้ นักวิจัยทางสังคมที่สนใจที่จะรู้ว่ารายได้ของแต่ละบุคคลส่งผลต่อระดับความสุขของพวกเขาอย่างไร ทำการวิเคราะห์การถดถอยอย่างง่ายเพื่อดูว่ามีความสัมพันธ์เชิงเส้นเกิดขึ้นหรือไม่ ผู้วิจัยใช้ค่าเชิงปริมาณของตัวแปรตาม (ความสุข) และตัวแปรอิสระ (รายได้) โดยการสำรวจผู้คนในพื้นที่ทางภูมิศาสตร์เฉพาะ
ตัวอย่างเช่น ข้อมูลประกอบด้วยตัวเลขรายได้และระดับความสุข (จัดอันดับจาก 1 ถึง 10) จาก 500 คนจากรัฐมหาราษฏระของอินเดีย จากนั้นผู้วิจัยจะวางแผนจุดข้อมูลและจัดแนวการถดถอยเพื่อให้ทราบว่ารายได้ของผู้ตอบแบบสอบถามมีอิทธิพลต่อความเป็นอยู่ที่ดีของพวกเขามากน้อยเพียงใด
การวิเคราะห์การถดถอยเชิงเส้นอิงตามสมมติฐานบางประการเกี่ยวกับข้อมูล มี:
- ลิเนียริตี้ของความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ กล่าวคือ เส้นที่พอดีที่สุดคือเส้นตรง ไม่ใช่ส่วนโค้ง)
- ความสม่ำเสมอของความแปรปรวน หมายถึงขนาดของข้อผิดพลาดในการทำนาย ไม่เปลี่ยนแปลงอย่างมีนัยสำคัญในค่าต่างๆ ของตัวแปรอิสระ
- ความเป็นอิสระของการสังเกตในชุดข้อมูล อ้างถึงความสัมพันธ์ที่ไม่มีแอบแฝง
- ความปกติของการกระจายข้อมูลสำหรับตัวแปรตาม คุณสามารถตรวจสอบสิ่งเดียวกันได้โดยใช้ฟังก์ชัน hist() ใน R
คณิตศาสตร์เบื้องหลังการถดถอยเชิงเส้น
y = c + ax เป็นสมการมาตรฐานโดยที่ y คือผลลัพธ์ (ซึ่งเราต้องการประมาณค่า), x คือตัวแปรอินพุต (ที่เราทราบ), a คือความชันของเส้นตรง และ c คือค่าคงที่
ที่นี่ ผลลัพธ์จะแปรผันเชิงเส้นตามอินพุต ความชันเป็นตัวกำหนดว่า x ส่งผลต่อค่าของ y มากน้อยเพียงใด ค่าคงที่คือค่าของ y เมื่อ x เป็นศูนย์
มาทำความเข้าใจสิ่งนี้ผ่านตัวอย่างการถดถอยเชิงเส้นอื่น ลองนึกภาพว่าคุณทำงานอยู่ในบริษัทรถยนต์และต้องการศึกษาตลาดรถยนต์นั่งส่วนบุคคลของอินเดีย สมมติว่า GDP ของประเทศมีอิทธิพลต่อยอดขายรถยนต์นั่งส่วนบุคคล ในการวางแผนที่ดีขึ้นสำหรับธุรกิจ คุณอาจต้องการหาสมการเชิงเส้นของจำนวนรถที่ขายในประเทศที่เกี่ยวข้องกับ GDP
สำหรับสิ่งนี้ คุณจะต้องใช้ข้อมูลตัวอย่างสำหรับยอดขายรถยนต์นั่งประจำปีและตัวเลข GDP ของทุกปี คุณอาจพบว่า GDP ของปีปัจจุบันส่งผลต่อยอดขายในปีหน้า ไม่ว่าปีใดก็ตาม GDP จะน้อยกว่า ยอดขายรถยนต์ก็จะลดลงในปีถัดๆ ไป
ในการเตรียมข้อมูลนี้สำหรับการวิเคราะห์แมชชีนเลิร์นนิง คุณจะต้องทำงานเพิ่มขึ้นอีกเล็กน้อย
- โปรดเริ่มต้นด้วยสมการ y = c + ขวาน โดยที่ y คือจำนวนรถยนต์ที่ขายในหนึ่งปี และ x คือ GDP ของปีที่แล้ว
- หากต้องการทราบ c และ an ในปัญหาข้างต้น คุณสามารถสร้างแบบจำลองโดยใช้ Python
ดู บทช่วย สอนนี้ เพื่อทำความเข้าใจวิธีการทีละขั้นตอน
หากคุณต้องถดถอยเชิงเส้นอย่างง่ายใน R การตีความและการรายงานผลลัพธ์จะง่ายขึ้นมาก
สำหรับตัวอย่างการถดถอยเชิงเส้นเดียวกัน ให้เราเปลี่ยนสมการเป็น y=B0 + B1x + e อีกครั้ง y เป็นตัวแปรตาม และ x เป็นตัวแปรอิสระหรือตัวแปรที่รู้จัก B0 คือค่าคงที่หรือค่าตัดขวาง B1 คือค่าความชันของค่าสัมประสิทธิ์การถดถอย และ e คือค่าความผิดพลาดของการประมาณค่า
ซอฟต์แวร์ทางสถิติเช่น R สามารถค้นหาแนวที่เหมาะสมที่สุดผ่านข้อมูลและค้นหา B1 ที่ลดข้อผิดพลาดทั้งหมดของแบบจำลองให้เหลือน้อยที่สุด
ทำตามขั้นตอนเหล่านี้เพื่อเริ่มต้น:
- โหลดชุดข้อมูลการขายรถยนต์นั่งในสภาพแวดล้อม R
- เรียกใช้คำสั่งเพื่อสร้างแบบจำลองเชิงเส้นที่อธิบายความสัมพันธ์ระหว่างยอดขายรถยนต์นั่งและ GDP
- sales.gdp.lm <- lm(gdp ~ ยอดขาย, ข้อมูล = sales.data)
- ใช้ฟังก์ชันสรุป () เพื่อดูพารามิเตอร์แบบจำลองเชิงเส้นที่สำคัญที่สุดในรูปแบบตาราง
- สรุป (sales.gdp.lm)
หมายเหตุ: ผลลัพธ์จะมีผลลัพธ์เช่นการเรียก ค่าคงเหลือ และค่าสัมประสิทธิ์ ตาราง 'โทร' ระบุสูตรที่ใช้ 'ค่าคงเหลือ' ให้รายละเอียดค่ามัธยฐาน ควอร์ไทล์ ค่าต่ำสุด และค่าสูงสุด เพื่อระบุว่าแบบจำลองเหมาะสมกับข้อมูลจริงเพียงใด แถวแรกของตาราง 'สัมประสิทธิ์' ประมาณการจุดตัดแกน y และแถวที่สองให้ค่าสัมประสิทธิ์การถดถอย คอลัมน์ของตารางนี้มีป้ายกำกับเช่น Estimate, Std ข้อผิดพลาด ค่า t และค่า p
เรียน รู้หลักสูตรการเรียนรู้ของเครื่อง จากมหาวิทยาลัยชั้นนำของโลก รับ Masters, Executive PGP หรือ Advanced Certificate Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว
- เสียบค่า (Intercept) ลงในสมการถดถอยเพื่อคาดการณ์มูลค่าการขายในช่วงตัวเลข GDP
- ตรวจสอบคอลัมน์ (ประมาณการ) เพื่อทราบผลกระทบ ค่าสัมประสิทธิ์การถดถอยจะบอกคุณว่ายอดขายเปลี่ยนแปลงไปตามการเปลี่ยนแปลงของ GDP มากน้อยเพียงใด
- ค้นหาความแตกต่างในการประมาณความสัมพันธ์ระหว่างยอดขายและ GDP จากป้ายกำกับ (ข้อผิดพลาดมาตรฐาน)
- ดูสถิติการทดสอบภายใต้ (t-value) เพื่อดูว่าผลลัพธ์เกิดขึ้นโดยบังเอิญหรือไม่ ยิ่งค่า t มากเท่าไร โอกาสก็จะยิ่งน้อยลงเท่านั้น
- ผ่านคอลัมน์ Pr(>|t|) หรือค่า p เพื่อดูผลกระทบโดยประมาณของ GDP ต่อยอดขาย หากสมมติฐานว่างเป็นจริง
- นำเสนอผลลัพธ์ของคุณด้วยผลโดยประมาณ ข้อผิดพลาดมาตรฐาน และค่า p โดยสื่อสารอย่างชัดเจนว่าสัมประสิทธิ์การถดถอยหมายถึงอะไร
- รวมกราฟพร้อมกับรายงาน การถดถอยเชิงเส้นอย่างง่ายสามารถแสดงเป็นแผนภูมิพล็อตด้วยเส้นการถดถอยและฟังก์ชัน
- คำนวณข้อผิดพลาดโดยการวัดระยะทางของค่า y ที่สังเกตและคาดการณ์ ยกกำลังสองระยะทางที่ค่า x แต่ละค่า และคำนวณค่าเฉลี่ย
บทสรุป
จากตัวอย่างการถดถอยเชิงเส้นข้างต้น เราได้ให้ภาพรวมเกี่ยวกับการสร้างแบบจำลองการถดถอยเชิงเส้นอย่างง่าย การหาค่าสัมประสิทธิ์การถดถอย และการคำนวณข้อผิดพลาดของการประมาณการ นอกจากนี้เรายังได้กล่าวถึงความเกี่ยวข้องของ Python และ R สำหรับการวิเคราะห์ข้อมูลเชิงคาดการณ์และสถิติ ความรู้เชิงปฏิบัติเกี่ยวกับเครื่องมือดังกล่าวมีความสำคัญต่อการประกอบอาชีพด้านวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องในปัจจุบัน
หากคุณต้องการฝึกฝนทักษะการเขียนโปรแกรม ลองดู Advanced Certificate Program in Machine Learning โดย IIT Madras และ upGrad หลักสูตรออนไลน์ยังรวมถึงกรณีศึกษา โครงการ และช่วงการให้คำปรึกษาจากผู้เชี่ยวชาญเพื่อนำความมุ่งเน้นในอุตสาหกรรมมาสู่กระบวนการฝึกอบรม