Binary Logistic Regression: ภาพรวม ความสามารถ และสมมติฐาน

เผยแพร่แล้ว: 2021-10-05

คำจำกัดความที่ยอมรับมากที่สุดอย่างหนึ่งของการเรียนรู้ด้วยเครื่องมีดังนี้:

“มีการกล่าวว่าโปรแกรมคอมพิวเตอร์เรียนรู้จากประสบการณ์ E เกี่ยวกับงานบางประเภท T และการวัดประสิทธิภาพ P หากประสิทธิภาพในการทำงานในภาษา T ซึ่งวัดโดย P จะเพิ่มขึ้นด้วยประสบการณ์ E”

ในตอนนี้ เพื่อปรับปรุงประสิทธิภาพของเครื่องเมื่อเวลาผ่านไปในงานประเภทเดียวกัน อัลกอริธึมต่างๆ ถูกใช้เพื่อปรับเอาท์พุตของเครื่องให้เหมาะสมและเข้าใกล้ผลลัพธ์ที่ต้องการมากขึ้น การวิเคราะห์การถดถอยเป็นหนึ่งในเทคนิคพื้นฐานและใช้กันมากที่สุดเพื่อให้เครื่องปรับปรุงประสิทธิภาพ

ประกอบด้วยอาร์เรย์ของเทคนิคแมชชีนเลิร์นนิงเพื่อทำนายตัวแปรเอาต์พุตต่อเนื่องตามค่าของตัวแปรทำนายอย่างน้อยหนึ่งค่า การวิเคราะห์การถดถอยมีจุดมุ่งหมายเพื่อพัฒนาสมการทางคณิตศาสตร์ที่สามารถกำหนดตัวแปรต่อเนื่องเป็นฟังก์ชันของตัวแปรทำนายได้

ในบทความก่อนหน้านี้ เราได้ศึกษา Logistic Regression และวิธีการใช้ Logistic Regression ใน Python เรายังได้พูดคุยสั้นๆ เกี่ยวกับ Logistic Regressions สามประเภทในการเรียนรู้ของเครื่อง ในบทความนี้ เราจะมาอธิบายแบบละเอียดเล็กน้อยเกี่ยวกับการถดถอยโลจิสติกแบบไบนารีพร้อมกับภาพรวม ความสามารถ และสมมติฐาน

สารบัญ

ภาพรวมของการถดถอยโลจิสติกแบบไบนารี
ความสามารถของการถดถอยโลจิสติกแบบไบนารี – ประเภทของคำถามที่สามารถตอบได้
สมมติฐานหลักของการถดถอยโลจิสติกแบบไบนารี
สรุปแล้ว
- แบบจำลองสถิติแบบเบย์ใช้สำหรับอะไร?
- การอนุมานแบบเบย์คืออะไร?
- โมเดล Bayesian มีเอกลักษณ์เฉพาะตัวหรือไม่?

ภาพรวมของการถดถอยโลจิสติกแบบไบนารี

การถดถอยโลจิสติกแบบไบนารีหรือทวินามสามารถเข้าใจได้ว่าเป็นประเภทของการถดถอยโลจิสติกที่เกี่ยวข้องกับสถานการณ์ซึ่งผลลัพธ์ที่สังเกตได้สำหรับตัวแปรตามสามารถอยู่ในไบนารีเท่านั้น กล่าวคือ มีเพียงสองประเภทที่เป็นไปได้ คลาสทั้งสองประเภทนี้อาจเป็น 0 หรือ 1 ผ่านหรือไม่ผ่าน ตายหรือมีชีวิต ชนะหรือแพ้ และอื่นๆ

การถดถอยโลจิสติกพหุนามทำงานในสถานการณ์ที่ผลลัพธ์อาจมีมากกว่าสองประเภท - ความเจ็บป่วย A กับการเจ็บป่วย B กับการเจ็บป่วย C - ที่ไม่อยู่ในลำดับใดโดยเฉพาะ Logistic Regression อีกประเภทหนึ่งคือ Ordinal Logistic Regression ที่เกี่ยวข้องกับตัวแปรตามในลักษณะที่เรียงลำดับ

ในการถดถอยลอจิสติกแบบไบนารี ผลลัพธ์ที่เป็นไปได้โดยทั่วไปถูกกำหนดเป็น 0 หรือ 1 เนื่องจากส่งผลให้เกิดการตีความและความเข้าใจที่ตรงไปตรงมาที่สุดของแบบจำลองการถดถอย หากผลลัพธ์เฉพาะสำหรับตัวแปรตามเป็นผลลัพธ์ที่ประสบความสำเร็จหรือน่าสังเกต ผลลัพธ์นั้นจะถูกเข้ารหัสเป็น 0 และหากไม่สำเร็จหรือล้มเหลว จะถูกเข้ารหัสเป็น 0

ในแง่ง่ายๆ Binary Logistic Regression สามารถใช้ในการทำนายโอกาสเป็นกรณีและปัญหาอย่างรอบคอบและแม่นยำโดยพิจารณาจากค่าของตัวทำนายหรือตัวแปรอิสระ

ความสามารถของการถดถอยโลจิสติกแบบไบนารี – ประเภทของคำถามที่สามารถตอบได้

ตามที่กล่าวไว้ข้างต้น Binary Logistic Regression เหมาะอย่างยิ่งสำหรับสถานการณ์ที่เอาต์พุตสามารถเป็นของหนึ่งในสองคลาสหรือกลุ่ม ด้วยเหตุนี้ Binary Logistic Regression จึงเหมาะสมที่สุดที่จะตอบคำถามในลักษณะต่อไปนี้:

ความน่าจะเป็นที่จะเป็นมะเร็งเปลี่ยนแปลงในทุก ๆ KG ที่เพิ่มขึ้นของบุคคลที่มีน้ำหนักเกินหรือไม่?
ความน่าจะเป็นดังกล่าวแตกต่างกันไปสำหรับบุหรี่ทุกซองที่สูบต่อวันหรือไม่?
น้ำหนักตัว ปริมาณไขมัน ปริมาณแคลอรี่ และอายุมีผลต่อความน่าจะเป็นที่จะเป็นโรคหัวใจวายหรือไม่?

อย่างที่คุณเห็น คำตอบของคำถามสามข้อข้างต้นอาจเป็นใช่หรือไม่ใช่ 0 หรือ 1 ดังนั้นจึงสามารถใช้การถดถอยลอจิสติกแบบไบนารีเพื่อตอบคำถามเหล่านี้ได้อย่างแม่นยำ

สมมติฐานหลักของการถดถอยโลจิสติกแบบไบนารี

เช่นเดียวกับอัลกอริธึมการเรียนรู้ของเครื่องอื่น ๆ การถดถอยลอจิสติกแบบไบนารีก็ทำงานบนสมมติฐานบางอย่างเช่นกัน นี่คือ:

ตัวแปรตามเป็นแบบสองขั้ว นั่นคือมีอยู่หรือขาดหายไป แต่ไม่เคยทั้งสองอย่างพร้อมกัน
ไม่ควรมีสิ่งผิดปกติในข้อมูล
ไม่ควรมีความสัมพันธ์กันสูงหรือ multicollinearity ระหว่างตัวทำนายต่างๆ สิ่งนี้สามารถประเมินได้โดยใช้เมทริกซ์สหสัมพันธ์ระหว่างตัวทำนายต่างๆ

สรุปแล้ว

Binary Logistic Regression ช่วยในกรณีการใช้งาน Machine Learning หลายๆ กรณี ตั้งแต่การค้นหาผู้ผิดนัดเงินกู้ไปจนถึงการช่วยเหลือธุรกิจในการรักษาลูกค้า – การถดถอยโลจิสติกแบบไบนารีสามารถขยายได้เพื่อแก้ปัญหาทางธุรกิจที่ซับซ้อนยิ่งขึ้น อย่างไรก็ตาม คุณควรจำไว้ว่านี่เป็นเพียงหนึ่งในมหาสมุทรของเทคนิคอัลกอริธึม Machine Learning เมื่อคุณเชี่ยวชาญการวิเคราะห์การถดถอยแล้ว คุณก็จะได้จัดการกับหัวข้อที่ซับซ้อนและเหมาะสมยิ่งขึ้น

อย่างไรก็ตาม หากคุณยังคงประสบปัญหากับการวิเคราะห์การถดถอยและเริ่มต้นเส้นทางการเรียนรู้ของเครื่อง เราขอแนะนำให้คุณใช้รายการ หลักสูตรการเรียนรู้ ของ เครื่อง ที่ upGrad เรามีฐานผู้เรียนในกว่า 85 ประเทศ โดยมีผู้เรียนที่ชำระเงินแล้วกว่า 40,000 คนทั่วโลก และโปรแกรมของเราส่งผลกระทบต่อคนทำงานมากกว่า 500,000 คน

วิทยาศาสตรมหาบัณฑิตสาขาการเรียนรู้ด้วยเครื่องและปัญญาประดิษฐ์ นำเสนอโดยความร่วมมือกับมหาวิทยาลัย Liverpool John Moores ได้รับการออกแบบมาเพื่อช่วยให้ผู้เรียนเริ่มต้นจากศูนย์และได้รับการเรียนรู้เพียงพอที่จะทำงานในโครงการในชีวิตจริง ความช่วยเหลือด้านอาชีพแบบ 360 องศาของเราจะรับประกันว่าคุณจะได้รับการดูแลเป็นอย่างดีเพื่อทำหน้าที่ระดับแนวหน้าในอุตสาหกรรม ติดต่อเราวันนี้และสัมผัสพลังของการเรียนรู้แบบเพื่อนและเครือข่ายทั่วโลก!

แบบจำลองสถิติแบบเบย์ใช้สำหรับอะไร?

แบบจำลองทางสถิติแบบเบย์นั้นใช้ขั้นตอนทางคณิตศาสตร์และใช้แนวคิดเรื่องความน่าจะเป็นในการแก้ปัญหาทางสถิติ พวกเขาให้หลักฐานเพื่อให้ผู้คนพึ่งพาข้อมูลใหม่และทำการคาดการณ์ตามพารามิเตอร์ของแบบจำลอง

การอนุมานแบบเบย์คืออะไร?

เป็นเทคนิคที่มีประโยชน์ในสถิติซึ่งเราใช้ข้อมูลใหม่เพื่อปรับปรุงความน่าจะเป็นสำหรับสมมติฐานโดยใช้ทฤษฎีบทของเบย์

โมเดล Bayesian มีเอกลักษณ์เฉพาะตัวหรือไม่?

แบบจำลองเบย์มีความเฉพาะตัวตรงที่พารามิเตอร์ทั้งหมดในแบบจำลองทางสถิติ ไม่ว่าจะสังเกตหรือไม่สังเกต จะได้รับการแจกแจงความน่าจะเป็นร่วมกัน