ตัวชี้วัด Sklearn คืออะไรและทำไมคุณต้องรู้เกี่ยวกับพวกเขา
เผยแพร่แล้ว: 2021-10-22Python เป็นหนึ่งใน ภาษาโปรแกรมที่ใช้กันมากที่สุด ในหมู่นักพัฒนาทั่วโลก ความสามารถของข้อมูลอัตโนมัติและอัลกอริธึมทำให้เหมาะสำหรับการสร้างและฝึกอบรมโปรแกรม เครื่องจักร และระบบที่ใช้คอมพิวเตอร์ และการทำนาย ดังนั้นผู้สมัครที่มีทักษะ Python จึงเป็นที่ต้องการมากขึ้นสำหรับเส้นทางอาชีพที่ร่ำรวย เช่น Machine Learning และ Data Science
หากคุณเป็นมือใหม่ การหาเครื่องมือที่เหมาะสมด้วยตัวเองอาจดูน่ากลัว ซอฟต์แวร์ฟรี เช่น Scikit-learn สามารถช่วยให้คุณเรียนรู้ทักษะที่เกี่ยวข้องได้โดยใช้ความพยายามเพียงเล็กน้อย ไลบรารีแมชชีนเลิร์นนิงมีอัลกอริธึมการจำแนกประเภท การถดถอย และการจัดกลุ่มหลายแบบสำหรับโปรแกรมเมอร์ Python
บล็อกนี้จะเน้นเฉพาะปัญหาการจัดหมวดหมู่และตัวชี้วัด sklearn เพื่อแนะนำคุณในการเดินทางการเรียนรู้ของคุณ คุณจะได้เรียนรู้เกี่ยวกับการใช้เมตริกการประเมินและเข้าใจคณิตศาสตร์ที่อยู่เบื้องหลัง
สารบัญ
เมตริกการจำแนกประเภทใน Scikit-Learn
การจัดประเภทเป็นส่วนสำคัญของการสร้างแบบจำลองการคาดการณ์ คุณใช้เพื่อระบุคลาสที่มีกลุ่มตัวอย่างเฉพาะจากประชากร สมมติว่าคุณต้องการทำนายว่าผู้ป่วยจะเข้ารับการรักษาในโรงพยาบาลอีกครั้งหรือไม่ สองประเภทที่เป็นไปได้ที่นี่คือ – เชิงบวก (ในโรงพยาบาล) และเชิงลบ (ไม่เข้ารับการรักษาในโรงพยาบาล) แบบจำลองการจัดหมวดหมู่จะทำนายบัคเก็ตว่าควรวางตัวอย่างไว้ที่ใด ทำนายผลบวก หรือค่าลบที่คาดคะเน คุณจะค้นพบความถูกต้องของการทำนายเมื่อคุณฝึกแบบจำลอง
นักวิทยาศาสตร์ข้อมูลและวิศวกรการเรียนรู้ของเครื่องส่วนใหญ่ใช้แพ็คเกจ Scikit-Learn สำหรับการวิเคราะห์ประสิทธิภาพของแบบจำลองการคาดการณ์ โมดูลเมตริก sklearn ช่วยให้คุณเข้าถึงฟังก์ชันการทำงานในตัวมากมาย มาเปิดเผยขั้นตอนการเขียนฟังก์ชันตั้งแต่เริ่มต้นด้วยเมตริกเหล่านี้กัน
เข้าร่วมหลักสูตรแมชชีนเลิร์นนิงออนไลน์จากมหาวิทยาลัยชั้นนำของโลก – ปริญญาโท หลักสูตร Executive Post Graduate และหลักสูตรประกาศนียบัตรขั้นสูงใน ML & AI เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว
![](/uploads/article/6380/Xkd5ED3NL4V3UlDF.png)
ตัวชี้วัด Sklearn อธิบาย
เมตริก Sklearn ช่วยให้คุณใช้ฟังก์ชันคะแนน การสูญเสีย และอรรถประโยชน์เพื่อประเมินประสิทธิภาพการจัดหมวดหมู่
นี่คือขั้นตอนสำคัญที่เกี่ยวข้อง:
- โหลดข้อมูล;
- แยกออกเป็นชุดรถไฟและชุดทดสอบ
- สร้างแบบจำลองการฝึกอบรม
- คาดการณ์หรือคาดการณ์ข้อมูลการทดสอบ
- ประเมินโมเดลแมชชีนเลิร์นนิงด้วยวิธีเฉพาะ
เพื่อดำเนินการต่อ คุณจะต้องโหลดชุดข้อมูลตัวอย่างและความสามารถในการคาดการณ์สำหรับสองโมเดล ได้แก่ Random Forest และ Linear Regression เรียกพวกเขาว่า Model_RF และ Model_LR
เรียกใช้รหัสนี้เพื่อนำเข้าโมดูล Pandas และอ่านไฟล์ข้อมูลและตรวจสอบองค์ประกอบ
นำเข้าแพนด้าเป็น ps
df = ps.read_csv('data.csv')
df.head()
ในโครงการส่วนใหญ่ คุณกำหนดเกณฑ์และติดป้ายกำกับความน่าจะเป็นที่คาดการณ์ว่าเป็นค่าบวกที่คาดการณ์ไว้และค่าลบที่คาดการณ์ไว้ สิ่งนี้จะเพิ่มคอลัมน์อีกสองคอลัมน์ในตารางของคุณ
นวดข้าว = 0.5
df['forecasted_RF'] = (df.model_RF >= 0.5).astype('int')
df['forecasted_LR'] = (df.model_LR >= 0.5).astype('int')
df.head()
ตอนนี้เรามีฉลากตามจริงและที่คาดการณ์ไว้แล้ว เราสามารถแบ่งตัวอย่างของเราออกเป็นสี่ถังที่แตกต่างกัน
ด้วยความสับสน_เมทริกซ์ เราสามารถรับอาร์เรย์ 2X2 โดยมีป้ายกำกับแยกออกเป็นสองส่วนในที่เก็บข้อมูลต่อไปนี้:
- ทรู โพสิทีฟ (TP)
- ผลบวกเท็จ (FP)
- ลบเท็จ (FN)
- ทรูเนกาทีฟ (TN)
หลังจากนำเข้าสับสน_เมทริกซ์จากตัววัด sklearn และส่งผ่านป้ายจริงและที่คาดการณ์ไว้ คุณสามารถกำหนดฟังก์ชันของคุณเพื่อตรวจสอบได้
คุณยังสามารถตรวจสอบว่าผลลัพธ์ของคุณตรงกันหรือไม่โดยใช้ฟังก์ชันยืนยันของ Python และฟังก์ชัน array_equal ของ NumPy
เราสามารถคำนวณเมตริกประสิทธิภาพอื่นๆ ได้มากมายโดยใช้ที่เก็บข้อมูลสี่กลุ่มของ TP, FP, TN และ FN เหล่านี้คือ:
![](https://s.stat888.com/img/bg.png)
1. ความแม่นยำ_คะแนน
ใช้ฉลากจริงและที่คาดการณ์ไว้เป็นอินพุต และสร้างเศษส่วนของตัวอย่างที่คาดการณ์ได้อย่างถูกต้อง
2.recall_score
มันให้เศษส่วนของเหตุการณ์ที่เป็นบวกทำนายได้อย่างถูกต้อง การเรียกคืนเรียกอีกอย่างว่าความไว
3. precision_score
มันแสดงให้เห็นเศษส่วนของเหตุการณ์เชิงบวกที่คาดการณ์ว่าเป็นบวก
หลังจากคำนวณเมตริกเหล่านี้แล้ว สมมติว่าคุณพบโมเดล RF ที่การเรียกคืนและความแม่นยำดีกว่า การเลือกที่นี่จะเป็นเรื่องง่าย แต่ถ้ารุ่น LR จำได้ดีกว่าและรุ่น RF มีความแม่นยำดีกว่าล่ะ ในกรณีนี้ คุณจะต้องใช้วิธีอื่นที่เรียกว่าคะแนน F1
4. f1_score
เป็นค่าเฉลี่ยฮาร์มอนิกของการเรียกคืนและความแม่นยำ โมเดลที่มีคะแนนสูงกว่าถือเป็นตัวเลือกที่ดีกว่า
เมตริกข้างต้นได้รับการคำนวณด้วยเกณฑ์ที่กำหนดไว้ที่ 0.5 บางคนอาจสงสัยว่าการเปลี่ยนแปลงเกณฑ์นี้จะเปลี่ยนเมตริกประสิทธิภาพด้วยหรือไม่ คำตอบ? ใช่! ฉันจะ.
เรามีอีกวิธีหนึ่งในการประเมินแบบจำลองโดยไม่ต้องเลือกขีดจำกัด กล่าวคือ เส้นโค้งลักษณะการทำงานของผู้รับ (ROC) Scikit-learn ยังมีฟังก์ชันในตัวสำหรับการวิเคราะห์อีกด้วย
ฟังก์ชัน roc_curve และ roc_auc_score ใช้ป้ายกำกับจริงและความน่าจะเป็นที่คาดการณ์ไว้เป็นอินพุต
roc_curve
ส่งคืนสามรายการ ได้แก่ เกณฑ์ (ความน่าจะเป็นที่คาดการณ์ที่ไม่ซ้ำกันในลำดับจากมากไปน้อย), FPR (อัตราเท็จบวก) และ TPR (อัตราบวกจริง)
roc_auc_curve
ค้นหาพื้นที่ใต้เส้นโค้งของทั้งรุ่น RF และ LR
![](/uploads/article/6380/Xkd5ED3NL4V3UlDF.png)
คุณสามารถกำหนดเมตริกประสิทธิภาพที่ดีขึ้นได้เมื่อคุณพล็อตกราฟ ROC และเพิ่ม AUC ลงในคำอธิบายแผนภูมิ
สรุป
ในการวิเคราะห์เชิงคาดการณ์ คุณสามารถเลือกเมตริกต่างๆ ได้ ความแม่นยำ การเรียกคืน ความแม่นยำ f1 และ AUC เป็นคะแนนยอดนิยมบางส่วน
บางคนอาจต้องการกำหนดเกณฑ์และใช้เมตริกประสิทธิภาพ เช่น ความแม่นยำ การเรียกคืน ความแม่นยำ และคะแนน f1 คนอื่นๆ อาจต้องการใช้ AUC เพื่อวิเคราะห์ประสิทธิภาพของแบบจำลอง เนื่องจากไม่ต้องการการเลือกเกณฑ์ ในท้ายที่สุด คุณควรเลือกใช้เมตริกที่เหมาะสมกับปัญหาทางธุรกิจที่มีอยู่มากที่สุด
ด้วยเหตุนี้ เราได้ให้ภาพรวมของเมตริก sklearn แก่คุณ คุณสามารถใช้ข้อมูลนี้เพื่อชี้แจงพื้นฐานของการเขียนโปรแกรมหลามและเรียนรู้ต่อไปด้วยหลักสูตรออนไลน์ คุณยังสามารถทำงานโครงการเพื่อฝึกฝนและปรับแต่งทักษะของคุณได้อีกด้วย โปรแกรมอย่าง upGrad's Master of Science in Machine Learning & Artificial Intelligence สามารถช่วยทั้งสองอย่างได้
หลักสูตรนี้จะทำให้คุณคุ้นเคยกับชุดเครื่องมือวิทยาศาสตร์ข้อมูลที่สมบูรณ์และครอบคลุมแง่มุมที่เป็นประโยชน์ของ Scikit-Learn และซอฟต์แวร์อื่นๆ นอกจากนี้ ข้อมูลรับรองจากสถาบันที่มีชื่อเสียงเช่น Liverpool John Moores University และ IIIT Bangalore ทำให้คุณแตกต่างจากคู่แข่งในการสมัครงานและการสัมภาษณ์ตำแหน่ง
ตัวชี้วัดการประเมินใน Python คืออะไร
โดยทั่วไป ตัววัดการประเมินจะใช้สำหรับปัญหาการจำแนกประเภทใน Python Scikit-Learn เป็นไลบรารีการเรียนรู้ของเครื่องฟรีที่ช่วยให้งานวิเคราะห์เชิงคาดการณ์ได้หลากหลาย นักวิทยาศาสตร์ด้านข้อมูลที่ต้องการและวิศวกรการเรียนรู้ของเครื่องสามารถใช้ข้อมูลนี้ในการคาดคะเนข้อมูลและวิเคราะห์คุณภาพของแบบจำลองเฉพาะได้
ทำไมคุณถึงต้องการเมตริก sklearn?
เมตริก Sklearn ช่วยให้คุณประเมินคุณภาพการคาดคะเนของคุณ คุณสามารถใช้โมดูลนี้ใน Scikit-Learn สำหรับชุดข้อมูล ฟังก์ชันคะแนน และเมตริกประสิทธิภาพต่างๆ เมทริกซ์ความสับสนใน sklearn เป็นตัวแทนที่มีประโยชน์ของความแม่นยำของการทำนาย ด้วยอินพุต เช่น ป้ายกำกับจริงและที่คาดคะเน ร่วมกับเกณฑ์หรือค่าความเชื่อมั่นที่กำหนด คุณสามารถคำนวณเมตริก เช่น การเรียกคืน ความแม่นยำ และคะแนน f1 วิธีเส้นโค้ง ROC จะปรับสมดุลการประมาณความน่าจะเป็นและให้ตัวชี้วัดประสิทธิภาพในแง่ของพื้นที่ใต้เส้นโค้ง
การศึกษาระดับสูงกว่าปริญญาตรีใน AI & ML ช่วยในการพัฒนาอาชีพได้อย่างไร?
การรับรองขั้นสูงส่วนใหญ่ในสาขาปัญญาประดิษฐ์และการเรียนรู้ของเครื่องจะรวมเครื่องมืออย่างเช่น Scikit-Learn ไว้ในหลักสูตร เป็นองค์ประกอบสำคัญของการเขียนโปรแกรม Python และการฝึกอบรม Data Science แต่สูตรการเขียนโค้ดใน Python และ Scikit-Learn นั้นไม่เพียงพอในสภาพแวดล้อมการทำงานที่มีการแข่งขันสูงในปัจจุบัน คุณต้องได้รับความรู้เชิงอุตสาหกรรมและฝึกฝนทักษะของคุณ ดังนั้น เลือกโปรแกรมการศึกษาที่ให้โอกาสในการดำเนินโครงการและงานที่มอบหมาย