ตัวชี้วัด Sklearn คืออะไรและทำไมคุณต้องรู้เกี่ยวกับพวกเขา

เผยแพร่แล้ว: 2021-10-22

Python เป็นหนึ่งใน ภาษาโปรแกรมที่ใช้กันมากที่สุด ในหมู่นักพัฒนาทั่วโลก ความสามารถของข้อมูลอัตโนมัติและอัลกอริธึมทำให้เหมาะสำหรับการสร้างและฝึกอบรมโปรแกรม เครื่องจักร และระบบที่ใช้คอมพิวเตอร์ และการทำนาย ดังนั้นผู้สมัครที่มีทักษะ Python จึงเป็นที่ต้องการมากขึ้นสำหรับเส้นทางอาชีพที่ร่ำรวย เช่น Machine Learning และ Data Science

หากคุณเป็นมือใหม่ การหาเครื่องมือที่เหมาะสมด้วยตัวเองอาจดูน่ากลัว ซอฟต์แวร์ฟรี เช่น Scikit-learn สามารถช่วยให้คุณเรียนรู้ทักษะที่เกี่ยวข้องได้โดยใช้ความพยายามเพียงเล็กน้อย ไลบรารีแมชชีนเลิร์นนิงมีอัลกอริธึมการจำแนกประเภท การถดถอย และการจัดกลุ่มหลายแบบสำหรับโปรแกรมเมอร์ Python

บล็อกนี้จะเน้นเฉพาะปัญหาการจัดหมวดหมู่และตัวชี้วัด sklearn เพื่อแนะนำคุณในการเดินทางการเรียนรู้ของคุณ คุณจะได้เรียนรู้เกี่ยวกับการใช้เมตริกการประเมินและเข้าใจคณิตศาสตร์ที่อยู่เบื้องหลัง

สารบัญ

เมตริกการจำแนกประเภทใน Scikit-Learn

การจัดประเภทเป็นส่วนสำคัญของการสร้างแบบจำลองการคาดการณ์ คุณใช้เพื่อระบุคลาสที่มีกลุ่มตัวอย่างเฉพาะจากประชากร สมมติว่าคุณต้องการทำนายว่าผู้ป่วยจะเข้ารับการรักษาในโรงพยาบาลอีกครั้งหรือไม่ สองประเภทที่เป็นไปได้ที่นี่คือ – เชิงบวก (ในโรงพยาบาล) และเชิงลบ (ไม่เข้ารับการรักษาในโรงพยาบาล) แบบจำลองการจัดหมวดหมู่จะทำนายบัคเก็ตว่าควรวางตัวอย่างไว้ที่ใด ทำนายผลบวก หรือค่าลบที่คาดคะเน คุณจะค้นพบความถูกต้องของการทำนายเมื่อคุณฝึกแบบจำลอง

นักวิทยาศาสตร์ข้อมูลและวิศวกรการเรียนรู้ของเครื่องส่วนใหญ่ใช้แพ็คเกจ Scikit-Learn สำหรับการวิเคราะห์ประสิทธิภาพของแบบจำลองการคาดการณ์ โมดูลเมตริก sklearn ช่วยให้คุณเข้าถึงฟังก์ชันการทำงานในตัวมากมาย มาเปิดเผยขั้นตอนการเขียนฟังก์ชันตั้งแต่เริ่มต้นด้วยเมตริกเหล่านี้กัน

เข้าร่วมหลักสูตรแมชชีนเลิร์นนิงออนไลน์จากมหาวิทยาลัยชั้นนำของโลก – ปริญญาโท หลักสูตร Executive Post Graduate และหลักสูตรประกาศนียบัตรขั้นสูงใน ML & AI เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

ตัวชี้วัด Sklearn อธิบาย

เมตริก Sklearn ช่วยให้คุณใช้ฟังก์ชันคะแนน การสูญเสีย และอรรถประโยชน์เพื่อประเมินประสิทธิภาพการจัดหมวดหมู่

นี่คือขั้นตอนสำคัญที่เกี่ยวข้อง:

  • โหลดข้อมูล;
  • แยกออกเป็นชุดรถไฟและชุดทดสอบ
  • สร้างแบบจำลองการฝึกอบรม
  • คาดการณ์หรือคาดการณ์ข้อมูลการทดสอบ
  • ประเมินโมเดลแมชชีนเลิร์นนิงด้วยวิธีเฉพาะ

เพื่อดำเนินการต่อ คุณจะต้องโหลดชุดข้อมูลตัวอย่างและความสามารถในการคาดการณ์สำหรับสองโมเดล ได้แก่ Random Forest และ Linear Regression เรียกพวกเขาว่า Model_RF และ Model_LR

เรียกใช้รหัสนี้เพื่อนำเข้าโมดูล Pandas และอ่านไฟล์ข้อมูลและตรวจสอบองค์ประกอบ

นำเข้าแพนด้าเป็น ps

df = ps.read_csv('data.csv')

df.head()

ในโครงการส่วนใหญ่ คุณกำหนดเกณฑ์และติดป้ายกำกับความน่าจะเป็นที่คาดการณ์ว่าเป็นค่าบวกที่คาดการณ์ไว้และค่าลบที่คาดการณ์ไว้ สิ่งนี้จะเพิ่มคอลัมน์อีกสองคอลัมน์ในตารางของคุณ

นวดข้าว = 0.5

df['forecasted_RF'] = (df.model_RF >= 0.5).astype('int')

df['forecasted_LR'] = (df.model_LR >= 0.5).astype('int')

df.head()

ตอนนี้เรามีฉลากตามจริงและที่คาดการณ์ไว้แล้ว เราสามารถแบ่งตัวอย่างของเราออกเป็นสี่ถังที่แตกต่างกัน

ด้วยความสับสน_เมทริกซ์ เราสามารถรับอาร์เรย์ 2X2 โดยมีป้ายกำกับแยกออกเป็นสองส่วนในที่เก็บข้อมูลต่อไปนี้:

  • ทรู โพสิทีฟ (TP)
  • ผลบวกเท็จ (FP)
  • ลบเท็จ (FN)
  • ทรูเนกาทีฟ (TN)

หลังจากนำเข้าสับสน_เมทริกซ์จากตัววัด sklearn และส่งผ่านป้ายจริงและที่คาดการณ์ไว้ คุณสามารถกำหนดฟังก์ชันของคุณเพื่อตรวจสอบได้

คุณยังสามารถตรวจสอบว่าผลลัพธ์ของคุณตรงกันหรือไม่โดยใช้ฟังก์ชันยืนยันของ Python และฟังก์ชัน array_equal ของ NumPy

เราสามารถคำนวณเมตริกประสิทธิภาพอื่นๆ ได้มากมายโดยใช้ที่เก็บข้อมูลสี่กลุ่มของ TP, FP, TN และ FN เหล่านี้คือ:

1. ความแม่นยำ_คะแนน

ใช้ฉลากจริงและที่คาดการณ์ไว้เป็นอินพุต และสร้างเศษส่วนของตัวอย่างที่คาดการณ์ได้อย่างถูกต้อง

2.recall_score

มันให้เศษส่วนของเหตุการณ์ที่เป็นบวกทำนายได้อย่างถูกต้อง การเรียกคืนเรียกอีกอย่างว่าความไว

3. precision_score

มันแสดงให้เห็นเศษส่วนของเหตุการณ์เชิงบวกที่คาดการณ์ว่าเป็นบวก

หลังจากคำนวณเมตริกเหล่านี้แล้ว สมมติว่าคุณพบโมเดล RF ที่การเรียกคืนและความแม่นยำดีกว่า การเลือกที่นี่จะเป็นเรื่องง่าย แต่ถ้ารุ่น LR จำได้ดีกว่าและรุ่น RF มีความแม่นยำดีกว่าล่ะ ในกรณีนี้ คุณจะต้องใช้วิธีอื่นที่เรียกว่าคะแนน F1

4. f1_score

เป็นค่าเฉลี่ยฮาร์มอนิกของการเรียกคืนและความแม่นยำ โมเดลที่มีคะแนนสูงกว่าถือเป็นตัวเลือกที่ดีกว่า

เมตริกข้างต้นได้รับการคำนวณด้วยเกณฑ์ที่กำหนดไว้ที่ 0.5 บางคนอาจสงสัยว่าการเปลี่ยนแปลงเกณฑ์นี้จะเปลี่ยนเมตริกประสิทธิภาพด้วยหรือไม่ คำตอบ? ใช่! ฉันจะ.

เรามีอีกวิธีหนึ่งในการประเมินแบบจำลองโดยไม่ต้องเลือกขีดจำกัด กล่าวคือ เส้นโค้งลักษณะการทำงานของผู้รับ (ROC) Scikit-learn ยังมีฟังก์ชันในตัวสำหรับการวิเคราะห์อีกด้วย

ฟังก์ชัน roc_curve และ roc_auc_score ใช้ป้ายกำกับจริงและความน่าจะเป็นที่คาดการณ์ไว้เป็นอินพุต

  • roc_curve

ส่งคืนสามรายการ ได้แก่ เกณฑ์ (ความน่าจะเป็นที่คาดการณ์ที่ไม่ซ้ำกันในลำดับจากมากไปน้อย), FPR (อัตราเท็จบวก) และ TPR (อัตราบวกจริง)

  • roc_auc_curve

ค้นหาพื้นที่ใต้เส้นโค้งของทั้งรุ่น RF และ LR

คุณสามารถกำหนดเมตริกประสิทธิภาพที่ดีขึ้นได้เมื่อคุณพล็อตกราฟ ROC และเพิ่ม AUC ลงในคำอธิบายแผนภูมิ

สรุป

ในการวิเคราะห์เชิงคาดการณ์ คุณสามารถเลือกเมตริกต่างๆ ได้ ความแม่นยำ การเรียกคืน ความแม่นยำ f1 และ AUC เป็นคะแนนยอดนิยมบางส่วน

บางคนอาจต้องการกำหนดเกณฑ์และใช้เมตริกประสิทธิภาพ เช่น ความแม่นยำ การเรียกคืน ความแม่นยำ และคะแนน f1 คนอื่นๆ อาจต้องการใช้ AUC เพื่อวิเคราะห์ประสิทธิภาพของแบบจำลอง เนื่องจากไม่ต้องการการเลือกเกณฑ์ ในท้ายที่สุด คุณควรเลือกใช้เมตริกที่เหมาะสมกับปัญหาทางธุรกิจที่มีอยู่มากที่สุด

ด้วยเหตุนี้ เราได้ให้ภาพรวมของเมตริก sklearn แก่คุณ คุณสามารถใช้ข้อมูลนี้เพื่อชี้แจงพื้นฐานของการเขียนโปรแกรมหลามและเรียนรู้ต่อไปด้วยหลักสูตรออนไลน์ คุณยังสามารถทำงานโครงการเพื่อฝึกฝนและปรับแต่งทักษะของคุณได้อีกด้วย โปรแกรมอย่าง upGrad's Master of Science in Machine Learning & Artificial Intelligence สามารถช่วยทั้งสองอย่างได้

หลักสูตรนี้จะทำให้คุณคุ้นเคยกับชุดเครื่องมือวิทยาศาสตร์ข้อมูลที่สมบูรณ์และครอบคลุมแง่มุมที่เป็นประโยชน์ของ Scikit-Learn และซอฟต์แวร์อื่นๆ นอกจากนี้ ข้อมูลรับรองจากสถาบันที่มีชื่อเสียงเช่น Liverpool John Moores University และ IIIT Bangalore ทำให้คุณแตกต่างจากคู่แข่งในการสมัครงานและการสัมภาษณ์ตำแหน่ง

ตัวชี้วัดการประเมินใน Python คืออะไร

โดยทั่วไป ตัววัดการประเมินจะใช้สำหรับปัญหาการจำแนกประเภทใน Python Scikit-Learn เป็นไลบรารีการเรียนรู้ของเครื่องฟรีที่ช่วยให้งานวิเคราะห์เชิงคาดการณ์ได้หลากหลาย นักวิทยาศาสตร์ด้านข้อมูลที่ต้องการและวิศวกรการเรียนรู้ของเครื่องสามารถใช้ข้อมูลนี้ในการคาดคะเนข้อมูลและวิเคราะห์คุณภาพของแบบจำลองเฉพาะได้

ทำไมคุณถึงต้องการเมตริก sklearn?

เมตริก Sklearn ช่วยให้คุณประเมินคุณภาพการคาดคะเนของคุณ คุณสามารถใช้โมดูลนี้ใน Scikit-Learn สำหรับชุดข้อมูล ฟังก์ชันคะแนน และเมตริกประสิทธิภาพต่างๆ เมทริกซ์ความสับสนใน sklearn เป็นตัวแทนที่มีประโยชน์ของความแม่นยำของการทำนาย ด้วยอินพุต เช่น ป้ายกำกับจริงและที่คาดคะเน ร่วมกับเกณฑ์หรือค่าความเชื่อมั่นที่กำหนด คุณสามารถคำนวณเมตริก เช่น การเรียกคืน ความแม่นยำ และคะแนน f1 วิธีเส้นโค้ง ROC จะปรับสมดุลการประมาณความน่าจะเป็นและให้ตัวชี้วัดประสิทธิภาพในแง่ของพื้นที่ใต้เส้นโค้ง

การศึกษาระดับสูงกว่าปริญญาตรีใน AI & ML ช่วยในการพัฒนาอาชีพได้อย่างไร?

การรับรองขั้นสูงส่วนใหญ่ในสาขาปัญญาประดิษฐ์และการเรียนรู้ของเครื่องจะรวมเครื่องมืออย่างเช่น Scikit-Learn ไว้ในหลักสูตร เป็นองค์ประกอบสำคัญของการเขียนโปรแกรม Python และการฝึกอบรม Data Science แต่สูตรการเขียนโค้ดใน Python และ Scikit-Learn นั้นไม่เพียงพอในสภาพแวดล้อมการทำงานที่มีการแข่งขันสูงในปัจจุบัน คุณต้องได้รับความรู้เชิงอุตสาหกรรมและฝึกฝนทักษะของคุณ ดังนั้น เลือกโปรแกรมการศึกษาที่ให้โอกาสในการดำเนินโครงการและงานที่มอบหมาย