ما هي مقاييس Sklearn ولماذا يجب أن تعرف عنها؟

نشرت: 2021-10-22

Python هي واحدة من أكثر لغات البرمجة استخدامًا بين المطورين على مستوى العالم. إن قدراتها في أتمتة البيانات والخوارزميات تجعلها مثالية لبناء وتدريب البرامج والآلات والأنظمة المعتمدة على الكمبيوتر والتنبؤ. لذلك ، يتم تفضيل المرشحين ذوي مهارات Python بشكل متزايد في المسارات الوظيفية المربحة ، مثل التعلم الآلي وعلوم البيانات.

إذا كنت مبتدئًا ، فقد يبدو العثور على الأدوات المناسبة بنفسك أمرًا شاقًا. يمكن أن تمكّنك البرامج المجانية مثل Scikit-Learn من اكتساب المهارات ذات الصلة بقليل من الجهد. تحتوي مكتبة التعلم الآلي على العديد من خوارزميات التصنيف والانحدار والتجميع لمبرمجي بايثون.

ستركز هذه المدونة بشكل خاص على مشاكل التصنيف ومقاييس sklearn لإرشادك في رحلة التعلم الخاصة بك. ستتعرف على تطبيق مقاييس التقييم وستفهم أيضًا الرياضيات التي تقف وراءها.

جدول المحتويات

مقاييس التصنيف في Scikit-Learn

التصنيف جزء لا يتجزأ من النمذجة التنبؤية. يمكنك استخدامه لتحديد الفئة التي تنتمي إليها عينة معينة من السكان. افترض أنك تريد توقع ما إذا كان المريض سيُدخل المستشفى مرة أخرى. النوعان المحتملان هنا هما - إيجابي (في المستشفى) وسلبي (غير مقيم في المستشفى). يتنبأ نموذج التصنيف بالحاوية التي يجب أن توضع فيها العينة ، سواء كانت إيجابية أو سلبية متوقعة. سوف تكتشف دقة التنبؤات بمجرد تدريب النموذج.

يستخدم معظم علماء البيانات ومهندسي التعلم الآلي حزمة Scikit-Learn لتحليل أداء النماذج التنبؤية. تتيح لك وحدة مقاييس sklearn الوصول إلى العديد من الوظائف المضمنة. دعنا نكشف عن عملية كتابة الوظائف من البداية باستخدام هذه المقاييس.

انضم إلى دورة التعلم الآلي عبر الإنترنت من أفضل الجامعات في العالم - الماجستير ، وبرامج الدراسات العليا التنفيذية ، وبرنامج الشهادات المتقدمة في ML & AI لتسريع حياتك المهنية.

شرح مقاييس Sklearn

تتيح لك مقاييس Sklearn تنفيذ الدرجات والخسائر ووظائف المرافق لتقييم أداء التصنيف.

فيما يلي الخطوات الرئيسية المتبعة:

  • تحميل البيانات
  • قم بتقسيمه إلى مجموعة قطار ومجموعة اختبار ؛
  • بناء نموذج التدريب.
  • عمل تنبؤات أو تنبؤات على بيانات الاختبار ؛
  • تقييم نموذج التعلم الآلي بطريقة معينة.

للمتابعة ، ستحتاج إلى تحميل عينة من مجموعة البيانات وإمكانيات التنبؤ لنموذجين ، Random Forest و Linear Regression. دعنا نسميها Model_RF و Model_LR.

قم بتشغيل هذا الرمز لاستيراد وحدة Pandas وقراءة ملف البيانات وفحص عناصره.

استيراد الباندا كما ملاحظة

df = ps.read_csv ('data.csv')

df.head ()

في معظم المشاريع ، تقوم بتعريف عتبة وتسمية احتمالات التنبؤ على أنها إيجابية متوقعة وسلبية متوقعة. سيؤدي هذا إلى إضافة عمودين آخرين إلى جدولك.

عتبة = 0.5

df ['Forecasted_RF'] = (df.model_RF> = 0.5) .astype ('int')

df ['Forecasted_LR'] = (df.model_LR> = 0.5) .astype ('int')

df.head ()

الآن بعد أن أصبح لدينا تسميات فعلية ومتوقعة ، يمكننا تقسيم عيناتنا إلى أربع مجموعات مختلفة.

باستخدام confusion_matrix ، يمكننا الحصول على صفيف 2X2 مع تسميات مقسمة إلى المجموعات التالية:

  • إيجابي حقيقي (TP)
  • إيجابية كاذبة (FP)
  • سلبي كاذب (FN)
  • سلبي حقيقي (TN)

بعد استيراد confusion_matrix من مقاييس sklearn وتمرير الملصقات الفعلية والمتوقعة ، يمكنك تحديد وظائفك للتحقق منها.

يمكنك أيضًا التحقق مما إذا كانت نتائجك تتطابق يدويًا باستخدام وظيفة تأكيد Python ووظيفة array_equal في NumPy.

يمكننا حساب العديد من مقاييس الأداء الأخرى باستخدام الدلاء الأربعة: TP و FP و TN و FN. وهذه هي:

1. دقة_سكور

يأخذ الملصقات الفعلية والمتوقعة كمدخلات وينتج جزء العينات المتوقع بشكل صحيح.

2. استرجاع الدرجات

يعطي جزء من الأحداث الإيجابية التي تم توقعها بشكل صحيح. يُعرف الاستدعاء أيضًا بالحساسية.

3. الدرجات الدقة

يُظهر جزء الأحداث الإيجابية المتوقعة الإيجابية.

بعد حساب كل هذه المقاييس ، افترض أنك تجد نموذج التردد اللاسلكي أفضل في الاستدعاء والدقة. الاختيار هنا سيكون سهلا. ولكن ماذا لو كان طراز LR أفضل في الاستدعاء وكان طراز RF أفضل في الدقة؟ في هذه الحالة ، ستحتاج إلى طريقة أخرى تسمى درجة F1.

4. f1_score

إنها الوسيلة التوافقية للتذكر والدقة. يعتبر النموذج ذو الدرجة الأعلى هو الخيار الأفضل.

تم حساب المقاييس المذكورة أعلاه بحد أدنى 0.5. قد يتساءل المرء عما إذا كان التغيير في هذه العتبة سيغير مقاييس الأداء أيضًا. الاجابة؟ نعم.

لدينا طريقة أخرى لتقييم النموذج دون اختيار عتبة ، أي منحنيات خصائص تشغيل جهاز الاستقبال (ROC). لدى Scikit-Learn أيضًا وظائف مضمنة لتحليلها.

تأخذ الدالتان roc_curve و roc_auc_score التسميات الفعلية والاحتمالات المتوقعة كمدخلات.

  • roc_curve

تقوم بإرجاع ثلاث قوائم ، وهي العتبات (الاحتمالات الفريدة المتوقعة بترتيب تنازلي) و FPR (المعدلات الإيجابية الخاطئة) و ​​TPR (المعدلات الإيجابية الحقيقية).

  • roc_auc_curve

يجد المناطق الواقعة تحت المنحنى لكل من طرازي RF و LR.

يمكنك تحديد مقياس الأداء الأفضل بمجرد رسم منحنى ROC وإضافة AUC إلى الأساطير.

تلخيص لما سبق

في التحليلات التنبؤية ، يمكنك الاختيار من بين مجموعة متنوعة من المقاييس. الدقة ، الاستدعاء ، الدقة ، f1 ، والجامعة الأمريكية بالقاهرة هي بعض من الدرجات الشائعة.

قد يفضل البعض تحديد عتبة واستخدام مقاييس الأداء مثل الدقة والتذكر والدقة وعشرات f1. قد يرغب البعض الآخر في استخدام AUC لتحليل أداء النموذج لأنه لا يتطلب تحديد العتبة. في النهاية ، يجب أن تختار المقياس الأنسب لمشكلة العمل المطروحة.

من خلال هذا ، قدمنا ​​لك نظرة عامة على مقاييس sklearn. يمكنك استخدام هذه المعلومات لتوضيح أساسيات برمجة Python ومواصلة التعلم من خلال الدورات التدريبية عبر الإنترنت. يمكنك أيضًا القيام بأعمال المشروع لممارسة مهاراتك وصقلها. يمكن أن تساعد برامج مثل ماجستير العلوم في التعلم الآلي والذكاء الاصطناعي في upGrad في كليهما.

يطلعك المنهج على مجموعة أدوات علوم البيانات الكاملة ويغطي الجوانب العملية لبرنامج Scikit-Learn والبرامج الأخرى. بالإضافة إلى ذلك ، فإن أوراق الاعتماد من معاهد مرموقة مثل جامعة ليفربول جون مورس و IIIT Bangalore تميزك عن المنافسة في طلبات التوظيف ومقابلات التوظيف.

ما هي مقاييس التقييم في بايثون؟

تُستخدم مقاييس التقييم عادةً لمشاكل التصنيف في بايثون. Scikit-Learn هي مكتبة مجانية للتعلم الآلي تتيح مجموعة واسعة من مهام التحليلات التنبؤية. يمكن لعلماء البيانات ومهندسي التعلم الآلي الطموحين استخدامها لعمل تنبؤات حول البيانات وتحليل جودة نماذج معينة.

لماذا تحتاج إلى مقاييس sklearn؟

تتيح لك مقاييس Sklearn تقييم جودة تنبؤاتك. يمكنك استخدام هذه الوحدة في Scikit-Learn لمختلف مجموعات البيانات ووظائف النقاط ومقاييس الأداء. مصفوفة الارتباك في sklearn هي تمثيل سهل لدقة التنبؤات. باستخدام مدخلات مثل التسميات الفعلية والمتوقعة ، جنبًا إلى جنب مع عتبة محددة أو قيمة ثقة ، يمكنك حساب مقاييس مثل الاستدعاء والدقة ودرجات f1. تعمل طريقة منحنى ROC على موازنة تقديرات الاحتمالية وتعطي مقياس أداء من حيث المنطقة الواقعة تحت المنحنى.

كيف يساعد التعليم بعد التخرج في الذكاء الاصطناعي والتعلم الآلي في التقدم الوظيفي؟

تتضمن معظم الشهادات المتقدمة في مجال الذكاء الاصطناعي وتعلم الآلة أدوات مثل Scikit-Learn في المناهج الدراسية. إنه مكون أساسي في برمجة Python والتدريب على علوم البيانات. لكن وصفات الترميز في Python و Scikit-Learn ليست كافية في بيئة العمل التنافسية اليوم. تحتاج إلى اكتساب المعرفة الموجهة نحو الصناعة وممارسة مهاراتك. لذلك ، اختر البرامج الدراسية التي توفر فرصًا لتنفيذ المشاريع والمهام.