القضاء على الميزة العودية: ما هو ولماذا هو مهم؟

نشرت: 2023-03-27

البيانات هي العمود الفقري لصنع القرار الحديث ، وتبحث الشركات دائمًا عن طرق لاستخراج رؤى قيمة منها. يعد التعلم الآلي أحد أكثر التقنيات شيوعًا المستخدمة في المؤسسات لتحليل البيانات ، والتي تتضمن تدريب الخوارزميات لعمل تنبؤات بناءً على البيانات التاريخية. ومع ذلك ، لا يتم إنشاء جميع الميزات في مجموعة البيانات بشكل متساوٍ ، وقد يكون لبعضها تأثير أكبر على أداء النموذج أكثر من غيرها.

يعد التخلص من الميزات المتكررة أسلوبًا شائعًا لتحليل البيانات يستخدم لتحديد الميزات غير ذات الصلة أو الزائدة عن الحاجة من مجموعة البيانات وإزالتها ، مما يؤدي إلى تحسين دقة وكفاءة نموذج التعلم الآلي.

احصل على شهادة التعلم الآلي من أفضل الجامعات في العالم. اربح ماجستير أو برنامج PGP تنفيذي أو برامج شهادات متقدمة لتتبع حياتك المهنية بشكل سريع.

في هذه المقالة ، سوف نستكشف ماهية حذف الميزة العودية ، وكيف يعمل ، ولماذا هو مهم للشركات التي تتطلع إلى استخراج رؤى ذات مغزى من بياناتها.

جدول المحتويات

ما هي التقنيات المختلفة لاختيار الميزة؟

يعد اختيار الميزة خطوة حاسمة في التعلم الآلي تتضمن اختيار السمات الأكثر صلة من مجموعة البيانات لبناء نموذج يتنبأ بدقة بالنتائج. ومع ذلك ، فإن اختيار الميزات الصحيحة ليس دائمًا أمرًا سهلاً. هناك العديد من التقنيات المختلفة ، لكل منها نقاط قوتها وضعفها. دعونا نلقي نظرة على بعضها!

طرق التصفية

تحدد طرق التصفية الميزات التي تم إنشاؤها على الخصائص الإحصائية ، مثل ارتباطها بالمتغير أو التباين المستهدف. هذه الطرق فعالة من الناحية الحسابية ويمكن تطبيقها قبل تدريب النموذج. تتضمن أمثلة طرق التصفية اختبار Chi-squared ، واختيار الميزة على أساس الارتباط ، وعتبة التباين.

طرق التغليف

تحدد طرق الالتفاف الميزات من خلال تقييم أداء نموذج التعلم الآلي مع مجموعة فرعية من الميزات. هذه الأساليب باهظة الثمن من الناحية الحسابية ولكنها يمكن أن تؤدي إلى أداء نموذج أفضل. تتضمن أمثلة طرق الغلاف حذف الميزة العودية ، والتحديد الأمامي ، والحذف العكسي.

الطرق المضمنة

بالنسبة للطرق المضمنة ، يحدث اختيار الميزة أثناء التدريب. تتضمن هذه الأساليب تقنيات مثل Lasso و Ridge Regression ، والتي تضيف عقوبات إلى معاملات النموذج لتقليص الميزات الأقل أهمية إلى الصفر.

الطرق الهجينة

تجمع الطرق الهجينة بين تقنيات اختيار الميزات المختلفة لتحقيق نتائج أفضل. غالبًا ما تكون هذه الطرق أكثر فاعلية من استخدام نهج واحد فقط. تتضمن أمثلة الطرق المختلطة ReliefF واختيار ميزة الغابة العشوائية.

في الأساس ، يعتمد اختيار تقنية اختيار الميزة على المشكلة المحددة ومجموعة البيانات والموارد الحسابية المتاحة.

الآن ، دعنا نتعمق أكثر في واحدة من أكثر طرق التجميع أهمية لإزالة الميزات ، وهي إزالة الميزات العودية.

ما هو القضاء على الميزة العودية؟

إزالة الميزات العودية (RFE) هي طريقة مجمعة تزيل بشكل متكرر الميزات وتبني نموذجًا فوق الميزات المتبقية. يقوم بترتيب الميزات بناءً على الأهمية ويزيل أقلها أهمية حتى يتم الوصول إلى العدد المطلوب من الميزات. RFE هي عملية تكرارية تعمل على النحو التالي:

  1. تدريب النموذج على جميع الميزات وترتيبها بناءً على أهميتها.
  2. تخلص من الميزة الأقل أهمية.
  3. قم بتدريب النموذج بشكل متكرر على الميزات المتبقية وقم بإزالة الميزة الأقل أهمية حتى يتم الوصول إلى العدد المطلوب من الميزات.

تنظر RFE في التفاعل بين الميزات وتأثيرها على أداء النموذج.

لفهم كيفية عمل RFE ، دعنا نفكر في مثال.

لنفترض أن لدينا مجموعة بيانات لأسعار المساكن بعشر ميزات مختلفة ، بما في ذلك عدد غرف النوم والمساحة المربعة وعمر المنزل. نريد بناء نموذج للتعلم الآلي للتنبؤ بسعر المنزل بناءً على هذه الميزات. ومع ذلك ، نشك في أن بعض الميزات قد لا تكون مهمة ويمكن أن تضر بأداء النموذج.

يمكننا استخدام RFE لتحديد الميزات الأكثر صلة عن طريق تدريب النموذج بكل الميزات ثم التخلص بشكل متكرر من العناصر الأقل أهمية حتى نصل إلى المجموعة الفرعية المثلى. تقوم RFE بتدريب النموذج أثناء كل تكرار وتقييم أدائه باستخدام مجموعة التحقق من الصحة.

على سبيل المثال ، قد تحدد RFE أن عدد غرف النوم والأقدام المربعة والموقع هي أهم الميزات للتنبؤ بأسعار المنازل. في المقابل ، فإن الميزات الأخرى ، مثل عمر المنزل ، لها تأثير ضئيل على دقة النموذج.

لماذا ظهرت RFE في الصورة؟ ماذا تحل؟

عندما أصبح التعلم الآلي أكثر انتشارًا ، أدرك علماء البيانات أن بعض الميزات قد تكون غير ذات صلة أو زائدة عن الحاجة بينما قد تؤثر أخرى بشكل كبير على دقة النموذج. أدى ذلك إلى ولادة إحدى الطرق الأساسية لبناء نماذج فعالة للتعلم الآلي - وهي تقنية تحديد الميزات الخاصة بإلغاء الميزة التكرارية.

تم تقديم إزالة الميزة التكرارية (RFE) لمعالجة بعض القيود المفروضة على الأساليب الحالية أثناء الظهور كطريقة مجمعة تزيل بشكل متكرر الميزات وتقييم تأثيرها على أداء النموذج. تستمر العملية حتى الوصول إلى العدد الأمثل من الميزات.

يحل RFE العديد من المشكلات التي تواجهها تقنيات اختيار الميزات التقليدية.

  • RFE هو نهج اختيار رجعي يبدأ بجميع الميزات ثم يزيل الأقل أهمية بشكل متكرر. يتفوق هذا الأسلوب على التحديد الأمامي ، والذي يبدأ بالميزة الأقل أهمية ويضيف المزيد حتى الوصول إلى الرقم الأمثل.
  • تتجنب RFE التجهيز الزائد عن طريق التحقق المتبادل أثناء عملية اختيار الميزة. يحدث التجاوز عندما يكون النموذج معقدًا للغاية ويتناسب مع بيانات التدريب جيدًا ، مما يؤدي إلى ضعف الأداء في البيانات الجديدة.
  • يمكن تطبيق RFE على أي نوع من النماذج ، مما يجعلها تقنية متعددة الاستخدامات يمكن استخدامها في العديد من السيناريوهات المختلفة.

تنفيذ خوارزمية RFE في بايثون

توفر Python العديد من المكتبات التي يمكن استخدامها لتنفيذ خوارزمية RFE. دعنا الآن نلقي نظرة على بعض أمثلة RFE Python.

RFE مع scikit-Learn

Scikit-Learn هي مكتبة شهيرة للتعلم الآلي في Python توفر تطبيقًا بسيطًا لخوارزمية RFE. يوضح مقتطف الشفرة التالي كيفية تنفيذ RFE في sci-kit-Learn:

من sklearn.feature_selection استيراد RFE

من sklearn.linear_model استيراد LogisticRegression

النموذج = LogisticRegression ()

rfe = RFE (نموذج ، n_features_to_select = 5)

rfe.fit (X، y)

في مقتطف الشفرة أعلاه ، نقوم أولاً باستيراد فئة RFE من وحدة feature_selection في sci-kit-learn. نقوم بعد ذلك بإنشاء مثيل لفئة LogisticRegression ، والذي سيعمل كمقدر أساسي لدينا. ثم نقوم بإنشاء مثيل لفئة RFE ، ونمرر المقدر الأساسي وعدد الميزات المراد تحديدها. ثم نلائم كائن RFE مع بياناتنا وتسمياتنا.

RFE للتصنيف

في مشاكل التصنيف ، تقوم RFE بإزالة الميزات بشكل متكرر وبناء نموذج على الميزات المتبقية. يعتمد تصنيف الميزة على درجات أهمية الميزة التي يحسبها المقدر. يوضح مقتطف الشفرة التالي استخدام RFE لمشكلة تصنيف:

من sklearn.datasets استيراد make_classification

من sklearn.feature_selection استيراد RFE

من sklearn.tree استيراد DecisionTreeClassifier

X، y = make_classification (n_samples = 1000، n_features = 10، n_informative = 5، n_redundant = 0، random_state = 42)

النموذج = DecisionTreeClassifier ()

rfe = RFE (نموذج ، n_features_to_select = 5)

rfe.fit (X، y)

طباعة ("الميزات المحددة:" ، rfe.support_)

print ("ترتيب الميزة:" ، rfe.ranking_)

في مقتطف الشفرة أعلاه ، قمنا أولاً بإنشاء مجموعة بيانات تركيبية باستخدام وظيفة make_classification من sci-kit-Learn. نقوم بعد ذلك بإنشاء مثيل من فئة DecisionTreeClassifier ، والذي سيكون بمثابة مقدرنا الأساسي. ثم نقوم بإنشاء مثيل لفئة RFE ، ونمرر المقدر الأساسي وعدد الميزات المراد تحديدها. ثم نلائم كائن RFE في بياناتنا وملصقاتنا ، ونطبع الميزات المختارة وميزات الترتيب.

RFE Hyperparameters

يحتوي RFE على العديد من المعلمات الفائقة التي يمكن ضبطها للحصول على نتائج أفضل. بعض المعلمات الفائقة الهامة هي:

  • n_features_to_select: تحدد هذه المعلمة التشعبية عدد الميزات المراد تحديدها.
  • الخطوة: تحدد هذه المعلمة الفائقة عدد الميزات لإزالة كل تكرار.القيمة الافتراضية هي 1 ، مما يعني إزالة معلم واحد في كل تكرار.
  • مقدر: تحدد هذه المعلمة الفائقة المقدر الأساسي الذي يجب استخدامه.بشكل افتراضي ، يتم استخدام SVM خطي.
  • تسجيل النقاط: تحدد هذه المعلمة الفائقة المقياس الذي يجب استخدامه لترتيب الميزة.القيمة الافتراضية هي لا شيء ، مما يعني أنه يتم استخدام طريقة درجة المقدر.
  • cv : يحدد هذا المعامل التشعبي استراتيجية التحقق من الصحة التي يجب استخدامها.القيمة الافتراضية هي بلا ، مما يعني أنه يتم استخدام التحقق من الصحة من ثلاثة أضعاف.

أفضل دورات التعلم الآلي ودورات الذكاء الاصطناعي عبر الإنترنت

ماجستير العلوم في التعلم الآلي والذكاء الاصطناعي من جامعة جون مورس بليفربول برنامج الدراسات العليا التنفيذية في التعلم الآلي والذكاء الاصطناعي من IIITB
برنامج شهادة متقدم في تعلم الآلة و البرمجة اللغوية العصبية من IIITB برنامج الشهادة المتقدم في التعلم الآلي والتعلم العميق من IIITB برنامج الدراسات العليا التنفيذية في علوم البيانات والتعلم الآلي من جامعة ماريلاند
لاستكشاف جميع دوراتنا ، قم بزيارة صفحتنا أدناه.
دورات تعلم الآلة

مستقبل القضاء على الميزة العودية

يبدو مستقبل القضاء على الميزة التكرارية (RFE) واعدًا ، حيث لا يزال أسلوبًا شائعًا لاختيار الميزات في التعلم الآلي. مع زيادة كمية البيانات التي يتم إنشاؤها والحاجة إلى نماذج أكثر كفاءة ودقة ، أصبح اختيار الميزات خطوة أساسية في خط أنابيب التعلم الآلي.

أظهرت الدراسات الحديثة أن RFE يمكنها تحسين أداء نماذج التعلم الآلي بشكل كبير من خلال تقليل أبعاد البيانات والقضاء على الميزات غير ذات الصلة أو الزائدة عن الحاجة. على سبيل المثال ، في دراسة أجراها NCBI ، تم استخدام RFE لاختيار الميزات في تصنيف مرضى الاكتئاب بناءً على بيانات التصوير بالرنين المغناطيسي الوظيفي (fMRI). أظهرت النتائج أن RFE اختار مجموعة فرعية من السمات المرتبطة بشدة بالتشخيص السريري للاكتئاب.

مع استمرار نمو مجال التعلم الآلي ، هناك حاجة إلى تقنيات اختيار ميزة أكثر تطوراً وفعالية. أحد مجالات البحث التي تكتسب الزخم هو استخدام التعلم العميق لاختيار الميزة. ومع ذلك ، غالبًا ما تكون نماذج التعلم العميق باهظة الثمن من الناحية الحسابية وتتطلب تدريبًا على بيانات كبيرة.

في المقابل ، RFE هي تقنية بسيطة وفعالة يمكن تطبيقها على نماذج ومجموعات بيانات مختلفة. لذلك ، من المحتمل أن يستمر استخدام RFE كأسلوب شائع لاختيار الميزات.

مهارات التعلم الآلي عند الطلب

دورات الذكاء الاصطناعي دورات تابلو
دورات البرمجة اللغوية العصبية دورات التعلم العميق

خاتمة

في الختام ، يعد القضاء على الميزة التكرارية (RFE) أسلوبًا فعالاً لاختيار الميزات في التعلم الآلي الذي يشرف على مستقبل مشرق بعد تنفيذه المتطور. تعمل تقنية RFE ، باعتبارها تقنية فعالة لاختيار الميزات ، على دعم استخدامها عبر مجالات متنوعة ، مثل التشخيص الطبي والمعلوماتية الحيوية وتحليل الصور ، مما يضيف إلى توسعها الذي لا يقهر.

إذا كنت ترغب في معرفة المزيد حول التعلم الآلي والذكاء الاصطناعي ، ففكر في التسجيل في برنامج upGrad للتعلم الآلي وبرنامج دبلوم AI PG بالتعاون مع IIIT Bangalore. يغطي هذا البرنامج الشامل أحدث الأدوات والتقنيات في التعلم الآلي والذكاء الاصطناعي ، بما في ذلك تقنيات اختيار الميزات مثل RFE.

سيمنحك هذا البرنامج المهارات والمعرفة اللازمة لبناء نماذج التعلم الآلي ونشرها لتطبيقات العالم الحقيقي.

تقدم بطلبك الآن وجني العديد من الفوائد من التعلم الغامر مع upGrad!

يمكنك أيضًا الاطلاع علىدوراتنا المجانيةالتي تقدمها upGrad في الإدارة وعلوم البيانات والتعلم الآلي والتسويق الرقمي والتكنولوجيا.تحتوي كل هذه الدورات على موارد تعليمية من الدرجة الأولى ، ومحاضرات حية أسبوعية ، ومهام صناعية ، وشهادة إتمام الدورة - وكل ذلك مجانًا!

مدونات AI و ML الشعبية ودورات مجانية

إنترنت الأشياء: التاريخ والحاضر والمستقبل دروس تعلم الآلة: تعلم ML ما هي الخوارزمية؟ بسيط سهل
راتب مهندس الروبوتات في الهند: جميع الأدوار يوم في حياة مهندس التعلم الآلي: ماذا يفعلون؟ ما هو إنترنت الأشياء (إنترنت الأشياء)
التقليب مقابل الجمع: الفرق بين التقليب والجمع أهم 7 اتجاهات في الذكاء الاصطناعي وتعلم الآلة التعلم الآلي باستخدام R: كل ما تحتاج إلى معرفته
دورات مجانية للذكاء الاصطناعي والتعلم الآلي
مقدمة في البرمجة اللغوية العصبية أساسيات التعلم العميق للشبكات العصبية الانحدار الخطي: دليل خطوة بخطوة
الذكاء الاصطناعي في العالم الحقيقي مقدمة في التابلوه دراسة حالة باستخدام Python و SQL و Tableau

ما هو الفرق بين RFE و PCA لاختيار الميزة؟

يعد كل من RFE وتحليل المكونات الرئيسية (PCA) من الأساليب المستخدمة لاختيار الميزات. يتمثل الاختلاف الرئيسي بين الاثنين في أن PCA يعدل السمات الأصلية في مجموعة جديدة ، بينما يلغي RFE السمات الأصلية.

كيف يمكنني تحديد العدد الأمثل من الميزات لتحديدها باستخدام RFE؟

تتمثل إحدى طرق تحديد العدد الأمثل للميزات التي يجب تحديدها باستخدام RFE في إجراء التحقق المتقاطع واختيار عدد الميزات التي توفر أفضل أداء في مجموعة التحقق من الصحة. هناك طريقة أخرى وهي استخدام مخطط حصوي ، والذي يرسم عدد الميزات مقابل أداء النموذج المقابل.

هل يمكن استخدام RFE في مهام التعلم غير الخاضعة للإشراف؟

لا ، RFE هي تقنية تعلم خاضعة للإشراف تتطلب بيانات مصنفة لتحديد الميزات. يمكن استخدام تقنيات أخرى مثل التجميع أو تقليل الأبعاد لاختيار الميزة في مهام التعلم غير الخاضعة للإشراف مع عدم وجود بيانات مصنفة.