أهم 6 تقنيات مستخدمة في هندسة الميزات [التعلم الآلي]

نشرت: 2021-03-12

جدول المحتويات

مقدمة

تعد هندسة الميزات أحد أهم جوانب أي مشروع لعلوم البيانات. تشير هندسة الميزات إلى التقنيات المستخدمة لاستخراج وتنقية الميزات من البيانات الأولية. تُستخدم تقنيات هندسة الميزات لإنشاء بيانات إدخال مناسبة للنموذج ولتحسين أداء النموذج.

يتم تدريب النماذج وبناءها على الميزات التي نستمدها من البيانات الأولية لتوفير المخرجات المطلوبة. قد يحدث أن البيانات التي لدينا ليست جيدة بما يكفي لكي يتعلم النموذج شيئًا منها. إذا تمكنا من استنباط الميزات التي تجد الحل لمشكلتنا الأساسية ، فسيكون ذلك بمثابة تمثيل جيد للبيانات. من الأفضل تمثيل البيانات ، وسيكون من الأفضل ملاءمة النموذج وسيتم عرض نتائج أفضل بواسطة النموذج.

إن سير العمل في أي مشروع لعلوم البيانات هو عملية تكرارية وليست عملية لمرة واحدة. في معظم مشاريع علوم البيانات ، يتم إنشاء نموذج أساسي بعد إنشاء الميزات وتنقيحها من البيانات الأولية. عند الحصول على نتائج النموذج الأساسي ، يمكن تعديل بعض الميزات الموجودة ، كما يتم اشتقاق بعض الميزات الجديدة من البيانات لتحسين نتائج النموذج.

هندسة الخصائص

قد توفر التقنيات المستخدمة في عملية هندسة الميزات النتائج بنفس الطريقة لجميع الخوارزميات ومجموعات البيانات. فيما يلي بعض الأساليب الشائعة المستخدمة في عملية هندسة الميزات:

1. تحويل القيمة

يمكن تحويل قيم الميزات إلى بعض المقاييس الأخرى باستخدام معلمات مثل الوظيفة اللوغاريتمية ، وظيفة الجذر ، الوظيفة الأسية ، إلخ. هناك بعض القيود على هذه الوظائف وقد لا يتم استخدامها لجميع أنواع مجموعات البيانات. على سبيل المثال ، لا يمكن تطبيق تحويل الجذر أو التحويل اللوغاريتمي على المعالم التي تحتوي على قيم سالبة.

واحدة من أكثر الوظائف شيوعًا هي الوظيفة اللوغاريتمية. يمكن أن تساعد الوظيفة اللوغاريتمية في تقليل انحراف البيانات التي قد تنحرف باتجاه طرف واحد. يميل تحويل السجل إلى تطبيع البيانات مما يقلل من تأثير القيم المتطرفة على أداء النموذج.

كما أنه يساعد في تقليل حجم القيم في الميزة. يكون هذا مفيدًا عندما نستخدم بعض الخوارزميات التي تعتبر الميزات ذات القيم الأكبر ذات أهمية أكبر من غيرها.

2. احتساب البيانات

يشير احتساب البيانات إلى ملء القيم المفقودة في مجموعة بيانات ببعض القيمة الإحصائية. هذه التقنية مهمة لأن بعض الخوارزميات لا تعمل على القيم المفقودة والتي إما تقيدنا باستخدام خوارزميات أخرى أو تنسب هذه القيم المفقودة. يفضل استخدامه إذا كانت النسبة المئوية للقيم المفقودة في الميزة أقل (حوالي 5 إلى 10٪) وإلا فقد يؤدي ذلك إلى مزيد من التشويه في توزيع البيانات. هناك طرق مختلفة للقيام بذلك من أجل الميزات العددية والفئوية.

يمكننا أن نعزو القيم المفقودة في السمات العددية بقيم عشوائية ضمن نطاق محدد أو بمقاييس إحصائية مثل المتوسط ​​والوسيط وما إلى ذلك. . بالنسبة إلى الميزات الفئوية ، يمكننا أن ننسب القيم المفقودة بفئة إضافية مفقودة في مجموعة البيانات أو ببساطة نعزوها على أنها مفقودة إذا كانت الفئة غير معروفة.

يتطلب الأول إحساسًا جيدًا بمعرفة المجال لتتمكن من العثور على الفئة الصحيحة بينما تعد الأخيرة بديلاً للتعميم. يمكننا أيضًا استخدام الوضع لإسناد الميزات الفئوية. قد يؤدي إدخال البيانات مع الوضع أيضًا إلى التمثيل الزائد للتسمية الأكثر شيوعًا إذا كانت القيم المفقودة عالية جدًا في العدد.

انضم إلى دورات الذكاء الاصطناعي عبر الإنترنت من أفضل الجامعات في العالم - الماجستير ، وبرامج الدراسات العليا التنفيذية ، وبرنامج الشهادات المتقدمة في ML & AI لتسريع حياتك المهنية.

3. التشفير القاطع

أحد المتطلبات في العديد من الخوارزميات هو أن البيانات المدخلة يجب أن تكون رقمية بطبيعتها. تبين أن هذا يمثل قيدًا لاستخدام الميزات الفئوية في مثل هذه الخوارزميات. لتمثيل السمات الفئوية كأرقام ، نحتاج إلى إجراء تشفير فئوي. فيما يلي بعض طرق تحويل السمات الفئوية إلى أرقام:

1. ترميز واحد ساخن: - يُنشئ تشفير واحد ساخن ميزة جديدة تأخذ قيمة (إما 0 أو 1) لكل تسمية في ميزة فئوية. تشير هذه الميزة الجديدة إلى ما إذا كانت تسمية الفئة موجودة لكل ملاحظة. على سبيل المثال ، افترض أن هناك 4 تسميات في ميزة فئوية ، ثم عند تطبيق ترميز واحد ساخن ، فإنه سينشئ 4 ميزات منطقية.

يمكن أيضًا استخراج نفس القدر من المعلومات باستخدام 3 ميزات كما لو كانت جميع الميزات تحتوي على 0 ، فستكون قيمة الميزة الفئوية هي التسمية الرابعة. يؤدي تطبيق هذه الطريقة إلى زيادة مساحة الميزة إذا كان هناك العديد من الميزات الفئوية مع عدد كبير من الملصقات في مجموعة البيانات.

2. تشفير التردد: - تقوم هذه الطريقة بحساب العدد أو النسبة المئوية لكل تسمية في السمة الفئوية وتعيينها على نفس الملصق. لا تعمل هذه الطريقة على توسيع مساحة الميزة لمجموعة البيانات. أحد عيوب هذه الطريقة هو أنه إذا كان للتسميات أو أكثر نفس العدد في مجموعة البيانات ، فستعطي الخريطة نفس الرقم لجميع الملصقات. هذا من شأنه أن يؤدي إلى فقدان المعلومات الهامة.

3. الترميز الترتيبي: - يُعرف أيضًا باسم ترميز التسمية ، هذه الطريقة ترسم القيم المميزة لميزة فئوية مع عدد يتراوح من 0 إلى n-1 ، حيث يمثل n عددًا مميزًا من التسميات في الميزة. لا تؤدي هذه الطريقة إلى تكبير مساحة الميزة لمجموعة البيانات. لكنها تنشئ علاقة ترتيبية داخل التسميات في المعلم.

4. التعامل مع القيم المتطرفة

القيم المتطرفة هي نقاط البيانات التي تختلف قيمها اختلافًا كبيرًا عن بقية الدفعة. للتعامل مع هذه القيم المتطرفة ، نحتاج إلى اكتشافها أولاً. يمكننا اكتشافها باستخدام تصورات مثل مخطط الصندوق ومؤامرة التشتت في بايثون ، أو يمكننا استخدام النطاق الربيعي (IQR). النطاق الربيعي هو الفرق بين الربع الأول (25 بالمائة) والربع الثالث (75 بالمائة).

القيم التي لا تقع في نطاق (Q1 - 1.5 * IQR) و (Q3 + 1.5 * IQR) تسمى القيم المتطرفة. بعد اكتشاف القيم المتطرفة ، يمكننا التعامل معها عن طريق إزالتها من مجموعة البيانات ، وتطبيق بعض التحويل ، ومعاملتها على أنها قيم مفقودة لإسنادها باستخدام طريقة ما ، وما إلى ذلك.

5. ميزة التحجيم

يتم استخدام مقياس الميزة لتغيير قيم المعالم ووضعها في نطاق. من المهم تطبيق هذه العملية إذا كنا نستخدم خوارزميات مثل SVM والانحدار الخطي و KNN وما إلى ذلك التي تكون حساسة لحجم القيم. لتوسيع نطاق الميزات ، يمكننا إجراء التوحيد القياسي والتطبيع والتحجيم الأدنى والأقصى. تقوم التسوية بإعادة قياس قيم نطاق الميزة من -1 إلى 1. وهي نسبة الطرح لكل ملاحظة والمتوسط ​​لطرح الحد الأقصى والحد الأدنى لقيمة تلك الميزة. أي [X - يعني (X)] / [max (X) - min (X)].

في مقياس min-max ، يستخدم الحد الأدنى لقيمة الميزة بدلاً من المتوسط. هذه الطريقة حساسة جدًا للقيم المتطرفة لأنها تراعي فقط القيم النهائية للميزة. يعمل التوحيد القياسي على إعادة قياس قيم الميزة من 0 إلى 1. ولا يؤدي إلى تطبيع توزيع البيانات في حين أن الطريقة السابقة ستقوم بذلك.

6. معالجة متغيرات التاريخ والوقت

لقد صادفنا العديد من المتغيرات التي تشير إلى التاريخ والوقت بتنسيقات مختلفة. يمكننا استخلاص المزيد من الميزات من التاريخ مثل الشهر ، أو اليوم من الأسبوع / الشهر ، أو السنة ، أو عطلة نهاية الأسبوع أو لا ، والفرق بين التواريخ ، وما إلى ذلك. وهذا يمكن أن يسمح لنا باستخراج المزيد من المعلومات الثاقبة من مجموعة البيانات. من ميزات الوقت ، يمكننا أيضًا استخراج معلومات مثل الساعات والدقائق والثواني ، إلخ.

الشيء الوحيد الذي يفتقده معظم الناس هو أن جميع متغيرات التاريخ والوقت هي ميزات دورية. على سبيل المثال ، افترض أننا بحاجة إلى التحقق من أي يوم بين الأربعاء (3) والسبت (7) أقرب إلى الأحد (كونه 1). نحن نعلم الآن أن يوم السبت أقرب ولكن من الناحية العددية ، سيكون يوم الأربعاء حيث أن المسافة بين 3 و 1 أقل من 7 و 1. ويمكن تطبيق نفس الشيء عندما يكون تنسيق الوقت بتنسيق 24 ساعة.

لمعالجة هذه المشكلة ، يمكننا التعبير عن هذه المتغيرات كتمثيل لدالة الجيب وجيب التمام. بالنسبة لميزة "الدقائق" ، يمكننا تطبيق دالة الخطيئة وجيب التمام باستخدام NumPy لتمثيلها في الطبيعة الدورية على النحو التالي:

minutes_feature_sin = np.sin (df ['minutes_feature'] * (2 * π / 60))

minutes_feature_cos = np.cos (df ['minutes_feature'] * (2 * π / 60))

(ملاحظة: القسمة على 60 لأن هناك 60 دقيقة في الساعة. إذا أردت القيام بذلك لأشهر ، قسّمها على 12 وهكذا)

من خلال رسم هذه الميزات على مخطط مبعثر ، ستلاحظ أن هذه الميزات تُظهر علاقة دورية فيما بينها.

اقرأ أيضًا: أفكار ومواضيع لمشروع التعلم الآلي

خاتمة

ركزت المقالة على أهمية هندسة الميزات جنبًا إلى جنب مع الاستشهاد ببعض التقنيات الشائعة المستخدمة في عملية هندسة الميزات. يعتمد ذلك على الخوارزمية والبيانات المتاحة لتحديد التقنيات من بين كل ما سبق ذكره والتي ستوفر رؤى أفضل.

لكن هذا أمر صعب حقًا وليس من الآمن افتراضه حيث يمكن أن تكون مجموعات البيانات مختلفة ويمكن أن تختلف الخوارزميات المستخدمة للبيانات أيضًا. النهج الأفضل هو اتباع نهج تدريجي وتتبع النماذج التي تم إنشاؤها جنبًا إلى جنب مع نتائجها بدلاً من أداء هندسة الميزات بتهور.

إذا كنت مهتمًا بمعرفة المزيد عن التعلم الآلي ، فراجع برنامج IIIT-B & upGrad's Executive PG في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT -ب حالة الخريجين ، 5+ مشاريع التخرج العملية العملية والمساعدة في العمل مع الشركات الكبرى.

ما هي سلبيات استخدام أسلوب احتساب البيانات على أساس الوسيط؟

عند استخدام متوسط ​​التضمين ، لا يتم الاحتفاظ بالروابط والارتباطات بين المتغيرات. لكن احتساب المتوسط ​​يحافظ على متوسط ​​البيانات المرصودة. نتيجة لذلك ، حتى لو كانت جميع البيانات مفقودة بشكل عشوائي ، فإن التقدير المتوسط ​​سيظل غير متحيز. يتم تقليل تباين المتغيرات المحتسبة باستخدام متوسط ​​التضمين. متوسط ​​التضمين يقلل من الأخطاء القياسية ، مما يجعل معظم اختبارات الفرضيات وحسابات فاصل الثقة غير دقيقة. مثل هذا ، يتم ارتكاب أخطاء النوع الأول دون وعي.

لماذا مطلوب استخراج الميزة؟

يتم استخدام استخراج الميزات لتحديد أصغر مجموعة من الميزات وأكثرها إفادة (أنماط مميزة) من أجل تحسين فعالية المصنف. يساعد استخراج الميزات في تقليل البيانات غير الضرورية في جمع البيانات بحيث يتم التركيز فقط على المعلومات والميزات ذات الصلة. أخيرًا ، يسهّل تقليل البيانات على الآلة تطوير النموذج بجهد أقل ، بالإضافة إلى تسريع عمليات التعلم والتعميم في عملية التعلم الآلي. أهم تطبيق لهندسة الميزات هو تصنيف الإشارات الطبية الحيوية ، حيث يعد استخراج الميزات عنصرًا مهمًا ، لأنه إذا لم يتم اختيار الميزات بعناية ، فقد يتأثر أداء التصنيف.

هل هناك أي سلبيات لاستخدام تقنية استخراج الميزات؟

جاء استخراج الميزة ببعض الميزات الجديدة التي لا يمكن قراءتها أو فهمها من قبل الأشخاص العاديين. تعد قابلية التوسع تحديًا آخر واجهته أثناء استخراج الميزة. إذا كانت مجموعات البيانات كبيرة ، فلن يتم تنفيذ بعض تقنيات استخراج الميزات. سيكون من المستحيل تنفيذ مناهج استخراج الميزات غير الخطية المعقدة ، على وجه الخصوص. تعتمد معظم التقنيات على شكل من أشكال التقريب للتعامل مع مشكلة اختيار الميزة بكفاءة ، والتي تكون غير قادرة في مواقف معينة على معالجة المشكلة الدقيقة.