مقدمة في الانحدار متعدد المتغيرات في التعلم الآلي: دليل كامل

نشرت: 2021-09-15

ليس سراً أن تكنولوجيا اليوم تعتمد على البيانات. قد تكون البيانات عبارة عن مجموعة من الأرقام فقط ولكن يمكن معالجتها بشكل هادف لاستخراج الإنتاجية وسعة الحيلة للشركات لتظل قادرة على المنافسة والاستدامة على المدى الطويل. كما يحدث ، فإن تحليل البيانات هو الإجابة على استخلاص تقديرات دقيقة من المعلومات الخام.

تحليل البيانات هو أسلوب يتضمن أفكارًا إحصائية ومنطقية لفحص البيانات ومعالجتها وتحويلها إلى نموذج قابل للاستخدام. تُستخدم الحلول التي يتم رسمها بواسطة تحليل البيانات في الشركات لاتخاذ قرارات حيوية. يُستخدم علم البيانات جنبًا إلى جنب مع تحليل البيانات للتنبؤ بالنتائج المستقبلية بدقة عالية. إنها عملية استخدام التقنيات والخوارزميات العلمية للحصول على معلومات قابلة للتطبيق من مجموعة من البيانات.

المشكلة الشائعة التي يواجهها متخصصو البيانات هي الطريقة التي يتم بها تحديد ما إذا كانت هناك علاقة إحصائية بين متغير استجابة (يُشار إليه بواسطة Y) والمتغيرات التوضيحية (يُشار إليها بواسطة Xi).

الجواب على هذا القلق هو تحليل الانحدار. دعونا نفهم هذا بمزيد من التفصيل.

جدول المحتويات

ما هو تحليل الانحدار؟

يعد تحليل الانحدار أحد الأساليب الشائعة في تحليل البيانات التي تتبع خوارزمية التعلم الآلي الخاضعة للرقابة أو الإشراف. إنها تقنية فعالة لتحديد وإقامة علاقة بين المتغيرات في البيانات.

يتضمن تحليل الانحدار فرز المتغيرات القابلة للتطبيق باستخدام استراتيجيات رياضية لاستخلاص استنتاجات دقيقة للغاية حول تلك المتغيرات المصنفة.

ما هو الانحدار متعدد المتغيرات؟

المتغيرات المتعددة عبارة عن خوارزمية تعلم الآلة خاضعة للرقابة أو الإشراف تحلل متغيرات بيانات متعددة. إنه استمرار للانحدار المتعدد الذي يتضمن متغيرًا تابعًا واحدًا والعديد من المتغيرات المستقلة. يتم توقع المخرجات بناءً على عدد المتغيرات المستقلة.

يتوصل الانحدار متعدد المتغيرات إلى صيغة تشرح الاستجابة المتزامنة للعوامل الموجودة في المتغيرات للتغيرات في الآخرين. يتم استخدامها لدراسة البيانات في مختلف المجالات. على سبيل المثال ، في العقارات ، يتم استخدام الانحدار متعدد المتغيرات للتنبؤ بسعر المنزل بناءً على عدة عوامل مثل موقعه وعدد الغرف ووسائل الراحة المتاحة.

دالة التكلفة في الانحدار متعدد المتغيرات

تخصص دالة التكلفة تكلفة للعينات عندما تنحرف نتيجة نموذج عن البيانات المرصودة. معادلة دالة التكلفة هي إجمالي مربع الفرق بين القيمة المتوقعة والقيمة الفعلية مقسومًا على ضعف طول مجموعة البيانات.

هذا مثال :

النتيجة :

مصدر

كيفية استخدام تحليل الانحدار متعدد المتغيرات؟

تشمل العمليات المتضمنة في تحليل الانحدار متعدد المتغيرات اختيار الميزات ، وهندسة الميزات ، وتطبيع الميزات ، ووظائف فقدان الاختيار ، وتحليل الفرضيات ، وإنشاء نموذج الانحدار.

  1. اختيار الميزات: إنها أهم خطوة في الانحدار متعدد المتغيرات. تُعرف هذه العملية أيضًا باسم الاختيار المتغير ، وتتضمن اختيار متغيرات قابلة للتطبيق لبناء نماذج فعالة.
  2. تطبيع الميزة: يتضمن ذلك تحجيم الميزة للحفاظ على التوزيع المبسط ونسب البيانات. هذا يساعد في تحليل البيانات بشكل أفضل. يمكن تغيير قيمة جميع الميزات وفقًا للمتطلبات.
  3. تحديد وظيفة وفرضية الخسارة: تُستخدم وظيفة الخسارة للتنبؤ بالأخطاء. تلعب وظيفة الخسارة دورها عندما يتغير تنبؤ الفرضية عن الأرقام الفعلية. هنا ، تمثل الفرضية القيمة المتوقعة من الميزة أو المتغير.
  4. تحديد معلمة الفرضية : يتم إصلاح معلمة الفرضية أو تعيينها بطريقة تقلل من وظيفة الخسارة وتعزز التنبؤ بشكل أفضل.
  5. تقليل وظيفة الخسارة : يتم تقليل وظيفة الخسارة عن طريق إنشاء خوارزمية خاصة لتقليل الخسارة في مجموعة البيانات والتي بدورها تسهل تغيير معلمات الفرضية. نزول التدرج هو الخوارزمية الأكثر استخدامًا لتقليل الخسارة. يمكن أيضًا استخدام الخوارزمية في إجراءات أخرى بمجرد اكتمال تقليل الخسارة.
  6. تحليل وظيفة الفرضية : تحتاج وظيفة الفرضية إلى التحليل لأنها ضرورية للتنبؤ بالقيم. بعد تحليل الوظيفة ، يتم اختبارها بعد ذلك على بيانات الاختبار.

دعونا الآن نلقي نظرة على طريقتين يمكن استخدام الانحدار متعدد المتغيرات.

1. الانحدار الخطي متعدد المتغيرات

يشبه الانحدار الخطي متعدد المتغيرات الانحدار الخطي البسيط باستثناء أنه في الانحدار الخطي متعدد المتغيرات ، تساهم المتغيرات المستقلة المتعددة في المتغيرات التابعة ولذا يتم استخدام معاملات متعددة في الحساب.

  • يتم استخدامه لاشتقاق علاقة رياضية بين المتغيرات العشوائية المتعددة. يشرح عدد المتغيرات المستقلة المتعددة المرتبطة بمتغير تابع واحد.
  • تُستخدم تفاصيل المتغيرات المستقلة المتعددة لعمل توقع دقيق لتأثيرها على متغير النتيجة.
  • يولد نموذج الانحدار الخطي متعدد المتغيرات علاقة في شكل خطي (شكل من أشكال الخط المستقيم) مع أفضل تقريب لكل نقطة بيانات.
  • معادلة نموذج الانحدار الخطي متعدد المتغيرات هي:

yi = β0 + β1 xi1 + 2 xi2 +… + p xip +

أين أنا = ن الملاحظات:

مصدر

متى يمكن استخدام الانحدار الخطي؟

يمكن استخدام نموذج الانحدار الخطي فقط عندما يكون هناك متغيرين مستمرين أحدهما يعتمد والآخر مستقل.

يستخدم المتغير المستقل كمعامل لتحديد قيمة أو نتيجة المتغير التابع.

2. الانحدار اللوجستي متعدد المتغيرات

الانحدار اللوجستي هو خوارزمية تستخدم للتنبؤ بنتيجة ثنائية بناءً على متغيرات مستقلة متعددة. النتيجة الثنائية لها احتمالان ، إما أن يحدث السيناريو (يمثله 1) أو لا يحدث (يُشار إليه بالرمز 0).

يتم استخدام الانحدار اللوجستي أثناء العمل على البيانات الثنائية ، والبيانات التي تكون فيها النتيجة (أو المتغير التابع) ثنائية التفرع.

أين يمكن استخدام الانحدار اللوجستي؟

يستخدم الانحدار اللوجستي في المقام الأول للتعامل مع قضايا التصنيف. على سبيل المثال ، للتأكد مما إذا كان البريد الإلكتروني بريدًا عشوائيًا أم لا وما إذا كانت معاملة معينة ضارة أم لا. في تحليل البيانات ، يتم استخدامه لاتخاذ قرارات محسوبة لتقليل الخسارة وزيادة الأرباح.

يُستخدم الانحدار اللوجستي متعدد المتغيرات عندما يكون هناك متغير تابع واحد ونتائج متعددة. وهو يختلف عن الانحدار اللوجستي من خلال وجود أكثر من نتيجتين محتملتين.

X1 إلى Xp متغيرات مستقلة متميزة.

b0 إلى bp هي معاملات الانحدار

يمكن أيضًا كتابة نموذج الانحدار اللوجستي المتعدد بشكل مختلف. في النموذج أدناه ، النتيجة هي السجل المتوقع لاحتمالات وجود النتيجة ،

يمكن أيضًا كتابة نموذج الانحدار اللوجستي المتعدد بشكل مختلف. في النموذج أدناه ، النتيجة هي السجل المتوقع لاحتمالات وجود النتيجة.

الجانب الأيمن من المعادلة أعلاه يشبه معادلة الانحدار الخطي ولكن تختلف طريقة اكتشاف معاملات الانحدار.

الافتراضات في نموذج الانحدار متعدد المتغيرات

  • المتغيرات التابعة والمستقلة لها علاقة خطية.
  • المتغيرات المستقلة ليس لها علاقة قوية فيما بينها.
  • يتم اختيار ملاحظات yi بشكل عشوائي ومنفردة من السكان.

الافتراضات في نموذج الانحدار اللوجستي متعدد المتغيرات

  • المتغير التابع هو اسمي أو ترتيبي. تحتوي المتغيرات الاسمية على فئتين أو أكثر بدون أي منظمة ذات معنى. يمكن أن تحتوي المتغيرات الترتيبية أيضًا على فئتين أو أكثر ، لكن لها هيكل ويمكن ترتيبها.
  • يمكن أن يكون هناك متغيرات فردية أو متعددة مستقلة يمكن أن تكون ترتيبية أو مستمرة أو اسمية. المتغيرات المستمرة هي تلك التي يمكن أن يكون لها قيم لا نهائية ضمن نطاق معين.
  • المتغيرات التابعة حصرية وشاملة.
  • المتغيرات المستقلة ليس لها علاقة قوية فيما بينها.

مزايا الانحدار متعدد المتغيرات

  1. يساعدنا الانحدار متعدد المتغيرات في دراسة العلاقات بين المتغيرات المتعددة في مجموعة البيانات.
  2. يساعد الارتباط بين المتغيرات التابعة والمستقلة في توقع النتيجة.
  3. إنها واحدة من أكثر الخوارزميات ملاءمة وشعبية المستخدمة في التعلم الآلي.

مساوئ الانحدار متعدد المتغيرات

  • يتطلب تعقيد التقنيات متعددة المتغيرات حسابات رياضية معقدة.
  • ليس من السهل تفسير ناتج نموذج الانحدار متعدد المتغيرات نظرًا لوجود تناقضات في نواتج الخسارة والخطأ.
  • لا يمكن تطبيق نماذج الانحدار متعدد المتغيرات على مجموعات البيانات الأصغر ؛ لقد تم تصميمها لإنتاج مخرجات دقيقة عندما يتعلق الأمر بمجموعات البيانات الأكبر.

إذا كنت ترغب في معرفة المزيد حول الانحدار متعدد المتغيرات وموضوعات علوم البيانات المعقدة الأخرى ، فإن upGrad لديها الحل المناسب لك. تغطي دورة ماجستير العلوم في علوم البيانات التي تبلغ مدتها 18 شهرًا من جامعة ليفربول جون مورس أكثر من 500 ساعة تعليمية صارمة ، و 25 جلسة تدريب (تُعقد على أساس 1: 8) ، وأكثر من 20 جلسة مباشرة. تقدم upGrad أيضًا مساعدة تعليمية بنسبة 1: 1 ودعمًا للتوجيه المهني 360 درجة للطلاب لتحويل حياتهم المهنية. يمكن للمتعلمين الاستفادة من التعلم من نظير إلى نظير على النظام الأساسي العالمي مع أكثر من 40000 متعلم مدفوع الأجر ، والعمل على مشاريع تعاونية عبر ستة تخصصات وظيفية لزيادة تجربة التعلم الخاصة بهم.

ما هو نموذج الانحدار متعدد المتغيرات؟

نماذج الانحدار متعدد المتغيرات هي خوارزميات تعلم الآلة مصممة لتحديد العلاقة الإحصائية بين متغير تابع واحد ومتغيرات مستقلة متعددة.

ما هو استخدام الانحدار متعدد المتغيرات؟

تجد نماذج الانحدار متعدد المتغيرات استخدامًا كبيرًا في الدراسات البحثية لتحليل البيانات بشكل أكثر كفاءة. يتم تطبيقها عادةً في حالة وجود العديد من المتغيرات أو الميزات المستقلة.

ما هما أكثر طريقتين للتحليل متعدد المتغيرات شيوعًا؟

طريقتان رئيسيتان للتحليل متعدد المتغيرات هما تحليل العوامل المشتركة وتحليل المكونات الرئيسية.