شرح الانحدار الخطي بمثال

نشرت: 2021-10-13

يعد الانحدار الخطي أحد الخوارزميات الأكثر شيوعًا لإنشاء العلاقات بين متغيرات مجموعة البيانات. النموذج الرياضي هو أداة ضرورية لعلماء البيانات في إجراء التحليل التنبئي. ستملأك هذه المدونة بالمفهوم الأساسي وتناقش أيضًا مثالًا للانحدار الخطي.

جدول المحتويات

ما هي نماذج الانحدار؟

يصف نموذج الانحدار العلاقة بين متغيرات مجموعة البيانات من خلال ملاءمة خط مع البيانات التي تمت ملاحظتها. إنه تحليل رياضي يفرز المتغيرات التي لها تأثير والأكثر أهمية. كما أنه يحدد مدى يقيننا من العوامل المعنية. نوعان من المتغيرات هما:

  • التابع: العامل الذي تحاول توقعه أو فهمه.
  • مستقل: العوامل التي تشك في أن لها تأثير على المتغير التابع.

تُستخدم نماذج الانحدار عندما يكون المتغير التابع كميًا. قد يكون ثنائيًا في حالة الانحدار اللوجستي. لكن في هذه المدونة ، سنركز بشكل أساسي على نموذج الانحدار الخطي حيث يكون كلا المتغيرين كميين.

لنفترض أن لديك بيانات عن المبيعات الشهرية ومتوسط ​​هطول الأمطار الشهري خلال السنوات الثلاث الماضية. لنفترض أنك قمت برسم هذه المعلومات على مخطط. يمثل المحور الصادي عدد المبيعات (المتغير التابع) ، والمحور السيني يمثل إجمالي هطول الأمطار. ستظهر كل نقطة على الرسم البياني مقدار هطول الأمطار خلال شهر معين وأرقام المبيعات المقابلة.

إذا ألقيت نظرة أخرى على البيانات ، فقد تلاحظ نمطًا. افترض أن تكون المبيعات أعلى في الأيام التي تمطر فيها أكثر. ولكن سيكون من الصعب تقدير المبلغ الذي ستبيعه عادةً عندما تمطر كمية معينة ، لنقل 3 أو 4 بوصات. يمكنك الحصول على درجة معينة من اليقين إذا قمت برسم خط خلال منتصف جميع نقاط البيانات على الرسم البياني.

في الوقت الحاضر ، يمكن أن يساعدك برنامج Excel والإحصاءات مثل SPSS أو R أو STATA في رسم خط يناسب البيانات الموجودة على أفضل وجه. بالإضافة إلى ذلك ، يمكنك أيضًا إخراج صيغة تشرح ميل الخط.

ضع في اعتبارك هذه الصيغة للمثال أعلاه: Y = 200 + 3X. يخبرك أنك بعت 200 وحدة عندما لم تمطر على الإطلاق (أي عندما تكون X = 0). بافتراض أن المتغيرات تظل كما هي مع تقدمنا ​​، فإن كل بوصة إضافية من المطر ستؤدي إلى متوسط ​​مبيعات ثلاث وحدات أخرى. يمكنك بيع 203 وحدة إذا أمطرت 1 بوصة ، و 206 وحدة إذا أمطرت 2 بوصة ، و 209 بوصة إذا أمطرت 3 بوصات ، وهكذا.

عادةً ما تتضمن صيغة خط الانحدار أيضًا مصطلح خطأ (Y = 200 + 3 X + مصطلح خطأ). يأخذ في الاعتبار حقيقة أن المتنبئين المستقلين قد لا يكونون دائمًا تنبؤات مثالية للمتغيرات التابعة. ويمنحك الخط مجرد تقدير بناءً على البيانات المتاحة. كلما كان مصطلح الخطأ أكبر ، كلما كان خط الانحدار أقل يقينًا.

أساسيات الانحدار الخطي

يستخدم نموذج الانحدار الخطي البسيط خطاً مستقيماً لتقدير العلاقة بين متغيرين كميين. إذا كان لديك أكثر من متغير مستقل ، فستستخدم الانحدار الخطي المتعدد بدلاً من ذلك.

تحليل الانحدار الخطي البسيط معني بأمرين. أولاً ، يخبرك بقوة العلاقة بين العوامل التابعة والمستقلة للبيانات التاريخية. ثانيًا ، يمنحك قيمة المتغير التابع بقيمة معينة للمتغير المستقل.

ضع في اعتبارك مثال الانحدار الخطي هذا. يقوم الباحث الاجتماعي المهتم بمعرفة كيف يؤثر دخل الأفراد على مستويات سعادتهم بإجراء تحليل انحدار بسيط لمعرفة ما إذا كانت هناك علاقة خطية. يأخذ الباحث القيم الكمية للمتغير التابع (السعادة) والمتغير المستقل (الدخل) من خلال مسح الناس في موقع جغرافي معين.

على سبيل المثال ، تحتوي البيانات على أرقام الدخل ومستويات السعادة (مرتبة على مقياس من 1 إلى 10) من 500 شخص من ولاية ماهاراشترا الهندية. سيقوم الباحث بعد ذلك برسم نقاط البيانات وتناسب خط الانحدار لمعرفة مدى تأثير أرباح المستجيبين على رفاهيتهم.

يعتمد تحليل الانحدار الخطي على بعض الافتراضات حول البيانات. هناك:

  • الخطية للعلاقة بين المتغير التابع والمستقل ، أي أن خط أفضل ملاءمة مستقيم وليس منحنيًا.)
  • تجانس التباين ، أي حجم الخطأ في التنبؤ ، لا يتغير بشكل كبير عبر القيم المختلفة للمتغير المستقل.
  • استقلالية الملاحظات في مجموعة البيانات ، تشير إلى عدم وجود علاقات خفية.
  • طبيعية توزيع البيانات للمتغير التابع. يمكنك التحقق من ذلك باستخدام وظيفة hist () في R.

الرياضيات وراء الانحدار الخطي

y = c + ax معادلة قياسية حيث y هو الناتج (الذي نريد تقديره) ، x هو متغير الإدخال (الذي نعرفه) ، a هو ميل الخط ، و c هو الثابت.

هنا ، يختلف الإخراج خطيًا بناءً على الإدخال. يحدد الميل مدى تأثير x على قيمة y. الثابت هو قيمة y عندما يكون x صفرًا.

دعونا نفهم هذا من خلال مثال آخر للانحدار الخطي. تخيل أنك موظف في شركة سيارات وتريد دراسة سوق سيارات الركاب في الهند. لنفترض أن الناتج المحلي الإجمالي الوطني يؤثر على مبيعات سيارات الركاب. للتخطيط بشكل أفضل للأعمال ، قد ترغب في معرفة المعادلة الخطية لعدد المركبات المباعة في الدولة فيما يتعلق بإجمالي الناتج المحلي

لهذا ، ستحتاج إلى بيانات نموذجية لمبيعات سيارات الركاب على مدار العام وأرقام الناتج المحلي الإجمالي لكل عام. قد تكتشف أن الناتج المحلي الإجمالي للعام الحالي يؤثر على المبيعات للعام المقبل: أيًا كان الناتج المحلي الإجمالي أقل ، كانت مبيعات السيارات أقل في العام التالي.

لإعداد هذه البيانات لتحليلات التعلم الآلي ، ستحتاج إلى القيام بالمزيد من العمل.

  • يرجى البدء بالمعادلة y = c + ax ، حيث y هو عدد المركبات المباعة في السنة و x هو الناتج المحلي الإجمالي للعام السابق.
  • لمعرفة c و an في المشكلة أعلاه ، يمكنك إنشاء نموذج باستخدام Python.

تحقق من هذا البرنامج التعليمي لفهم طريقة خطوة بخطوة

إذا كنت ستقوم بإجراء انحدار خطي بسيط في R ، فسيصبح تفسير النتائج والإبلاغ عنها أسهل بكثير.

لنفس مثال الانحدار الخطي ، دعونا نغير المعادلة إلى y = B0 + B1x + e. مرة أخرى ، y هو المتغير التابع ، و x هو المتغير المستقل أو المعروف. B0 هو الثابت أو المقطوع ، B1 هو ميل معامل الانحدار ، و e هو خطأ التقدير.

يمكن للبرامج الإحصائية مثل R العثور على الخط الأنسب من خلال البيانات والبحث عن B1 الذي يقلل الخطأ الكلي للنموذج.

اتبع هذه الخطوات للبدء:

  • قم بتحميل مجموعة بيانات مبيعات سيارات الركاب في بيئة R.
  • قم بتشغيل الأمر لإنشاء نموذج خطي يصف العلاقة بين مبيعات سيارات الركاب والناتج المحلي الإجمالي.
    • sales.gdp.lm <- lm (gdp ~ sales ، data = sales.data)
  • استخدم الوظيفة abstract () لعرض أهم معلمات النموذج الخطي في صيغة مجدولة.
    • الملخص (sales.gdp.lm)

ملاحظة: قد يحتوي الإخراج على نتائج مثل الاستدعاءات والقيم المتبقية والمعاملات. يوضح جدول "Call" الصيغة المستخدمة. توضح "العناصر المتبقية" القيم المتوسطة والربيعية والحد الأدنى والحد الأقصى للإشارة إلى مدى ملاءمة النموذج للبيانات الحقيقية. يقدّر الصف الأول من جدول "المعاملات" تقاطع y ، ويعطي الصف الثاني معامل الانحدار. تحتوي أعمدة هذا الجدول على تسميات مثل Estimate و Std. خطأ وقيمة t وقيمة p.

تعلم دورة التعلم الآلي من أفضل الجامعات في العالم. احصل على درجة الماجستير أو برنامج PGP التنفيذي أو برامج الشهادات المتقدمة لتسريع مسار حياتك المهنية.

  • أدخل قيمة (التقاطع) في معادلة الانحدار للتنبؤ بقيم المبيعات عبر نطاق أرقام إجمالي الناتج المحلي.
  • تحقق من عمود (تقدير) لمعرفة التأثير. سيخبرك معامل الانحدار بمدى تغير المبيعات مع التغير في الناتج المحلي الإجمالي.
  • اكتشف التباين في تقديرك للعلاقة بين المبيعات والناتج المحلي الإجمالي من ملصق (Std. Error).
  • انظر إلى إحصاء الاختبار تحت (t-value) لمعرفة ما إذا كانت النتائج قد حدثت بالصدفة. كلما زادت قيمة t ، قل احتمال حدوثها.
  • انتقل من خلال العمود Pr (> | t |) أو القيم p لمعرفة التأثير المقدر للناتج المحلي الإجمالي على المبيعات إذا كانت الفرضية الصفرية صحيحة.
  • قدم نتائجك مع التأثير المقدر والخطأ القياسي والقيم p ، مع توضيح معنى معامل الانحدار.
  • تضمين رسم بياني مع التقرير. يمكن عرض الانحدار الخطي البسيط كمخطط بياني مع خط الانحدار والوظيفة.
  • احسب الخطأ عن طريق قياس مسافة قيم y المرصودة والمتوقعة ، وتربيع المسافات عند كل قيمة من قيم x ، وحساب متوسطها.

خاتمة

باستخدام مثال الانحدار الخطي أعلاه ، قدمنا ​​لك نظرة عامة على إنشاء نموذج انحدار خطي بسيط ، وإيجاد معامل الانحدار ، وحساب خطأ التقدير. لقد تطرقنا أيضًا إلى أهمية Python و R في تحليلات البيانات والإحصاءات التنبؤية. تعد المعرفة العملية بمثل هذه الأدوات أمرًا بالغ الأهمية لمتابعة الوظائف في علم البيانات والتعلم الآلي اليوم.

إذا كنت ترغب في صقل مهاراتك في البرمجة ، فراجع برنامج الشهادة المتقدم في التعلم الآلي من IIT Madras و upGrad. تتضمن الدورة التدريبية عبر الإنترنت أيضًا دراسات الحالة والمشاريع وجلسات إرشاد الخبراء لتحقيق التوجه الصناعي لعملية التدريب.

عزز حياتك المهنية في التعلم الآلي والذكاء الاصطناعي

تقدم بطلب للحصول على ماجستير العلوم في التعلم الآلي والذكاء الاصطناعي من جامعة جون مورس بليفربول