تعلم تصنيف بايزي في استخراج البيانات [2022]

نشرت: 2021-03-10

إذا كنت تدرس التنقيب عن البيانات لبعض الوقت ، فلا بد أنك سمعت بمصطلح "تصنيف بايزي". هل تتساءل ماذا يعني ذلك وما مدى أهميته كمفهوم في التنقيب عن البيانات؟

ستجيب هذه المقالة على هذه الأسئلة أثناء استكشافك لتصنيف Bayesian في التنقيب عن البيانات. هيا نبدأ:

جدول المحتويات

ما هو تصنيف بايزي؟

أثناء التنقيب عن البيانات ، ستجد أن الاتصال بين متغير الفئة ومجموعة السمات غير محدد. هذا يعني أنه لا يمكننا افتراض تسمية الفصل لسجل الاختبار بيقين مطلق حتى لو كانت مجموعة السمات هي نفسها أمثلة التدريب.

يمكن أن يحدث بسبب وجود عوامل مؤثرة معينة أو بيانات صاخبة. لنفترض أنك تريد التنبؤ بما إذا كان الشخص معرضًا لخطر الإصابة بأمراض القلب وفقًا لعاداته الغذائية. في حين أن عادات الأكل للشخص هي عامل كبير في تحديد ما إذا كان سيعاني من مشاكل في القلب أم لا ، يمكن أن تكون هناك أسباب أخرى لحدوث نفس الشيء مثل الوراثة أو العدوى.

لذا ، فإن تحليلك في تحديد ما إذا كان الشخص معرضًا لخطر الإصابة بأمراض القلب بناءً على عاداته الغذائية وحدها سيكون معيبًا ويمكن أن يتسبب في ظهور مشكلات متعددة.

ثم يطرح السؤال ، "كيف تحل هذه المشكلة في التنقيب عن البيانات؟" الجواب هو تصنيف بايزي.

يمكنك استخدام تصنيف بايزي في التنقيب عن البيانات لمعالجة هذه المشكلة والتنبؤ بحدوث أي حدث. تتكون المصنفات البايزية من مصنفات إحصائية باستخدام تفاهمات احتمالية بايز.

لفهم طريقة عمل تصنيف بايز في التنقيب عن البيانات ، عليك أن تبدأ بنظرية بايز.

مبرهنة بايز

يعود الفضل في نظرية بايز إلى توماس بايز الذي استخدم الاحتمال الشرطي لإنشاء خوارزمية تستخدم الدليل لحساب حدود المعلمات غير المعروفة. كان أول من توصل إلى هذا الحل.

رياضيا ، تبدو نظرية بايز كما يلي:

الفوسفور (أ / ب) = الفوسفور (ب / أ) الفوسفور (أ) الف (ب)

هنا ، تمثل A و B الأحداث ولا يمكن أن تكون P (B) مساوية للصفر.

ف (ب) 0

P (B / A) هو احتمال مشروط يشرح حدوث الحدث B عندما يكون A صحيحًا. وبالمثل ، P (A / B) هو احتمال مشروط يشرح حدوث الحدث A عندما يكون B صحيحًا.

P (B) و P (A) هي احتمالات مراقبة B و A بشكل مستقل وتسمى الاحتمالات الهامشية.

تفسير بايزي

في تفسير بايزي ، يحسب الاحتمال درجة من الاعتقاد. وفقًا لنظرية بايز ، ترتبط درجة الاعتقاد في الفرضية قبل النظر في الدليل بدرجة الاعتقاد في الفرضية بعد النظر في نفس الفرضية.

افترض أن لديك عملة معدنية. إذا قمت بقلب العملة مرة واحدة ، فستحصل إما على وجه أو ذيول واحتمال حدوث كلتا الحالتين هو 50٪. ومع ذلك ، إذا قمت بقلب العملة عدة مرات ولاحظت النتائج ، فقد تزيد درجة الاعتقاد أو تنقص أو تظل ثابتة بناءً على النتائج.

إذا كان لديك الاقتراح أ والدليل ب ، فحينئذٍ:

P (A) هي الدرجة الأساسية للاعتقاد في A. .

يمكنك اشتقاق نظرية بايز من الاحتمال الشرطي:

ف (أ / ب) = ف (أ ب) ف (ب) ، إذا ف (ب) 0

P (B / A) = P (B A) P (A) ، إذا P (A) 0

هنا P (A B) هو الاحتمال المشترك لكون كل من A و B صحيحين للأسباب التالية:

ل (ب أ) = ف (أ ب)

OR ، P (A B) = P ( A B ) P (B) = P ( B A ) P (A)

أو ، ف ( أ ب ) = ف ( ب أ ) ف (أ) ف (ب) ، إذا ف (ب) 0

شبكة بايزي

نحن نستخدم شبكات Bayesian (المعروفة أيضًا باسم شبكات Belief) لإظهار أوجه عدم اليقين من خلال DAGs (الرسوم البيانية غير الدورية الموجهة). يُظهر الرسم البياني غير الدوري الموجه شبكة بايز مثل أي رسم بياني إحصائي آخر. يحتوي على مجموعة من العقد والروابط حيث تشير الروابط إلى الاتصال بين العقد المعنية.

تمثل كل عقدة في الرسم البياني المباشر الموجه متغيرًا عشوائيًا. يمكن أن تكون المتغيرات قيمًا مستمرة أو منفصلة وقد تتوافق مع السمة الفعلية المعطاة للبيانات.

تتيح شبكة بايزي تحديد استقلالية الطبقة الشرطية بين مجموعات فرعية متغيرة. يمنحك نموذجًا رسوميًا للعلاقة التي ستنفذ عليها عمليات التنفيذ.

بصرف النظر عن DAG ، تحتوي شبكة Bayesian أيضًا على مجموعة من جداول الاحتمال الشرطي.

خاتمة

الآن يجب أن تكون على دراية بأساسيات التصنيف Bayesian في التنقيب عن البيانات. يعد فهم النظرية الكامنة وراء تطبيقات تطبيقات التنقيب عن البيانات أمرًا حيويًا لإحراز تقدم.

ما رأيك في تصنيف بايزي في التنقيب عن البيانات؟ هل حاولت تنفيذه؟ شارك إجاباتك في التعليقات. نحب أن نسمع منك.

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع دبلوم PG في IIIT-B & upGrad في علوم البيانات والذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1- على - 1 مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

ما هو التصنيف والانحدار في التعلم الآلي؟

التصنيف والانحدار نوعان من خوارزميات التعلم الخاضع للإشراف المستخدمة في التعلم الآلي. ولكن هناك اختلافات واضحة بين هذه الخوارزميات. تُستخدم خوارزمية الانحدار في التعلم الآلي لتقدير القيمة المستمرة لمتغير بناءً على متغيرات إدخال معينة. تُستخدم هذه الخوارزمية لحساب المتغيرات المستمرة مثل الطول والدخل والوزن والدرجات والطقس وما إلى ذلك ، أي أنه يمكن استخدامها فقط لحساب القيم المنفصلة لتنسيق الأعداد الصحيحة. يتم استخدام خوارزمية التصنيف لحساب قيم المتغيرات المنفصلة. ومن المثير للاهتمام ، أن تقنيات التصنيف يمكن أن تتعامل مع كل من المتغيرات المنفصلة والقيمة الحقيقية ، ولكن يجب تصنيفها إلى فئات مميزة مصنفة أو مصنفة.

هل التنقيب في البيانات والتعلم الآلي متماثلان؟

ما هي فوائد التنقيب عن البيانات؟

يوفر التنقيب عن البيانات بشكل فعال وسائل لحل المشكلات المتعلقة بالبيانات أو المعلومات في هذا العالم المتمحور حول البيانات. يساعد الشركات على جمع المعلومات المفيدة والموثوقة. نتيجة لذلك ، يمكن للشركات أن تبني قراراتها أو تعدل العمليات التي تؤدي في النهاية إلى تحقيق المزيد من الأرباح. يلعب التنقيب عن البيانات دورًا مهمًا في مساعدة الشركات على اتخاذ قرارات مستنيرة ، واكتشاف المخاطر وتخفيفها وتقليل حوادث الاحتيال. يمكن لعلماء البيانات البحث بسرعة في كميات هائلة من البيانات اليومية باستخدام تقنيات استخراج البيانات الفعالة من حيث التكلفة والفعالية.