ما هي شجرة القرار في التنقيب عن البيانات؟ أنواع وأمثلة من العالم الحقيقي وتطبيقات
نشرت: 2021-06-15جدول المحتويات
مقدمة في التنقيب في البيانات
غالبًا ما تكون البيانات موجودة على أنها بيانات أولية تحتاج إلى معالجة فعالة لتحويلها إلى معلومات مفيدة. غالبًا ما يعتمد التنبؤ بالنتائج على عملية إيجاد الأنماط أو الشذوذ أو الارتباطات داخل البيانات. وأطلق على العملية اسم "اكتشاف المعرفة في قواعد البيانات".
فقط في التسعينيات عندما تمت صياغة مصطلح "التنقيب في البيانات". تم إنشاء التنقيب عن البيانات على ثلاثة تخصصات: الإحصاء ، والذكاء الاصطناعي ، والتعلم الآلي. أدى التنقيب الآلي عن البيانات إلى تحويل عملية التحليل من نهج مملة إلى نهج أسرع. استخراج البيانات يسمح للمستخدم
- قم بإزالة جميع البيانات الصاخبة والفوضوية
- فهم البيانات ذات الصلة واستخدامها للتنبؤ بالمعلومات المفيدة.
- يتم تسريع عملية التنبؤ بالقرارات المستنيرة .
قد يُشار أيضًا إلى التنقيب في البيانات على أنه عملية تحديد الأنماط المخفية للمعلومات التي تتطلب التصنيف. عندها فقط يمكن تحويل البيانات إلى بيانات مفيدة. يمكن تغذية البيانات المفيدة في مستودع البيانات ، وخوارزميات استخراج البيانات ، وتحليل البيانات لاتخاذ القرار.
شجرة القرار في التنقيب عن البيانات
نوع من تقنيات التنقيب عن البيانات ، شجرة القرار في استخراج البيانات تبني نموذجًا لتصنيف البيانات. تم بناء النماذج على شكل هيكل شجري وبالتالي تنتمي إلى شكل التعلم الخاضع للإشراف. بخلاف نماذج التصنيف ، تُستخدم أشجار القرار لبناء نماذج الانحدار للتنبؤ بتسميات الفئات أو القيم التي تساعد في عملية صنع القرار. يمكن استخدام كل من البيانات العددية والفئوية مثل الجنس والعمر وما إلى ذلك من خلال شجرة القرار.
هيكل شجرة القرار
يتكون هيكل شجرة القرار من عقدة جذر وفروع وعقد طرفية. العقد المتفرعة هي نتائج الشجرة وتمثل العقد الداخلية الاختبار على السمة. تمثل العقد الطرفية تسمية فئة.
عمل شجرة القرار
1. تعمل شجرة القرار في ظل نهج التعلم الخاضع للإشراف لكل من المتغيرات السرية والمستمرة. يتم تقسيم مجموعة البيانات إلى مجموعات فرعية على أساس السمة الأكثر أهمية لمجموعة البيانات. يتم تحديد السمة والتقسيم من خلال الخوارزميات.
2. يتكون هيكل شجرة القرار من عقدة الجذر ، وهي عقدة توقع مهمة. تحدث عملية التقسيم من عقد القرار وهي العقد الفرعية للشجرة. العقد التي لا تنقسم أكثر تسمى العقد الطرفية أو الورقية.
3. مجموعة البيانات مقسمة إلى مناطق متجانسة وغير متداخلة باتباع نهج من أعلى إلى أسفل. توفر الطبقة العلوية الملاحظات في مكان واحد ثم تنقسم إلى فروع. يطلق على العملية اسم "النهج الجشع" نظرًا لتركيزها فقط على العقدة الحالية بدلاً من العقد المستقبلية.
4. حتى وما لم يتم الوصول إلى معيار الإيقاف ، ستستمر شجرة القرار في العمل.
5. مع بناء شجرة القرار ، يتم إنشاء الكثير من الضوضاء والقيم المتطرفة. لإزالة هذه القيم المتطرفة والبيانات الصاخبة ، يتم تطبيق طريقة "تقليم الشجرة". ومن ثم تزداد دقة النموذج.
6. يتم التحقق من دقة النموذج على مجموعة اختبار تتكون من مجموعات الاختبار وتسميات الفئات. يتم تحديد نموذج دقيق بناءً على النسب المئوية لمجموعة تصنيفات اختبار التصنيف والفئات حسب النموذج.
الشكل 1 : مثال لشجرة غير مشذبة ومقلمة
مصدر
أنواع شجرة القرار
تؤدي أشجار القرار إلى تطوير نماذج للتصنيف والانحدار بناءً على هيكل يشبه الشجرة. يتم تقسيم البيانات إلى مجموعات فرعية أصغر. نتيجة شجرة القرار هي شجرة بها عقد قرار وعقد ورقية. يتم شرح نوعين من أشجار القرار أدناه:
1. التصنيف
يشمل التصنيف بناء نماذج تصف تصنيفات الفئات المهمة. يتم تطبيقها في مجالات التعلم الآلي والتعرف على الأنماط. تؤدي أشجار القرار في التعلم الآلي من خلال نماذج التصنيف إلى اكتشاف الاحتيال والتشخيص الطبي وما إلى ذلك. تتضمن العملية ذات الخطوتين لنموذج التصنيف ما يلي:
- التعلم: تم بناء نموذج تصنيف يعتمد على بيانات التدريب.
- التصنيف: يتم فحص دقة النموذج ثم استخدامه لتصنيف البيانات الجديدة. تكون ملصقات الفئات في شكل قيم منفصلة مثل "نعم" أو "لا" ، إلخ.
الشكل 2 : مثال على نموذج التصنيف .
مصدر
2. الانحدار
تستخدم نماذج الانحدار لتحليل انحدار البيانات ، أي التنبؤ بالسمات العددية. وتسمى هذه أيضًا القيم المستمرة. لذلك ، بدلاً من توقع تسميات الفئات ، يتنبأ نموذج الانحدار بالقيم المستمرة.
قائمة الخوارزميات المستخدمة
تم تطوير خوارزمية شجرة القرار المعروفة باسم "ID3" في عام 1980 بواسطة باحث آلي يدعى J. Ross Quinlan. نجحت هذه الخوارزمية بواسطة خوارزميات أخرى مثل C4.5 التي طورها. كل من الخوارزميات تطبق النهج الجشع. لا تستخدم الخوارزمية C4.5 التتبع التراجعي ويتم إنشاء الأشجار بطريقة تقسيم وقهر عودية من أعلى إلى أسفل. استخدمت الخوارزمية مجموعة بيانات تدريبية مع تسميات الفصل والتي تنقسم إلى مجموعات فرعية أصغر مع تكوين الشجرة.
- يتم تحديد ثلاثة معلمات في البداية - قائمة السمات وطريقة اختيار السمة وقسم البيانات. تم وصف سمات مجموعة التدريب في قائمة السمات.
- تتضمن طريقة تحديد الإسناد طريقة اختيار أفضل سمة للتمييز بين المجموعات.
- يعتمد هيكل الشجرة على طريقة اختيار السمة.
- يبدأ بناء الشجرة بعقدة واحدة.
- يحدث تقسيم المجموعات عندما يتم تمثيل تصنيفات الفئات المختلفة في مجموعة. سيؤدي ذلك إلى تكوين فرع الشجرة.
- تحدد طريقة التقسيم السمة التي يجب اختيارها لقسم البيانات. بناءً على هذه الطريقة ، تتم زراعة الفروع من عقدة بناءً على نتيجة الاختبار.
- يتم تنفيذ طريقة التقسيم والتقسيم بشكل متكرر ، مما يؤدي في النهاية إلى إنشاء شجرة قرار لمجموعات مجموعات البيانات التدريبية.
- تستمر عملية تكوين الشجرة حتى وما لم يتم تقسيم المجموعات المتبقية بشكل أكبر.
- يتم الإشارة إلى تعقيد الخوارزمية بواسطة
ن * | د | * السجل | D |
حيث ، n هو عدد السمات في مجموعة بيانات التدريب D و | D | هو عدد المجموعات.
مصدر
الشكل 3: تقسيم قيمة منفصلة
قوائم الخوارزميات المستخدمة في شجرة القرار هي:
ID3
تعتبر المجموعة الكاملة للبيانات S بمثابة عقدة جذر أثناء تكوين شجرة القرار. ثم يتم إجراء التكرار على كل سمة وتقسيم البيانات إلى أجزاء. تقوم الخوارزمية بفحص وتأخذ تلك السمات التي لم يتم أخذها قبل السمات المتكررة. يستغرق تقسيم البيانات في خوارزمية ID3 وقتًا طويلاً وليست خوارزمية مثالية لأنها تلائم البيانات.
ج 4.5
إنه شكل متقدم من الخوارزمية حيث يتم تصنيف البيانات على أنها عينات. يمكن معالجة كل من القيم المستمرة والمنفصلة بكفاءة على عكس ID3. طريقة التقليم موجودة والتي تزيل الفروع غير المرغوب فيها.
عربة التسوق
يمكن إجراء مهام التصنيف والانحدار بواسطة الخوارزمية. على عكس ID3 و C4.5 ، يتم إنشاء نقاط القرار من خلال النظر في مؤشر Gini. يتم تطبيق خوارزمية جشعة لطريقة التقسيم بهدف تقليل دالة التكلفة. في مهام التصنيف ، يتم استخدام مؤشر جيني كدالة تكلفة للإشارة إلى نقاء العقد الورقية. في مهام الانحدار ، يتم استخدام مجموع الخطأ التربيعي كدالة التكلفة للعثور على أفضل توقع.
سعيد
كما يوحي الاسم ، فهو يرمز إلى كاشف التفاعل التلقائي لمربع Chi ، وهي عملية تتعامل مع أي نوع من المتغيرات. قد تكون متغيرات اسمية أو ترتيبية أو مستمرة. تستخدم أشجار الانحدار اختبار F ، بينما يستخدم اختبار Chi-Square في نموذج التصنيف.
كوكب المريخ
وهي تعني خطوط الانحدار التكيفية متعددة المتغيرات. يتم تنفيذ الخوارزمية بشكل خاص في مهام الانحدار ، حيث تكون البيانات في الغالب غير خطية.
التقسيم الثنائي العودي الجشع
تحدث طريقة التقسيم الثنائي مما يؤدي إلى فرعين. يتم إجراء تقسيم المجموعات من خلال حساب دالة تقسيم التكلفة. يتم تحديد أقل تقسيم للتكلفة ويتم تنفيذ العملية بشكل متكرر لحساب دالة التكلفة للمجموعات الأخرى.
شجرة القرار مع مثال من العالم الحقيقي
توقع عملية الأهلية للقرض من البيانات المقدمة.
الخطوة 1: تحميل البيانات
يمكن إما إسقاط القيم الخالية أو ملؤها ببعض القيم. كان شكل مجموعة البيانات الأصلي (614،13) ، ومجموعة البيانات الجديدة بعد إسقاط القيم الخالية هي (480،13).
الخطوة 2: إلقاء نظرة على مجموعة البيانات.
الخطوة 3: تقسيم البيانات إلى مجموعات تدريب واختبار.
الخطوة 4: قم ببناء النموذج وتناسب مجموعة القطار
قبل التخيل يجب إجراء بعض الحسابات.
طريقة الحساب 1: احسب إنتروبيا إجمالي مجموعة البيانات.
طريقة الحساب 2: ابحث عن الكون واكسب كل عمود.
- عمود الجنس
- الشرط 1: مجموعة البيانات مع كل الذكور فيه وبعد ذلك ،
ص = 278 ، ن = 116 ، ف + ن = 489
الانتروبيا (G = ذكر) = 0.87
- الشرط 2: مجموعة البيانات مع كل الإناث فيه وبعد ذلك ،
ص = 54 ، ن = 32 ، ف + ن = 86
الانتروبيا (G = أنثى) = 0.95
- متوسط المعلومات في عمود الجنس
- عمود متزوج
- الشرط 1: متزوج = نعم (1)
في هذا الانقسام ، مجموعة البيانات الكاملة بالحالة متزوج نعم
ص = 227 ، ن = 84 ، ف + ن = 311
هـ (متزوج = نعم) = 0.84
- الشرط الثاني: متزوج = لا (0)
في هذا الانقسام ، مجموعة البيانات الكاملة مع رقم الحالة متزوج
ص = 105 ، ن = 64 ، ف + ن = 169
ه (متزوج = لا) = 0.957
- متوسط المعلومات في العمود متزوج هو
- العمود التربوي
- الشرط 1: التعليم = خريج (1)
ص = 271 ، ن = 112 ، ف + ن = 383
E (التعليم = الخريج) = 0.87
- الشرط 2: التعليم = غير خريج (0)
ص = 61 ، ن = 36 ، ف + ن = 97
E (التعليم = غير خريج) = 0.95
- متوسط عمود معلومات التعليم = 0.886
الكسب = 0.01
4) عمود العاملين لحسابهم الخاص
- الشرط 1: صاحب العمل = نعم (1)
ص = 43 ، ن = 23 ، ف + ن = 66
هـ (العاملون لحسابهم الخاص = نعم) = 0.93
- الشرط 2: صاحب العمل = لا (0)
ص = 289 ، ن = 125 ، ف + ن = 414
E (العاملون لحسابهم الخاص = لا) = 0.88
- متوسط المعلومات في العاملين لحسابهم الخاص في عمود التعليم = 0.886
الكسب = 0.01
- عمود درجة الائتمان: يحتوي العمود على قيمتين 0 و 1.
- الشرط 1: درجة الائتمان = 1
ص = 325 ، ن = 85 ، ف + ن = 410
E (درجة الائتمان = 1) = 0.73
- الشرط 2: درجة الائتمان = 0
ص = 63 ، ن = 7 ، ف + ن = 70
E (درجة الائتمان = 0) = 0.46
- متوسط المعلومات في عمود درجة الائتمان = 0.69
كسب = 0.2
قارن جميع قيم الكسب
درجة الائتمان لديها أعلى مكاسب. ومن ثم ، سيتم استخدامه كعقدة جذر.
الخطوة 5: تصور شجرة القرار
الشكل 5: شجرة القرار مع المعيار جيني
مصدر
الشكل 6: شجرة القرار مع معيار الانتروبيا
مصدر
الخطوة 6: تحقق من درجة النموذج
تم تسجيل دقة تصل إلى 80٪ تقريبًا.
قائمة التطبيقات
غالبًا ما يستخدم خبراء المعلومات أشجار القرار لإجراء تحقيق تحليلي. يمكن استخدامها على نطاق واسع لأغراض تجارية لتحليل الصعوبات أو التنبؤ بها. تسمح مرونة شجرة القرار باستخدامها في منطقة مختلفة:
1. الرعاية الصحية
تسمح أشجار القرار بالتنبؤ بما إذا كان المريض يعاني من مرض معين مع ظروف العمر والوزن والجنس وما إلى ذلك. وتشمل التنبؤات الأخرى تحديد تأثير الدواء مع الأخذ في الاعتبار عوامل مثل التركيب وفترة التصنيع وما إلى ذلك.
2. القطاعات المصرفية
تساعد أشجار القرار في التنبؤ بما إذا كان الشخص مؤهلاً للحصول على قرض بالنظر إلى وضعه المالي وراتبه وأفراد عائلته وما إلى ذلك. ويمكنه أيضًا تحديد عمليات الاحتيال على بطاقات الائتمان والتخلف عن سداد القروض وما إلى ذلك.
3. القطاعات التربوية
يمكن تحديد القائمة المختصرة للطالب بناءً على درجة الجدارة والحضور وما إلى ذلك بمساعدة أشجار القرار.
قائمة المزايا
- يمكن تمثيل النتائج القابلة للتفسير لنموذج القرار للإدارة العليا وأصحاب المصلحة.
- أثناء بناء نموذج شجرة القرار ، فإن المعالجة المسبقة للبيانات ، مثل التطبيع ، والقياس ، وما إلى ذلك ليست مطلوبة.
- يمكن التعامل مع كلا النوعين من البيانات - العددية والفئوية من خلال شجرة القرار التي تعرض كفاءتها العالية في الاستخدام على الخوارزميات الأخرى.
- لا تؤثر القيمة المفقودة في البيانات على عملية شجرة القرار ، مما يجعلها خوارزمية مرنة.
ماذا بعد؟
إذا كنت مهتمًا باكتساب خبرة عملية في التنقيب عن البيانات والحصول على تدريب من قبل خبراء في المجال ، يمكنك التحقق من برنامج upGrad التنفيذي في علوم البيانات. الدورة موجهة لأي فئة عمرية تتراوح من 21 إلى 45 عامًا مع الحد الأدنى من معايير الأهلية بنسبة 50 ٪ أو ما يعادلها من درجات النجاح في التخرج. يمكن لأي متخصص في العمل الانضمام إلى برنامج PG التنفيذي المعتمد من IIIT Bangalore.
تتمتع أشجار القرار في التنقيب عن البيانات بالقدرة على التعامل مع البيانات المعقدة للغاية. تحتوي جميع أشجار القرار على ثلاث عقد أو أجزاء حيوية. دعونا نناقش كل واحد منهم أدناه. الآن بعد أن فهمنا طريقة عمل أشجار القرار ، دعنا نحاول إلقاء نظرة على بعض مزايا استخدام أشجار القرار في استخراج البياناتما هي شجرة القرار في التنقيب في البيانات؟
شجرة القرار هي طريقة لبناء النماذج في التنقيب في البيانات. يمكن فهمها على أنها شجرة ثنائية مقلوبة. يتضمن عقدة جذر وبعض الفروع وعقد الأوراق في النهاية.
تشير كل من العقد الداخلية في شجرة القرار إلى دراسة حول سمة. يشير كل قسم إلى نتيجة تلك الدراسة أو الفحص المعين. وأخيرًا ، تمثل كل عقدة طرفية علامة فئة.
الهدف الرئيسي من بناء شجرة قرار هو إنشاء نموذج مثالي يمكن استخدامه للتنبؤ بفئة معينة باستخدام إجراءات الحكم على البيانات السابقة.
نبدأ بالعقدة الجذرية ، ونقيم بعض العلاقات مع متغير الجذر ، ونصنع أقسامًا تتفق مع تلك القيم. بناءً على الخيارات الأساسية ، ننتقل إلى العقد اللاحقة. ما هي بعض العقد الهامة المستخدمة في أشجار القرار؟
عندما نربط كل هذه العقد ، نحصل على أقسام. يمكننا تكوين أشجار مع مجموعة متنوعة من الصعوبات باستخدام هذه العقد والأقسام لعدد لا حصر له من المرات. ما هي مزايا استخدام أشجار القرار؟
1. عند مقارنتها بالطرق الأخرى ، لا تتطلب أشجار القرار قدرًا كبيرًا من الحساب لتدريب البيانات أثناء المعالجة المسبقة.
2. لا يتم تضمين استقرار المعلومات في أشجار القرار.
3. أيضًا ، لا تتطلب حتى توسيع نطاق المعلومات.
4. حتى إذا تم حذف بعض القيم في مجموعة البيانات ، فإن هذا لا يتعارض مع بناء الأشجار.
5. هذه النماذج متطابقة غريزية. كما أنها خالية من الإجهاد للوصف.