شرح التصنيف في التنقيب عن البيانات: الأنواع والمصنفات والتطبيقات [2022]
نشرت: 2021-06-18يعد التنقيب عن البيانات أحد أهم أجزاء علم البيانات. يسمح لك بالحصول على البيانات اللازمة وإنشاء رؤى قابلة للتنفيذ من نفسه لأداء عمليات التحليل.
في العمود التالي ، سنغطي تصنيف أنظمة التنقيب عن البيانات ونناقش تقنيات التصنيف المختلفة المستخدمة في العملية. ستتعلم كيف يتم استخدامها في سياق اليوم وكيف يمكنك أن تصبح خبيرًا في هذا المجال.
جدول المحتويات
ما هو التنقيب عن البيانات؟
يشير التنقيب عن البيانات إلى التنقيب في البيانات أو التنقيب عنها بطرق مختلفة لتحديد الأنماط والحصول على مزيد من الأفكار حولها. يتضمن تحليل الأنماط المكتشفة لمعرفة كيف يمكن استخدامها بفعالية.
في التنقيب عن البيانات ، تقوم بفرز مجموعات البيانات الكبيرة والعثور على الأنماط المطلوبة وإنشاء علاقات لإجراء تحليل البيانات. إنها إحدى الخطوات المحورية في تحليلات البيانات ، وبدونها لا يمكنك إكمال عملية تحليل البيانات.
يعد التنقيب عن البيانات من بين الخطوات الأولية في أي عملية تحليل بيانات. وبالتالي ، من الضروري إجراء التنقيب عن البيانات بشكل صحيح.
ما هو التصنيف في التنقيب عن البيانات؟
التصنيف في التنقيب عن البيانات هو أسلوب شائع يفصل بين نقاط البيانات إلى فئات مختلفة. يسمح لك بتنظيم مجموعات البيانات من جميع الأنواع ، بما في ذلك مجموعات البيانات المعقدة والكبيرة بالإضافة إلى مجموعات البيانات الصغيرة والبسيطة.
يتضمن بشكل أساسي استخدام الخوارزميات التي يمكنك تعديلها بسهولة لتحسين جودة البيانات. هذا سبب كبير لكون التعلم الخاضع للإشراف شائعًا بشكل خاص مع تصنيف التقنيات في استخراج البيانات. الهدف الأساسي من التصنيف هو ربط متغير الاهتمام بالمتغيرات المطلوبة. يجب أن يكون متغير الاهتمام من النوع النوعي.
تحدد الخوارزمية الرابط بين متغيرات التنبؤ. تسمى الخوارزمية التي تستخدمها للتصنيف في التنقيب عن البيانات بالمصنف ، والملاحظات التي تجريها من خلال نفس الخوارزمية تسمى المثيلات. تستخدم تقنيات التصنيف في التنقيب عن البيانات عندما يتعين عليك العمل مع المتغيرات النوعية.
هناك أنواع متعددة من خوارزميات التصنيف ، ولكل منها وظائفها الفريدة وتطبيقها. تُستخدم كل هذه الخوارزميات لاستخراج البيانات من مجموعة البيانات. يعتمد التطبيق الذي تستخدمه لمهمة معينة على الهدف من المهمة ونوع البيانات التي تحتاج إلى استخراجها.
أنواع تقنيات التصنيف في التنقيب عن البيانات
قبل أن نناقش خوارزميات التصنيف المختلفة في التنقيب عن البيانات ، دعنا أولاً نلقي نظرة على نوع تقنيات التصنيف المتاحة. في المقام الأول ، يمكننا تقسيم خوارزميات التصنيف إلى فئتين:
- توليدي
- تمييزي
فيما يلي شرح موجز لهاتين الفئتين:
توليدي
نماذج خوارزمية التصنيف التوليدية توزيع الفئات الفردية. يحاول معرفة النموذج الذي ينشئ البيانات من خلال تقدير التوزيعات والافتراضات الخاصة بالنموذج. يمكنك استخدام الخوارزميات التوليدية للتنبؤ بالبيانات غير المرئية.
الخوارزمية التوليدية البارزة هي Naive Bayes Classifier.
تمييزي
إنها خوارزمية تصنيف بدائية تحدد فئة لصف من البيانات. يقوم بالنمذجة باستخدام البيانات المرصودة ويعتمد على جودة البيانات بدلاً من توزيعاتها.
الانحدار اللوجستي هو نوع ممتاز من المصنفات التمييزية.
المصنفات في التعلم الآلي
يعد التصنيف جانبًا شائعًا للغاية في استخراج البيانات. نتيجة لذلك ، يحتوي التعلم الآلي على العديد من المصنفات:
- الانحدار اللوجستي
- الانحدارالخطي
- أشجار القرار
- غابة عشوائية
- ساذج بايز
- دعم آلات المتجهات
- K- أقرب الجيران
1. الانحدار اللوجستي
يسمح لك الانحدار اللوجستي بنمذجة احتمالية حدث أو فئة معينة. يستخدم لوجستيًا لنمذجة متغير ثنائي تابع. يمنحك احتمالات تجربة واحدة. لأن الانحدار اللوجستي تم إنشاؤه من أجل التصنيف ويساعدك على فهم تأثير المتغيرات المستقلة المتعددة على متغير نتيجة واحد.
تكمن مشكلة الانحدار اللوجستي في أنه لا يعمل إلا عندما يكون المتغير المتوقع ثنائيًا ، وتكون جميع المتنبئات مستقلة. أيضًا ، يفترض أن البيانات لا تحتوي على أي قيم مفقودة ، والتي يمكن أن تكون مشكلة كبيرة.
2. الانحدار الخطي
يعتمد الانحدار الخطي على التعلم الخاضع للإشراف ويقوم بتنفيذ الانحدار. يصوغ قيمة التنبؤ وفقًا للمتغيرات المستقلة. في المقام الأول ، نستخدمه لمعرفة العلاقة بين التنبؤ والمتغيرات.
يتنبأ بقيمة متغير تابع وفقًا لمتغير مستقل محدد. على وجه الخصوص ، تجد العلاقة الخطية بين المتغير المستقل والمتغير التابع. إنه ممتاز للبيانات التي يمكنك فصلها عن الخطية وذات كفاءة عالية. ومع ذلك ، فهو عرضة للتركيب الزائد والأنف. علاوة على ذلك ، فإنه يعتمد على افتراض أن المتغيرات المستقلة والتابعة مرتبطة خطيًا.
3. أشجار القرار
تعتبر شجرة القرار من أقوى تقنيات التصنيف في التنقيب عن البيانات. إنه مخطط انسيابي مشابه لهيكل الشجرة. هنا ، تشير كل عقدة داخلية إلى اختبار على شرط ، وكل فرع يمثل نتيجة الاختبار (سواء كانت صحيحة أو خاطئة). كل عقدة ورقية في شجرة القرار تحمل تسمية فئة.
يمكنك تقسيم البيانات إلى فئات مختلفة وفقًا لشجرة القرار. سيتنبأ بالفئات التي تنتمي إليها نقطة البيانات الجديدة وفقًا لشجرة القرار التي تم إنشاؤها. حدود التنبؤ الخاصة به هي خطوط عمودية وأفقية.
4. غابة عشوائية
يناسب مصنف الغابة العشوائي العديد من أشجار القرار في عينات فرعية مختلفة لمجموعة البيانات. يستخدم المتوسط لتعزيز دقته التنبؤية وإدارة التجهيز الزائد. يكون حجم العينة الفرعية دائمًا مساويًا لحجم عينة الإدخال ؛ ومع ذلك ، يتم سحب العينات مع الاستبدال.
الميزة المميزة لمصنف الغابة العشوائية هي تقليل التجهيز الزائد. علاوة على ذلك ، يتمتع هذا المصنف بدقة أكبر بكثير من أشجار القرار. ومع ذلك ، فهي خوارزمية أبطأ كثيرًا للتنبؤ في الوقت الفعلي وهي خوارزمية معقدة للغاية ، وبالتالي ، فهي صعبة التنفيذ بشكل فعال.
5. ساذج بايز
تفترض خوارزمية Naive Bayes أن كل ميزة مستقلة عن بعضها البعض وأن جميع الميزات تساهم بالتساوي في النتيجة.
افتراض آخر تعتمد عليه هذه الخوارزمية هو أن جميع الميزات لها نفس الأهمية. له العديد من التطبيقات في عالم اليوم ، مثل تصفية البريد العشوائي وتصنيف المستندات. لا يتطلب Naive Bayes سوى كمية صغيرة من بيانات التدريب لتقدير المعلمات المطلوبة. علاوة على ذلك ، يعتبر مصنف Naive Bayes أسرع بشكل ملحوظ من المصنفات المتطورة والمتقدمة الأخرى.
ومع ذلك ، فإن مصنف Naive Bayes معروف بكونه فقيرًا في التقدير لأنه يفترض أن جميع الميزات لها نفس الأهمية ، وهذا ليس صحيحًا في معظم سيناريوهات العالم الحقيقي.
6. دعم آلة المتجهات
تمثل خوارزمية آلة ناقل الدعم ، والمعروفة أيضًا باسم SVM ، بيانات التدريب في الفضاء والتي يتم تمييزها إلى فئات بواسطة فجوات كبيرة. ثم يتم تعيين نقاط البيانات الجديدة في نفس المساحة ، ويتم توقع فئاتها وفقًا لجانب الفجوة التي تقع فيها. هذه الخوارزمية مفيدة بشكل خاص في المساحات عالية الأبعاد وهي فعالة جدًا في الذاكرة لأنها تستخدم فقط مجموعة فرعية من نقاط التدريب في وظيفة اتخاذ القرار الخاصة بها.
هذه الخوارزمية متخلفة في تقديم تقديرات الاحتمالات. ستحتاج إلى حسابها من خلال التحقق من صحة خمسة أضعاف ، وهو أمر مكلف للغاية.
7. K- أقرب الجيران
تحتوي خوارزمية k- الجار الأقرب على حدود تنبؤ غير خطية لأنها مصنف غير خطي. يتنبأ بفئة نقطة بيانات اختبار جديدة من خلال إيجاد فئة k الأقرب لجيرانها. يمكنك تحديد k أقرب جيران لنقطة بيانات الاختبار باستخدام المسافة الإقليدية. في أقرب جيران k ، يجب عليك حساب عدد نقاط البيانات الموجودة في فئات مختلفة ، وستقوم بتعيين نقطة البيانات الجديدة للفئة مع معظم الجيران.
إنها خوارزمية مكلفة للغاية حيث أن إيجاد قيمة k يتطلب الكثير من الموارد. علاوة على ذلك ، يتعين عليها أيضًا حساب المسافة بين كل مثيل وكل عينة تدريب ، مما يزيد من تكلفة الحوسبة.
تطبيقات تصنيف نظم التنقيب عن البيانات
هناك العديد من الأمثلة على كيفية استخدامنا لخوارزميات التصنيف في حياتنا اليومية. فيما يلي أكثرها شيوعًا:
- يستخدم المسوقون خوارزميات التصنيف لتقسيم الجمهور. إنهم يصنفون جمهورهم المستهدف إلى فئات مختلفة باستخدام هذه الخوارزميات لابتكار استراتيجيات تسويق أكثر دقة وفعالية.
- يستخدم خبراء الأرصاد هذه الخوارزميات للتنبؤ بالظروف الجوية وفقًا لمعايير مختلفة مثل الرطوبة ودرجة الحرارة وما إلى ذلك.
- يستخدم خبراء الصحة العامة المصنفات للتنبؤ بمخاطر الأمراض المختلفة ووضع استراتيجيات للتخفيف من انتشارها.
- تستخدم المؤسسات المالية خوارزميات التصنيف للعثور على المتعثرين لتحديد البطاقات والقروض التي يجب أن توافق عليها. كما أنه يساعدهم في اكتشاف الاحتيال.
خاتمة
يعتبر التصنيف من أكثر أقسام التنقيب عن البيانات شيوعًا. كما ترى ، لديها الكثير من التطبيقات في حياتنا اليومية. إذا كنت مهتمًا بمعرفة المزيد حول التصنيف والتنقيب في البيانات ، فإننا نوصي بمراجعة برنامج Executive PG في علوم البيانات .
إنها دورة تدريبية عبر الإنترنت مدتها 12 شهرًا مع أكثر من 300 شريك توظيف. يقدم البرنامج مساعدة مهنية مخصصة ودعمًا شخصيًا للطلاب وستة تخصصات مختلفة:
- اختصاصي علوم البيانات
- تعلم عميق
- معالجة اللغة الطبيعية
- ذكاء الأعمال / تحليلات البيانات
- تحليل الأعمال
- هندسة البيانات
يوضح ما يلي الفرق بين الانحدار الخطي واللوجستي يعد التنقيب عن البيانات أحد أكثر المجالات سخونة في هذا العقد وهو مطلوب بشدة. ولكن لإتقان التنقيب عن البيانات ، هناك مهارات معينة يجب أن تتقنها. المهارات التالية ضرورية لتعلم التنقيب عن البيانات. تساعد تقنية التصنيف الشركات بالطريقة التالية: ما هو الفرق بين الانحدار الخطي والانحدار اللوجستي؟
الانحدارالخطي -
1. الانحدار الخطي هو نموذج انحدار.
2. مطلوب علاقة خطية بين الأصناف التابعة والمستقلة.
3. لا يتم إضافة قيمة العتبة.
4. يتم استخدام جذر متوسط مربع الخطأ أو RMSE للتنبؤ بالقيمة التالية.
5. التوزيع الغاوسي للمتغير يفترضه الانحدار الخطي.
الانحدار اللوجستي -
1. الانحدار اللوجستي هو نموذج تصنيف.
2. العلاقة الخطية بين الأصناف التابعة والمستقلة غير مطلوبة.
3. يتم إضافة قيمة العتبة.
4. الدقة تستخدم للتنبؤ بالقيمة التالية.
5. التوزيع ذو الحدين للمتغير يفترضه الانحدار اللوجستي. ما هي المهارات المطلوبة لإتقان استخراج البيانات؟
أ. مهارات البرمجة
الخطوة الأولى والأكثر أهمية هي تعلم لغة البرمجة. لا تزال هناك شكوك حول أي لغة هي الأفضل للتنقيب عن البيانات ولكن هناك بعض اللغات المفضلة مثل Python و R و MATLAB.
ب. إطار معالجة البيانات الضخمة
تعد أطر العمل مثل Hadoop و Storm و Split من أكثر أطر معالجة البيانات الضخمة شيوعًا.
ج. نظام التشغيل
Linux هو نظام التشغيل الأكثر شيوعًا والأفضل لاستخراج البيانات.
د. نظام إدارة قواعد البيانات
معرفة DBMS أمر لا بد منه لتخزين البيانات المعالجة الخاصة بك. MongoDB و CouchDB و Redis و Dynamo هي بعض أنظمة إدارة قواعد البيانات الشائعة. ما هي أهمية التصنيف في التنقيب عن البيانات؟
يساعد تصنيف البيانات المؤسسات على تصنيف الكم الهائل من البيانات للفئات المستهدفة. وهذا يمكنهم من تحديد المجالات ذات المخاطر المحتملة أو الربح من خلال توفير رؤية أفضل للبيانات.
على سبيل المثال ، طلبات القروض من أحد البنوك. بمساعدة تقنية التصنيف ، يمكن تصنيف البيانات إلى فئات مختلفة وفقًا لمخاطر الائتمان.
يعتمد التحليل على عدة أنماط موجودة في البيانات. تساعد هذه الأنماط في فرز البيانات إلى مجموعات مختلفة.