دليل توضيحي للتكتل في التنقيب عن البيانات - التعريف والتطبيقات والخوارزميات
نشرت: 2021-02-25جدول المحتويات
مقدمة - ما هو التنقيب عن البيانات والتجميع؟
تمتلك العديد من المنظمات بيانات ضخمة في متناول اليد وهناك سبب وراء اختيار هذه المنظمات لتخزينها. يستخدمون هذه البيانات لاستخراج بعض الأفكار من البيانات التي يمكن أن تساعدهم في زيادة ربحيتهم. تُعرف عملية استخراج الرؤى والأنماط الأساسية من مجموعة البيانات الأولية باسم تعدين البيانات. إحدى طرق استخراج هذه الأنماط الثاقبة هي Clustering.
يشير التجميع إلى تجميع نقاط البيانات التي تظهر خصائص مشتركة. بمعنى آخر ، إنها عملية تقوم بتحليل مجموعة البيانات وإنشاء مجموعات من نقاط البيانات. الكتلة ليست سوى مجموعة من نقاط البيانات المتشابهة. في معالجة التجميع ، يتم أولاً تجميع نقاط البيانات معًا لتشكيل مجموعات ثم يتم تعيين التسميات لهذه المجموعات.
لإجراء التجميع على مجموعة البيانات ، نستخدم عمومًا خوارزميات التعلم غير الخاضعة للإشراف لأن تسميات المخرجات غير معروفة في مجموعة البيانات. يمكن استخدام التجميع كجزء من تحليل البيانات الاستكشافية ويمكن استخدامه للنمذجة للحصول على مجموعات ثاقبة. يجب تحسين المجموعات بطريقة تجعل المسافة بين نقاط البيانات داخل الكتلة في حدها الأدنى ويجب أن تكون المسافة بين المجموعات المختلفة أكبر قدر ممكن.
لماذا نستخدم Clustering؟ - استخدامات التكتل
- التفسير الأفضل للبيانات - باستخدام التجميع ، يمكن فهم الأنماط المستخرجة من مجموعة البيانات بسهولة من قبل الأشخاص العاديين وبالتالي يمكن تفسيرها بسهولة.
- رؤى من البيانات عالية الأبعاد - ليس من السهل تحليل مجموعات البيانات عالية الأبعاد بمجرد النظر إلى ميزتها. يمكن أن يساعد استخدام التجميع في توفير بعض الأفكار واستخراج بعض الأنماط من البيانات الضخمة. يمكن أن يوفر بعض الملخصات التي قد تكون مفيدة في حل بعض الأسئلة.
- اكتشاف المجموعات التعسفية - بمساعدة طرق التجميع المختلفة ، يمكننا العثور على الكتل التي يمكن أن تتخذ أي شكل عشوائي. يمكن أن يساعد ذلك في الحصول على الخصائص الأساسية لمجموعة البيانات.
حالات الاستخدام الواقعي للتجميع - التطبيقات
- أطلقت شركتك منتجًا جديدًا وأنت مسؤول عن ضمان وصول المنتج إلى المجموعة المناسبة من الأشخاص حتى تتمكن شركتك من تحقيق أقصى قدر من الربحية. في هذه الحالة ، فإن تحديد النوع المناسب من الأشخاص هو المشكلة المطروحة. يمكنك إجراء التجميع في قاعدة بيانات العملاء لتحديد المجموعة المناسبة من الأشخاص من خلال تحليل أنماط الشراء الخاصة بهم.
- تمتلك شركتك العديد من الصور غير المصنفة ويطلب منك مشرفك تجميعها وفقًا لمحتويات الصور. يمكنك استخدام التجميع لإجراء تجزئة للصور على هذه الصور. يمكنك أيضًا استخدام التجميع إذا طلبوا منك استخراج بعض الأنماط من البيانات الموجودة.
أنواع مختلفة من طرق التجميع - الخوارزميات
1. طريقة التجميع الهرمي
تقوم هذه الطريقة بتجميع المجموعات أو تقسيمها بناءً على مقياس المسافة المحدد مثل المسافة الإقليدية ، ومسافة مانهاتن ، وما إلى ذلك ، ويتم تمثيلها بشكل عام باستخدام مخطط الأسنان. يقوم بإنشاء مصفوفة مسافة بين جميع المجموعات التي تشير إلى المسافة بينها. باستخدام مقياس المسافة هذا ، يتم الربط بين المجموعات بناءً على نوع الارتباط.
نظرًا لأنه يمكن أن يكون هناك العديد من نقاط البيانات في مجموعة ، فإن المسافات بين جميع النقاط من مجموعة إلى كل تلك الموجودة في مجموعة أخرى ستكون مختلفة. هذا يجعل من الصعب تحديد المسافة التي يجب أخذها في الاعتبار والتي ستقرر دمج المجموعات. لمعالجة هذا الأمر ، نستخدم معايير الربط لتحديد المجموعات التي ينبغي ربطها. هناك ثلاثة أنواع شائعة من الروابط: -
- ارتباط مفرد - يتم تمثيل المسافة بين المجموعتين بأقصر مسافة بين النقاط في هاتين المجموعتين.
- الارتباط الكامل - يتم تمثيل المسافة بين المجموعتين من خلال أقصى مسافة بين النقاط في هاتين المجموعتين.
- متوسط الارتباط - يتم تمثيل المسافة بين المجموعتين بحساب متوسط المسافة بين النقاط في هاتين المجموعتين.
النهج التجميعي - ويسمى أيضًا النهج التصاعدي. هنا ، تعتبر كل نقطة بيانات كتلة في المرحلة الأولية ثم تدمج هذه المجموعات واحدة تلو الأخرى.
نهج الانقسام - ويسمى أيضًا نهجًا من أعلى إلى أسفل. هنا ، يتم اعتبار جميع نقاط البيانات كمجموعة واحدة في المرحلة الأولية ثم يتم تقسيم نقاط البيانات هذه لإنشاء المزيد من المجموعات.
2. طريقة التقسيم العنقودية
تنشئ هذه الطريقة مجموعات بناءً على الخصائص وأوجه التشابه بين نقاط البيانات. تتطلب الخوارزميات التي تستخدم هذه المنهجية إنشاء عدد من المجموعات كمدخلات. ثم تتبع هذه الخوارزميات نهجًا تكراريًا لإنشاء هذا العدد من المجموعات. بعض الخوارزميات التي تتبع هذه المنهجية هي كما يلي: -
- K-Means Clustering
تستخدم K-Means مقاييس المسافة مثل مسافة مانهاتن ، والمسافة الإقليدية ، وما إلى ذلك لإنشاء عدد المجموعات المحددة. يقوم بحساب المسافة بين نقاط البيانات والنقطه الوسطى من المجموعات. ثم يتم تعيين نقاط البيانات إلى أقرب المجموعات ويتم إعادة حساب النقطه الوسطى من العنقود. تتكرر هذه التكرارات حتى اكتمال العدد المحدد مسبقًا من التكرارات أو لا تتغير النقط الوسطى من المجموعات بعد التكرار.
- PAM (التقسيم حول Medoids)
تُعرف أيضًا باسم خوارزمية K-Medoid ، وهذا العمل لهذه الخوارزمية مشابه لخوارزمية K-Means. إنه يختلف عن K-Means من حيث كيفية تعيين مركز الكتلة. في PAM ، يمثل متوسط الكتلة نقطة بيانات فعلية بينما في K-Means يحسب النقطه الوسطى لنقاط البيانات التي قد لا تكون إحداثيات لنقطة بيانات فعلية. في PAM ، يتم اختيار نقاط البيانات k بشكل عشوائي على أنها متوسطات المجموعات ويتم حساب المسافة بين جميع نقاط البيانات ووسطاء المجموعات.
قراءة: تحليلات البيانات مقابل علم البيانات
3. طريقة التجميع المعتمدة على الكثافة
تقوم هذه الطريقة بإنشاء مجموعات بناءً على كثافة نقاط البيانات. تصبح المناطق كثيفة حيث يوجد المزيد والمزيد من نقاط البيانات في نفس المنطقة وتعتبر هذه المناطق مجموعات. تعتبر نقاط البيانات التي تقع بعيدًا عن المناطق الكثيفة أو المناطق التي تكون فيها نقاط البيانات أقل من حيث الأرقام قيمًا متطرفة أو ضوضاء. تعتمد الخوارزميات التالية على هذه المنهجية: -
- DBSCAN (التجميع المكاني المستند إلى الكثافة للتطبيقات مع الضوضاء) : - ينشئ DBSCAN مجموعات بناءً على مسافة نقاط البيانات. يقوم بتجميع نقاط البيانات الموجودة في نفس الحي معًا. لكي يتم اعتبارها كتلة ، يجب أن يوجد عدد محدد من نقاط البيانات في تلك المنطقة. يتطلب الأمر معلمتين - eps والحد الأدنى من النقاط - تشير eps إلى مدى قرب نقاط البيانات التي يجب اعتبارها جيران والنقاط الدنيا هي عدد نقاط البيانات التي يجب أن توجد داخل تلك المنطقة ليتم اعتبارها مجموعة.
- OPTICS (ترتيب النقاط لتحديد هيكل التجميع) : - إنه تعديل لخوارزمية DBSCAN. تتمثل إحدى قيود خوارزمية DBSCAN في عدم قدرتها على إنشاء مجموعات ذات مغزى عندما تنتشر نقاط البيانات بشكل متساوٍ في مساحة البيانات. للتغلب على هذا القيد ، تأخذ خوارزمية البصريات في معلمتين إضافيتين - المسافة الأساسية ومسافة الوصول. تشير المسافة الأساسية إلى ما إذا كانت نقطة البيانات هي نقطة أساسية من خلال تحديد قيمة لها. يتم تعريف مسافة الوصول على أنها أقصى مسافة أساسية وقيمة قياس المسافة المستخدمة لحساب المسافة بين نقطتي بيانات.
4. طريقة التجميع على أساس الشبكة
تختلف أيديولوجية هذه الطريقة عن بقية الأساليب الشائعة الاستخدام. تمثل هذه الطريقة مساحة البيانات بالكامل كهيكل شبكة ، وتتألف من شبكات أو خلايا متعددة. إنه يتبع نهجًا مدفوعًا بالفضاء بدلاً من نهج يعتمد على البيانات. بمعنى آخر ، فهي أكثر اهتمامًا بالمساحة المحيطة بنقاط البيانات بدلاً من نقاط البيانات نفسها.
ونتيجة لذلك ، تتقارب الخوارزمية بشكل أسرع وتوفر انخفاضًا كبيرًا في التعقيد الحسابي. بشكل عام ، تقوم الخوارزميات بتهيئة التجميع عن طريق تقسيم مساحة البيانات إلى عدد الخلايا وبالتالي إنشاء بنية شبكة. ثم يحسب كثافة هذه الخلايا ويصنفها حسب كثافتها. خوارزميات مثل STING (نهج شبكة المعلومات الإحصائية) ، WaveCluster ، CLIQUE (Clustering in Quest) تندرج تحت هذه الفئة.
5. طريقة التجميع المستندة إلى النموذج
تفترض هذه الطريقة أن البيانات يتم إنشاؤها بواسطة مزيج من التوزيعات الاحتمالية. يمكن اعتبار كل من هذه التوزيعات بمثابة كتلة. يحاول تحسين التوافق بين البيانات والنموذج. يمكن تقدير معلمات النماذج باستخدام خوارزميات مثل توقع الحد الأقصى والتكتل المفاهيمي وما إلى ذلك.
6. طريقة التجميع على أساس القيد
تحاول هذه الطريقة العثور على مجموعات تلبي القيود الموجهة للمستخدم. إنه يندرج تحت فئة المنهجية شبه الخاضعة للإشراف. تسمح هذه المنهجية للمستخدمين بإنشاء مجموعات بناءً على تفضيلاتهم. يكون هذا مفيدًا عندما نبحث عن بعض المجموعات ذات الخصائص المحددة.
ولكن خلال هذه العملية ، نظرًا لأن المجموعات المكونة تركز على تفضيلات المستخدم ، فقد لا يتم تشكيل بعض الخصائص الأساسية والمجموعات الثاقبة. الخوارزميات التي تتبع هذا النهج هي COP K-Means و PCKMeans (زوجي مقيّد K-Means) و CMWK-Means (Minkowski المقيد K-Means).
اقرأ أيضًا: أفكار مشروع علوم البيانات
تعلم دورات علوم البيانات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
خاتمة
أثبتت خوارزميات التجميع أنها فعالة للغاية في توفير رؤى من البيانات لإنتاجية الأعمال. قد توفر لك الخوارزميات الشائعة المستخدمة في المؤسسات المختلفة النتائج المتوقعة ، لكن الخوارزميات غير التقليدية تستحق المحاولة أيضًا. ركزت هذه المقالة على ماهية التجميع وكيف يمكن استخدامه كجزء من التنقيب عن البيانات. كما تضمنت بعض استخدامات التجميع ، وكيف يمكن استخدام التجميع في الحياة الواقعية ، والأنواع المختلفة للطرق في التجميع.
إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع IIIT-B & upGrad's Executive PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1- على - 1 مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.
يبدأ AGNES بالتعرف على أن كل نقطة بيانات سيكون لها مجموعتها الخاصة ، وحتى إذا كان هناك عدد n من صفوف البيانات ، ستبدأ الخوارزمية بـ n من المجموعات. ثم ، بشكل متكرر ، يتم ضم المجموعات الأكثر تشابهًا لتشكيل كتلة أكبر ، اعتمادًا على المسافات المقاسة في DIANA. يتم إجراء التكرارات حتى نحصل على مجموعة كبيرة واحدة تحتوي على جميع نقاط البيانات. نفترض أن نقاط البيانات تتطابق مع توزيع Gaussian في نماذج مختلطة Gaussian ، والتي لا تمثل أبدًا قيدًا مقارنة بالقيود في الأساليب السابقة. علاوة على ذلك ، يمكن أن تؤدي هذه الفرضية إلى معايير اختيار شكل الكتلة الحرجة - أي أنه يمكن الآن قياس أشكال الكتلة. يتم استخدام المقياسين الأكثر شيوعًا وسهولة - المتوسط والتباين - لتحديد البيانات. دعنا نلقي نظرة على بعض استخدامات الأعمال للتجميع وكيف تتناسب مع التنقيب في البيانات.ما هي مزايا وعيوب Agglomerative Clustering؟
مزايا:
1. على الرغم من أنه يجب على المستخدم تحديد عتبة القسمة ، لا يلزم معرفة مسبقة بعدد المجموعات.
2. سهل التطبيق عبر مجموعة متنوعة من أنواع البيانات ومن المعروف أنه ينتج نتائج موثوقة للبيانات التي تم الحصول عليها من مجموعة متنوعة من المصادر. نتيجة لذلك ، لديها مجموعة واسعة من التطبيقات.
سلبيات:
1. يعتبر تقسيم الكتلة (DIANA) أو الدمج (AGNES) صارمًا للغاية ، وبمجرد القيام به ، لا يمكن عكسه أو إعادة تعيينه في التكرارات اللاحقة أو إعادة التشغيل.
2. لها درجة عالية من التعقيد الزمني لجميع نقاط البيانات n ، بترتيب O (n ^ 2logn) ، وبالتالي لا يمكن استخدامها لمجموعات البيانات الأكبر.
3. غير قادر على التعامل مع القيم المتطرفة والضوضاء ما هو الحد الأقصى المتوقع في GMM؟
يتم استخدام Expectation-Maximization ، وهو نوع من وظيفة التحسين ، لتحديد المتوسط والتباين. تبدأ هذه الوظيفة بمجموعة من المعلمات الغاوسية العشوائية ، مثل ، وتتحقق مما إذا كانت الفرضية تؤكد أن عينة تنتمي إلى المجموعة ج. بعد ذلك ، ننتقل إلى خطوة التعظيم ، والتي تتضمن تحديث معلمات Gaussian لتناسب النقاط المخصصة للمجموعة. الهدف من مرحلة التعظيم هو زيادة احتمال أن تنتمي العينة إلى التوزيع العنقودي. ما هي تطبيقات التجميع؟
1. هو أساس خوارزميات محرك البحث ، التي تتطلب تقديم الأشياء المتشابهة مع بعضها البعض وتجاهل الأشياء غير المتشابهة.
2. أثبتت خوارزميات التجميع فعاليتها في الكشف عن الخلايا الخبيثة من التصوير الطبي المختلف باستخدام تجزئة الصور في المعلوماتية الحيوية ، وإزالة الأخطاء البشرية وغيرها من التحيز.
3. استخدمت Netflix التجميع لإنشاء اقتراحات أفلام لمشاهديها.
4. يمكن استخدام التحليل العنقودي ، الذي يقسم المقالات إلى مجموعة من الموضوعات ذات الصلة ، لتلخيص الأخبار.
5. يمكن تقسيم السير الذاتية للباحثين عن عمل إلى فئات بناءً على مجموعة متنوعة من المتغيرات مثل مجموعات المهارات والخبرة ونقاط القوة وأنواع المشاريع والخبرة وما إلى ذلك ، مما يسمح لأصحاب العمل المحتملين بالتواصل مع الأشخاص المناسبين.