فهم مفهوم التجميع الهرمي في تحليل البيانات: الوظائف والأنواع والخطوات
نشرت: 2023-04-08يشير التجميع إلى تجميع البيانات المتشابهة في مجموعات أو مجموعات في تحليل البيانات. تساعد هذه المجموعات محللي البيانات على تنظيم نقاط بيانات متشابهة في مجموعة واحدة مع تمييزها أيضًا عن البيانات الأخرى غير المتشابهة.
التجميع الهرمي للبيانات هو إحدى الطرق المستخدمة لتجميع البيانات في شجرة مجموعات. إنها واحدة من أكثر الأساليب شيوعًا وفائدة لتجميع البيانات. إذا كنت تريد أن تكون جزءًا من المجال المتنامي لعلوم البيانات وتحليل البيانات ، فإن التجميع الهرمي هو أحد أهم الأشياء التي يجب تعلمها.
ستساعدك هذه المقالة على فهم طبيعة المجموعات الهرمية ووظيفتها وأنواعها ومزاياها.
جدول المحتويات
ما هي المجموعات الهرمية؟
كما يوحي الاسم ، يقوم التجميع الهرمي بتجميع البيانات المختلفة في مجموعات بتنسيق هرمي أو شجرة. يتم التعامل مع كل نقطة بيانات على أنها مجموعة منفصلة في هذه الطريقة. يحظى تحليل الكتلة الهرمي بشعبية كبيرة بين علماء البيانات ومحللي البيانات لأنه يلخص البيانات في تسلسل هرمي يمكن إدارته من المجموعات يسهل تحليله.
تأخذ خوارزميات التجميع الهرمي عدة نقاط بيانات مختلفة وتأخذ الأقرب من الاثنين لتكوين كتلة. يكرر هذه الخطوات حتى تتحول جميع نقاط البيانات إلى مجموعة واحدة. يمكن أيضًا عكس العملية لتقسيم مجموعة واحدة مدمجة إلى مجموعات أصغر مختلفة وفي النهاية إلى نقاط بيانات.
يمكن تمثيل الطريقة الهرمية للتجميع بشكل مرئي على شكل مخطط شجر وهو مخطط شبيه بالشجرة. يمكن قطع مخطط dendrogram في أي وقت أثناء عملية التجميع عندما يتم تكوين العدد المطلوب من العناقيد. هذا أيضًا يجعل عملية تحليل البيانات أسهل.
كيف يعمل نظام المجموعات الهرمي؟
عملية التجميع الهرمي سهلة الفهم. تعامل خوارزمية التجميع الهرمي جميع مجموعات البيانات المتاحة كمجموعات مختلفة. بعد ذلك ، يحدد مجموعتين من البيانات الأكثر تشابهًا ويدمجهما في مجموعة. بعد ذلك ، يستمر النظام في تكرار هذه الخطوات حتى يتم دمج جميع نقاط البيانات في كتلة واحدة كبيرة. يمكن أيضًا إيقاف العملية بمجرد توفر العدد المطلوب من المجموعات للتحليل.
يمكن تصور تقدم عملية التجميع الهرمي ومخرجاتها على أنها مخطط شجر يمكن أن يساعدك في تحديد العلاقة بين المجموعات المختلفة ومدى تشابهها أو اختلافها في طبيعتها.
أنواع المجموعات الهرمية
يمكن استخدام خوارزمية التجميع الهرمي بطريقتين مختلفتين. فيما يلي خصائص نوعين من المجموعات الهرمية التي يمكنك استخدامها.
1. التجميع الهرمي التجميعي
الطريقة التجميعية هي الطريقة الأكثر استخدامًا لتجميع البيانات بشكل هرمي. في هذه الطريقة ، يتم تقديم الخوارزمية بمجموعات بيانات مختلفة متعددة ، يتم التعامل مع كل منها كمجموعة خاصة بها. ثم تبدأ الخوارزمية في الاندماج في مجموعات من اثنين بناءً على مدى تشابهها مع بعضها البعض. يكرر هذه الخطوات حتى يتم الوصول إلى العدد المطلوب من الكتل. تستخدم هذه الطريقة بشكل أكثر شيوعًا في تحليل الكتلة الهرمية .
2. الانقسامات الهرمية العنقودية
الطريقة الانقسامية للتسلسل الهرمي هي عكس الطريقة التجميعية. في هذه الطريقة ، يتم تقديم الخوارزمية بمجموعة كبيرة واحدة من نقاط البيانات العديدة التي تميزها خطوة بخطوة بناءً على تباينها. ينتج عن هذا مجموعات بيانات متعددة لها خصائص مختلفة. طريقة الانقسام لا تستخدم في كثير من الأحيان في الممارسة.
تعلم دورات علوم البيانات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
خطوات التجميع الهرمي
كما ذكرنا من قبل ، هناك ثلاث خطوات رئيسية في التجميع الهرمي للبيانات.
- تحديد أوجه التشابه بين نقطتي بيانات مختلفتين.
- دمجهم في مجموعة واحدة.
- كرر هذه الخطوات لجميع نقاط البيانات حتى يتم دمجها في مجموعة كبيرة واحدة من البيانات.
ومع ذلك ، من المهم أيضًا تذكر كيفية تحديد النقاط المتشابهة في المجموعات الهرمية. إذا كنت تدرس مخططًا شجيريًا تم إنتاجه بواسطة خوارزمية ، فيمكنك بسهولة تحديد النقاط المركزية لكل مجموعة مختلفة. المجموعات التي لديها أقل مسافة من بعضها البعض في مخطط الأسنان هي الأكثر تشابهًا. هذا هو سبب الإشارة إليها أيضًا باسم الخوارزمية القائمة على المسافة. يُطلق على التشابه بين مجموعة واحدة وجميع المجموعات الأخرى في مخطط الأسنان مصفوفة القرب.
يجب عليك أيضًا اختيار مقياس المسافة الصحيح أثناء استخدام المجموعات الهرمية. على سبيل المثال ، استنادًا إلى ما إذا كنت تختار مقياس المسافة ليكون نوع الجنس أو الخلفية التعليمية ، فإن مجموعة البيانات التي تتضمن معلومات حول نفس الأشخاص ستنتج مخططات شجرية مختلفة.
اقرأ مقالاتنا الشهيرة في علوم البيانات
المسار الوظيفي لعلوم البيانات: دليل مهني شامل | النمو الوظيفي لعلوم البيانات: مستقبل العمل هنا | لماذا علم البيانات مهم؟ 8 طرق تضيف علوم البيانات قيمة إلى الأعمال |
أهمية علم البيانات للمديرين | ورقة الغش النهائية لعلم البيانات التي يجب أن يمتلكها علماء البيانات | أهم 6 أسباب لماذا يجب أن تصبح عالم بيانات |
يوم في حياة عالم البيانات: ماذا يفعلون؟ | ضبطت الأسطورة: علم البيانات لا يحتاج إلى تشفير | ذكاء الأعمال مقابل علوم البيانات: ما هي الاختلافات؟ |
المجموعات الهرمية بيثون
الآن بعد أن أصبح لديك فهم واضح للتسلسل الهرمي ، دعونا نلقي نظرة على كيفية أداء المجموعات الهرمية في بايثون . إليك ما سيبدو عليه أداء التجميع الهرمي باستخدام مكتبة"scikit-Learn" في Python.
لنفترض أن هناك متغيرين ( x و y) في مجموعة البيانات مع ست ملاحظات:
ملاحظات | x | ذ |
1 | 1 | 1 |
2 | 2 | 1 |
3 | 4 | 3 |
4 | 5 | 4 |
5 | 6 | 5 |
6 | 7 | 5 |
كمخطط مبعثر ، هذه هي الطريقة التي سيتم بها تصور هذه الملاحظات:
بايثون
استيراد numpy كـ
np
استيراد matplotlib.pyplot كـ PLT
# تحديد مجموعة البيانات
X = np.array ([[ 1،1]، [2،1]، [4،3]، [5،4]، [6،5]، [7،5]])
# ارسم البيانات
مبعثر plt (X [:، 0]، X [:،1])
plt.show ()
هناك مجموعتان من الملاحظات في هذا المخطط- إحداهما تتضمن قيمًا أقل لـ x و y، والأخرى تحتوي على قيم أعلى لـxوy.
يمكنك استخدام"scikit learn" لإجراء تجميع هرمي على مجموعة البيانات هذه.
مجموعتا الملاحظات في المخطط لها قيم مختلفة. يتكون أحدهما من قيم أعلى لـ x و y، والآخر يحتوي على قيم أقل.
تحقق مندوراتنا المجانية في علوم البيانات لتتفوق على المنافسة.
من بين الطريقتين الرئيسيتين للتسلسل الهرمي الذي ناقشناه من قبل ، سوف نستخدم طريقة التجميع التكتلي مع طريقة الربط "الجناح ".تقلل طريقة "الجناح" من تباينات المجموعات التي يتم دمجها معًا ، مما ينتج عنه مجموعات متشابهة في الحجم والشكل.
استكشف دوراتنا الشهيرة في علوم البيانات
برنامج الدراسات العليا التنفيذية في علوم البيانات من IIITB | برنامج الشهادة المهنية في علوم البيانات لاتخاذ قرارات الأعمال | ماجستير العلوم في علوم البيانات من جامعة أريزونا |
برنامج الشهادة المتقدمة في علوم البيانات من IIITB | برنامج الشهادة الاحترافية في علوم البيانات وتحليلات الأعمال من جامعة ماريلاند | دورات علوم البيانات |
بايثون
من sklearn.clusterاستيرادAgglomerativeClustering
# أداء المجموعات الهرمية
التكتل Clustering Clustering (n_clusters = 2، linkage = 'Ward'). fit (X)
تم استخدام المعلمة 'n-clusters ' هنا لتحديد أننا نريد مجموعتين.
يمكننا استخدام ألوان مختلفة لكل مجموعة عندما نرسمها:
بايثون
# ارسم المجموعات
الألوان = np.array ([' r'، 'b'])
مبعثر plt. (X [:، 0]، X [:،1]، c = ألوان [clustering.labels_])
plt.show ()
تم تحديد المجموعتين في البيانات بشكل صحيح بواسطة خوارزمية التجميع. يمكنك أيضًا استخدام التسمية التي عينتها خوارزمية التجميع لكل ملاحظة:
بايثون
طباعة (clustering.labels_)
csharp
[ 0 0 1 1 1 1]
تم تخصيص الملاحظات الأربعة الأخيرة للمجموعة 1 ، في حين تم تخصيص أول ملاحظتين للمجموعة 0.
إذا كنت ترغب في تصور الهيكل الهرمي لهذه المجموعات ، فيمكنك إنشاء مخطط شجر للقيام بذلك:
بايثون
من scipy.cluster.hierarchyimportdendrogram، linkage
# حساب مصفوفة الربط
Z = الارتباط (X، ' Ward')
# ارسم مخطط الأسنان
مخطط شجر الأسنان (Z)
plt.show ()
يمكن أن يساعدنا مخطط dendrogram في تصور التسلسل الهرمي للمجموعات المدمجة.
مهارات علوم البيانات الأعلى للتعلم
مهارات علوم البيانات الأعلى للتعلم | ||
1 | دورة تحليل البيانات | دورات الإحصاء الاستنتاجي |
2 | برامج اختبار الفرضيات | دورات الانحدار اللوجستي |
3 | دورات الانحدار الخطي | الجبر الخطي للتحليل |
خاتمة
يعد تجميع البيانات جزءًا مهمًا جدًا من علم البيانات وتحليل البيانات. إذا كنت ترغب في تعلم طرق مختلفة للتجميع ، فيمكن أن تساعدك upGrad في بدء رحلة التعلم الخاصة بك! بمساعدة الفصول الدراسية الرئيسية ، وجلسات الصناعة ، وجلسات الإرشاد ، و Python Programming Bootcamp ، وجلسات التعلم المباشر ، فإن برنامج upGrad's Master of Science in Data Science هو دورة مصممة للمهنيين لاكتساب ميزة على المنافسين.
تُقدم هذه الدورة التدريبية بتوجيه من جامعة أريزونا ، وهي تعزز مهنتك في علم البيانات من خلال مناهج متطورة وتجربة تعليمية غامرة مع خبراء الصناعة وفرص العمل.
س: لماذا نقوم بالتجميع الهرمي في علم البيانات؟
يتم استخدام التجميع الهرمي لتجميع البيانات بناءً على العديد من السمات المتشابهة. يؤدي توزيع جوانب البيانات في مجموعات مفهومة بصريًا إلى تبسيط تنفيذها العملي من خلال النظر بسهولة إلى مخطط الأسنان.
س: ما هي المجموعات الهرمية المستخدمة في؟
التجميع الهرمي هو شكل مستخدم على نطاق واسع لتجميع البيانات التي يتم إنشاؤها من خلال مواقع الشبكات الاجتماعية. باستخدام هذه البيانات ، يمكن للمحللين الحصول على رؤى قيمة ذات صلة لتحسين عمليات أعمالهم وتحسين الإيرادات.
س: ما هي حدود المجموعات الهرمية؟
لا يناسب التجميع الهرمي الأنواع المختلطة أو البيانات المفقودة. يتمثل أحد القيود الأخرى للتسلسل الهرمي في أنه لا يعمل بشكل جيد مع مجموعة كبيرة من البيانات.