Memahami Konsep Hierarchical Clustering dalam Analisis Data: Fungsi, Jenis & Langkah-langkahnya

Diterbitkan: 2023-04-08

Clustering mengacu pada pengelompokan data serupa dalam kelompok atau cluster dalam analisis data. Kluster ini membantu analis data mengatur titik data serupa ke dalam satu grup sekaligus membedakannya dari data lain yang tidak serupa.

Pengelompokan hierarki data adalah salah satu metode yang digunakan untuk mengelompokkan data ke dalam pohon cluster. Ini adalah salah satu pendekatan yang paling populer dan berguna untuk pengelompokan data. Jika Anda ingin menjadi bagian dari bidang ilmu data dan analisis data yang berkembang , pengelompokan hierarkis adalah salah satu hal terpenting untuk dipelajari.

Artikel ini akan membantu Anda memahami sifat pengelompokan hierarkis, fungsinya, jenis, dan kelebihannya.

Daftar isi

Apa itu Hierarchical Clustering?

Seperti namanya, pengelompokan hierarki mengelompokkan data yang berbeda ke dalam kluster dalam format hierarki atau pohon. Setiap titik data diperlakukan sebagai cluster terpisah dalam metode ini. Analisis klaster hierarkis sangat populer di kalangan ilmuwan data dan analis data karena merangkum data ke dalam hierarki klaster yang dapat dikelola yang lebih mudah untuk dianalisis.

Algoritme pengelompokan hierarkis mengambil beberapa titik data yang berbeda dan mengambil yang terdekat dari keduanya untuk membuat sebuah cluster. Ini mengulangi langkah-langkah ini sampai semua titik data berubah menjadi satu cluster. Prosesnya juga dapat dibalik untuk membagi satu klaster gabungan menjadi klaster kecil yang berbeda dan akhirnya menjadi titik data.

Metode pengelompokan hierarkis dapat direpresentasikan secara visual sebagai dendrogram yang merupakan diagram seperti pohon. Dendrogram dapat dipotong kapan saja selama proses pengelompokan ketika jumlah kelompok yang diinginkan telah dibuat. Ini juga membuat proses analisis data lebih mudah.

Bagaimana cara kerja Hierarchical Clustering?

Proses pengelompokan hierarkis cukup sederhana untuk dipahami. Algoritma pengelompokan hierarki memperlakukan semua kumpulan data yang tersedia sebagai kelompok yang berbeda. Kemudian, ini mengidentifikasi dua set data yang paling mirip dan menggabungkannya ke dalam sebuah cluster. Setelah itu, sistem terus mengulangi langkah-langkah tersebut hingga semua titik data bergabung menjadi satu cluster besar. Proses juga dapat dihentikan setelah jumlah klaster yang diperlukan tersedia untuk dianalisis.

Kemajuan dan keluaran dari proses pengelompokan hierarkis dapat divisualisasikan sebagai dendrogram yang dapat membantu Anda mengidentifikasi hubungan antara berbagai kelompok dan seberapa mirip atau berbeda sifatnya.

Jenis Pengelompokan Hirarkis

Algoritma pengelompokan hierarkis dapat digunakan dalam dua cara berbeda. Berikut adalah karakteristik dari dua jenis pengelompokan hierarkis yang dapat Anda gunakan.

1. Pengelompokan Hierarki Aglomeratif

Metode agglomerative adalah cara yang lebih populer digunakan untuk mengelompokkan data secara hierarkis. Dalam metode ini, algoritme disajikan dengan beberapa set data yang berbeda, yang masing-masing diperlakukan sebagai cluster tersendiri. Kemudian algoritme mulai menggabungkan ke dalam kelompok dua berdasarkan seberapa mirip mereka satu sama lain. Itu mengulangi langkah-langkah ini sampai jumlah cluster yang diperlukan tercapai. Metode ini lebih populer digunakan dalam analisis cluster hirarkis .

2. Pengelompokan Hierarki Divisif

Metode divisive dari pengelompokan hierarki adalah kebalikan dari metode agglomerative. Dalam metode ini, algoritme disajikan dengan satu kelompok besar dari banyak titik data yang dibedakan langkah demi langkah berdasarkan perbedaannya. Ini menghasilkan beberapa kumpulan data yang memiliki properti berbeda. Metode divisif tidak sering digunakan dalam praktik.

Pelajari kursus ilmu data online dari Universitas top Dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Lanjutan, atau Program Magister untuk mempercepat karier Anda.

Langkah-langkah dalam Hierarchical Clustering

Seperti disebutkan sebelumnya, ada tiga langkah utama dalam pengelompokan hierarki data.

  1. Identifikasi kesamaan antara dua titik data yang berbeda.
  2. Menggabungkannya menjadi satu cluster.
  3. Mengulangi langkah-langkah ini untuk semua titik data hingga digabungkan menjadi satu kelompok besar data.

Namun, sangat penting juga untuk mengingat bagaimana mengidentifikasi titik-titik serupa dalam pengelompokan hierarkis. Jika Anda mempelajari dendrogram yang dihasilkan oleh suatu algoritme, Anda dapat dengan mudah mengidentifikasi titik pusat dari setiap klaster yang berbeda. Cluster yang memiliki jarak paling kecil satu sama lain dalam dendrogram adalah yang paling mirip. Inilah alasan mengapa ini juga disebut sebagai algoritma berbasis jarak. Kemiripan antara satu klaster dengan klaster lainnya dalam dendrogram disebut matriks kedekatan.

Anda juga harus memilih ukuran jarak yang benar saat menggunakan pengelompokan hierarkis. Misalnya, berdasarkan apakah Anda memilih ukuran jarak sebagai jenis kelamin atau latar belakang pendidikan mereka, kumpulan data yang melibatkan informasi tentang orang yang sama akan menghasilkan dendrogram yang berbeda.

Baca Artikel Ilmu Data populer kami

Jalur Karir Ilmu Data: Panduan Karir Komprehensif Pertumbuhan Karir Ilmu Data: Masa Depan Pekerjaan ada di sini Mengapa Ilmu Data Penting? 8 Cara Ilmu Data Membawa Nilai bagi Bisnis
Relevansi Ilmu Data untuk Manajer Cheat Sheet Ilmu Data Utama Yang Harus Dimiliki Setiap Ilmuwan Data 6 Alasan Teratas Mengapa Anda Harus Menjadi Ilmuwan Data
Sehari dalam Kehidupan Ilmuwan Data: Apa yang mereka lakukan? Myth Busted: Data Science tidak membutuhkan Coding Kecerdasan Bisnis vs Ilmu Data: Apa perbedaannya?

Python Pengelompokan Hirarkis

Sekarang setelah Anda memiliki pemahaman yang jelas tentang pengelompokan hierarkis, mari kita lihat cara melakukan pengelompokan hierarkis Python . Inilah yang akan terlihat seperti melakukan pengelompokan hierarki menggunakan pustaka'scikit-learn' Python .

Misalkan ada dua variabel ( x dan y) dalam kumpulan data dengan enam pengamatan:

Pengamatan X y
1 1 1
2 2 1
3 4 3
4 5 4
5 6 5
6 7 5

Sebagai sebar plot, beginilah pengamatan ini akan divisualisasikan:

Piton

impor numpy sebagai

np

impor matplotlib.pyplot sebagai plt

# Tentukan kumpulan data

X = np.array([[ 1,1], [2,1], [4,3], [5,4], [6,5], [7,5]])

# Plot datanya

plt.scatter(X[:, 0], X[:,1])

plt.tampilkan()

Ada dua kelompok pengamatan dalam plot ini- satu menyertakan nilai x dan yyang lebih rendah , dan yang lainnya dengan nilaixdanyyang lebih tinggi .

Anda dapat menggunakan'scikit belajar' untuk melakukan pengelompokan hierarkis pada kumpulan data ini.

Dua kelompok pengamatan dalam plot memiliki nilai yang berbeda. Satu terdiri dari nilai x dan yyang lebih tinggi , dan yang lainnya dengan nilai yang lebih rendah.

Lihatkursus ilmu data gratis kami untuk mendapatkan keunggulan dalam persaingan.

Dari dua metode utama hierarchical clustering yang telah kita bahas sebelumnya, kita akan menggunakan metode agglomerative clustering dengan metode linkage 'ward '.Metode 'ward' meminimalkan variasi cluster yang digabungkan bersama, sehingga menghasilkan cluster yang memiliki ukuran dan bentuk yang serupa.

Jelajahi Kursus Ilmu Data Populer kami

Program Pascasarjana Eksekutif dalam Ilmu Data dari IIITB Program Sertifikat Profesional dalam Ilmu Data untuk Pengambilan Keputusan Bisnis Master of Science dalam Ilmu Data dari University of Arizona
Program Sertifikat Lanjutan dalam Ilmu Data dari IIITB Program Sertifikat Profesional dalam Ilmu Data dan Analisis Bisnis dari University of Maryland Kursus Ilmu Data

Piton

dari sklearn.clusterimporAgglomerativeClustering

# Lakukan pengelompokan hierarkis

pengelompokan AgglomerativeClustering (n_clusters= 2, linkage='ward').fit(X)

Parameter 'n-clusters ' digunakan di sini untuk menentukan bahwa kita menginginkan dua cluster.

Kita dapat menggunakan warna yang berbeda untuk setiap klaster saat kita memplotnya:

Piton

# Plot cluster

warna= np.array([' r', 'b'])

plt.pencar (X[:, 0], X[:,1], c=warna [pengelompokan.label_])

plt.tampilkan()

Dua cluster dalam data telah diidentifikasi dengan benar oleh algoritma clustering. Anda juga dapat menggunakan label apa yang ditetapkan oleh algoritme pengelompokan untuk setiap pengamatan:

Piton

cetak (clustering.labels_)

csharp

[ 0 0 1 1 1 1]

Empat pengamatan terakhir ditempatkan di cluster 1, sedangkan dua pengamatan pertama ditempatkan di cluster 0.

Jika Anda ingin memvisualisasikan struktur hierarki klaster ini, Anda dapat membuat dendrogram untuk melakukannya:

Piton

dari dendrogramimporscipy.cluster.hierarchy, linkage

# Hitung matriks keterkaitan

Z = keterhubungan(X, ' ward')

# Plot dendrogram

dendrogram(Z)

plt.tampilkan()

Dendrogram dapat membantu kita memvisualisasikan hierarki cluster yang digabungkan.

Keterampilan Ilmu Data Teratas untuk Dipelajari

Keterampilan Ilmu Data Teratas untuk Dipelajari
1 Kursus Analisis Data Kursus Statistik Inferensial
2 Program Pengujian Hipotesis Kursus Regresi Logistik
3 Kursus Regresi Linear Aljabar Linier untuk Analisis

Kesimpulan

Pengelompokan data adalah bagian yang sangat penting dari ilmu data dan analisis data. Jika Anda ingin mempelajari berbagai metode pengelompokan, maka upGrad dapat membantu Anda memulai perjalanan belajar Anda! Dengan bantuan kelas master, sesi industri, sesi bimbingan, Bootcamp Pemrograman Python, dan sesi pembelajaran langsung, Master of Science upGrad dalam Ilmu Data adalah kursus yang dirancang bagi para profesional untuk mendapatkan keunggulan dibandingkan pesaing.

Ditawarkan di bawah bimbingan University of Arizona, kursus ini meningkatkan karir sains data Anda dengan kurikulum mutakhir, pengalaman belajar mendalam dengan pakar industri, dan peluang kerja.

T. Mengapa kita melakukan pengelompokan hierarki dalam ilmu data?

Pengelompokan hierarkis digunakan untuk mengelompokkan data berdasarkan berbagai atribut yang serupa. Mendistribusikan aspek data dalam kelompok yang dapat dipahami secara visual menyederhanakan penerapan praktisnya dengan melihat dendrogram dengan mudah.

T. Dalam hal apa pengelompokan hierarkis digunakan?

Pengelompokan hierarkis adalah bentuk pengelompokan data yang banyak digunakan yang dihasilkan melalui situs jejaring sosial. Dengan menggunakan data ini, analis dapat memperoleh wawasan berharga yang relevan untuk meningkatkan proses bisnis mereka dan meningkatkan pendapatan secara generatif.

T. Apa batasan pengelompokan hierarkis?

Pengelompokan hierarkis tidak sesuai dengan tipe campuran atau data yang hilang. Keterbatasan lain dari pengelompokan hierarkis adalah tidak bekerja dengan baik dengan kumpulan data yang sangat besar.