Panduan Penjelasan untuk Clustering dalam Data Mining – Definisi, Aplikasi & Algoritma

Diterbitkan: 2021-02-25

Daftar isi

Pendahuluan – Apa itu Data Mining dan Clustering?

Berbagai organisasi memiliki data yang sangat banyak dan ada alasan mengapa organisasi ini memilih untuk menyimpannya. Mereka menggunakan data ini untuk mengekstrak beberapa wawasan dari data yang dapat membantu mereka dalam meningkatkan profitabilitas mereka. Proses mengekstraksi wawasan dan pola yang mendasarinya dari kumpulan data mentah dikenal sebagai Data Mining. Salah satu cara untuk mengekstrak pola berwawasan ini adalah Clustering.

Clustering mengacu pada pengelompokan titik data yang menunjukkan karakteristik umum. Dengan kata lain, ini adalah proses yang menganalisis kumpulan data dan membuat cluster dari titik data. Sebuah cluster tidak lain adalah pengelompokan titik data yang serupa. Dalam pemrosesan clustering, titik-titik data pertama-tama dikelompokkan bersama untuk membentuk cluster dan kemudian diberi label untuk cluster tersebut.

Untuk melakukan pengelompokan pada kumpulan data, kami biasanya menggunakan algoritma pembelajaran tanpa pengawasan karena label keluaran tidak diketahui dalam kumpulan data. Clustering dapat digunakan sebagai bagian dari analisis data eksplorasi dan dapat digunakan untuk pemodelan untuk mendapatkan cluster yang berwawasan luas. Cluster harus dioptimalkan sedemikian rupa sehingga jarak antara titik data di dalam cluster harus minimal dan jarak antara cluster yang berbeda harus sejauh mungkin.

Mengapa menggunakan Clustering? – Penggunaan pengelompokan

  1. Interpretasi data yang lebih baik – Menggunakan pengelompokan, pola yang diekstraksi dari kumpulan data dapat dengan mudah dipahami oleh orang awam dan karenanya dapat diinterpretasikan dengan mudah.
  2. Wawasan dari data berdimensi tinggi – Kumpulan data berdimensi tinggi tidak mudah dianalisis hanya dengan melihat fiturnya. Menggunakan pengelompokan dapat membantu dalam memberikan beberapa wawasan dan mengekstraksi beberapa pola dari data yang sangat besar. Ini dapat memberikan beberapa ringkasan yang mungkin berguna dalam memecahkan beberapa pertanyaan.
  3. Menemukan cluster arbitrer – Dengan bantuan metode pengelompokan yang berbeda, kita dapat menemukan cluster yang dapat mengambil bentuk acak apa pun. Ini dapat membantu dalam memperoleh karakteristik yang mendasari kumpulan data.

Kasus penggunaan nyata dari Clustering – Aplikasi

  1. Perusahaan Anda telah meluncurkan produk baru dan Anda bertanggung jawab untuk memastikan bahwa produk tersebut menjangkau kelompok orang yang tepat sehingga perusahaan Anda dapat mencapai profitabilitas maksimum. Dalam hal ini, mengidentifikasi tipe orang yang tepat adalah masalah yang dihadapi. Anda dapat melakukan pengelompokan pada database pelanggan untuk mengidentifikasi kelompok orang yang tepat dengan menganalisis pola pembelian mereka.
  2. Perusahaan Anda memiliki banyak sekali gambar yang tidak dikategorikan dan supervisor Anda meminta Anda untuk mengelompokkannya sesuai dengan isi gambar tersebut. Anda dapat menggunakan clustering untuk melakukan segmentasi citra pada citra tersebut. Anda juga dapat menggunakan pengelompokan jika mereka meminta Anda untuk mengekstrak beberapa pola dari data yang ada.

Berbagai jenis metode Clustering – Algoritma

1. Metode Pengelompokan Hirarki

Metode ini mengelompokkan atau membagi cluster berdasarkan metrik jarak yang dipilih seperti jarak Euclidean, jarak Manhattan, dll. Biasanya direpresentasikan menggunakan dendrogram. Ini menciptakan matriks jarak antara semua cluster yang menunjukkan jarak di antara mereka. Dengan menggunakan metrik jarak ini, keterkaitan antar klaster dilakukan berdasarkan jenis keterkaitannya.

Karena ada banyak titik data dalam sebuah cluster, jarak antara semua titik dari satu cluster ke semua yang ada di cluster lain akan berbeda. Hal ini membuat sulit untuk memutuskan jarak mana yang harus dipertimbangkan yang akan memutuskan penggabungan cluster. Untuk mengatasi hal ini, kami menggunakan kriteria linkage untuk menentukan cluster mana yang harus dihubungkan. Ada tiga jenis hubungan yang umum: –

  • Single Linkage – Jarak antara dua cluster diwakili oleh jarak terpendek antara titik-titik di dua cluster tersebut.
  • Complete Linkage – Jarak antara dua cluster diwakili oleh jarak maksimum antara titik di dua cluster tersebut.
  • Average Linkage – Jarak antara dua cluster direpresentasikan dengan menghitung jarak rata-rata antara titik di dua cluster tersebut.

Pendekatan Agglomerative – Ini juga disebut pendekatan Bottom-Up. Di sini, setiap titik data dianggap sebagai cluster pada fase awal dan kemudian menggabungkan cluster ini satu per satu.

Pendekatan Divisive – Ini juga disebut pendekatan Top-Down. Di sini, semua titik data dianggap sebagai satu cluster pada fase awal dan kemudian titik data ini dibagi untuk membuat lebih banyak cluster.

2. Metode Pengelompokan Partisi

Metode ini membuat cluster berdasarkan karakteristik dan kesamaan antar titik data. Algoritma yang menggunakan metodologi ini membutuhkan jumlah cluster yang akan dibuat sebagai input. Algoritma ini kemudian mengikuti pendekatan iteratif untuk membuat jumlah cluster tersebut. Beberapa algoritma yang mengikuti metodologi ini adalah sebagai berikut: –

  • Pengelompokan K-Means

K-Means menggunakan metrik jarak seperti jarak Manhattan, jarak Euclidean, dll untuk membuat jumlah cluster yang ditentukan. Ini menghitung jarak antara titik data dan pusat cluster. Titik-titik data kemudian ditugaskan ke cluster terdekat dan centroid cluster dihitung ulang. Iterasi seperti itu diulangi sampai jumlah iterasi yang ditentukan sebelumnya selesai atau centroid cluster tidak berubah setelah iterasi.

  • PAM (Partisi di Sekitar Medoid)

Juga dikenal sebagai algoritma K-Medoid, cara kerja algoritma ini mirip dengan K-Means. Ini berbeda dari K-Means dalam hal bagaimana pusat cluster ditugaskan. Di PAM, medoid cluster adalah titik data aktual sedangkan di K-Means menghitung pusat titik data yang mungkin bukan koordinat titik data aktual. Dalam PAM, k titik data dipilih secara acak sebagai medoid dari cluster dan jarak dihitung antara semua titik data dan medoid dari cluster.

Baca: Analisis Data vs Ilmu Data

3. Metode Pengelompokan Berbasis Kepadatan

Metode ini membuat cluster berdasarkan kepadatan titik data. Wilayah menjadi padat karena semakin banyak titik data terletak di wilayah yang sama dan wilayah ini dianggap sebagai cluster. Titik data yang terletak jauh dari daerah padat atau daerah di mana titik data jumlahnya sangat sedikit dianggap outlier atau noise. Algoritma berikut didasarkan pada metodologi ini: –

  • DBSCAN (Density-Based Spatial Clustering of Applications with Noise) : – DBSCAN membuat cluster berdasarkan jarak titik data. Ini mengelompokkan titik-titik data yang berada di lingkungan yang sama. Untuk dianggap sebagai sebuah cluster, sejumlah titik data tertentu harus berada di wilayah itu. Dibutuhkan dua parameter – eps dan titik minimum – eps menunjukkan seberapa dekat titik data harus dianggap sebagai tetangga dan titik minimum adalah jumlah titik data yang harus berada dalam wilayah itu untuk dianggap sebagai sebuah cluster.
  • OPTICS (Ordering Points to Identification Clustering Structure) : – Merupakan modifikasi dari algoritma DBSCAN. Salah satu keterbatasan algoritma DBSCAN adalah ketidakmampuannya untuk membuat cluster yang berarti ketika titik data tersebar secara merata di ruang data. Untuk mengatasi keterbatasan ini, algoritma OPTICS mengambil dua parameter lagi – jarak inti dan jarak jangkauan. Jarak inti menunjukkan apakah titik data adalah titik inti dengan menentukan nilai untuk itu. Jarak jangkauan didefinisikan sebagai jarak inti maksimum dan nilai metrik jarak yang digunakan untuk menghitung jarak antara dua titik data.

4. Metode Pengelompokan Berbasis Grid

Ideologi metode ini berbeda dengan metode-metode lain yang umum digunakan. Metode ini mewakili seluruh ruang data sebagai struktur grid, dan terdiri dari beberapa grid atau sel. Ini mengikuti lebih banyak pendekatan berbasis ruang daripada pendekatan berbasis data. Dengan kata lain, ini lebih memperhatikan ruang di sekitar titik data daripada titik data itu sendiri.

Karena ini algoritma konvergen lebih cepat dan memberikan pengurangan besar dalam kompleksitas komputasi. Secara umum, algoritma menginisialisasi pengelompokan dengan membagi ruang data ke dalam jumlah sel sehingga menciptakan struktur grid. Kemudian menghitung kepadatan sel-sel ini dan mengurutkannya menurut kepadatannya. Algoritma seperti STING (Pendekatan Grid Informasi Statistik), WaveCluster, CLIQUE (Clustering in Quest) termasuk dalam kategori ini.

5. Metode Pengelompokan Berbasis Model

Metode ini mengasumsikan bahwa data dihasilkan oleh campuran distribusi probabilitas. Masing-masing distribusi ini dapat dianggap sebagai sebuah cluster. Ini mencoba untuk mengoptimalkan kecocokan antara data dan model. Parameter model dapat diperkirakan dengan menggunakan algoritme seperti Ekspektasi-Maksimisasi, Pengelompokan Konseptual, dll.

6. Metode Pengelompokan Berbasis Kendala

Metode ini mencoba menemukan cluster yang memenuhi batasan berorientasi pengguna. Itu datang di bawah kelas metodologi semi-diawasi. Metodologi ini memungkinkan pengguna untuk membuat cluster berdasarkan preferensi mereka. Ini berguna ketika kita mencari beberapa cluster dengan karakteristik tertentu.

Tetapi selama proses ini, karena cluster yang terbentuk difokuskan pada preferensi pengguna, beberapa karakteristik yang mendasari dan cluster yang berwawasan mungkin tidak terbentuk. Algoritma yang mengikuti pendekatan ini adalah COP K-Means, PCKMeans (Pairwise Constrained K-Means), dan CMWK-Means (Constrained Minkowski Weighted K-Means).

Baca Juga: Ide Proyek Ilmu Data

Pelajari kursus ilmu data online dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.

Kesimpulan

Algoritma pengelompokan telah terbukti sangat efektif dalam memberikan wawasan dari data untuk produktivitas bisnis. Algoritme umum yang digunakan di berbagai organisasi mungkin memberi Anda hasil yang diharapkan, tetapi yang tidak ortodoks juga patut dicoba. Artikel ini berfokus pada apa itu clustering dan bagaimana clustering dapat digunakan sebagai bagian dari data mining. Itu juga meminta beberapa penggunaan pengelompokan, bagaimana pengelompokan dapat digunakan dalam kehidupan nyata, dan berbagai jenis metode dalam pengelompokan.

Jika Anda penasaran untuk belajar tentang ilmu data, lihat PG Eksekutif IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1- on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa kelebihan dan kekurangan Agglomerative Clustering?

AGNES memulai dengan mengenali bahwa setiap titik data akan memiliki cluster sendiri, dan bahkan jika ada n baris data, algoritma akan dimulai dengan n cluster. Kemudian, secara iteratif, cluster yang paling mirip digabungkan untuk membentuk cluster yang lebih besar, tergantung pada jarak yang diukur dalam DIANA. Iterasi dilakukan hingga didapatkan satu cluster besar yang berisi semua titik data.
Keuntungan:
1. Meskipun pengguna harus menentukan ambang batas divisi, tidak diperlukan pengetahuan sebelumnya tentang jumlah cluster.
2. Sederhana untuk diterapkan di berbagai tipe data dan diketahui menghasilkan hasil yang andal untuk data yang diperoleh dari berbagai sumber. Akibatnya, ia memiliki berbagai macam aplikasi.
Kekurangan:
1. Pembagian cluster (DIANA) atau kombinasi (AGNES) cukup ketat, dan setelah dilakukan, tidak dapat dibalik atau ditugaskan kembali dalam iterasi atau pengulangan berikutnya.
2. Ini memiliki kompleksitas temporal yang tinggi untuk semua n titik data, dalam urutan O(n^2logn), sehingga tidak dapat digunakan untuk kumpulan data yang lebih besar.
3. Tidak dapat menangani outlier dan noise

Apa Maksimalisasi yang Diharapkan di GMM?

Kami menganggap bahwa titik data cocok dengan distribusi Gaussian dalam Model Campuran Gaussian, yang tidak pernah menjadi kendala dibandingkan dengan pembatasan dalam pendekatan sebelumnya. Selanjutnya, hipotesis ini dapat mengarah pada kriteria pemilihan bentuk klaster yang kritis — yaitu, bentuk klaster sekarang dapat diukur. Dua metrik yang paling sering dan mudah – mean dan varians – digunakan untuk mengukur data.
Ekspektasi-Maximization, jenis fungsi optimasi, digunakan untuk menentukan mean dan varians. Fungsi ini dimulai dengan serangkaian parameter Gaussian acak, seperti, dan memeriksa apakah Hipotesis menegaskan bahwa sampel termasuk dalam cluster c. Setelah itu, kita melanjutkan ke langkah memaksimalkan, yang melibatkan memperbarui parameter Gaussian agar sesuai dengan poin yang dialokasikan ke cluster. Tujuan dari tahap maximization adalah untuk meningkatkan kemungkinan bahwa sampel termasuk dalam distribusi cluster.

Apa saja aplikasi clustering?

Mari kita lihat beberapa penggunaan bisnis dari pengelompokan dan bagaimana hal itu cocok dengan Data Mining.
1. Ini adalah dasar dari algoritma mesin pencari, yang mengharuskan objek yang mirip satu sama lain diberikan bersama-sama dan objek yang berbeda diabaikan.
2. Algoritma clustering telah menunjukkan keefektifannya dalam mendeteksi sel-sel ganas dari berbagai pencitraan medis menggunakan segmentasi citra dalam bioinformatika, menghilangkan kesalahan manusia dan bias lainnya.
3. Clustering telah dimanfaatkan oleh Netflix untuk membuat saran film bagi pemirsanya.
4. Analisis klaster, yang membagi artikel ke dalam kelompok subjek terkait, dapat digunakan untuk meringkas berita.
5. Resume pencari kerja dapat dibagi ke dalam kategori tergantung pada berbagai variabel seperti keahlian, pengalaman, kekuatan, jenis proyek, keahlian, dan sebagainya, memungkinkan calon pemberi kerja untuk terhubung dengan orang yang tepat.