Ghid explicativ pentru Clustering în Data Mining – Definiție, Aplicații și Algoritmi

Publicat: 2021-02-25

Cuprins

Introducere – Ce este Data Mining și Clustering?

Diverse organizații au la îndemână date uriașe și există un motiv pentru care aceste organizații aleg să le stocheze. Ei folosesc aceste date pentru a extrage câteva informații din date care îi pot ajuta să-și sporească profitabilitatea. Procesul de extragere a perspectivelor și a modelelor subiacente din setul de date brute este cunoscut sub numele de Data Mining. Una dintre modalitățile de a extrage aceste modele perspicace este Clustering.

Clustering se referă la gruparea punctelor de date care prezintă caracteristici comune. Cu alte cuvinte, este un proces care analizează setul de date și creează grupuri de puncte de date. Un cluster nu este altceva decât o grupare de astfel de puncte de date similare. În procesarea grupării, punctele de date sunt mai întâi grupate împreună pentru a forma grupuri și apoi etichete sunt atribuite acestor grupuri.

Pentru a realiza gruparea pe setul de date, folosim, în general, algoritmi de învățare nesupravegheați, deoarece etichetele de ieșire nu sunt cunoscute în setul de date. Clustering poate fi folosit ca parte a analizei exploratorii a datelor și poate fi folosit pentru modelare pentru a obține clustere perspicace. Clusterele trebuie optimizate astfel încât distanța dintre punctele de date din interiorul unui cluster să fie minimă, iar distanța dintre diferitele clustere să fie cât mai mare posibil.

De ce să folosiți Clustering? – Utilizări ale grupării

  1. O mai bună interpretare a datelor – Utilizând gruparea, modelele care sunt extrase din setul de date pot fi ușor de înțeles de către neprofesionisti și, prin urmare, pot fi interpretate cu ușurință.
  2. Perspective din date cu dimensiuni mari – Seturile de date cu dimensiuni mari nu sunt ușor de analizat doar privind caracteristicile sale. Utilizarea grupării poate ajuta la furnizarea unor perspective și la extragerea unor modele din datele uriașe. Poate oferi un rezumat care ar putea fi util în rezolvarea unor întrebări.
  3. Descoperirea clusterelor arbitrare – Cu ajutorul diferitelor metode de grupare, putem găsi clustere care pot lua orice formă aleatoare. Acest lucru poate ajuta la obținerea caracteristicilor de bază ale setului de date.

Cazuri de utilizare în viața reală a Clusteringului – Aplicații

  1. Compania dvs. a lansat un nou produs și sunteți responsabil să vă asigurați că produsul ajunge la grupul potrivit de oameni, astfel încât compania dvs. să poată atinge profitabilitatea maximă. În acest caz, identificarea tipului potrivit de oameni este problema la îndemână. Puteți efectua gruparea în baza de date a clienților pentru a identifica grupul potrivit de persoane, analizând modelele lor de cumpărare.
  2. Compania ta are o mulțime de imagini neclasificate, iar supervizorul tău îți cere să le grupezi în funcție de conținutul imaginilor. Puteți utiliza gruparea pentru a efectua segmentarea imaginilor pe aceste imagini. De asemenea, puteți utiliza gruparea dacă vă solicită să extrageți unele modele din datele existente.

Diferite tipuri de metode de Clustering – Algoritmi

1. Metoda de clusterizare ierarhică

Această metodă grupează sau împarte clusterele în funcție de metrica distanței selectate, cum ar fi distanța euclidiană, distanța Manhattan, etc. În general, este reprezentată folosind o dendrogramă. Acesta creează o matrice de distanță între toate clusterele care indică distanța dintre ele. Folosind această metrică de distanță, legătura dintre grupuri se face pe baza tipului de legătură.

Deoarece într-un cluster pot exista multe puncte de date, distanțele dintre toate punctele de la un cluster la toate cele din alt cluster vor fi diferite. Acest lucru face dificilă decizia ce distanță ar trebui luată în considerare, care va decide fuzionarea clusterelor. Pentru a rezolva acest lucru, folosim criteriile de conectare pentru a determina ce clustere ar trebui să fie legate. Există trei tipuri comune de legături: -

  • Legătura unică – Distanța dintre cele două grupuri este reprezentată de cea mai scurtă distanță dintre punctele din acele două grupuri.
  • Legătura completă – Distanța dintre cele două grupuri este reprezentată de distanța maximă dintre punctele din acele două grupuri.
  • Legătura medie – Distanța dintre cele două grupuri este reprezentată prin calcularea distanței medii dintre punctele din acele două grupuri.

Abordarea aglomerativă – Se mai numește și abordarea de jos în sus. Aici, fiecare punct de date este considerat a fi un cluster în faza inițială și apoi îmbină aceste clustere unul câte unul.

Abordare divizionară – Se mai numește și abordare de sus în jos. Aici, toate punctele de date sunt considerate ca un singur cluster în faza inițială și apoi aceste puncte de date sunt împărțite pentru a crea mai multe clustere.

2. Metoda de grupare de partiționare

Această metodă creează clustere pe baza caracteristicilor și asemănărilor dintre punctele de date. Algoritmii care utilizează această metodologie necesită ca numărul de clustere să fie creat ca intrare. Acești algoritmi urmează apoi o abordare iterativă pentru a crea acel număr de clustere. Unii dintre algoritmii care urmează această metodologie sunt următorii: –

  • K-Means Clustering

K-Means utilizează metrici de distanță, cum ar fi distanța Manhattan, distanța euclidiană etc. pentru a crea numărul de clustere specificat. Acesta calculează distanța dintre punctele de date și centroidul clusterelor. Punctele de date sunt apoi atribuite celor mai apropiate clustere și centroidul clusterului este recalculat. Astfel de iterații sunt repetate până când numărul predefinit de iterații este finalizat sau centroizii clusterelor nu se schimbă după iterație.

  • PAM (Partiționare în jurul medoidelor)

Cunoscut și ca algoritmul K-Medoid, această funcționare a acestui algoritm este similară cu cea a K-Means. Diferă de K-Means în ceea ce privește modul în care este atribuit centrul clusterului. În PAM, medoidul clusterului este un punct de date real, în timp ce în K-Means calculează centroidul punctelor de date care ar putea să nu fie coordonatele unui punct de date real. În PAM, k puncte de date sunt selectate aleatoriu ca medoizi ai clusterelor și distanța este calculată între toate punctele de date și medoizii clusterelor.

Citiți: Data Analytics vs Data Science

3. Metoda de grupare bazată pe densitate

Această metodă creează clustere pe baza densității punctelor de date. Regiunile devin dense pe măsură ce tot mai multe puncte de date se află în aceeași regiune și aceste regiuni sunt considerate clustere. Punctele de date care se află departe de regiunile dense sau zonele în care punctele de date sunt foarte puțin numărate sunt considerate valori aberante sau zgomote. Următorii algoritmi se bazează pe această metodologie: –

  • DBSCAN (Density-Based Spatial Clustering of Applications with Noise) : – DBSCAN creează clustere pe baza distanței punctelor de date. Acesta grupează punctele de date care se află în aceeași vecinătate. Pentru a fi considerat un cluster, un anumit număr de puncte de date trebuie să locuiască în acea regiune. Este nevoie de doi parametri – eps și puncte minime – eps indică cât de aproape ar trebui să fie punctele de date pentru a fi considerate vecine, iar punctele minime sunt numărul de puncte de date care trebuie să locuiască în acea regiune pentru a fi considerate ca un cluster.
  • OPTICS (Ordering Points to Identify Clustering Structure) : – Este o modificare a algoritmului DBSCAN. Una dintre limitările algoritmului DBSCAN este incapacitatea acestuia de a crea clustere semnificative atunci când punctele de date sunt distribuite în mod egal în spațiul de date. Pentru a depăși această limitare, algoritmul OPTICS preia încă doi parametri – distanța centrală și distanța de accesibilitate. Distanța centrală indică dacă punctul de date este un punct central prin definirea unei valori pentru acesta. Distanța de accesibilitate este definită ca fiind valoarea maximă a distanței centrale și valoarea metricii distanței utilizate pentru calcularea distanței dintre două puncte de date.

4. Metoda de clusterizare bazată pe grilă

Ideologia acestei metode este diferită de restul metodelor utilizate în mod obișnuit. Această metodă reprezintă întregul spațiu de date ca o structură de grilă și cuprinde mai multe grile sau celule. Urmează mai mult o abordare bazată pe spațiu decât pe o abordare bazată pe date. Cu alte cuvinte, este mai preocupat de spațiul din jurul punctelor de date decât de punctele de date în sine.

Datorită acestui fapt, algoritmul converge mai rapid și oferă o reducere uriașă a complexității de calcul. În general, algoritmii inițializează gruparea prin împărțirea spațiului de date în numărul de celule, creând astfel o structură de grilă. Apoi calculează densitatea acestor celule și le sortează în funcție de densitățile lor. Algoritmi precum STING (Statistical Information Grid Approach), WaveCluster, CLIQUE (Clustering in Quest) intră în această categorie.

5. Metoda de clusterizare bazată pe model

Această metodă presupune că datele sunt generate de un amestec de distribuții de probabilitate. Fiecare dintre aceste distribuții poate fi considerată ca un cluster. Încearcă să optimizeze potrivirea dintre date și model. Parametrii modelelor pot fi estimați folosind algoritmi precum Expectation-Maximization, Conceptual Clustering etc.

6. Metoda de clusterizare bazată pe constrângeri

Această metodă încearcă să găsească clustere care satisfac constrângerile orientate către utilizator. Se încadrează în clasa metodologiei semi-supravegheate. Această metodologie permite utilizatorilor să creeze clustere pe baza preferințelor lor. Acest lucru este util atunci când căutăm niște clustere cu caracteristici specifice.

Dar în timpul acestui proces, deoarece clusterele formate sunt concentrate pe preferințele utilizatorului, este posibil să nu se formeze unele caracteristici subiacente și clustere perspicace. Algoritmii care urmează această abordare sunt COP K-Means, PCKMeans (Pairwise Constrained K-Means) și CMWK-Means (Constrained Minkowski Weighted K-Means).

Citește și: Idei de proiecte Data Science

Învață cursuri de știință a datelor online de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.

Concluzie

Algoritmii de grupare s-au dovedit a fi foarte eficienți în furnizarea de informații din date pentru productivitatea afacerii. Algoritmii obișnuiți utilizați în diferitele organizații vă pot oferi rezultatele așteptate, dar și cei neortodocși merită încercați. Acest articol s-a concentrat pe ce este clustering-ul și cum poate fi folosit ca parte a minării de date. De asemenea, a înscris câteva dintre utilizările grupării, modul în care gruparea poate fi utilizată în viața reală și diferitele tipuri de metode în grupare.

Dacă sunteți curios să aflați despre știința datelor, consultați PG executiv în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1- on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Care sunt avantajele și dezavantajele Agglomerative Clustering?

AGNES începe prin a recunoaște că fiecare punct de date va avea propriul său cluster și, chiar dacă există n rânduri de date, algoritmul va începe cu n clustere. Apoi, iterativ, clusterele care sunt cele mai asemănătoare sunt unite pentru a forma un cluster mai mare, în funcție de distanțele măsurate în DIANA. Iterațiile sunt efectuate până când obținem un singur cluster mare care conține toate punctele de date.
Avantaje:
1. Deși utilizatorul trebuie să definească un prag de divizare, nu sunt necesare cunoștințe prealabile cu privire la numărul de clustere.
2. Simplu de aplicat într-o varietate de tipuri de date și cunoscut pentru a produce rezultate fiabile pentru datele obținute dintr-o varietate de surse. Drept urmare, are o gamă largă de aplicații.
Dezavantaje:
1. Divizarea grupurilor (DIANA) sau combinația (AGNES) este destul de riguroasă și, odată făcută, nu poate fi inversată sau reatribuită în iterațiile sau reluări ulterioare.
2. Are o complexitate temporală mare pentru toate cele n puncte de date, în ordinea lui O(n^2logn), și deci nu poate fi utilizat pentru seturi de date mai mari.
3. Incapabil să se ocupe de valorile aberante și de zgomot

Ce este Maximizarea așteptată în GMM?

Presupunem că punctele de date se potrivesc cu o distribuție Gaussiană în modelele mixte Gaussiene, care nu este niciodată o constrângere în comparație cu restricțiile din abordările anterioare. În plus, această ipoteză poate duce la criterii critice de selecție a formei clusterului - adică formele clusterului pot fi acum măsurate. Cele două valori cele mai frecvente și ușoare – medie și varianță – sunt folosite pentru a cuantifica datele.
Așteptările-Maximizarea, un tip de funcție de optimizare, este utilizată pentru a determina media și varianța. Această funcție începe cu un set de parametri gaussieni aleatori, cum ar fi și verifică dacă ipoteza afirmă că un eșantion aparține clusterului c. După aceea, trecem la pasul de maximizare, care implică actualizarea parametrilor gaussieni pentru a se potrivi cu punctele alocate clusterului. Scopul etapei de maximizare este de a crește probabilitatea ca eșantionul să aparțină distribuției cluster.

Care sunt aplicațiile grupării?

Să aruncăm o privire la câteva dintre utilizările de afaceri ale clusteringului și cum se potrivește aceasta în Data Mining.
1. Este baza algoritmilor motoarelor de căutare, care necesită ca obiectele care sunt similare între ele să fie date împreună și ca obiectele care sunt diferite să fie ignorate.
2. Algoritmii de grupare și-au demonstrat eficiența în detectarea celulelor maligne din diferite imagini medicale folosind segmentarea imaginilor în bioinformatică, eliminând erorile umane și alte părtiniri.
3. Clusteringul a fost utilizat de Netflix pentru a crea sugestii de filme pentru spectatorii săi.
4. Analiza grupurilor, care împarte articolele într-un grup de subiecte conexe, poate fi utilizată pentru a rezuma știrile.
5. CV-urile solicitanților de locuri de muncă pot fi împărțite în categorii în funcție de o varietate de variabile, cum ar fi seturi de abilități, experiență, puncte forte, tipuri de proiecte, expertiză și așa mai departe, permițând potențialilor angajatori să se conecteze cu oamenii potriviți.