Înțelegerea conceptului de clusterizare ierarhică în analiza datelor: funcții, tipuri și pași

Publicat: 2023-04-08

Clustering se referă la gruparea datelor similare în grupuri sau clustere în analiza datelor. Aceste clustere îi ajută pe analiștii de date să organizeze puncte de date similare într-un singur grup, diferențiându-le și de alte date care nu sunt similare.

Gruparea ierarhică a datelor este una dintre metodele utilizate pentru a grupa datele într-un arbore de clustere. Este una dintre cele mai populare și utile abordări ale grupării datelor. Dacă doriți să faceți parte din domeniul în creștere al științei datelor și al analizei datelor , gruparea ierarhică este unul dintre cele mai importante lucruri de învățat.

Acest articol vă va ajuta să înțelegeți natura grupării ierarhice, funcția, tipurile și avantajele acesteia.

Cuprins

Ce este clusteringul ierarhic?

După cum sugerează și numele, gruparea ierarhică grupează diferite date în clustere într-un format ierarhic sau arbore. Fiecare punct de date este tratat ca un cluster separat în această metodă. Analiza ierarhică a clusterelor este foarte populară printre oamenii de știință și analiștii de date, deoarece rezumă datele într-o ierarhie gestionabilă de clustere, care este mai ușor de analizat.

Algoritmii de grupare ierarhică preiau mai multe puncte de date diferite și îl iau pe cel mai apropiat dintre cele două pentru a crea un cluster. Se repetă acești pași până când toate punctele de date se transformă într-un singur cluster. Procesul poate fi, de asemenea, inversat pentru a împărți un singur cluster îmbinat în diferite clustere mai mici și în cele din urmă în puncte de date.

Metoda ierarhică de grupare poate fi reprezentată vizual ca o dendrogramă care este o diagramă în formă de arbore. O dendrogramă poate fi tăiată în orice moment în timpul procesului de grupare, când a fost realizat numărul dorit de clustere. Acest lucru facilitează, de asemenea, procesul de analiză a datelor.

Cum funcționează Clusteringul Ierarhic?

Procesul de grupare ierarhică este destul de simplu de înțeles. Un algoritm de grupare ierarhică tratează toate seturile de date disponibile ca grupuri diferite. Apoi, identifică două seturi de date care sunt cele mai asemănătoare și le îmbină într-un cluster. După aceea, sistemul continuă să repete acești pași până când toate punctele de date se îmbină într-un singur cluster mare. Procesul poate fi, de asemenea, oprit odată ce numărul necesar de clustere este disponibil pentru analiză.

Progresul și rezultatul unui proces de grupare ierarhică pot fi vizualizate ca o dendrogramă care vă poate ajuta să identificați relația dintre diferite clustere și cât de similare sau diferite sunt acestea în natură.

Tipuri de clusterizare ierarhică

Un algoritm de grupare ierarhică poate fi utilizat în două moduri diferite. Iată caracteristicile a două tipuri de clustering ierarhic pe care le puteți utiliza.

1. Clustering Ierarhic Aglomerativ

Metoda aglomerativă este cea mai utilizată modalitate de grupare ierarhică a datelor. În această metodă, algoritmul este prezentat cu mai multe seturi de date diferite, fiecare dintre acestea fiind tratat ca un cluster propriu. Apoi algoritmul începe să se combine în grupuri de doi în funcție de cât de asemănătoare sunt unul cu celălalt. Se repetă acești pași până când se atinge numărul necesar de clustere. Această metodă este folosită mai popular în analiza clusterelor ierarhice .

2. Clustering ierarhic divizibil

Metoda divizionară a grupării ierarhice este inversul metodei aglomerative. În această metodă, algoritmul este prezentat cu un singur grup mare de numeroase puncte de date pe care le diferențiază pas cu pas în funcție de disparitatea lor. Acest lucru are ca rezultat mai multe seturi de date care au proprietăți diferite. Metoda diviziunii nu este folosită des în practică.

Învață cursuri de știință a datelor online de la cele mai bune universități din lume. Câștigați programe Executive PG, programe avansate de certificat sau programe de master pentru a vă accelera cariera.

Etapele grupării ierarhice

După cum am menționat anterior, există trei pași principali în gruparea ierarhică a datelor.

  1. Identificarea asemănărilor între două puncte de date diferite.
  2. Îmbinându-le într-un singur grup.
  3. Repetați acești pași pentru toate punctele de date până când acestea sunt îmbinate într-un grup mare de date.

Cu toate acestea, este, de asemenea, foarte important să ne amintim cum să identifici puncte similare în gruparea ierarhică. Dacă studiați o dendrogramă produsă de un algoritm, puteți identifica cu ușurință punctele centrale ale fiecărui grup diferit. Grupurile care au cea mai mică distanță unul de celălalt în dendrogramă sunt cele mai asemănătoare. Acesta este motivul pentru care este denumit și algoritm bazat pe distanță. Asemănarea dintre un cluster și toate celelalte dintr-o dendrogramă se numește matrice de proximitate.

De asemenea, trebuie să alegeți măsura corectă a distanței în timp ce utilizați gruparea ierarhică. De exemplu, în funcție de faptul dacă alegeți măsura distanței să fie sexul sau mediul lor educațional, un set de date care implică informații despre aceleași persoane va produce dendrograme diferite.

Citiți articolele noastre populare despre știința datelor

Calea de carieră în știința datelor: un ghid cuprinzător de carieră Creșterea carierei în știința datelor: viitorul muncii este aici De ce este importantă știința datelor? 8 moduri în care știința datelor aduce valoare afacerii
Relevanța științei datelor pentru manageri Ultima fișă pentru știința datelor pe care ar trebui să o aibă fiecare cercetător de date Top 6 motive pentru care ar trebui să devii un Data Scientist
O zi în viața omului de știință a datelor: ce fac ei? Mitul distrus: Știința datelor nu are nevoie de codare Business Intelligence vs Data Science: Care sunt diferențele?

Ierarhic Clustering Python

Acum că aveți o înțelegere clară a grupării ierarhice, să ne uităm la modul de realizare a grupării ierarhice Python . Iată cum ar arăta realizarea de clustering ierarhic folosind biblioteca„scikit-learn” a lui Python.

Să presupunem că există două variabile ( x și y) într-un set de date cu șase observații:

Observatii X y
1 1 1
2 2 1
3 4 3
4 5 4
5 6 5
6 7 5

Ca diagramă de dispersie, astfel vor fi vizualizate aceste observații:

Piton

import numpy ca

np

import matplotlib.pyplot ca plt

# Definiți setul de date

X = np.array([[ 1,1], [2,1], [4,3], [5,4], [6,5], [7,5]])

# Trasează datele

plt.scatter(X[:, 0], X[:,1])

plt.show()

Există două grupuri de observații în acest grafic - unul include valori mai mici ale x și y, iar celălalt cu valori mai mari alexșiy.

Puteți folosi„scikit learning” pentru a realiza gruparea ierarhică pe acest set de date.

Cele două grupuri de observații din diagramă au valori diferite. Unul este format din valori mai mari ale lui x și y, iar celălalt cu valori mai mici.

Consultațicursurile noastre gratuite de știință a datelor pentru a obține un avantaj față de concurență.

Dintre cele două metode principale de grupare ierarhică pe care le-am discutat anterior, vom folosi metoda de grupare aglomerativă cu metoda legăturii „ward ”.Metoda secție” minimizează variațiile clusterelor care sunt îmbinate împreună, producând astfel clustere care sunt similare ca dimensiune și formă.

Explorați cursurile noastre populare de știință a datelor

Program Executive Postuniversitar în Știința Datelor de la IIITB Program de certificat profesional în știința datelor pentru luarea deciziilor de afaceri Master în Știința Datelor de la Universitatea din Arizona
Program de certificat avansat în știința datelor de la IIITB Program de certificat profesional în știința datelor și analiză de afaceri de la Universitatea din Maryland Cursuri de știință a datelor

Piton

din sklearn.clusterimportAgglomerativeClustering

# Efectuați gruparea ierarhică

clustering AgglomerativeClustering (n_clusters= 2, linkage='ward').fit(X)

Parametrul n-clusters ” a fost folosit aici pentru a specifica faptul că vrem două clustere.

Putem folosi culori diferite pentru fiecare grup atunci când le trasăm:

Piton

# Trasează clusterele

culori= np.array([' r', 'b'])

plt.scatter (X[:, 0], X[:,1], c=culori [clustering.labels_])

plt.show()

Cele două grupuri din date au fost identificate corect de algoritmul de grupare. Puteți utiliza, de asemenea, ce etichetă a atribuit algoritmul de grupare fiecărei observații:

Piton

imprimare (clustering.labels_)

csharp

[ 0 0 1 1 1 1]

Ultimele patru observații au fost alocate grupului 1, în timp ce primele două au fost alocate grupului 0.

Dacă doriți să vizualizați structura ierarhică a acestor clustere, puteți genera o dendrogramă pentru a face acest lucru:

Piton

din scipy.cluster.hierarchyimportdendrogram, linkage

# Calculați matricea de legături

Z = legătură (X, „ secție”)

# Trasează dendrograma

dendrograma (Z)

plt.show()

Dendrograma ne poate ajuta să vizualizăm ierarhia clusterelor îmbinate.

Abilități de top în știința datelor de învățat

Abilități de top în știința datelor de învățat
1 Curs Analiza Datelor Cursuri de Statistică Inferenţială
2 Programe de testare a ipotezelor Cursuri de regresie logistică
3 Cursuri de regresie liniară Algebră liniară pentru analiză

Concluzie

Gruparea datelor este o parte foarte importantă a științei și analizei datelor. Dacă doriți să învățați diferite metode de grupare, atunci upGrad vă poate ajuta să vă începeți călătoria de învățare! Cu ajutorul unor cursuri de master, sesiuni de industrie, sesiuni de mentorat, Python Programming Bootcamp și sesiuni de învățare live, Master of Science în Data Science de la upGrad este un curs conceput pentru profesioniști pentru a obține un avantaj față de concurenți.

Oferit sub îndrumarea Universității din Arizona, acest curs vă stimulează cariera în știința datelor cu un curriculum de ultimă oră, experiență de învățare captivantă cu experți din industrie și oportunități de angajare.

Î. De ce facem clustering ierarhic în știința datelor?

Gruparea ierarhică este utilizată pentru a grupa datele pe baza diferitelor atribute similare. Distribuirea aspectelor de date în grupuri ușor de înțeles vizual simplifică implementarea sa practică, prin analiza cu ușurință a dendrogramei.

Î. În ce se utilizează clusteringul ierarhic?

Gruparea ierarhică este o formă utilizată pe scară largă de grupare a datelor generate prin intermediul site-urilor de rețele sociale. Folosind aceste date, analiștii pot obține informații valoroase relevante pentru a-și îmbunătăți procesele de afaceri și pentru a îmbunătăți veniturile.

Î. Care sunt limitările grupării ierarhice?

Gruparea ierarhică nu se potrivește cu tipuri mixte sau date lipsă. O altă limitare a grupării ierarhice este că nu funcționează bine cu un set extins de date.