Zrozumienie koncepcji klastrowania hierarchicznego w analizie danych: funkcje, typy i kroki

Opublikowany: 2023-04-08

Klastrowanie odnosi się do grupowania podobnych danych w grupy lub klastry w analizie danych. Te klastry pomagają analitykom danych organizować podobne punkty danych w jedną grupę, jednocześnie odróżniając je od innych danych, które nie są podobne.

Hierarchiczne grupowanie danych jest jedną z metod stosowanych do grupowania danych w drzewo klastrów. Jest to jedno z najpopularniejszych i najbardziej użytecznych podejść do grupowania danych. Jeśli chcesz być częścią rozwijającej się dziedziny nauki o danych i analizy danych , klastrowanie hierarchiczne jest jedną z najważniejszych rzeczy do nauczenia.

Ten artykuł pomoże Ci zrozumieć naturę klastrowania hierarchicznego, jego funkcję, rodzaje i zalety.

Spis treści

Co to jest klastrowanie hierarchiczne?

Jak sama nazwa wskazuje, klastrowanie hierarchiczne grupuje różne dane w klastry w formacie hierarchicznym lub drzewiastym. W tej metodzie każdy punkt danych jest traktowany jako osobny klaster. Hierarchiczna analiza klastrów jest bardzo popularna wśród analityków danych i analityków danych, ponieważ podsumowuje dane w zarządzalną hierarchię klastrów, która jest łatwiejsza do analizy.

Hierarchiczne algorytmy klastrowania wykorzystują wiele różnych punktów danych i wybierają najbliższy z nich, aby utworzyć klaster. Powtarza te kroki, aż wszystkie punkty danych zamienią się w jeden klaster. Proces ten można również odwrócić, aby podzielić jeden połączony klaster na różne mniejsze klastry, a ostatecznie na punkty danych.

Hierarchiczna metoda grupowania może być wizualnie przedstawiona jako dendrogram, który jest diagramem przypominającym drzewo. Dendrogram można odciąć w dowolnym momencie procesu grupowania, gdy utworzona zostanie pożądana liczba klastrów. Ułatwia to również proces analizy danych.

Jak działa klastrowanie hierarchiczne?

Proces hierarchicznego grupowania jest dość prosty do zrozumienia. Hierarchiczny algorytm grupowania traktuje wszystkie dostępne zestawy danych jako różne klastry. Następnie identyfikuje dwa najbardziej podobne zestawy danych i łączy je w klaster. Następnie system powtarza te kroki, aż wszystkie punkty danych połączą się w jeden duży klaster. Proces można również zatrzymać, gdy wymagana liczba klastrów będzie dostępna do analizy.

Postęp i wyniki hierarchicznego procesu grupowania można zwizualizować jako dendrogram, który może pomóc w określeniu relacji między różnymi klastrami oraz tego, jak podobny lub różny jest ich charakter.

Rodzaje klastrowania hierarchicznego

Hierarchiczny algorytm grupowania może być używany na dwa różne sposoby. Oto charakterystyka dwóch typów klastrowania hierarchicznego, których można użyć.

1. Aglomeracyjne klastry hierarchiczne

Metoda aglomeratywna jest bardziej popularną metodą hierarchicznego grupowania danych. W tej metodzie algorytm jest prezentowany z wieloma różnymi zestawami danych, z których każdy jest traktowany jako własny klaster. Następnie algorytm zaczyna łączyć się w klastry dwójek na podstawie tego, jak bardzo są do siebie podobne. Powtarza te kroki, aż do osiągnięcia wymaganej liczby klastrów. Ta metoda jest bardziej popularna w hierarchicznej analizie skupień .

2. Dzielące klastry hierarchiczne

Dzieląca metoda hierarchicznego grupowania jest odwrotnością metody aglomeracyjnej. W tej metodzie algorytm jest przedstawiany za pomocą jednego dużego skupiska wielu punktów danych, które różnicuje krok po kroku na podstawie ich rozbieżności. Powoduje to powstanie wielu zestawów danych o różnych właściwościach. Metoda dzieląca nie jest często stosowana w praktyce.

Ucz się online na kursach nauki o danych na najlepszych światowych uniwersytetach. Zdobądź programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Kroki w klastrowaniu hierarchicznym

Jak wspomniano wcześniej, hierarchiczne grupowanie danych składa się z trzech głównych etapów.

  1. Identyfikacja podobieństw między dwoma różnymi punktami danych.
  2. Połączenie ich w jeden klaster.
  3. Powtarzanie tych kroków dla wszystkich punktów danych, dopóki nie zostaną one scalone w jeden duży klaster danych.

Jednak bardzo ważne jest również, aby pamiętać, jak zidentyfikować podobne punkty w hierarchicznym grupowaniu. Jeśli przestudiujesz dendrogram utworzony przez algorytm, możesz łatwo zidentyfikować centralne punkty każdego innego klastra. Klastry, które mają najmniejszą odległość od siebie na dendrogramie, są najbardziej podobne. To jest powód, dla którego jest również nazywany algorytmem opartym na odległości. Podobieństwo między jednym klastrem a wszystkimi pozostałymi w dendrogramie nazywa się macierzą bliskości.

Podczas korzystania z klastrowania hierarchicznego należy również wybrać odpowiednią miarę odległości. Na przykład, w zależności od tego, czy jako miarę odległości wybierzesz ich płeć czy wykształcenie, zestaw danych obejmujący informacje o tych samych osobach da różne dendrogramy.

Przeczytaj nasze popularne artykuły dotyczące nauki o danych

Ścieżka kariery w nauce o danych: kompleksowy przewodnik po karierze Rozwój kariery w Data Science: Przyszłość pracy jest tutaj Dlaczego nauka o danych jest ważna? 8 sposobów, w jakie analiza danych wnosi wartość do biznesu
Znaczenie nauki o danych dla menedżerów Najlepsza ściągawka do analizy danych, którą powinien mieć każdy analityk danych 6 najważniejszych powodów, dla których warto zostać naukowcem danych
Dzień z życia Data Scientist: Co oni robią? Obalony mit: analiza danych nie wymaga kodowania Business Intelligence vs Data Science: jakie są różnice?

Hierarchiczny klastrowanie w Pythonie

Teraz, gdy masz już jasne pojęcie o klastrowaniu hierarchicznym, przyjrzyjmy się, jak przeprowadzać klastrowanie hierarchiczne w Pythonie . Oto jak wyglądałoby hierarchiczne grupowanie przy użyciu biblioteki„scikit-learn” Pythona .

Załóżmy, że w zbiorze danych z sześcioma obserwacjami znajdują się dwie zmienne ( x i y):

obserwacje X y
1 1 1
2 2 1
3 4 3
4 5 4
5 6 5
6 7 5

Jako wykres punktowy, oto jak te obserwacje zostaną zwizualizowane:

Pyton

importuj numpy jako

np

importuj matplotlib.pyplot jako plt

# Zdefiniuj zestaw danych

X = np.array([[ 1,1], [2,1], [4,3], [5,4], [6,5], [7,5]])

# Narysuj dane

plt.scatter(X[:, 0], X[:,1])

plt.pokaż()

Na tym wykresie występują dwa skupienia obserwacji — jeden zawiera niższe wartości x i y, a drugi większe wartościxiy.

Możesz użyć„scikit Learn”, aby wykonać klastrowanie hierarchiczne na tym zbiorze danych.

Dwa skupienia obserwacji na wykresie mają różne wartości. Jeden składa się z wyższych wartości x i y, a drugi z niższych.

Sprawdź naszebezpłatne kursy nauki o danych, aby uzyskać przewagę nad konkurencją.

Spośród dwóch głównych metod hierarchicznego grupowania, które omówiliśmy wcześniej, użyjemy metody grupowania aglomeracyjnego z metodą powiązań „warda ”.Metoda warda” minimalizuje zmiany klastrów, które są ze sobą łączone, tworząc w ten sposób klastry o podobnej wielkości i kształcie.

Zapoznaj się z naszymi popularnymi kursami Data Science

Executive Post Graduate Program in Data Science z IIITB Profesjonalny program certyfikatów w dziedzinie nauki o danych w podejmowaniu decyzji biznesowych Master of Science in Data Science na University of Arizona
Zaawansowany program certyfikacji w nauce o danych z IIITB Profesjonalny program certyfikatów w dziedzinie nauki o danych i analityki biznesowej na University of Maryland Kursy nauki o danych

Pyton

z sklearn.clusterimportujklastry aglomeracyjne

# Wykonaj hierarchiczne grupowanie

klastrowanie AgglomerativeClustering (n_clusters= 2, linkage='ward').fit(X)

Parametr n-clusters ” został tutaj użyty do określenia, że ​​chcemy mieć dwa klastry.

Możemy użyć różnych kolorów dla każdego klastra, gdy je wykreślimy:

Pyton

# Narysuj klastry

kolory= np.tablica([' r', 'b'])

plt.scatter (X[:, 0], X[:,1], c=colors [clustering.labels_])

plt.pokaż()

Algorytm klastrowania poprawnie zidentyfikował dwa skupienia w danych. Możesz także użyć etykiety, którą algorytm grupowania przypisał każdej obserwacji:

Pyton

drukuj (clustering.labels_)

csharp

[ 0 0 1 1 1 1]

Ostatnie cztery obserwacje zostały przypisane do klastra 1, a pierwsze dwie do klastra 0.

Jeśli chcesz zwizualizować hierarchiczną strukturę tych klastrów, możesz wygenerować w tym celu dendrogram:

Pyton

z scipy.cluster.hierarchyzaimportujdendrogram, powiązanie

# Oblicz macierz powiązań

Z = powiązanie(X, ' oddział')

# Narysuj dendrogram

dendrogram(Z)

plt.pokaż()

Dendrogram może pomóc nam zwizualizować hierarchię połączonych klastrów.

Najważniejsze umiejętności związane z nauką o danych do nauczenia

Najważniejsze umiejętności związane z nauką o danych do nauczenia
1 Kurs analizy danych Kursy statystyki wnioskowania
2 Programy do testowania hipotez Kursy regresji logistycznej
3 Kursy regresji liniowej Algebra liniowa do analizy

Wniosek

Klastrowanie danych jest bardzo ważną częścią nauki o danych i analizy danych. Jeśli chcesz nauczyć się różnych metod grupowania, upGrad może pomóc Ci rozpocząć podróż edukacyjną! Dzięki kursom mistrzowskim, sesjom branżowym, sesjom mentorskim, Python Programming Bootcamp i sesjom uczenia się na żywo upGrad's Master of Science in Data Science to kurs przeznaczony dla profesjonalistów, aby uzyskać przewagę nad konkurencją.

Kurs ten, oferowany pod kierunkiem University of Arizona, przyspieszy Twoją karierę naukową w zakresie danych dzięki najnowocześniejszemu programowi nauczania, wciągającemu doświadczeniu w nauce z ekspertami branżowymi i możliwościom pracy.

P. Dlaczego stosujemy hierarchiczne grupowanie w analizie danych?

Klastrowanie hierarchiczne służy do grupowania danych na podstawie różnych podobnych atrybutów. Dystrybucja aspektów danych w wizualnie zrozumiałe grupy upraszcza ich praktyczną implementację dzięki łatwemu spojrzeniu na dendrogram.

P. Do czego służy klastrowanie hierarchiczne?

Hierarchiczne grupowanie jest szeroko stosowaną formą grupowania danych generowanych za pośrednictwem portali społecznościowych. Korzystając z tych danych, analitycy mogą zbierać cenne informacje przydatne do usprawnienia ich procesów biznesowych i generatywnej poprawy przychodów.

P. Jakie są ograniczenia klastrowania hierarchicznego?

Hierarchiczne grupowanie nie pasuje do typów mieszanych lub brakujących danych. Innym ograniczeniem klastrowania hierarchicznego jest to, że nie radzi sobie dobrze z bardzo dużym zestawem danych.