Przewodnik wyjaśniający do klastrowania w eksploracji danych – definicja, zastosowania i algorytmy

Opublikowany: 2021-02-25

Spis treści

Wprowadzenie – Co to jest eksploracja danych i klastrowanie?

Różne organizacje mają pod ręką ogromne ilości danych i nie bez powodu decydują się je przechowywać. Wykorzystują te dane, aby wydobyć pewne spostrzeżenia z danych, które mogą pomóc im w zwiększeniu ich rentowności. Proces wyodrębniania spostrzeżeń i podstawowych wzorców z surowego zestawu danych jest znany jako Data Mining. Jednym ze sposobów wyodrębnienia tych wnikliwych wzorców jest tworzenie klastrów.

Grupowanie odnosi się do grupowania punktów danych, które mają wspólne cechy. Innymi słowy, jest to proces, który analizuje zbiór danych i tworzy klastry punktów danych. Klaster to nic innego jak zgrupowanie takich podobnych punktów danych. Podczas przetwarzania grupowania punkty danych są najpierw grupowane razem w celu utworzenia klastrów, a następnie do tych klastrów przypisywane są etykiety.

Aby wykonać klastrowanie zestawu danych, zazwyczaj używamy nienadzorowanych algorytmów uczenia się, ponieważ etykiety wyjściowe nie są znane w zestawie danych. Klastrowanie może być wykorzystywane jako część eksploracyjnej analizy danych oraz do modelowania w celu uzyskania wnikliwych klastrów. Klastry powinny być zoptymalizowane w taki sposób, aby odległość między punktami danych wewnątrz klastra była minimalna, a odległość między różnymi klastrami była jak największa.

Dlaczego warto korzystać z klastrowania? – Zastosowania klastrowania

  1. Lepsza interpretacja danych – Korzystając z grupowania, wzorce wyodrębnione ze zbioru danych mogą być łatwo zrozumiane przez laików, a tym samym mogą być łatwo interpretowane.
  2. Wgląd w dane wielowymiarowe — zestawy danych wielowymiarowych nie są łatwe do przeanalizowania tylko na podstawie ich funkcji. Korzystanie z klastrów może pomóc w zapewnieniu pewnych wglądów i wyodrębnieniu pewnych wzorców z ogromnych danych. Może zawierać podsumowanie, które może być przydatne przy rozwiązywaniu niektórych pytań.
  3. Odkrywanie dowolnych klastrów – Za pomocą różnych metod grupowania możemy znaleźć klastry, które mogą przybrać dowolny losowy kształt. Może to pomóc w uzyskaniu podstawowych cech zestawu danych.

Rzeczywiste przypadki użycia klastrowania – aplikacje

  1. Twoja firma wprowadziła na rynek nowy produkt, a Ty odpowiadasz za to, aby produkt dotarł do odpowiedniej grupy ludzi, aby Twoja firma mogła osiągnąć maksymalną rentowność. W tym przypadku problemem jest zidentyfikowanie odpowiedniego typu ludzi. Możesz wykonać klastrowanie bazy danych klientów, aby zidentyfikować odpowiednią grupę osób, analizując ich wzorce zakupowe.
  2. Twoja firma ma mnóstwo niesklasyfikowanych obrazów, a Twój przełożony prosi Cię o pogrupowanie ich zgodnie z treścią obrazów. Możesz użyć klastrowania, aby przeprowadzić segmentację obrazów na tych obrazach. Możesz również użyć klastrowania, jeśli poprosi Cię o wyodrębnienie pewnych wzorców z istniejących danych.

Różne rodzaje metod klastrowania – algorytmy

1. Hierarchiczna metoda klastrowania

Ta metoda grupuje lub dzieli klastry w oparciu o wybraną metrykę odległości, taką jak odległość euklidesowa, odległość Manhattanu itp. Zwykle przedstawia się ją za pomocą dendrogramu. Tworzy macierz odległości między wszystkimi klastrami, która wskazuje odległość między nimi. Wykorzystując tę ​​metrykę odległości, powiązanie między klastrami odbywa się w oparciu o rodzaj powiązania.

Ponieważ w klastrze może być wiele punktów danych, odległości między wszystkimi punktami z jednego klastra a wszystkimi w innym klastrze będą różne. Utrudnia to podjęcie decyzji, jaką odległość należy wziąć pod uwagę, co zadecyduje o połączeniu klastrów. Aby temu zaradzić, używamy kryteriów powiązania, aby określić, które klastry powinny być połączone. Istnieją trzy popularne typy powiązań: –

  • Pojedyncze połączenie — odległość między dwoma skupieniami jest reprezentowana przez najkrótszą odległość między punktami w tych dwóch skupieniach.
  • Kompletne połączenie — odległość między dwoma skupieniami jest reprezentowana przez maksymalną odległość między punktami w tych dwóch skupieniach.
  • Średnie połączenie — odległość między dwoma skupieniami jest reprezentowana przez obliczenie średniej odległości między punktami w tych dwóch skupieniach.

Podejście aglomeracyjne – jest również nazywane podejściem oddolnym. Tutaj każdy punkt danych jest uważany za klaster w początkowej fazie, a następnie łączy te klastry jeden po drugim.

Podejście dzielące – jest również nazywane podejściem odgórnym. Tutaj wszystkie punkty danych są traktowane jako jeden klaster w początkowej fazie, a następnie te punkty danych są dzielone, aby utworzyć więcej klastrów.

2. Metoda klastrowania partycjonowania

Ta metoda tworzy klastry na podstawie cech i podobieństw między punktami danych. Algorytmy wykorzystujące tę metodologię wymagają utworzenia liczby klastrów jako danych wejściowych. Algorytmy te następnie stosują podejście iteracyjne, aby utworzyć taką liczbę klastrów. Niektóre algorytmy zgodne z tą metodologią są następujące: –

  • Klastrowanie K-średnich

K-Means wykorzystuje metryki odległości, takie jak odległość Manhattanu, odległość euklidesowa itp., aby utworzyć określoną liczbę klastrów. Oblicza odległość między punktami danych a środkiem ciężkości klastrów. Punkty danych są następnie przypisywane do najbliższych klastrów i środek ciężkości klastra jest ponownie obliczany. Takie iteracje są powtarzane aż do zakończenia określonej z góry liczby iteracji lub gdy centroidy klastrów nie zmienią się po iteracji.

  • PAM (podział wokół medoidów)

Znany również jako algorytm K-Medoid, to działanie tego algorytmu jest podobne do działania K-Means. Różni się od K-średnich sposobem przypisania środka skupienia. W PAM medoid klastra jest rzeczywistym punktem danych, podczas gdy w K-Means oblicza środek ciężkości punktów danych, które mogą nie być współrzędnymi rzeczywistego punktu danych. W PAM k punktów danych jest wybieranych losowo jako medoidy klastrów, a odległość jest obliczana między wszystkimi punktami danych a medoidami klastrów.

Przeczytaj: Analiza danych a nauka o danych

3. Metoda klastrowania oparta na gęstości

Ta metoda tworzy klastry na podstawie gęstości punktów danych. Regiony stają się gęste, ponieważ coraz więcej punktów danych znajduje się w tym samym regionie, a regiony te są uważane za klastry. Punkty danych, które leżą daleko od gęstych regionów lub obszarów, w których liczba punktów danych jest bardzo mniejsza, uważa się za wartości odstające lub szum. Na tej metodologii oparte są następujące algorytmy: –

  • DBSCAN (przestrzenne klastrowanie aplikacji z szumem na podstawie gęstości) : – DBSCAN tworzy klastry na podstawie odległości punktów danych. Grupuje razem punkty danych, które znajdują się w tym samym sąsiedztwie. Aby można było uznać je za klaster, w tym regionie musi znajdować się określona liczba punktów danych. Wymaga dwóch parametrów — eps i punktów minimalnych — eps wskazuje, jak blisko punkty danych powinny być uważane za sąsiadów, a punkty minimalne to liczba punktów danych, które muszą znajdować się w tym regionie, aby można je było uznać za klaster.
  • OPTYKA (Ordering Points do Identyfikacji Struktury Klastrów) : – Jest to modyfikacja algorytmu DBSCAN. Jednym z ograniczeń algorytmu DBSCAN jest jego niezdolność do tworzenia znaczących klastrów, gdy punkty danych są równomiernie rozłożone w przestrzeni danych. Aby przezwyciężyć to ograniczenie, algorytm OPTICS przyjmuje jeszcze dwa parametry – odległość rdzenia i odległość osiągalności. Odległość rdzenia wskazuje, czy punkt danych jest punktem rdzenia, definiując dla niego wartość. Odległość osiągalności jest zdefiniowana jako maksymalna odległość rdzenia i wartość metryki odległości używanej do obliczania odległości między dwoma punktami danych.

4. Metoda klastrowania oparta na siatce

Ideologia tej metody różni się od pozostałych powszechnie stosowanych metod. Ta metoda reprezentuje całą przestrzeń danych jako strukturę siatki i składa się z wielu siatek lub komórek. Jest to raczej podejście oparte na przestrzeni niż na danych. Innymi słowy, bardziej interesuje ją przestrzeń otaczająca punkty danych niż same punkty danych.

Dzięki temu algorytm osiąga zbieżność szybciej i zapewnia ogromną redukcję złożoności obliczeniowej. Ogólnie rzecz biorąc, algorytmy inicjują klastrowanie, dzieląc przestrzeń danych na liczbę komórek, tworząc w ten sposób strukturę siatki. Następnie oblicza gęstość tych komórek i sortuje je według ich gęstości. Do tej kategorii należą algorytmy takie jak STING (ang. Statistical Information Grid Approach), WaveCluster, CLIQUE (Clustering in Quest).

5. Metoda klastrowania oparta na modelach

Ta metoda zakłada, że ​​dane są generowane przez mieszankę rozkładów prawdopodobieństwa. Każdą z tych dystrybucji można uznać za klaster. Próbuje zoptymalizować dopasowanie danych do modelu. Parametry modeli można oszacować za pomocą algorytmów, takich jak oczekiwanie-maksymalizacja, grupowanie pojęciowe itp.

6. Metoda klastrowania oparta na ograniczeniach

Ta metoda próbuje znaleźć klastry, które spełniają ograniczenia zorientowane na użytkownika. Należy do klasy metodologii częściowo nadzorowanej. Ta metodologia umożliwia użytkownikom tworzenie klastrów w oparciu o ich preferencje. Przydaje się to, gdy szukamy klastrów o określonych cechach.

Jednak podczas tego procesu, ponieważ utworzone skupienia koncentrują się na preferencjach użytkownika, niektóre podstawowe cechy i wnikliwe skupienia mogą nie zostać utworzone. Algorytmy, które stosują to podejście to COP K-średnie, PCKMeans (Pairwise Constrained K-Means) i CMWK-Means (Ograniczone ważone K-średnie Minkowskiego).

Przeczytaj także: Pomysły na projekty Data Science

Ucz się online kursów nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Wniosek

Algorytmy klastrowania okazały się bardzo skuteczne w dostarczaniu wglądu z danych dla produktywności biznesowej. Algorytmy używane w różnych organizacjach mogą zapewnić oczekiwane rezultaty, ale warto wypróbować również te niekonwencjonalne. W tym artykule skupiliśmy się na tym, czym jest klastrowanie i jak można go wykorzystać jako część eksploracji danych. Wymieniono również kilka zastosowań klastrowania, sposoby wykorzystania klastrów w prawdziwym życiu oraz różne rodzaje metod klastrowania.

Jeśli jesteś zainteresowany nauką o danych, sprawdź IIIT-B i upGrad Executive PG in Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami branżowymi, 1- on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Jakie są zalety i wady klastrowania aglomeracyjnego?

AGNES zaczyna od rozpoznania, że ​​każdy punkt danych będzie miał swój własny klaster, a nawet jeśli istnieje n wierszy danych, algorytm rozpocznie się od n klastrów. Następnie, iteracyjnie, klastry, które są najbardziej podobne, są łączone w większą klaster, w zależności od odległości zmierzonych w DIANA. Iteracje są przeprowadzane aż do uzyskania jednego dużego klastra zawierającego wszystkie punkty danych.
Zalety:
1. Chociaż użytkownik musi zdefiniować próg podziału, nie jest wymagana wcześniejsza znajomość liczby klastrów.
2. Proste do zastosowania w różnych typach danych i znane z tego, że dają wiarygodne wyniki dla danych uzyskanych z różnych źródeł. Dzięki temu ma szerokie zastosowanie.
Niedogodności:
1. Podział klastrów (DIANA) lub kombinacja (AGNES) jest dość rygorystyczna i po wykonaniu nie można jej odwrócić ani ponownie przypisać w kolejnych iteracjach lub powtórkach.
2. Ma wysoką złożoność czasową dla wszystkich n punktów danych, w kolejności O(n^2logn), a więc nie może być wykorzystana do większych zbiorów danych.
3. Nie radzę sobie z wartościami odstającymi i hałasem

Co to jest oczekiwana maksymalizacja w GMM?

Zakładamy, że punkty danych pasują do rozkładu Gaussa w modelach mieszanych Gaussa, co nigdy nie jest ograniczeniem w porównaniu z ograniczeniami w poprzednich podejściach. Co więcej, ta hipoteza może prowadzić do krytycznych kryteriów wyboru kształtu klastrów — to znaczy, że można teraz mierzyć formy klastrów. Dwie najczęstsze i najłatwiejsze metryki — średnia i wariancja — służą do ilościowego określania danych.
Oczekiwanie-maksymalizacja, rodzaj funkcji optymalizacji, służy do określania średniej i wariancji. Ta funkcja rozpoczyna się od zestawu losowych parametrów Gaussa, takich jak i sprawdza, czy Hipoteza potwierdza, że ​​próbka należy do klastra c. Następnie przechodzimy do kroku maksymalizacji, który obejmuje aktualizację parametrów Gaussa, tak aby odpowiadały punktom przydzielonym do klastra. Celem etapu maksymalizacji jest zwiększenie prawdopodobieństwa przynależności próbki do rozkładu skupień.

Jakie są zastosowania klastrowania?

Przyjrzyjmy się niektórym biznesowym zastosowaniom klastrowania i temu, jak wpasowuje się ono w Data Mining.
1. Jest podstawą algorytmów wyszukiwarek, wymagających, aby obiekty, które są do siebie podobne, były podawane razem, a obiekty, które są do siebie niepodobne, były ignorowane.
2. Algorytmy grupowania wykazały swoją skuteczność w wykrywaniu złośliwych komórek w różnych obrazach medycznych przy użyciu segmentacji obrazu w bioinformatyce, usuwając błędy ludzkie i inne uprzedzenia.
3. Klastrowanie zostało wykorzystane przez Netflix do tworzenia sugestii filmowych dla swoich widzów.
4. Do podsumowania wiadomości można wykorzystać analizę skupień, która dzieli artykuły na grupę powiązanych tematów.
5. Życiorysy osób poszukujących pracy można podzielić na kategorie w zależności od różnych zmiennych, takich jak zestaw umiejętności, doświadczenie, mocne strony, rodzaje projektów, wiedza specjalistyczna itd., co umożliwia potencjalnym pracodawcom nawiązanie kontaktu z właściwymi osobami.