Guida esplicativa al clustering nel data mining: definizione, applicazioni e algoritmi

Pubblicato: 2021-02-25

Sommario

Introduzione – Che cos'è il data mining e il clustering?

Diverse organizzazioni hanno a portata di mano dati enormi e c'è un motivo per cui queste organizzazioni scelgono di archiviarli. Usano questi dati per estrarre alcune informazioni dai dati che possono aiutarli ad aumentare la loro redditività. Il processo di estrazione delle informazioni dettagliate e dei modelli sottostanti dal set di dati grezzi è noto come Data Mining. Uno dei modi per estrarre questi schemi perspicaci è il Clustering.

Il clustering si riferisce al raggruppamento di punti dati che presentano caratteristiche comuni. In altre parole, è un processo che analizza il set di dati e crea gruppi di punti dati. Un cluster non è altro che un raggruppamento di punti dati simili. Nell'elaborazione del clustering, i punti dati vengono prima raggruppati insieme per formare cluster e quindi vengono assegnate etichette a questi cluster.

Per eseguire il clustering sul set di dati, utilizziamo generalmente algoritmi di apprendimento non supervisionato poiché le etichette di output non sono note nel set di dati. Il clustering può essere utilizzato come parte dell'analisi esplorativa dei dati e può essere utilizzato per la modellazione per ottenere cluster approfonditi. I cluster dovrebbero essere ottimizzati in modo tale che la distanza tra i punti dati all'interno di un cluster sia minima e la distanza tra i diversi cluster sia la più lontana possibile.

Perché usare il clustering? – Usi del clustering

  1. La migliore interpretazione dei dati – Utilizzando il clustering, i modelli estratti dal set di dati possono essere facilmente compresi dai profani e quindi possono essere interpretati facilmente.
  2. Approfondimenti da dati ad alta dimensione – I set di dati ad alta dimensione non sono facili da analizzare solo osservandone le caratteristiche. L'uso del clustering può aiutare a fornire alcune informazioni ed estrarre alcuni modelli dai dati enormi. Può fornire alcuni riassunti che potrebbero essere utili per risolvere alcune domande.
  3. Alla scoperta di cluster arbitrari – Con l'aiuto di diversi metodi di clustering, possiamo trovare cluster che possono assumere qualsiasi forma casuale. Questo può aiutare a ottenere le caratteristiche sottostanti del set di dati.

Casi d'uso reali di Clustering – Applicazioni

  1. La tua azienda ha lanciato un nuovo prodotto e tu hai il compito di garantire che il prodotto raggiunga il giusto gruppo di persone in modo che la tua azienda possa ottenere la massima redditività. In questo caso, il problema è identificare il giusto tipo di persone. È possibile eseguire il raggruppamento sul database dei clienti per identificare il giusto gruppo di persone analizzando i loro modelli di acquisto.
  2. La tua azienda ha tonnellate di immagini non classificate e il tuo supervisore ti chiede di raggrupparle in base al contenuto delle immagini. Puoi utilizzare il clustering per eseguire la segmentazione delle immagini su queste immagini. Puoi anche utilizzare il clustering se ti chiedono di estrarre alcuni modelli dai dati esistenti.

Diversi tipi di metodi di Clustering – Algoritmi

1. Metodo di clustering gerarchico

Questo metodo raggruppa o divide i cluster in base alla metrica della distanza selezionata come la distanza euclidea, la distanza di Manhattan, ecc. Viene generalmente rappresentato utilizzando un dendrogramma. Crea una matrice di distanza tra tutti i cluster che indica la distanza tra di loro. Utilizzando questa metrica di distanza, il collegamento tra i cluster viene eseguito in base al tipo di collegamento.

Poiché possono esserci molti punti dati in un cluster, le distanze tra tutti i punti da un cluster a tutti quelli in un altro cluster saranno diverse. Ciò rende difficile decidere quale distanza considerare che deciderà la fusione dei cluster. Per affrontare questo problema, utilizziamo i criteri di collegamento per determinare quali cluster dovrebbero essere collegati. Esistono tre tipi comuni di collegamenti: –

  • Collegamento singolo: la distanza tra i due cluster è rappresentata dalla distanza più breve tra i punti in quei due cluster.
  • Collegamento completo: la distanza tra i due cluster è rappresentata dalla distanza massima tra i punti in quei due cluster.
  • Collegamento medio: la distanza tra i due cluster è rappresentata calcolando la distanza media tra i punti in quei due cluster.

Approccio agglomerato – Viene anche chiamato approccio bottom-up. Qui, ogni punto dati è considerato un cluster nella fase iniziale e quindi unisce questi cluster uno per uno.

Approccio divisivo – Viene anche chiamato approccio dall'alto verso il basso. Qui, tutti i punti dati vengono considerati come un unico cluster nella fase iniziale e quindi questi punti dati vengono divisi per creare più cluster.

2. Metodo di raggruppamento del partizionamento

Questo metodo crea cluster in base alle caratteristiche e alle somiglianze tra i punti dati. Gli algoritmi che utilizzano questa metodologia richiedono il numero di cluster da creare come input. Questi algoritmi seguono quindi un approccio iterativo per creare quel numero di cluster. Alcuni degli algoritmi che seguono questa metodologia sono i seguenti: –

  • Cluster di mezzi K

K-Means utilizza metriche di distanza come la distanza di Manhattan, la distanza euclidea, ecc. per creare il numero di cluster specificato. Calcola la distanza tra i punti dati e il baricentro dei cluster. I punti dati vengono quindi assegnati ai cluster più vicini e il centroide del cluster viene ricalcolato. Tali iterazioni vengono ripetute fino al completamento del numero predefinito di iterazioni o finché i centroidi dei cluster non cambiano dopo l'iterazione.

  • PAM (Partizionamento intorno ai Medoid)

Conosciuto anche come algoritmo K-Medoid, questo funzionamento di questo algoritmo è simile a quello di K-Means. Differisce dalla K-Mean in termini di come viene assegnato il centro del cluster. In PAM, il medoid del cluster è un punto dati effettivo mentre in K-Means calcola il baricentro dei punti dati che potrebbero non essere le coordinate di un punto dati effettivo. In PAM, k punti dati vengono selezionati casualmente come medoidi dei cluster e viene calcolata la distanza tra tutti i punti dati e i medoidi dei cluster.

Leggi: Data Analytics vs Data Science

3. Metodo di clustering basato sulla densità

Questo metodo crea cluster in base alla densità dei punti dati. Le regioni diventano dense poiché sempre più punti dati si trovano nella stessa regione e queste regioni sono considerate cluster. I punti dati che si trovano lontano dalle regioni dense o dalle aree in cui i punti dati sono molto meno numerosi sono considerati valori anomali o rumore. I seguenti algoritmi si basano su questa metodologia: –

  • DBSCAN (Density-Based Spatial Clustering of Applications with Noise) : – DBSCAN crea cluster basati sulla distanza dei punti dati. Raggruppa i punti dati che si trovano nello stesso quartiere. Per essere considerato un cluster, un numero specifico di punti dati deve risiedere in quella regione. Occorrono due parametri – eps e punti minimi – eps indicano quanto vicini devono essere i punti dati da considerare come vicini e i punti minimi sono il numero di punti dati che devono risiedere all'interno di quella regione per essere considerati come un cluster.
  • OTTICA (Ordering Points to Identify Clustering Structure) : – Si tratta di una modifica dell'algoritmo DBSCAN. Una delle limitazioni dell'algoritmo DBSCAN è la sua incapacità di creare cluster significativi quando i punti dati sono equamente distribuiti nello spazio dati. Per superare questa limitazione, l'algoritmo OPTICS utilizza altri due parametri: la distanza centrale e la distanza di raggiungibilità. La distanza centrale indica se il punto dati è un punto centrale definendo un valore per esso. La distanza di raggiungibilità è definita come il massimo della distanza centrale e il valore della metrica di distanza utilizzata per calcolare la distanza tra due punti dati.

4. Metodo di clustering basato su griglia

L'ideologia di questo metodo è diversa dal resto dei metodi comunemente usati. Questo metodo rappresenta l'intero spazio dati come una struttura a griglia e comprende più griglie o celle. Segue più un approccio basato sullo spazio piuttosto che un approccio basato sui dati. In altre parole, è più preoccupato per lo spazio che circonda i punti dati piuttosto che per i punti dati stessi.

Per questo motivo l'algoritmo converge più velocemente e fornisce un'enorme riduzione della complessità computazionale. In generale, gli algoritmi inizializzano il clustering dividendo lo spazio dati nel numero di celle creando così una struttura a griglia. Quindi calcola la densità di queste celle e le ordina in base alla loro densità. Algoritmi come STING (Statistical Information Grid Approach), WaveCluster, CLIQUE (Clustering in Quest) rientrano in questa categoria.

5. Metodo di clustering basato su modello

Questo metodo presuppone che i dati siano generati da una combinazione di distribuzioni di probabilità. Ciascuna di queste distribuzioni può essere considerata come un cluster. Cerca di ottimizzare l'adattamento tra i dati e il modello. I parametri dei modelli possono essere stimati utilizzando algoritmi come Expectation-Maximization, Conceptual Clustering, ecc.

6. Metodo di clustering basato su vincoli

Questo metodo tenta di trovare cluster che soddisfino i vincoli orientati all'utente. Rientra nella classe della metodologia semi-supervisionata. Questa metodologia consente agli utenti di creare cluster in base alle loro preferenze. Questo è utile quando stiamo cercando alcuni cluster con caratteristiche specifiche.

Ma durante questo processo, poiché i cluster formati sono focalizzati sulle preferenze dell'utente, alcune caratteristiche sottostanti e cluster approfonditi potrebbero non formarsi. Gli algoritmi che seguono questo approccio sono COP K-Means, PCKMeans (Pairwise Constrained K-Means) e CMWK-Means (Constrained Minkowski Weighted K-Means).

Leggi anche: Idee per progetti di scienza dei dati

Impara i corsi di scienza dei dati online dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

Conclusione

Gli algoritmi di clustering si sono rivelati molto efficaci nel fornire informazioni dettagliate dai dati per la produttività aziendale. Gli algoritmi comuni utilizzati nelle varie organizzazioni possono fornire risultati attesi, ma vale la pena provare anche quelli non ortodossi. Questo articolo si è concentrato su cos'è il clustering e come può essere utilizzato come parte del data mining. Ha anche elencato alcuni degli usi del clustering, come il clustering può essere utilizzato nella vita reale e i diversi tipi di metodi nel clustering.

Se sei curioso di conoscere la scienza dei dati, dai un'occhiata all'Executive PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1- on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Quali sono i vantaggi e gli svantaggi del clustering agglomerato?

AGNES inizia riconoscendo che ogni punto dati avrà il proprio cluster e, anche se ci sono n righe di dati, l'algoritmo inizierà con n cluster. Quindi, in modo iterativo, i cluster più simili vengono uniti per formare un cluster più grande, a seconda delle distanze misurate in DIANA. Le iterazioni vengono eseguite fino a quando non otteniamo un unico grande cluster contenente tutti i punti dati.
vantaggi:
1. Sebbene l'utente debba definire una soglia di divisione, non è richiesta alcuna conoscenza preventiva del numero di cluster.
2. Semplice da applicare a una varietà di tipi di dati e noto per produrre risultati affidabili per i dati ottenuti da una varietà di fonti. Di conseguenza, ha una vasta gamma di applicazioni.
Svantaggi:
1. La divisione cluster (DIANA) o la combinazione (AGNES) è piuttosto rigorosa e, una volta eseguita, non può essere annullata o riassegnata in iterazioni o ripetizioni successive.
2. Ha un'elevata complessità temporale per tutti gli n punti dati, nell'ordine di O(n^2logn), e quindi non può essere utilizzato per insiemi di dati più grandi.
3. Incapace di gestire valori anomali e rumore

Qual è la massimizzazione prevista in GMM?

Presumiamo che i punti dati corrispondano a una distribuzione gaussiana nei modelli misti gaussiani, che non è mai un vincolo rispetto alle restrizioni degli approcci precedenti. Inoltre, questa ipotesi può portare a criteri critici di selezione della forma dei grappoli, ovvero ora è possibile misurare le forme dei grappoli. Le due metriche più frequenti e facili – media e varianza – vengono utilizzate per quantificare i dati.
Expectation-Maximization, un tipo di funzione di ottimizzazione, viene utilizzata per determinare la media e la varianza. Questa funzione inizia con un insieme di parametri gaussiani casuali, come, e controlla se l'ipotesi afferma che un campione appartiene al cluster c. Successivamente, si passa alla fase di massimizzazione, che prevede l'aggiornamento dei parametri gaussiani per adattarli ai punti assegnati al cluster. L'obiettivo della fase di massimizzazione è aumentare la probabilità che il campione appartenga alla distribuzione dei cluster.

Quali sono le applicazioni del clustering?

Diamo un'occhiata ad alcuni degli usi aziendali del clustering e al modo in cui si inserisce nel Data Mining.
1. È il fondamento degli algoritmi dei motori di ricerca, che richiedono che gli oggetti simili tra loro siano dati insieme e che gli oggetti dissimili siano ignorati.
2. Gli algoritmi di clustering hanno dimostrato la loro efficacia nel rilevare cellule maligne da varie immagini mediche utilizzando la segmentazione dell'immagine in bioinformatica, rimuovendo gli errori umani e altri bias.
3. Il clustering è stato utilizzato da Netflix per creare suggerimenti di film per i suoi spettatori.
4. L'analisi dei cluster, che divide gli articoli in un gruppo di argomenti correlati, può essere utilizzata per riassumere le notizie.
5. I curricula delle persone in cerca di lavoro possono essere suddivisi in categorie in base a una varietà di variabili come competenze, esperienza, punti di forza, tipi di progetti, competenze e così via, consentendo ai potenziali datori di lavoro di entrare in contatto con le persone giuste.