Guia Explicativo para Clustering em Mineração de Dados - Definição, Aplicativos e Algoritmos

Publicados: 2021-02-25

Índice

Introdução – O que é Data Mining e Clustering?

Várias organizações têm dados gigantescos à mão e há uma razão pela qual essas organizações optam por armazená-los. Eles usam esses dados para extrair alguns insights dos dados que podem ajudá-los a aumentar sua lucratividade. O processo de extração de insights e padrões subjacentes do conjunto de dados brutos é conhecido como Data Mining. Uma das maneiras de extrair esses padrões perspicazes é o Clustering.

Clustering refere-se ao agrupamento de pontos de dados que exibem características comuns. Em outras palavras, é um processo que analisa o conjunto de dados e cria clusters dos pontos de dados. Um cluster nada mais é do que um agrupamento de pontos de dados semelhantes. No processamento de clustering, os pontos de dados são primeiro agrupados para formar clusters e, em seguida, os rótulos são atribuídos a esses clusters.

Para realizar o agrupamento no conjunto de dados, geralmente usamos algoritmos de aprendizado não supervisionados, pois os rótulos de saída não são conhecidos no conjunto de dados. O clustering pode ser usado como parte da análise exploratória de dados e pode ser usado para modelagem para obter clusters perspicazes. Os clusters devem ser otimizados de forma que a distância entre os pontos de dados dentro de um cluster seja mínima e a distância entre os diferentes clusters seja a maior possível.

Por que usar Clustering? – Usos de agrupamento

  1. A melhor interpretação dos dados – Usando clustering, os padrões que são extraídos do conjunto de dados podem ser facilmente compreendidos por leigos e, portanto, podem ser interpretados facilmente.
  2. Insights de dados de alta dimensão – Os conjuntos de dados de alta dimensão não são fáceis de analisar apenas observando seu recurso. O uso de clustering pode ajudar a fornecer alguns insights e extrair alguns padrões dos enormes dados. Ele pode fornecer algum resumo que pode ser útil para resolver algumas questões.
  3. Descobrindo clusters arbitrários – Com a ajuda de diferentes métodos de clustering, podemos encontrar clusters que podem assumir qualquer forma aleatória. Isso pode ajudar na obtenção das características subjacentes do conjunto de dados.

Casos de uso da vida real de Clustering – Aplicativos

  1. Sua empresa lançou um novo produto e você é responsável por garantir que o produto chegue ao grupo certo de pessoas para que sua empresa alcance a máxima lucratividade. Nesse caso, identificar o tipo certo de pessoas é o problema em questão. Você pode realizar o agrupamento no banco de dados do cliente para identificar o grupo certo de pessoas analisando seus padrões de compra.
  2. Sua empresa tem toneladas de imagens não categorizadas e seu supervisor pede que você as agrupe de acordo com o conteúdo das imagens. Você pode usar o clustering para realizar a segmentação de imagens nessas imagens. Você também pode usar o clustering se eles solicitarem que você extraia alguns padrões dos dados existentes.

Diferentes tipos de métodos de agrupamento – Algoritmos

1. Método de agrupamento hierárquico

Este método agrupa ou divide os clusters com base na métrica de distância selecionada, como distância euclidiana, distância de Manhattan, etc. Geralmente é representado usando um dendrograma. Ele cria uma matriz de distância entre todos os clusters que indica a distância entre eles. Usando esta métrica de distância, a ligação entre os clusters é feita com base no tipo de ligação.

Como pode haver muitos pontos de dados em um cluster, as distâncias entre todos os pontos de um cluster para todos os de outro cluster serão diferentes. Isso torna difícil decidir qual distância deve ser considerada que decidirá a fusão dos clusters. Para resolver isso, usamos os critérios de vinculação para determinar quais clusters devem ser vinculados. Existem três tipos comuns de ligações: –

  • Single Linkage – A distância entre os dois clusters é representada pela menor distância entre os pontos nesses dois clusters.
  • Complete Linkage – A distância entre os dois clusters é representada pela distância máxima entre os pontos nesses dois clusters.
  • Average Linkage – A distância entre os dois clusters é representada pelo cálculo da distância média entre os pontos nesses dois clusters.

Abordagem Aglomerativa – Também é chamada de abordagem Bottom-Up. Aqui, cada ponto de dados é considerado um cluster na fase inicial e, em seguida, mescla esses clusters um a um.

Abordagem Divisiva – Também é chamada de abordagem Top-Down. Aqui, todos os pontos de dados são considerados como um cluster na fase inicial e, em seguida, esses pontos de dados são divididos para criar mais clusters.

2. Método de agrupamento de particionamento

Esse método cria clusters com base nas características e semelhanças entre os pontos de dados. Os algoritmos que utilizam esta metodologia requerem o número de clusters a serem criados como entrada. Esses algoritmos seguem uma abordagem iterativa para criar esse número de clusters. Alguns dos algoritmos que seguem esta metodologia são os seguintes: –

  • Agrupamento K-Means

O K-Means usa métricas de distância como distância de Manhattan, distância euclidiana etc. para criar o número de clusters especificado. Ele calcula a distância entre os pontos de dados e o centroide dos clusters. Os pontos de dados são então atribuídos aos clusters mais próximos e o centroide do cluster é recalculado. Tais iterações são repetidas até que o número pré-definido de iterações seja concluído ou os centróides dos clusters não mudem após a iteração.

  • PAM (Particionamento em torno de Medoids)

Também conhecido como algoritmo K-Medoid, o funcionamento deste algoritmo é semelhante ao do K-Means. Ele difere do K-Means em termos de como o centro do cluster é atribuído. No PAM, o medoid do cluster é um ponto de dados real, enquanto no K-Means ele calcula o centroide dos pontos de dados que podem não ser as coordenadas de um ponto de dados real. No PAM, k pontos de dados são selecionados aleatoriamente como os medoides dos clusters e a distância é calculada entre todos os pontos de dados e os medoides dos clusters.

Leia: Data Analytics vs Data Science

3. Método de agrupamento baseado em densidade

Esse método cria clusters com base na densidade dos pontos de dados. As regiões tornam-se densas à medida que mais e mais pontos de dados se encontram na mesma região e essas regiões são consideradas clusters. Os pontos de dados que estão longe das regiões densas ou as áreas onde os pontos de dados são muito menores em números são considerados discrepantes ou ruídos. Os seguintes algoritmos são baseados nesta metodologia: –

  • DBSCAN (Agrupamento Espacial de Aplicações com Ruído Baseado em Densidade) : – O DBSCAN cria clusters com base na distância dos pontos de dados. Ele agrupa os pontos de dados que estão na mesma vizinhança. Para ser considerado como um cluster, um número específico de pontos de dados deve residir nessa região. São necessários dois parâmetros – eps e pontos mínimos – eps indicam o quão próximos os pontos de dados devem estar para serem considerados vizinhos e os pontos mínimos são o número de pontos de dados que devem residir naquela região para serem considerados como um cluster.
  • OPTICS (Ordering Points to Identify Clustering Structure) : – É uma modificação do algoritmo DBSCAN. Uma das limitações do algoritmo DBSCAN é sua incapacidade de criar clusters significativos quando os pontos de dados são distribuídos igualmente no espaço de dados. Para superar essa limitação, o algoritmo OPTICS leva em mais dois parâmetros - distância do núcleo e distância de acessibilidade. A distância do núcleo indica se o ponto de dados é um ponto principal definindo um valor para ele. A distância de acessibilidade é definida como o máximo da distância do núcleo e o valor da métrica de distância usada para calcular a distância entre dois pontos de dados.

4. Método de agrupamento baseado em grade

A ideologia deste método é diferente do resto dos métodos comumente usados. Esse método representa todo o espaço de dados como uma estrutura de grade e compreende várias grades ou células. Ele segue mais uma abordagem orientada ao espaço do que uma abordagem orientada a dados. Em outras palavras, está mais preocupado com o espaço ao redor dos pontos de dados do que com os próprios pontos de dados.

Devido a isso o algoritmo converge mais rápido e proporciona uma enorme redução na complexidade computacional. Em geral, os algoritmos inicializam o agrupamento dividindo o espaço de dados no número de células, criando assim uma estrutura de grade. Em seguida, calcula a densidade dessas células e as classifica de acordo com suas densidades. Algoritmos como STING (Statistical Information Grid Approach), WaveCluster, CLIQUE (Clustering in Quest) estão nesta categoria.

5. Método de agrupamento baseado em modelo

Este método assume que os dados são gerados por uma mistura de distribuições de probabilidade. Cada uma dessas distribuições pode ser considerada como um cluster. Ele tenta otimizar o ajuste entre os dados e o modelo. Os parâmetros dos modelos podem ser estimados usando algoritmos como Expectativa-Maximização, Agrupamento Conceitual, etc.

6. Método de agrupamento baseado em restrições

Esse método tenta encontrar clusters que satisfaçam as restrições orientadas ao usuário. Ele vem sob a classe de metodologia semi-supervisionada. Essa metodologia permite que os usuários criem clusters com base em suas preferências. Isso é útil quando procuramos alguns clusters com características específicas.

Mas durante esse processo, como os clusters formados estão focados nas preferências do usuário, algumas características subjacentes e clusters perspicazes podem não ser formados. Os algoritmos que seguem esta abordagem são COP K-Means, PCKMeans (Pairwise Constrained K-Means) e CMWK-Means (Constrained Minkowski Weighted K-Means).

Leia também: Ideias de projetos de ciência de dados

Aprenda cursos de ciência de dados online das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Conclusão

Os algoritmos de clustering provaram ser muito eficazes em fornecer insights dos dados para a produtividade dos negócios. Os algoritmos comuns usados ​​nas várias organizações podem fornecer os resultados esperados, mas os não ortodoxos também valem a pena tentar. Este artigo se concentrou no que é clustering e como ele pode ser usado como parte da mineração de dados. Ele também listou alguns dos usos do clustering, como o clustering pode ser usado na vida real e os diferentes tipos de métodos de clustering.

Se você está curioso para aprender sobre ciência de dados, confira o Executive PG in Data Science do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1- on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

Quais são as vantagens e desvantagens do Aglomerative Clustering?

O AGNES começa reconhecendo que cada ponto de dados terá seu próprio cluster e, mesmo que haja n linhas de dados, o algoritmo começará com n clusters. Então, iterativamente, os clusters mais semelhantes são unidos para formar um cluster maior, dependendo das distâncias medidas no DIANA. As iterações são realizadas até obtermos um único cluster grande contendo todos os pontos de dados.
Vantagens:
1. Embora o usuário deva definir um limite de divisão, não é necessário conhecimento prévio do número de clusters.
2. Simples de aplicar em vários tipos de dados e conhecido por produzir resultados confiáveis ​​para dados obtidos de várias fontes. Como resultado, tem uma ampla gama de aplicações.
Desvantagens:
1. A divisão de cluster (DIANA) ou combinação (AGNES) é bastante rigorosa e, uma vez feita, não pode ser revertida ou reatribuída em iterações ou reexecuções subsequentes.
2. Possui alta complexidade temporal para todos os n pontos de dados, na ordem de O(n^2logn), e portanto não pode ser utilizado para conjuntos de dados maiores.
3. Incapaz de lidar com valores discrepantes e ruídos

O que é a maximização esperada no GMM?

Presumimos que os pontos de dados correspondem a uma distribuição gaussiana em modelos mistos gaussianos, o que nunca é uma restrição em comparação com as restrições nas abordagens anteriores. Além disso, essa hipótese pode levar a critérios críticos de seleção de forma de cluster – ou seja, as formas de cluster agora podem ser medidas. As duas métricas mais frequentes e fáceis – média e variância – são usadas para quantificar os dados.
Expectativa-Maximização, um tipo de função de otimização, é usada para determinar a média e a variância. Esta função começa com um conjunto de parâmetros gaussianos aleatórios, como, e verifica se a Hipótese afirma que uma amostra pertence ao cluster c. Depois disso, passamos para a etapa de maximização, que envolve a atualização dos parâmetros gaussianos para se adequar aos pontos alocados ao cluster. O objetivo do estágio de maximização é aumentar a probabilidade de que a amostra pertença à distribuição de conglomerados.

Quais são as aplicações do agrupamento?

Vamos dar uma olhada em alguns dos usos comerciais do cluster e como ele se encaixa na mineração de dados.
1. É a base dos algoritmos dos motores de busca, exigindo que os objetos semelhantes entre si sejam fornecidos juntos e que os objetos diferentes sejam ignorados.
2. Os algoritmos de agrupamento demonstraram sua eficácia na detecção de células malignas de várias imagens médicas usando segmentação de imagens em bioinformática, removendo erros humanos e outros vieses.
3. O agrupamento tem sido utilizado pela Netflix para criar sugestões de filmes para seus espectadores.
4. A análise de cluster, que divide os artigos em um grupo de assuntos relacionados, pode ser usada para resumir as notícias.
5. Os currículos dos candidatos a emprego podem ser divididos em categorias, dependendo de uma variedade de variáveis, como conjuntos de habilidades, experiência, pontos fortes, tipos de projeto, experiência e assim por diante, permitindo que empregadores em potencial se conectem com as pessoas certas.