Compreendendo o conceito de agrupamento hierárquico na análise de dados: funções, tipos e etapas

Publicados: 2023-04-08

Clustering refere-se ao agrupamento de dados semelhantes em grupos ou clusters na análise de dados. Esses clusters ajudam os analistas de dados a organizar pontos de dados semelhantes em um grupo, além de diferenciá-los de outros dados que não são semelhantes.

O agrupamento hierárquico de dados é um dos métodos usados ​​para agrupar dados em uma árvore de agrupamentos. É uma das abordagens mais populares e úteis para agrupamento de dados. Se você deseja fazer parte do crescente campo da ciência e análise de dados , o agrupamento hierárquico é uma das coisas mais importantes a aprender.

Este artigo ajudará você a entender a natureza do agrupamento hierárquico, sua função, tipos e vantagens.

Índice

O que é agrupamento hierárquico?

Como o nome sugere, o clustering hierárquico agrupa dados diferentes em clusters em um formato hierárquico ou de árvore. Cada ponto de dados é tratado como um cluster separado neste método. A análise hierárquica de cluster é muito popular entre os cientistas e analistas de dados, pois resume os dados em uma hierarquia gerenciável de clusters que é mais fácil de analisar.

Os algoritmos de agrupamento hierárquico pegam vários pontos de dados diferentes e pegam o mais próximo dos dois para formar um agrupamento. Ele repete essas etapas até que todos os pontos de dados se transformem em um cluster. O processo também pode ser invertido para dividir um único cluster mesclado em diferentes clusters menores e, finalmente, em pontos de dados.

O método hierárquico de agrupamento pode ser representado visualmente como um dendrograma, que é um diagrama semelhante a uma árvore. Um dendrograma pode ser cortado em qualquer ponto durante o processo de agrupamento quando o número desejado de agrupamentos tiver sido feito. Isso também facilita o processo de análise dos dados.

Como funciona o agrupamento hierárquico?

O processo de agrupamento hierárquico é bastante simples de entender. Um algoritmo de agrupamento hierárquico trata todos os conjuntos de dados disponíveis como agrupamentos diferentes. Em seguida, identifica dois conjuntos de dados que são os mais semelhantes e os mescla em um cluster. Depois disso, o sistema continua repetindo essas etapas até que todos os pontos de dados se fundam em um grande cluster. O processo também pode ser interrompido assim que o número necessário de clusters estiver disponível para análise.

O progresso e a saída de um processo de agrupamento hierárquico podem ser visualizados como um dendrograma que pode ajudá-lo a identificar o relacionamento entre diferentes agrupamentos e quão semelhantes ou diferentes eles são por natureza.

Tipos de agrupamento hierárquico

Um algoritmo de agrupamento hierárquico pode ser usado de duas maneiras diferentes. Aqui estão as características de dois tipos de agrupamento hierárquico que você pode usar.

1. Agrupamento hierárquico aglomerativo

O método aglomerativo é a forma mais popular de agrupar dados hierarquicamente. Neste método, o algoritmo é apresentado com vários conjuntos de dados diferentes, cada um dos quais é tratado como um cluster próprio. Em seguida, o algoritmo começa a combinar em grupos de dois com base em quão semelhantes eles são entre si. Ele repete essas etapas até que o número necessário de clusters seja alcançado. Este método é mais popularmente usado na análise hierárquica de cluster .

2. Agrupamento hierárquico divisivo

O método divisivo de agrupamento hierárquico é o inverso do método aglomerativo. Nesse método, o algoritmo é apresentado com um único grande grupo de vários pontos de dados que ele diferencia passo a passo com base em sua disparidade. Isso resulta em vários conjuntos de dados com propriedades diferentes. O método divisivo não é usado com frequência na prática.

Aprenda cursos de ciência de dados on-line nas principais universidades do mundo. Ganhe Programas Executivos de PG, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Etapas no agrupamento hierárquico

Como mencionado anteriormente, existem três etapas principais no agrupamento hierárquico de dados.

  1. A identificação de semelhanças entre dois pontos de dados diferentes.
  2. Mesclando-os em um cluster.
  3. Repetindo essas etapas para todos os pontos de dados até que sejam mesclados em um grande cluster de dados.

No entanto, também é muito importante lembrar como identificar pontos semelhantes no agrupamento hierárquico. Se você estudar um dendrograma produzido por um algoritmo, poderá identificar facilmente os pontos centrais de cada cluster diferente. Os clusters que têm a menor distância entre si no dendrograma são os mais semelhantes. Esta é a razão pela qual também é referido como um algoritmo baseado em distância. A similaridade entre um cluster e todos os outros em um dendrograma é chamada de matriz de proximidade.

Você também deve escolher a medida de distância correta ao usar o agrupamento hierárquico. Por exemplo, com base no fato de você escolher sua medida de distância como gênero ou formação educacional, um conjunto de dados envolvendo informações sobre as mesmas pessoas produzirá dendrogramas diferentes.

Leia nossos artigos populares sobre ciência de dados

Plano de carreira em ciência de dados: um guia de carreira abrangente Crescimento na carreira de ciência de dados: o futuro do trabalho está aqui Por que a ciência de dados é importante? 8 maneiras pelas quais a ciência de dados agrega valor aos negócios
Relevância da ciência de dados para gerentes A melhor folha de dicas de ciência de dados que todo cientista de dados deveria ter As 6 principais razões pelas quais você deve se tornar um cientista de dados
Um dia na vida do cientista de dados: o que eles fazem? Destruído o Mito: Data Science não precisa de Codificação Business Intelligence x Ciência de Dados: Quais são as diferenças?

Agrupamento Hierárquico Python

Agora que você tem uma compreensão clara do agrupamento hierárquico, vamos ver como executar o agrupamento hierárquico Python . Aqui está como seria a execução do agrupamento hierárquico usando a biblioteca'scikit-learn' do Python .

Suponhamos que existam duas variáveis ​​( x e y) em um conjunto de dados com seis observações:

Observações x y
1 1 1
2 2 1
3 4 3
4 5 4
5 6 5
6 7 5

Como um gráfico de dispersão, é assim que essas observações serão visualizadas:

Pitão

importar numpy como

np

importar matplotlib.pyplot como plt

# Defina o conjunto de dados

X = np.array([[ 1,1], [2,1] , [4,3] , [5,4] , [6,5] , [7,5]])

# Plote os dados

plt.scatter(X[:, 0], X[:,1])

plt.show()

Existem dois grupos de observações neste gráfico - um inclui valores mais baixos de x e ye o outro com valores mais altos dexey.

Você pode usar'scikit learn' para executar agrupamento hierárquico neste conjunto de dados.

Os dois grupos de observações no gráfico têm valores diferentes. Um consiste em valores mais altos de x e y, e o outro com valores mais baixos.

Confira nossoscursos gratuitos de ciência de dados para obter uma vantagem sobre a concorrência.

Dos dois métodos principais de agrupamento hierárquico que discutimos antes, usaremos o método de agrupamento aglomerativo com o método de ligação 'ward '.O método 'ward' minimiza as variações dos clusters que estão sendo mesclados, produzindo assim clusters que são semelhantes em tamanho e forma.

Explore nossos cursos populares de ciência de dados

Programa Executivo de Pós-Graduação em Ciência de Dados do IIITB Programa de Certificação Profissional em Ciência de Dados para Tomada de Decisões de Negócios Mestre em Ciência de Dados pela University of Arizona
Programa de Certificação Avançada em Ciência de Dados do IIITB Programa de certificação profissional em ciência de dados e análise de negócios da Universidade de Maryland Cursos de ciência de dados

Pitão

from sklearn.clusterimportAgglomerativeClustering

# Executa agrupamento hierárquico

agrupamento AgglomerativeClustering (n_clusters= 2, linkage='ward').fit(X)

O parâmetro 'n-clusters ' foi usado aqui para especificar que queremos dois clusters.

Podemos usar cores diferentes para cada cluster quando os plotamos:

Pitão

# Plote os clusters

cores= np.array([' r', 'b'])

plt.scatter (X[:, 0], X[:,1], c=cores [clustering.labels_])

plt.show()

Os dois clusters nos dados foram identificados corretamente pelo algoritmo de agrupamento. Você também pode usar o rótulo que o algoritmo de agrupamento atribuiu a cada observação:

Pitão

imprimir (clustering.labels_)

csharp

[ 0 0 1 1 1 1]

As últimas quatro observações foram atribuídas ao cluster 1, enquanto as duas primeiras foram atribuídas ao cluster 0.

Se você deseja visualizar a estrutura hierárquica desses clusters, pode gerar um dendrograma para isso:

Pitão

de scipy.cluster.hierarchyimportdendrogram, linkage

# Calcula a matriz de ligação

Z = ligação(X, ' guarda')

# Plote o dendrograma

dendrograma(Z)

plt.show()

O dendrograma pode nos ajudar a visualizar a hierarquia de grupos mesclados.

Principais habilidades de ciência de dados para aprender

Principais habilidades de ciência de dados para aprender
1 Curso de Análise de Dados Cursos de Estatística Inferencial
2 Programas de teste de hipóteses Cursos de Regressão Logística
3 Cursos de Regressão Linear Álgebra Linear para Análise

Conclusão

O agrupamento de dados é uma parte muito importante da ciência de dados e da análise de dados. Se você deseja aprender diferentes métodos de agrupamento, o upGrad pode ajudá-lo a iniciar sua jornada de aprendizado! Com a ajuda de master classes, sessões da indústria, sessões de orientação, Python Programming Bootcamp e sessões de aprendizado ao vivo, o Master of Science in Data Science da upGrad é um curso desenvolvido para profissionais obterem uma vantagem sobre os concorrentes.

Oferecido sob a orientação da Universidade do Arizona, este curso impulsiona sua carreira em ciência de dados com um currículo de ponta, experiência de aprendizado imersiva com especialistas do setor e oportunidades de emprego.

P. Por que fazemos agrupamento hierárquico em ciência de dados?

O agrupamento hierárquico é usado para agrupar dados com base em vários atributos semelhantes. A distribuição de aspectos de dados em grupos visualmente compreensíveis simplifica sua implementação prática ao observar facilmente o dendrograma.

P. Em que é usado o agrupamento hierárquico?

O agrupamento hierárquico é uma forma amplamente utilizada de agrupamento de dados gerados por meio de sites de redes sociais. Usando esses dados, os analistas podem obter informações valiosas relevantes para aprimorar seus processos de negócios e gerar receita.

P. Quais são as limitações do agrupamento hierárquico?

O agrupamento hierárquico não se adapta a tipos mistos ou dados ausentes. Outra limitação do agrupamento hierárquico é que ele não funciona bem com um conjunto de dados muito grande.