Comprender el concepto de agrupación jerárquica en el análisis de datos: funciones, tipos y pasos
Publicado: 2023-04-08La agrupación se refiere a la agrupación de datos similares en grupos o conglomerados en el análisis de datos. Estos clústeres ayudan a los analistas de datos a organizar puntos de datos similares en un grupo y, al mismo tiempo, los diferencian de otros datos que no son similares.
La agrupación jerárquica de datos es uno de los métodos utilizados para agrupar datos en un árbol de grupos. Es uno de los enfoques más populares y útiles para la agrupación de datos. Si desea ser parte del creciente campo de la ciencia de datos y el análisis de datos , la agrupación jerárquica es una de las cosas más importantes que debe aprender.
Este artículo lo ayudará a comprender la naturaleza de la agrupación jerárquica, su función, tipos y ventajas.
Tabla de contenido
¿Qué es el agrupamiento jerárquico?
Como sugiere el nombre, el agrupamiento jerárquico agrupa diferentes datos en clústeres en un formato jerárquico o de árbol. Cada punto de datos se trata como un grupo separado en este método. El análisis de conglomerados jerárquicos es muy popular entre los científicos y analistas de datos, ya que resume los datos en una jerarquía manejable de conglomerados que es más fácil de analizar.
Los algoritmos de agrupamiento jerárquico toman múltiples puntos de datos diferentes y toman el más cercano de los dos para hacer un agrupamiento. Repite estos pasos hasta que todos los puntos de datos se convierten en un grupo. El proceso también se puede invertir para dividir un solo clúster fusionado en diferentes clústeres más pequeños y, en última instancia, en puntos de datos.
El método jerárquico de agrupamiento se puede representar visualmente como un dendrograma que es un diagrama en forma de árbol. Un dendrograma se puede cortar en cualquier punto durante el proceso de agrupamiento cuando se haya realizado el número deseado de agrupamientos. Esto también facilita el proceso de análisis de los datos.
¿Cómo funciona el agrupamiento jerárquico?
El proceso de agrupación jerárquica es bastante simple de entender. Un algoritmo de agrupamiento jerárquico trata todos los conjuntos de datos disponibles como agrupaciones diferentes. Luego, identifica dos conjuntos de datos que son los más similares y los fusiona en un grupo. Después de eso, el sistema sigue repitiendo estos pasos hasta que todos los puntos de datos se fusionan en un gran grupo. El proceso también se puede detener una vez que el número requerido de conglomerados esté disponible para el análisis.
El progreso y el resultado de un proceso de agrupamiento jerárquico se pueden visualizar como un dendrograma que puede ayudarlo a identificar la relación entre diferentes clústeres y qué tan similares o diferentes son en naturaleza.
Tipos de agrupamiento jerárquico
Un algoritmo de agrupamiento jerárquico se puede utilizar de dos maneras diferentes. Estas son las características de dos tipos de agrupación jerárquica que puede utilizar.
1. Agrupación jerárquica aglomerativa
El método aglomerativo es la forma más popular de agrupar datos jerárquicamente. En este método, el algoritmo se presenta con múltiples conjuntos de datos diferentes, cada uno de los cuales se trata como un grupo propio. Luego, el algoritmo comienza a combinarse en grupos de dos en función de cuán similares son entre sí. Repite estos pasos hasta alcanzar el número requerido de clústeres. Este método se usa más popularmente en el análisis de conglomerados jerárquicos .
2. Agrupación jerárquica divisiva
El método divisivo de agrupación jerárquica es el reverso del método aglomerativo. En este método, el algoritmo se presenta con un solo grupo grande de numerosos puntos de datos que diferencia paso a paso en función de su disparidad. Esto da como resultado múltiples conjuntos de datos que tienen diferentes propiedades. El método divisivo no se usa con frecuencia en la práctica.
Aprenda cursos de ciencia de datos en línea de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.
Pasos en el agrupamiento jerárquico
Como se mencionó anteriormente, hay tres pasos principales en la agrupación jerárquica de datos.
- La identificación de similitudes entre dos puntos de datos diferentes.
- Fusionándolos en un solo grupo.
- Repita estos pasos para todos los puntos de datos hasta que se fusionen en un gran grupo de datos.
Sin embargo, también es muy importante recordar cómo identificar puntos similares en la agrupación jerárquica. Si estudia un dendrograma producido por un algoritmo, puede identificar fácilmente los puntos centrales de cada grupo diferente. Los grupos que tienen la menor distancia entre sí en el dendrograma son los más similares. Esta es la razón por la que también se conoce como algoritmo basado en la distancia. La similitud entre un grupo y todos los demás en un dendrograma se llama matriz de proximidad.
También debe elegir la medida de distancia correcta al usar la agrupación jerárquica. Por ejemplo, en función de si elige su medida de distancia para ser su género o antecedentes educativos, un conjunto de datos que involucre información sobre las mismas personas producirá diferentes dendrogramas.
Lea nuestros populares artículos de ciencia de datos
Trayectoria profesional en ciencia de datos: una guía profesional completa | Crecimiento profesional en ciencia de datos: el futuro del trabajo ya está aquí | ¿Por qué es importante la ciencia de datos? 8 formas en que la ciencia de datos aporta valor al negocio |
Relevancia de la ciencia de datos para los gerentes | La última hoja de trucos de ciencia de datos que todo científico de datos debería tener | Las 6 razones principales por las que debería convertirse en científico de datos |
Un día en la vida del científico de datos: ¿Qué hacen? | Mito reventado: la ciencia de datos no necesita codificación | Business Intelligence vs Data Science: ¿Cuáles son las diferencias? |
Python de agrupamiento jerárquico
Ahora que tiene una comprensión clara de la agrupación en clústeres jerárquicos, veamos cómo realizar la agrupación en clústeres jerárquicos de Python . Así es como se vería realizar un agrupamiento jerárquico usando la biblioteca'scikit-learn' de Python .
Supongamos que hay dos variables ( x e y) en un conjunto de datos con seis observaciones:
Observaciones | X | y |
1 | 1 | 1 |
2 | 2 | 1 |
3 | 4 | 3 |
4 | 5 | 4 |
5 | 6 | 5 |
6 | 7 | 5 |
Como un gráfico de dispersión, así es como se visualizarán estas observaciones:
Pitón
importar numpy como
notario público
importar matplotlib.pyplot como plt
# Definir el conjunto de datos
X = np.matriz ([[ 1,1], [2,1], [4,3], [5,4], [6,5], [7,5]])
# Graficar los datos
plt.dispersión(X[:, 0], X[:,1])
plt.mostrar()
Hay dos grupos de observaciones en este gráfico: uno incluye valores más bajos de x e y, y el otro con valores más altos dexey.
Puede usar'scikit learn' para realizar un agrupamiento jerárquico en este conjunto de datos.
Los dos grupos de observaciones en la gráfica tienen valores diferentes. Uno consta de valores más altos de x e y, y el otro con valores más bajos.
Consulte nuestroscursos gratuitos de ciencia de datos para obtener una ventaja sobre la competencia.
De los dos métodos principales de agrupamiento jerárquico que hemos discutido antes, utilizaremos el método de agrupamiento aglomerativo con el método de vinculación 'ward '.El método 'ward' minimiza las variaciones de los grupos que se fusionan, por lo tanto, produce grupos que son similares en tamaño y forma.
Explore nuestros cursos populares de ciencia de datos
Programa Ejecutivo de Postgrado en Data Science del IIITB | Programa de Certificado Profesional en Ciencia de Datos para la Toma de Decisiones Empresariales | Maestría en Ciencias en Ciencia de Datos de la Universidad de Arizona |
Programa de Certificado Avanzado en Ciencia de Datos de IIITB | Programa de certificado profesional en ciencia de datos y análisis empresarial de la Universidad de Maryland | Cursos de ciencia de datos |
Pitón
de sklearn.clusterimportarAgglomerativeClustering
# Realizar agrupamiento jerárquico
agrupación AgglomerativeClustering (n_clusters= 2, linkage='ward').fit(X)
El parámetro 'n-clusters ' se usó aquí para especificar que queremos dos clústeres.
Podemos usar diferentes colores para cada grupo cuando los graficamos:
Pitón
# Graficar los clusters
colores= np.matriz([' r', 'b'])
plt.dispersión (X[:, 0], X[:,1], c=colores [agrupamiento.etiquetas_])
plt.mostrar()
Los dos grupos en los datos han sido identificados correctamente por el algoritmo de agrupación. También puede usar la etiqueta que el algoritmo de agrupamiento ha asignado a cada observación:
Pitón
imprimir (agrupamiento.etiquetas_)
csharp
[ 0 0 1 1 1 1]
Las últimas cuatro observaciones se asignaron al conglomerado 1, mientras que las dos primeras se asignaron al conglomerado 0.
Si desea visualizar la estructura jerárquica de estos clústeres, puede generar un dendrograma para hacerlo:
Pitón
de scipy.cluster.hierarchydendrogramade importación, vinculación
# Calcular la matriz de ligamiento
Z = vinculación (X, ' barrio')
# Graficar el dendograma
dendograma(Z)
plt.mostrar()
El dendrograma puede ayudarnos a visualizar la jerarquía de los clústeres combinados.
Principales habilidades de ciencia de datos para aprender
Principales habilidades de ciencia de datos para aprender | ||
1 | Curso de Análisis de Datos | Cursos de Estadística Inferencial |
2 | Programas de prueba de hipótesis | Cursos de Regresión Logística |
3 | Cursos de regresión lineal | Álgebra lineal para análisis |
Conclusión
La agrupación de datos es una parte muy importante de la ciencia de datos y el análisis de datos. Si desea aprender diferentes métodos de agrupación, upGrad puede ayudarlo a iniciar su viaje de aprendizaje. Con la ayuda de clases magistrales, sesiones de la industria, sesiones de tutoría, Bootcamp de programación de Python y sesiones de aprendizaje en vivo, la Maestría en Ciencias en Ciencia de Datos de upGrad es un curso diseñado para que los profesionales obtengan una ventaja sobre sus competidores.
Ofrecido bajo la guía de la Universidad de Arizona, este curso impulsa su carrera en ciencia de datos con un plan de estudios de vanguardia, una experiencia de aprendizaje inmersiva con expertos de la industria y oportunidades laborales.
P. ¿Por qué hacemos clústeres jerárquicos en ciencia de datos?
La agrupación jerárquica se utiliza para agrupar datos en función de varios atributos similares. La distribución de aspectos de datos en grupos visualmente comprensibles simplifica su implementación práctica al mirar fácilmente el dendrograma.
P. ¿En qué se utiliza la agrupación jerárquica?
El agrupamiento jerárquico es una forma ampliamente utilizada de agrupar datos generados a través de sitios de redes sociales. Con estos datos, los analistas pueden obtener información valiosa relevante para mejorar sus procesos comerciales y generar ingresos mejorados.
P. ¿Cuáles son las limitaciones del agrupamiento jerárquico?
El agrupamiento jerárquico no se adapta a tipos mixtos o datos faltantes. Otra limitación del agrupamiento jerárquico es que no funciona bien con un conjunto de datos muy grande.