Guía explicativa de la agrupación en clústeres en minería de datos: definición, aplicaciones y algoritmos

Publicado: 2021-02-25

Tabla de contenido

Introducción: ¿Qué es la minería de datos y la agrupación en clústeres?

Varias organizaciones tienen una gran cantidad de datos a mano y hay una razón por la que estas organizaciones eligen almacenarlos. Utilizan estos datos para extraer algunas ideas de los datos que pueden ayudarlos a aumentar su rentabilidad. El proceso de extraer los conocimientos y los patrones subyacentes del conjunto de datos sin procesar se conoce como minería de datos. Una de las formas de extraer estos patrones perspicaces es la agrupación en clústeres.

La agrupación se refiere a la agrupación de puntos de datos que exhiben características comunes. En otras palabras, es un proceso que analiza el conjunto de datos y crea grupos de puntos de datos. Un clúster no es más que una agrupación de puntos de datos similares. En el procesamiento de la agrupación, los puntos de datos se agrupan primero para formar grupos y luego se asignan etiquetas a estos grupos.

Para realizar la agrupación en clústeres en el conjunto de datos, generalmente usamos algoritmos de aprendizaje no supervisados ​​ya que las etiquetas de salida no se conocen en el conjunto de datos. La agrupación en clústeres se puede usar como parte del análisis de datos exploratorios y se puede usar para modelar para obtener clústeres perspicaces. Los clústeres deben optimizarse de tal manera que la distancia entre los puntos de datos dentro de un clúster sea mínima y la distancia entre los diferentes clústeres sea la mayor posible.

¿Por qué utilizar la agrupación en clústeres? – Usos de la agrupación

  1. La mejor interpretación de los datos: al utilizar el agrupamiento, los patrones que se extraen del conjunto de datos pueden ser fácilmente entendidos por la gente común y, por lo tanto, pueden interpretarse fácilmente.
  2. Perspectivas de datos de alta dimensión: los conjuntos de datos de alta dimensión no son fáciles de analizar con solo mirar su característica. El uso de la agrupación en clústeres puede ayudar a proporcionar información y extraer algunos patrones de la gran cantidad de datos. Puede proporcionar algún resumen que podría ser útil para resolver algunas preguntas.
  3. Descubrir grupos arbitrarios: con la ayuda de diferentes métodos de agrupación, podemos encontrar grupos que pueden tomar cualquier forma aleatoria. Esto puede ayudar a obtener las características subyacentes del conjunto de datos.

Casos de uso de la vida real de Clustering – Aplicaciones

  1. Su empresa ha lanzado un nuevo producto y usted está a cargo de asegurarse de que el producto llegue al grupo de personas adecuado para que su empresa pueda lograr la máxima rentabilidad. En este caso, identificar el tipo correcto de personas es el problema en cuestión. Puede realizar un agrupamiento en la base de datos de clientes para identificar el grupo correcto de personas mediante el análisis de sus patrones de compra.
  2. Su empresa tiene toneladas de imágenes no categorizadas y su supervisor le pide que las agrupe según el contenido de las imágenes. Puede usar el agrupamiento para realizar la segmentación de imágenes en estas imágenes. También puede usar la agrupación en clústeres si le piden que extraiga algunos patrones de los datos existentes.

Diferentes tipos de métodos de agrupamiento – Algoritmos

1. Método de agrupamiento jerárquico

Este método agrupa o divide los grupos en función de la métrica de distancia seleccionada, como la distancia euclidiana, la distancia de Manhattan, etc. Por lo general, se representa mediante un dendrograma. Crea una matriz de distancia entre todos los clústeres que indica la distancia entre ellos. Usando esta métrica de distancia, el vínculo entre los clústeres se realiza en función del tipo de vínculo.

Como puede haber muchos puntos de datos en un grupo, las distancias entre todos los puntos de un grupo y todos los de otro grupo serán diferentes. Esto hace que sea difícil decidir qué distancia se debe considerar que decidirá la fusión de los grupos. Para abordar esto, utilizamos los criterios de vinculación para determinar qué clústeres deben vincularse. Hay tres tipos comunes de vínculos: –

  • Enlace único: la distancia entre los dos grupos se representa mediante la distancia más corta entre los puntos de esos dos grupos.
  • Vínculo completo: la distancia entre los dos grupos está representada por la distancia máxima entre los puntos de esos dos grupos.
  • Vinculación promedio: la distancia entre los dos grupos se representa calculando la distancia promedio entre los puntos de esos dos grupos.

Enfoque aglomerativo: también se le llama enfoque de abajo hacia arriba. Aquí, cada punto de datos se considera un grupo en la fase inicial y luego fusiona estos grupos uno por uno.

Enfoque divisivo: también se denomina enfoque de arriba hacia abajo. Aquí, todos los puntos de datos se consideran como un grupo en la fase inicial y luego estos puntos de datos se dividen para crear más grupos.

2. Método de agrupamiento de particiones

Este método crea grupos basados ​​en las características y similitudes entre los puntos de datos. Los algoritmos que utilizan esta metodología requieren que se cree el número de clústeres como entrada. Estos algoritmos luego siguen un enfoque iterativo para crear esa cantidad de grupos. Algunos de los algoritmos que siguen esta metodología son los siguientes: –

  • Agrupación de K-Means

K-Means utiliza métricas de distancia como la distancia de Manhattan, la distancia euclidiana, etc. para crear la cantidad de grupos especificados. Calcula la distancia entre los puntos de datos y el centroide de los grupos. Luego, los puntos de datos se asignan a los conglomerados más cercanos y se vuelve a calcular el centroide del conglomerado. Dichas iteraciones se repiten hasta que se completa el número predefinido de iteraciones o los centroides de los grupos no cambian después de la iteración.

  • PAM (División alrededor de Medoids)

También conocido como el algoritmo K-Medoid, este funcionamiento de este algoritmo es similar al de K-Means. Se diferencia de K-Means en cuanto a cómo se asigna el centro del conglomerado. En PAM, el medoide del clúster es un punto de datos real, mientras que en K-Means calcula el centroide de los puntos de datos que pueden no ser las coordenadas de un punto de datos real. En PAM, los puntos de datos k se seleccionan aleatoriamente como medoides de los grupos y se calcula la distancia entre todos los puntos de datos y los medoides de los grupos.

Leer: Análisis de datos frente a ciencia de datos

3. Método de agrupamiento basado en la densidad

Este método crea grupos basados ​​en la densidad de los puntos de datos. Las regiones se vuelven densas a medida que más y más puntos de datos se encuentran en la misma región y estas regiones se consideran grupos. Los puntos de datos que se encuentran lejos de las regiones densas o las áreas donde los puntos de datos son muy inferiores en número se consideran valores atípicos o ruido. Los siguientes algoritmos se basan en esta metodología: –

  • DBSCAN (Conglomerado espacial de aplicaciones con ruido basado en la densidad) : – DBSCAN crea grupos en función de la distancia de los puntos de datos. Agrupa los puntos de datos que se encuentran en el mismo vecindario. Para ser considerado como un clúster, una cantidad específica de puntos de datos debe residir en esa región. Se necesitan dos parámetros: eps y puntos mínimos: los eps indican qué tan cerca deben estar los puntos de datos para ser considerados vecinos y los puntos mínimos son la cantidad de puntos de datos que deben residir dentro de esa región para ser considerados como un clúster.
  • OPTICS (Puntos de pedido para identificar la estructura de agrupamiento) : – Es una modificación del algoritmo DBSCAN. Una de las limitaciones del algoritmo DBSCAN es su incapacidad para crear grupos significativos cuando los puntos de datos se distribuyen por igual en el espacio de datos. Para superar esta limitación, el algoritmo OPTICS toma en cuenta dos parámetros más: la distancia del núcleo y la distancia de accesibilidad. La distancia central indica si el punto de datos es un punto central definiendo un valor para él. La distancia de accesibilidad se define como la distancia máxima del núcleo y el valor de la métrica de distancia utilizada para calcular la distancia entre dos puntos de datos.

4. Método de agrupación en clústeres basado en cuadrículas

La ideología de este método es diferente al resto de métodos comúnmente utilizados. Este método representa todo el espacio de datos como una estructura de cuadrícula y comprende múltiples cuadrículas o celdas. Sigue más un enfoque basado en el espacio que un enfoque basado en datos. En otras palabras, está más preocupado por el espacio que rodea los puntos de datos que por los puntos de datos en sí.

Debido a esto, el algoritmo converge más rápido y proporciona una gran reducción en la complejidad computacional. En general, los algoritmos inicializan el agrupamiento dividiendo el espacio de datos en el número de celdas creando así una estructura de cuadrícula. Luego calcula la densidad de estas celdas y las ordena de acuerdo a sus densidades. Algoritmos como STING (Enfoque de cuadrícula de información estadística), WaveCluster, CLIQUE (Clustering in Quest) pertenecen a esta categoría.

5. Método de agrupamiento basado en modelos

Este método asume que los datos son generados por una mezcla de distribuciones de probabilidad. Cada una de estas distribuciones puede considerarse como un clúster. Intenta optimizar el ajuste entre los datos y el modelo. Los parámetros de los modelos se pueden estimar utilizando algoritmos como Expectation-Maximization, Conceptual Clustering, etc.

6. Método de agrupamiento basado en restricciones

Este método intenta encontrar clústeres que satisfagan las restricciones orientadas al usuario. Viene bajo la clase de metodología semi-supervisada. Esta metodología permite a los usuarios crear clústeres en función de sus preferencias. Esto viene muy bien cuando estamos buscando algunos clústeres con características específicas.

Pero durante este proceso, dado que los grupos formados se centran en las preferencias del usuario, es posible que no se formen algunas características subyacentes y grupos perspicaces. Los algoritmos que siguen este enfoque son COP K-Means, PCKMeans (K-Means restringido por pares) y CMWK-Means (K-Means ponderado de Minkowski restringido).

Lea también: Ideas de proyectos de ciencia de datos

Aprenda cursos de ciencia de datos en línea de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.

Conclusión

Los algoritmos de agrupamiento han demostrado ser muy efectivos para proporcionar información a partir de los datos para la productividad empresarial. Los algoritmos comunes utilizados en las diversas organizaciones pueden proporcionarle los resultados esperados, pero también vale la pena probar los poco ortodoxos. Este artículo se centró en qué es la agrupación en clústeres y cómo se puede utilizar como parte de la minería de datos. También enumeró algunos de los usos de la agrupación, cómo se puede usar la agrupación en la vida real y los diferentes tipos de métodos de agrupación.

Si tiene curiosidad por aprender sobre ciencia de datos, consulte IIIT-B & upGrad's Executive PG in Data Science, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1- on-1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.

¿Cuáles son las ventajas y desventajas del Clustering Aglomerativo?

AGNES comienza reconociendo que cada punto de datos tendrá su propio grupo, e incluso si hay n filas de datos, el algoritmo comenzará con n grupos. Luego, iterativamente, los grupos que son más similares se unen para formar un grupo más grande, según las distancias medidas en DIANA. Las iteraciones se llevan a cabo hasta que obtenemos un solo grupo grande que contiene todos los puntos de datos.
ventajas:
1. Aunque el usuario debe definir un umbral de división, no se requiere conocimiento previo del número de clústeres.
2. Fácil de aplicar en una variedad de tipos de datos y conocido por producir resultados confiables para datos obtenidos de una variedad de fuentes. Como resultado, tiene una amplia gama de aplicaciones.
Desventajas:
1. La división de grupos (DIANA) o la combinación (AGNES) es bastante rigurosa y, una vez realizada, no se puede revertir ni reasignar en iteraciones o repeticiones posteriores.
2. Tiene una alta complejidad temporal para todos los n puntos de datos, del orden de O(n^2logn), por lo que no se puede utilizar para conjuntos de datos más grandes.
3. Incapaz de lidiar con valores atípicos y ruido

¿Qué es la maximización esperada en GMM?

Suponemos que los puntos de datos coinciden con una distribución gaussiana en los modelos mixtos gaussianos, lo que nunca es una restricción en comparación con las restricciones de los enfoques anteriores. Además, esta hipótesis puede conducir a criterios críticos de selección de formas de conglomerados, es decir, ahora se pueden medir las formas de los conglomerados. Las dos métricas más frecuentes y sencillas, la media y la varianza, se utilizan para cuantificar los datos.
La maximización de expectativas, un tipo de función de optimización, se utiliza para determinar la media y la varianza. Esta función comienza con un conjunto de parámetros gaussianos aleatorios, como, y verifica si la hipótesis afirma que una muestra pertenece al grupo c. Después de eso, pasamos al paso de maximización, que consiste en actualizar los parámetros gaussianos para adaptarlos a los puntos asignados al clúster. El objetivo de la etapa de maximización es aumentar la probabilidad de que la muestra pertenezca a la distribución de conglomerados.

¿Cuáles son las aplicaciones de la agrupación?

Echemos un vistazo a algunos de los usos comerciales de la agrupación en clústeres y cómo encaja en la minería de datos.
1. Es la base de los algoritmos de los motores de búsqueda, que requiere que los objetos que son similares entre sí se presenten juntos y que los objetos que son diferentes se ignoren.
2. Los algoritmos de agrupamiento han demostrado su eficacia en la detección de células malignas de diversas imágenes médicas utilizando la segmentación de imágenes en bioinformática, eliminando errores humanos y otros sesgos.
3. Netflix ha utilizado el agrupamiento para crear sugerencias de películas para sus espectadores.
4. El análisis de conglomerados, que divide los artículos en un grupo de temas relacionados, se puede utilizar para resumir noticias.
5. Los currículos de los solicitantes de empleo se pueden dividir en categorías según una variedad de variables, como conjuntos de habilidades, experiencia, fortalezas, tipos de proyectos, conocimientos, etc., lo que permite a los empleadores potenciales conectarse con las personas adecuadas.