Prueba Chi Cuadrado: Introducción, Cómo calcular, Cuándo usar

Publicado: 2022-11-09

En estadística, la prueba de chi-cuadrado se usa para analizar datos de observaciones de una colección de variables distribuidas normalmente. Por lo general, esto implica contrastar dos conjuntos de información numérica. Karl Pearson fue el primero en proponer este método de análisis y distribución de datos categóricos, llamándolo prueba de chi-cuadrado de Pearson.

La prueba de chi-cuadrado desarrollada por Pearson se usa en una tabla de contingencia para evaluar si existe una diferencia estadística significativa entre las frecuencias predichas y reales en una o más de las categorías de la tabla de chi-cuadrado.

Estadísticamente, los estadísticos usan la prueba de chi-cuadrado para determinar qué tan bien se ajusta un modelo a los datos. Las estadísticas de chi-cuadrado necesitan una muestra de datos de variables independientes aleatorias, mutuamente excluyentes, sin procesar y de tamaño suficiente.

Inscríbase en el curso de aprendizaje automático de las mejores universidades del mundo. Obtenga programas de maestría, PGP ejecutivo o certificado avanzado para acelerar su carrera.

Tabla de contenido

Terminologías básicas de la prueba de chi-cuadrado

La fórmula estándar para calcular una prueba de chi-cuadrado es la suma de errores al cuadrado o falsos positivos dividida por la varianza de la muestra. Hay algunos términos que se implementan cuando se usa la prueba de Chi-cuadrado. Estos términos se han definido a continuación:

valor p

El valor p es la probabilidad de lograr un chi-cuadrado que sea igual o mayor que el del presente experimento, y los datos aún respaldan la hipótesis. Esta probabilidad se expresa como un porcentaje. Se refiere a la probabilidad de que las variaciones anticipadas sean causadas nada más que por sucesos aleatorios.
Si el p-valor es menor que igual a 0,05, entonces se acepta la hipótesis considerada. Si el valor es superior a 0,05, se rechaza la hipótesis.

Grado de libertad

Un problema de estimación tiene un cierto grado de libertad igual al número de variables independientes. Aunque no hay límites estrictos en los valores de estas variables, imponen límites en otras variables si queremos que nuestro conjunto de datos sea consistente con los parámetros estimados.

Una definición de "grado de libertad" es el mayor número de valores en el conjunto de datos que son lógicamente independientes entre sí y, por lo tanto, sujetos a cambios. Deducir uno del número total de observaciones en un conjunto de datos produce el grado de libertad.

Un contexto destacado en el que se aborda el concepto de grado de libertad es en el contexto de las pruebas de hipótesis estadísticas como el chi-cuadrado.

Comprender la importancia de una estadística de chi-cuadrado y la solidez de la hipótesis nula depende en gran medida del cálculo preciso del grado de libertad.

Diferencia

La varianza de una muestra de números aleatorios es una medida de su dispersión alrededor de su media. Se calcula elevando al cuadrado el valor de la desviación estándar.

Propiedades para realizar el Test Chi-cuadrado

La prueba de Chi-cuadrado tiene las siguientes propiedades:

  • La distribución media es igual al número de grados de libertad.
  • La varianza debe ser igual al doble del grado de libertad.
  • A medida que crece el grado de libertad, la curva de distribución de chi-cuadrado comienza a parecerse a la curva de distribución normal, es decir, una curva de campana.

Los mejores cursos de aprendizaje automático y cursos de inteligencia artificial en línea

Maestría en Ciencias en Aprendizaje Automático e IA de LJMU Programa Ejecutivo de Postgrado en Aprendizaje Automático e IA del IIITB
Programa de Certificado Avanzado en Aprendizaje Automático y PNL de IIITB Programa de Certificado Avanzado en Aprendizaje Automático y Aprendizaje Profundo de IIITB Programa ejecutivo de posgrado en ciencia de datos y aprendizaje automático de la Universidad de Maryland
Para explorar todos nuestros cursos, visite nuestra página a continuación.
Cursos de aprendizaje automático

¿Cómo realizar la prueba de Chi-cuadrado?

El Chi-cuadrado para la distribución se calcula usando la siguiente fórmula:

2 = [(Valor observado – Valor esperado ) 2 / Valor esperado]

Pasos a seguir para calcular el estadístico Chi-cuadrado

  1. Calcule el valor observado y el esperado.
  2. Reste cada uno de los valores esperados del valor observado en la tabla de distribución.
  3. Eleva al cuadrado el valor de cada observación que obtengas en el Paso 2.
  4. Divida cada uno de estos valores cuadrados por sus valores esperados correspondientes.
  5. La suma de todos los valores que obtenemos en el Paso 4 da un valor que define la estadística de chi-cuadrado.
  6. Calcule el grado de libertad para verificar la satisfacción de la propiedad antes mencionada de las pruebas de chi-cuadrado.

Tipos de prueba de chi-cuadrado

Bondad de ajuste

Si desea ver qué tan bien una muestra de la población representa el todo, puede aplicar la prueba de bondad de ajuste de Chi-cuadrado. La población de muestra y la población de muestra proyectada se comparan usando esta técnica.

Prueba de Independencia

Esta prueba de Chi-cuadrado para la independencia de una población para determinar si existe una correlación entre dos variables categóricas. La prueba independiente difiere de la prueba de bondad de ajuste en que no compara un solo parámetro observado con una población teórica. En cambio, la prueba de independencia compara dos valores dentro de un conjunto de muestras entre sí.

Prueba de homogeneidad

Al igual que con la prueba de independencia, la prueba de homogeneidad sigue el mismo formato y procedimiento. La distinción crítica entre los dos es que la prueba de homogeneidad examina si una variable tiene la misma distribución en muchas poblaciones. Por el contrario, la prueba de independencia examina la presencia de un vínculo entre dos variables categóricas dentro de una población similar.

¿Cuándo debería usar una prueba de Chi-cuadrado?

La prueba Chi-Square determina si los valores reales son consistentes con las probabilidades teóricas. Chi-Square es la prueba más confiable para usar cuando los datos que se analizan provienen de una muestra aleatoria y la variable en cuestión es categórica.

Habilidades de aprendizaje automático bajo demanda

Cursos de Inteligencia Artificial Cursos de Tableau
Cursos de PNL Cursos de aprendizaje profundo

¿Dónde se utiliza la prueba de Chi-cuadrado?

Tomemos el ejemplo de una empresa de marketing.
Una empresa de marketing está analizando la correlación entre la geografía del consumidor y las elecciones de marca. En consecuencia, chi-cuadrado juega un papel importante, y el valor de la estadística informará cómo la corporación puede adaptar su enfoque de marketing en todas las geografías para maximizar los ingresos.
Al analizar datos, la prueba de Chi-cuadrado resulta útil para verificar la consistencia o independencia de las variables categóricas, así como el modelo de bondad de ajuste en consideración.

De manera similar, la estadística de chi-cuadrado puede encontrar uso en la profesión médica. La prueba de chi-cuadrado es adecuada para determinar la eficacia de un medicamento en comparación con un grupo de control.

Blogs populares sobre aprendizaje automático e inteligencia artificial

IoT: Historia, Presente y Futuro Tutorial de aprendizaje automático: Aprenda ML ¿Qué es Algoritmo? Simplemente fácil
Salario del ingeniero de robótica en la India: todos los roles Un día en la vida de un ingeniero de aprendizaje automático: ¿qué hacen? ¿Qué es IoT (Internet de las Cosas)?
Permutación vs Combinación: Diferencia entre Permutación y Combinación Las 7 principales tendencias en inteligencia artificial y aprendizaje automático Aprendizaje automático con R: todo lo que necesita saber

Conclusión

En este artículo, aprendiste sobre las estadísticas de Chi-cuadrado y cómo calcular sus valores. Dado que Chi-cuadrado funciona con variables categóricas, a menudo lo emplean académicos que investigan datos de respuesta a encuestas. Esta forma de estudio es común en muchos campos, como la sociología, la psicología, la economía, las ciencias políticas y el marketing.

Obtenga su Maestría en Ciencias en Aprendizaje Automático e IA con upGrad

¿Estás buscando finalmente obtener una Maestría en Ciencias? upGrad ha colaborado con IIIT-B y la Universidad John Moores de Liverpool para brindarle el curso más seleccionado posible. Con la Maestría en Ciencias en Aprendizaje Automático e IA , aprenderá todas las habilidades demandadas en el campo de ML e IA, como Procesamiento de Lenguaje Natural, Aprendizaje Profundo, Aprendizaje por Refuerzo, etc.

Criterio de elegibilidad:

  • Finalización de la Licenciatura con un 50%
  • Finalización del Programa Ejecutivo de Posgrado en Aprendizaje Automático e IA por IIIT-B
  • Preferible experiencia laboral mínima de un año

Qué te ofrece este curso:

  • Más de 750 horas de material didáctico para aprender
  • Diseñado para profesionales que trabajan
  • Más de 15 tareas y estudios de casos
  • Más de 12 proyectos, de los cuales 6 son proyectos finales
  • Clases de codificación en vivo
  • Talleres de construcción de perfiles.
  • Campamento de entrenamiento profesional
  • Coaching de alto rendimiento uno a uno
  • Sesiones de orientación profesional uno a uno
  • Oportunidades de trabajo exclusivas
  • Sesiones personalizadas de la industria

¿Cómo se relaciona el valor p con la prueba de Chi-cuadrado?

El valor p es la región bajo la curva de densidad de chi-cuadrado que está a la derecha del valor de la estadística de prueba. Si la estadística de la prueba de chi-cuadrado es lo suficientemente grande como para rechazar la hipótesis nula es el último paso en la prueba de significación de chi-cuadrado. El valor p se utiliza para este propósito.

¿Existen limitaciones o inconvenientes en el uso de la prueba de Chi-cuadrado?

Todos los individuos que se estudian deben ser únicos; de lo contrario, los resultados no tendrían sentido. No se debe utilizar una prueba de chi-cuadrado si un encuestado determinado puede clasificarse en dos grupos distintos. Otra restricción más de chi-cuadrado es que solo se puede usar para datos de frecuencia. Además, la suma de todas las personas pronosticadas en todas las clases debe ser mayor que 5.

¿Cuáles son los puntos fuertes de la prueba Chi-cuadrado?

Uno de sus principales puntos fuertes es que el chi-cuadrado se puede calcular rápida y fácilmente. Los datos nominales también se pueden utilizar usando este método. También se puede usar para comparar más de dos grupos de variables categóricas para determinar la significación estadística.