Test du chi carré : introduction, comment calculer, quand l'utiliser

Publié: 2022-11-09

En statistique, le test du chi carré est utilisé pour analyser les données à partir des observations d'un ensemble de variables normalement distribuées. En règle générale, cela implique de mettre en contraste deux ensembles d'informations numériques. Karl Pearson a d'abord proposé cette méthode d'analyse et de distribution des données catégorielles, en la nommant le test du chi carré de Pearson.

Le test du chi carré développé par Pearson est utilisé dans un tableau de contingence pour évaluer s'il existe une différence statistique significative entre les fréquences prévues et réelles dans une ou plusieurs des catégories du tableau du chi carré.

Statistiquement, les statisticiens utilisent le test du chi carré pour déterminer dans quelle mesure un modèle correspond aux données. Les statistiques du chi carré nécessitent un échantillon de données variables indépendantes aléatoires, mutuellement exclusives, brutes et de taille suffisante.

Inscrivez-vous au cours d'apprentissage automatique des meilleures universités du monde. Gagnez des programmes de maîtrise, Executive PGP ou Advanced Certificate pour accélérer votre carrière.

Table des matières

Terminologies de base du test du chi carré

La formule standard pour calculer un test du chi carré est la somme des erreurs au carré ou des faux positifs divisée par la variance de l'échantillon. Quelques termes sont implémentés lors de l'utilisation du test du chi carré. Ces termes ont été définis ci-dessous :

valeur p

La valeur p est la probabilité d'obtenir un chi carré égal ou supérieur à celui de la présente expérience, et les données soutiennent toujours l'hypothèse. Cette probabilité est exprimée en pourcentage. Il fait référence à la probabilité que les variations anticipées ne soient causées que par des événements aléatoires.
Si la p-value est inférieure ou égale à 0,05, alors l'hypothèse prise en considération est acceptée. Si la valeur est supérieure à 0,05, l'hypothèse est rejetée.

Degré de liberté

Un problème d'estimation a un certain degré de liberté égal au nombre de variables indépendantes. Bien qu'il n'y ait pas de limites strictes sur les valeurs de ces variables, elles imposent des limites sur d'autres variables si nous voulons que notre ensemble de données soit cohérent avec les paramètres estimés.

Une définition du « degré de liberté » est le plus grand nombre de valeurs dans l'ensemble de données qui sont logiquement indépendantes les unes des autres et donc sujettes à changement. En déduisant un du nombre total d'observations dans un ensemble de données, on obtient le degré de liberté.

Un contexte important dans lequel le concept de degré de liberté est abordé est celui des tests d'hypothèses statistiques comme le chi carré.

La compréhension de la signification d'une statistique du chi carré et de la robustesse de l'hypothèse nulle dépend fortement du calcul précis du degré de liberté.

Variance

La variance d'un échantillon de nombres aléatoires est une mesure de sa dispersion autour de sa moyenne. Il est calculé en mettant au carré la valeur de l'écart type.

Propriétés pour effectuer le test du chi carré

Le test du Chi-carré a les propriétés suivantes :

  • La distribution moyenne est égale au nombre de degrés de liberté.
  • La variance doit être égale à deux fois le degré de liberté.
  • Au fur et à mesure que le degré de liberté augmente, la courbe de distribution chi carré commence à ressembler à la courbe de distribution normale, c'est-à-dire une courbe en cloche.

Meilleurs cours d'apprentissage automatique et cours d'IA en ligne

Master of Science en apprentissage automatique et IA de LJMU Programme de troisième cycle exécutif en apprentissage automatique et IA de l'IIITB
Programme de certificat avancé en apprentissage automatique et PNL de l'IIITB Programme de certificat avancé en apprentissage automatique et apprentissage en profondeur de l'IIITB Programme exécutif de troisième cycle en science des données et apprentissage automatique de l'Université du Maryland
Pour explorer tous nos cours, visitez notre page ci-dessous.
Cours d'apprentissage automatique

Comment effectuer le test du chi carré ?

Le chi carré pour la distribution est calculé à l'aide de la formule ci-dessous :

2 = [(Valeur observée - Valeur attendue ) 2 / Valeur attendue]

Étapes à suivre pour calculer la statistique du chi carré

  1. Calculer la valeur observée et la valeur attendue.
  2. Soustrayez chacune des valeurs attendues de la valeur observée dans le tableau de distribution.
  3. Mettez au carré la valeur de chaque observation que vous obtenez à l'étape 2.
  4. Divisez chacune de ces valeurs au carré par ses valeurs attendues correspondantes.
  5. L'addition de toutes les valeurs que nous obtenons à l'étape 4 donne une valeur qui définit la statistique du chi carré.
  6. Calculez le degré de liberté pour vérifier la satisfaction de la propriété susmentionnée des tests du chi carré.

Types de test du chi carré

Qualité de l'ajustement

Si vous voulez voir dans quelle mesure un échantillon de la population représente l'ensemble, vous pouvez appliquer le test d'ajustement du chi carré. L'échantillon de population et l'échantillon de population projeté sont comparés à l'aide de cette technique.

Test d'indépendance

Ce test du chi carré pour l'indépendance d'une population permet de déterminer s'il existe une corrélation entre deux variables catégorielles. Le test indépendant diffère du test d'adéquation car il ne compare pas un seul paramètre observé à une population théorique. Au lieu de cela, le test d'indépendance compare deux valeurs au sein d'un ensemble d'échantillons l'une à l'autre.

Test d'homogénéité

Comme pour le test d'indépendance, le test d'homogénéité suit le même format et la même procédure. La distinction essentielle entre les deux est que le test d'homogénéité examine si une variable a la même distribution dans de nombreuses populations. En revanche, le test d'indépendance examine la présence d'un lien entre deux variables catégorielles au sein d'une même population.

Quand utiliser un test du chi carré ?

Le test du chi carré détermine si les valeurs réelles sont cohérentes avec les probabilités théoriques. Le chi carré est le test le plus fiable à utiliser lorsque les données analysées proviennent d'un échantillon aléatoire et que la variable en cause est catégorique.

Compétences en apprentissage automatique en demande

Cours d'intelligence artificielle Cours Tableaux
Cours PNL Cours d'apprentissage en profondeur

Où est utilisé le test du chi carré ?

Prenons l'exemple d'une société de marketing.
Une société de marketing étudie la corrélation entre la géographie des consommateurs et les choix de marque. Par conséquent, le chi carré joue un rôle important et la valeur de la statistique indiquera comment l'entreprise peut adapter son approche marketing à travers les zones géographiques afin de maximiser les revenus.
Lors de l'analyse des données, le test du chi carré est pratique pour vérifier la cohérence ou l'indépendance des variables catégorielles, ainsi que le modèle d'ajustement considéré.

De même, la statistique du chi carré peut être utilisée dans la profession médicale. Le test du chi carré est adapté pour déterminer l'efficacité d'un médicament par rapport à un groupe témoin.

Blogs populaires sur l'apprentissage automatique et l'intelligence artificielle

IdO : histoire, présent et avenir Tutoriel d'apprentissage automatique : Apprendre le ML Qu'est-ce que l'algorithme ? Simple et facile
Salaire d'ingénieur en robotique en Inde: tous les rôles Une journée dans la vie d'un ingénieur en apprentissage automatique : que font-ils ? Qu'est-ce que l'IoT (Internet des objets)
Permutation vs combinaison : Différence entre permutation et combinaison Top 7 des tendances en matière d'intelligence artificielle et d'apprentissage automatique Apprentissage automatique avec R : tout ce que vous devez savoir

Conclusion

Dans cet article, vous avez découvert les statistiques du chi carré et comment calculer ses valeurs. Étant donné que le chi carré fonctionne avec des variables catégorielles, il est souvent utilisé par les universitaires qui enquêtent sur les données de réponse aux enquêtes. Cette forme d'étude est courante dans de nombreux domaines, notamment la sociologie, la psychologie, l'économie, les sciences politiques et le marketing.

Obtenez votre Master of Science en Machine Learning & AI avec upGrad

Cherchez-vous enfin à obtenir un Master of Science? upGrad a collaboré avec l'IIIT-B et l'Université John Moores de Liverpool pour vous proposer le cours le plus organisé possible. Avec le Master of Science in Machine Learning & AI , vous apprendrez toutes les compétences recherchées dans le domaine du ML et de l'IA, telles que le traitement du langage naturel, l'apprentissage en profondeur, l'apprentissage par renforcement, etc.

Critère d'éligibilité:

  • Achèvement du Baccalauréat avec 50%
  • Achèvement du programme d'études supérieures en apprentissage automatique et IA par l'IIIT-B
  • Une expérience professionnelle d'un an minimum est souhaitée

Ce que ce cours vous offre :

  • Plus de 750 heures de supports de cours pour apprendre
  • Conçu pour les professionnels en activité
  • Plus de 15 missions et études de cas
  • Plus de 12 projets, dont 6 sont des projets Capstone
  • Cours de codage en direct
  • Ateliers de création de profils
  • Bootcamp de carrière
  • Coaching individuel performant
  • Séances individuelles de mentorat de carrière
  • Opportunités d'emploi exclusives
  • Sessions industrielles personnalisées

Comment la valeur p est-elle liée au test du chi carré ?

La valeur p est la région sous la courbe de densité du chi carré qui se trouve à droite de la valeur de la statistique de test. Que la statistique du test du chi carré soit suffisamment grande pour rejeter l'hypothèse nulle est la dernière étape du test de signification du chi carré. La valeur p est utilisée à cette fin.

Existe-t-il des limites ou des inconvénients à utiliser le test du Chi-carré ?

Tous les individus étudiés doivent être uniques ; sinon, les résultats n'auraient aucun sens. Un test du chi carré ne doit pas être utilisé si un répondant donné peut être classé en deux groupes distincts. Une autre restriction du chi carré est qu'il ne peut être utilisé que pour les données de fréquence. De plus, la somme de toutes les personnes prédites dans toutes les classes doit être supérieure à 5.

Quels sont les points forts du test du chi carré ?

L'un de ses principaux atouts est que le chi carré peut être calculé rapidement et facilement. Les données nominales peuvent également être utilisées en utilisant cette méthode. Il peut également être utilisé pour comparer plus de deux groupes de variables catégorielles pour la signification statistique.