L'analyse de puissance dans les statistiques : qu'est-ce que c'est et comment la réaliser ?

Publié: 2021-01-08

Le test d'hypothèse est un aspect crucial de toute analyse statistique. Cependant, il y a beaucoup de choses à prédéfinir pour que le test que nous effectuons soit le plus correct possible. C'est ici que le concept de puissance entre en jeu et définit l'heuristique d'un test statistique.

A la fin de ce tutoriel, vous saurez :

Heuristique des tests statistiques
Quelle est la puissance d'un test ?
Quel est le besoin d'analyse de puissance ?
Comment effectuer une analyse de puissance

Table des matières

Heuristique des tests statistiques
- 1. Niveau de signification et intervalle de confiance
- 2. Valeur P
- 3. Erreurs de type 1 et de type 2
Quelle est la puissance d'un test statistique ?
- Sommes-nous en train de pirater ?
Qu'est-ce que l'analyse de puissance ?
Comment effectuer une analyse de puissance ?
- 1. Quantité de chevauchement
- 2. Taille de l'effet
Avant que tu partes
- Qu'est-ce que l'analyse de puissance ?
- Quels facteurs sont pris en compte lors de la réalisation de notre analyse de puissance ?
- Qu'est-ce que le P-Hacking ?

Heuristique des tests statistiques

Effectuer des tests statistiques corrects sur plusieurs heuristiques qui doivent être prédéfinies avant d'effectuer le test. Il est très important de définir les bonnes heuristiques car elles ne peuvent pas être modifiées une fois le test lancé. Jetons un coup d'œil à quelques-uns d'entre eux.

1. Niveau de signification et intervalle de confiance

Avant de commencer tout test statistique, un seuil de probabilité doit être fixé. Ce seuil ou niveau de signification est appelé valeur critique (alpha). La région complète sous la courbe de probabilité au-delà de la valeur alpha est appelée la région critique.

La valeur alpha nous indique à quel point le point de données de l'échantillon (ou le point expérimental) doit être éloigné de l'hypothèse nulle (point moyen d'origine) avant de conclure qu'il est suffisamment inhabituel pour rejeter l'hypothèse nulle. Une valeur courante d'alpha qui est utilisée est un intervalle de confiance de 0,05 ou 95 %.

2. Valeur P

Pour évaluer si les résultats de test que nous avons obtenus sont statistiquement significatifs ou non, nous comparons la valeur critique (alpha) que nous avions définie avant le test avec la P-Value du test. La valeur p est la probabilité d'obtenir des valeurs aussi extrêmes ou même plus extrêmes que la valeur que nous testons.

3. Erreurs de type 1 et de type 2

Les tests statistiques ne peuvent jamais être sûrs à 100 %. Il y a toujours place à l'erreur et à se tromper sur les résultats. Comme discuté ci-dessus, si nous fixons une valeur alpha de 0,05, il y a un intervalle de confiance de 95 %. Par conséquent, il y a 5 % de chances que le résultat obtenu soit incorrect et trompeur. Ces résultats incorrects sont ce que nous appelons des erreurs. Il existe 2 types d'erreurs - Type 1 et Type 2.

La valeur du niveau de signification de 0,05 signifie que votre test statistique sera 95 % fois correct. Ce qui signifie également qu'il y a 5% de chances qu'il soit incorrect ! Ce sera un cas où vous rejetterez l'hypothèse nulle alors qu'elle était correcte. Ceci est un exemple d'erreur de type 1. Et on peut aussi dire que alpha( α ) est la probabilité de commettre une erreur de type 1.

Cela peut également être le cas lorsque vous concluez que l'hypothèse nulle est vraie ou que vous l'acceptez lorsqu'elle est fausse. Techniquement, nous ne pouvons jamais accepter l'hypothèse nulle. Nous ne pouvons que ne pas le rejeter. C'est ce que nous appelons une erreur de type 2. De même, la probabilité que vous fassiez une erreur de type 2 est donnée par Beta — β .

Lire : Analystes de données : principales compétences et outils à maîtriser

Quelle est la puissance d'un test statistique ?

La puissance d'un test est la probabilité de rejeter correctement l'hypothèse nulle lorsqu'elle est fausse. Ou en d'autres termes, la puissance est inversement proportionnelle à la probabilité de faire une erreur de type 2. Par conséquent, Puissance = 1- β. Par exemple, si nous fixons la puissance à 80 %, cela signifie que 80 % de nos tests statistiques sont corrects et non les faux. Par conséquent, plus la valeur de puissance est élevée, plus la probabilité de commettre une erreur de type 2 est faible.

Mais pourquoi les résultats peuvent-ils être faux ? C'est parce qu'il s'agit ici d'échantillons aléatoires. Et parfois, l'échantillon qui est prélevé est trop éloigné de la moyenne de la distribution et donne donc des résultats irréalistes, nous obligeant à prendre des décisions incorrectes. L'objectif de l'analyse de puissance est de nous empêcher de prendre ces mauvaises décisions.

Sommes-nous en train de pirater ?

Prenons un exemple où nous avons fabriqué un vaccin contre le COVID-19 et nous sommes tout à fait sûrs que le vaccin aura des résultats significatifs. Nous procédons à un test statistique pour voir si notre croyance est également vraie sur le plan statistique. Réglez donc l'alpha sur 0,05 et effectuez un test avec 100 échantillons.

Après le test, nous obtenons une valeur P de 0,06. Nous voyons qu'il est si proche de notre alpha mais pas moins que lui pour que nous puissions rejeter en toute sécurité l'hypothèse nulle. Il devient tentant de voir ce qui se passe si nous augmentons les échantillons et refaisons le test.

Nous ajoutons donc 50 échantillons supplémentaires et constatons que la valeur P est désormais de 0,045. Avons-nous juste prouvé que notre vaccin était statistiquement significatif ? NON! Nous avons juste piraté P en augmentant le nombre d'échantillons après avoir obtenu le premier résultat. En savoir plus sur Qu'est-ce que le P-Hacking et comment l'éviter ?

Qu'est-ce que l'analyse de puissance ?

Comme nous l'avons vu dans l'exemple ci-dessus, nous avons constaté que la taille de l'échantillon était petite et nous l'avons augmentée plus tard. C'est faux et ne devrait jamais être fait. La valeur de la taille de l'échantillon doit être prédéfinie avant de commencer le test lui-même. Mais quelle valeur de taille d'échantillon nous convient ?

Prenons un exemple où nous effectuons plusieurs tests en utilisant la taille de l'échantillon comme 1. Par conséquent, lorsque nous échantillonnons 1 point de données au hasard dans la population, cela peut être soit autour de la moyenne qui représente correctement nos données, soit cela peut aussi être beaucoup loin de la moyenne et ne représente pas bien les données.

Le problème se pose lorsque nous effectuons des tests statistiques en utilisant ces points de données éloignés. La valeur P que nous obtiendrons sera incorrecte. Nous effectuons maintenant une autre série de tests en prenant 2 comme taille d'échantillon. Maintenant, même si une valeur est éloignée de la moyenne des données, l'autre valeur qui se trouve de l'autre côté de la distribution tirera la moyenne d'entre elles vers le centre, réduisant ainsi l'effet de cette valeur éloignée. Par conséquent, avec une taille d'échantillon de 2, nos résultats seront plus vrais avec des valeurs P correctes.

L'analyse de puissance est la technique utilisée pour déterminer la bonne taille d'échantillon nécessaire pour effectuer les tests au mieux. Plus la puissance dont nous avons besoin est élevée, plus la taille de l'échantillon sera nécessaire. Vous pourriez donc penser que pourquoi ne pas simplement prendre un échantillon de grande taille, car un échantillon de grande taille signifie des résultats meilleurs et plus fiables. Ce n'est pas correct car la collecte de données est coûteuse et la connaissance de la taille de l'échantillon requis est essentielle.

Comment effectuer une analyse de puissance ?

La puissance d'un test dépend de certains facteurs. La première étape pour effectuer une analyse de puissance consiste à définir une valeur de puissance. Considérez que vous définissez une puissance commune de 0,8, ce qui signifie que vous voulez avoir au moins 80 % de chances de rejeter correctement l'hypothèse nulle. Si nous validons l'effet du vaccin COVID-19 sur un ensemble de personnes, nous voulons prouver que la distribution des points de données des personnes vaccinées est différente de celle des personnes qui ont reçu un placebo.

1. Quantité de chevauchement

Nous devons tenir compte de la quantité de chevauchement entre les deux distributions que nous comparons. Plus le chevauchement, plus il nous sera difficile de rejeter en toute sécurité le nul et donc nous aurons besoin d'une plus grande taille d'échantillon. Cependant, si le chevauchement est très inférieur, nous pouvons alors assez facilement rejeter le nul en toute sécurité. Et nous aurions besoin d'un échantillon bien moins important. Le chevauchement dépend de la distance entre les moyennes des deux distributions et leurs écarts-types.

2. Taille de l'effet

La taille d'effet est un moyen de combiner les effets de la différence entre les moyennes et les écarts-types des populations. La taille de l'effet (d) est calculée comme la différence estimée entre les moyennes divisée par les écarts-types estimés regroupés. L'un des moyens les plus simples de calculer les écarts-types estimés regroupés est la racine carrée de la somme au carré des écarts-types divisée par 2.

Ainsi, une fois que nous avons la valeur de puissance, la valeur alpha et la taille de l'effet, nous pouvons brancher ces valeurs dans un calculateur de puissance statistique et obtenir la valeur de la taille de l'échantillon. Un tel calculateur de puissance statistique est facilement disponible sur Internet.

Obtenez une certification en science des données des meilleures universités du monde. Apprenez les programmes Executive PG, les programmes de certificat avancés ou les programmes de maîtrise pour accélérer votre carrière.

Avant que tu partes

Nous avons calculé la taille de l'échantillon en effectuant une analyse de puissance en utilisant la puissance, l'alpha et la taille de l'effet. Donc, si nous obtenons une valeur de taille d'échantillon de 7, cela signifie que nous avons besoin d'une taille d'échantillon de 7 pour avoir 80 % de chances de rejeter correctement l'hypothèse nulle. Avoir la bonne quantité d'expertise dans le domaine est également crucial pour estimer les moyennes de la population et leurs chevauchements et la puissance requise.

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le diplôme PG de IIIT-B & upGrad en science des données qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1- on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Qu'est-ce que l'analyse de puissance ?

La puissance d'un test ou d'une analyse de puissance est la probabilité de rejeter correctement l'hypothèse nulle lorsqu'elle est fausse. Ou en d'autres termes, la puissance est inversement proportionnelle à la probabilité de faire une erreur de type 2. Par conséquent, Puissance = 1-β. Par exemple, si nous fixons la puissance à 80 %, cela signifie que 80 % de nos tests statistiques sont corrects et non faux. Par conséquent, plus la valeur de puissance est élevée, plus la probabilité de commettre une erreur de type 2 est faible. L'analyse de puissance consiste à éviter les mauvaises décisions car nous traitons divers échantillons aléatoires et il y a de fortes chances que leur moyenne donne une moyenne irréaliste et nous amène à prendre des décisions incorrectes.

Quels facteurs sont pris en compte lors de la réalisation de notre analyse de puissance ?

Certains facteurs affectent le test d'analyse de puissance. La toute première étape consiste à définir la valeur de puissance. Supposons que nous ayons une puissance de 0,7 valeur qui implique que vous avez 70 % de chances de rejeter l'hypothèse nulle. Vous trouverez ci-dessous les facteurs affectant l'analyse de puissance. La quantité de chevauchement est le chevauchement entre les deux distributions qui sont comparées. Le chevauchement doit être aussi petit que possible puisque la quantité de chevauchement est directement proportionnelle à la difficulté de calculer null. La taille d'effet est une méthode pour matraquer la différence entre la moyenne et l'écart type des populations. Il est désigné par « d » et est calculé comme la différence estimée entre les moyennes divisée par les écarts-types estimés regroupés. Puisque nous avons maintenant la valeur de puissance, la valeur alpha (quantité de chevauchement) et la taille de l'effet, nous pouvons facilement effectuer l'analyse de puissance.

Qu'est-ce que le P-Hacking ?

Le piratage informatique ou le dragage de données est une méthode pour utiliser à mauvais escient les techniques d'analyse de données pour trouver des modèles dans des données qui semblent significatives mais qui ne le sont pas. Cette méthode affecte négativement l'étude car elle donne de fausses promesses de fournir des modèles de données significatifs qui peuvent, à leur tour, conduire à une augmentation drastique du nombre de faux positifs. Le P-hacking ne peut pas être complètement empêché, mais il existe certaines méthodes qui peuvent sûrement le réduire et aider à éviter le piège.