Qu'est-ce que l'hypothèse dans l'apprentissage automatique ? Comment former une hypothèse ?

Publié: 2021-03-12

Le test d'hypothèses est un vaste sujet qui s'applique à de nombreux domaines. Lorsque nous étudions les statistiques, le test d'hypothèse implique des données provenant de plusieurs populations et le test consiste à déterminer l'importance de l'effet sur la population.

Cela implique de calculer la valeur p et de la comparer avec la valeur critique ou l'alpha. En ce qui concerne l'apprentissage automatique, les tests d'hypothèses consistent à trouver la fonction qui se rapproche le mieux des caractéristiques indépendantes de la cible. En d'autres termes, mappez les entrées aux sorties.

À la fin de ce didacticiel, vous saurez ce qui suit :

Qu'est-ce que l'hypothèse dans les statistiques par rapport à l'apprentissage automatique
Qu'est-ce que l'espace d'hypothèse ?
Processus de formation d'une hypothèse

Table des matières

Hypothèse en statistique

Une hypothèse est une hypothèse d'un résultat qui est falsifiable, ce qui signifie qu'il peut être prouvé qu'il est faux par certaines preuves. Une hypothèse peut être rejetée ou non rejetée. Nous n'acceptons jamais aucune hypothèse dans les statistiques car tout est question de probabilités et nous ne sommes jamais sûrs à 100%. Avant le début de l'expérience, nous définissons deux hypothèses :

1. Hypothèse nulle : dit qu'il n'y a pas d'effet significatif

2. Hypothèse alternative : dit qu'il y a un effet significatif

En statistique, nous comparons la valeur P (qui est calculée à l'aide de différents types de tests statistiques) avec la valeur critique ou alpha. Plus la valeur P est élevée, plus la probabilité est élevée, ce qui signifie à son tour que l'effet n'est pas significatif et nous concluons que nous ne rejetons pas l'hypothèse nulle .

En d'autres termes, il est fort probable que l'effet se soit produit par hasard et qu'il n'y ait aucune signification statistique. D'autre part, si nous obtenons une valeur P très petite, cela signifie que la probabilité est faible. Cela signifie que la probabilité que l'événement se produise par hasard est très faible.

Rejoignez le cours ML et AI en ligne des meilleures universités du monde - Masters, programmes de troisième cycle pour cadres et programme de certificat avancé en ML et IA pour accélérer votre carrière.

Niveau de signification

Le niveau de signification est défini avant de commencer l'expérience. Cela définit combien est la tolérance d'erreur et à quel niveau l'effet peut être considéré comme significatif. Une valeur courante pour le niveau de signification est de 95 %, ce qui signifie également qu'il y a 5 % de chances que nous soyons trompés par le test et que nous fassions une erreur. En d'autres termes, la valeur critique est de 0,05 qui agit comme un seuil. De même, si le seuil de signification était fixé à 99 %, cela signifierait une valeur critique de 0,01 %.

Valeur P

Un test statistique est effectué sur la population et l'échantillon pour connaître la valeur P qui est ensuite comparée à la valeur critique. Si la valeur P s'avère inférieure à la valeur critique, nous pouvons conclure que l'effet est significatif et donc rejeter l'hypothèse nulle (cela dit qu'il n'y a pas d'effet significatif). Si la valeur P s'avère supérieure à la valeur critique, nous pouvons conclure qu'il n'y a pas d'effet significatif et donc ne pas rejeter l'hypothèse nulle.

Maintenant, comme nous ne pouvons jamais être sûrs à 100 %, il y a toujours une chance que nos tests soient corrects mais que les résultats soient trompeurs. Cela signifie que soit nous rejetons le null alors qu'il n'est en fait pas faux. Cela peut également signifier que nous ne rejetons pas le null alors qu'il est en fait faux. Ce sont des erreurs de type 1 et de type 2 du test d'hypothèse.

Exemple

Considérez que vous travaillez pour un fabricant de vaccins et que votre équipe développe le vaccin contre le Covid-19. Pour prouver l'efficacité de ce vaccin, il faut prouver statistiquement qu'il est efficace sur l'homme. Par conséquent, nous prenons deux groupes de personnes de taille et de propriétés égales. Nous donnons le vaccin au groupe A et nous donnons un placebo au groupe B. Nous effectuons une analyse pour voir combien de personnes du groupe A ont été infectées et combien de personnes du groupe B ont été infectées.

Nous testons cela plusieurs fois pour voir si le groupe A a développé une immunité significative contre Covid-19 ou non. Nous calculons la valeur P pour tous ces tests et concluons que les valeurs P sont toujours inférieures à la valeur critique. Par conséquent, nous pouvons rejeter en toute sécurité l'hypothèse nulle et conclure qu'il existe effectivement un effet significatif.

Lire : Explication des modèles d'apprentissage automatique

Hypothèse en apprentissage automatique

L'hypothèse dans l'apprentissage automatique est utilisée lorsque, dans un apprentissage automatique supervisé, nous devons trouver la fonction qui mappe le mieux l'entrée à la sortie. Cela peut également être appelé approximation de fonction, car nous approchons une fonction cible qui mappe le mieux l'entité à la cible.

1. Hypothèse(h) : Une hypothèse peut être un modèle unique qui mappe les caractéristiques à la cible, mais peut être le résultat/la métrique. Une hypothèse est signifiée par « h ».

2. Espace d'hypothèses (H) : un espace d'hypothèses est une gamme complète de modèles et leurs paramètres possibles qui peuvent être utilisés pour modéliser les données. Il est signifié par « H ». En d'autres termes, l'hypothèse est un sous-ensemble de l'espace d'hypothèse.

Processus de formation d'une hypothèse

Essentiellement, nous avons les données d'entraînement (fonctionnalités indépendantes et cible) et une fonction cible qui mappe les fonctionnalités à la cible. Ceux-ci sont ensuite exécutés sur différents types d'algorithmes utilisant différents types de configuration de leur espace d'hyperparamètres pour vérifier quelle configuration produit les meilleurs résultats. Les données d'apprentissage sont utilisées pour formuler et trouver la meilleure hypothèse à partir de l'espace des hypothèses. Les données de test sont utilisées pour valider ou vérifier les résultats produits par l'hypothèse.

Prenons un exemple où nous avons un jeu de données de 10 000 instances avec 10 fonctionnalités et une cible. La cible est binaire, ce qui signifie qu'il s'agit d'un problème de classification binaire. Maintenant, disons, nous modélisons ces données à l'aide de la régression logistique et obtenons une précision de 78 %. Nous pouvons tracer la ligne de régression qui sépare les deux classes. Ceci est une hypothèse (h). Ensuite, nous testons cette hypothèse sur des données de test et obtenons un score de 74 %.

Maintenant, supposons à nouveau que nous ajustons un modèle RandomForests sur les mêmes données et obtenons un score de précision de 85 %. C'est déjà une bonne amélioration par rapport à la régression logistique. Nous décidons maintenant d'ajuster les hyperparamètres de RandomForests pour obtenir un meilleur score sur les mêmes données. Nous effectuons une recherche de grille et exécutons plusieurs modèles RandomForest sur les données et vérifions leurs performances. Dans cette étape, nous recherchons essentiellement l'espace d'hypothèse (H) pour trouver une meilleure fonction. Après avoir terminé la recherche de la grille, nous obtenons le meilleur score de 89 % et nous terminons la recherche.

Maintenant, nous essayons également d'autres modèles comme XGBoost, Support Vector Machine et le théorème de Naive Bayes pour tester leurs performances sur les mêmes données. Nous choisissons ensuite le modèle le plus performant et le testons sur les données de test pour valider ses performances et obtenir un score de 87 %.

Checkout : Projets et sujets d'apprentissage automatique

Avant que tu partes

L'hypothèse est un aspect crucial de l'apprentissage automatique et de la science des données. Il est présent dans tous les domaines de l'analytique et est le facteur décisif pour savoir si un changement doit être introduit ou non. Qu'il s'agisse de produits pharmaceutiques, de logiciels, de ventes, etc. Une hypothèse couvre l'ensemble complet des données de formation pour vérifier les performances des modèles de l'espace d'hypothèse.

Une hypothèse doit être falsifiable, ce qui signifie qu'il doit être possible de la tester et de la prouver si les résultats vont à l'encontre de celle-ci. Le processus de recherche de la meilleure configuration du modèle prend du temps lorsque de nombreuses configurations différentes doivent être vérifiées. Il existe également des moyens d'accélérer ce processus en utilisant des techniques telles que la recherche aléatoire d'hyperparamètres.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le programme Executive PG d'IIIT-B & upGrad en apprentissage automatique et IA , conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT -B Statut d'anciens élèves, 5+ projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Pourquoi devrions-nous faire des projets open-source ?

Il existe de nombreuses raisons de faire des projets open source. Vous apprenez de nouvelles choses, vous aidez les autres, vous réseautez avec les autres, vous créez une réputation et bien plus encore. L'open source est amusant et vous finirez par obtenir quelque chose en retour. L'une des raisons les plus importantes est qu'il constitue un portefeuille d'excellents travaux que vous pouvez présenter aux entreprises et être embauché. Les projets open source sont une merveilleuse façon d'apprendre de nouvelles choses. Vous pourriez améliorer vos connaissances en développement de logiciels ou acquérir une nouvelle compétence. Il n'y a pas de meilleure façon d'apprendre que d'enseigner.

Puis-je contribuer à l'open source en tant que débutant ?

Oui. Les projets open source ne font pas de discrimination. Les communautés open source sont composées de personnes qui aiment écrire du code. Il y a toujours une place pour un débutant. Vous apprendrez beaucoup et aurez également la chance de participer à une variété de projets open-source. Vous apprendrez ce qui fonctionne et ce qui ne fonctionne pas et vous aurez également la possibilité de faire en sorte que votre code soit utilisé par une large communauté de développeurs. Il existe une liste de projets open source qui sont toujours à la recherche de nouveaux contributeurs.

Comment fonctionnent les projets GitHub ?

GitHub offre aux développeurs un moyen de gérer des projets et de collaborer entre eux. Il sert également de sorte de CV pour les développeurs, avec les contributeurs, la documentation et les versions d'un projet répertoriés. Les contributions à un projet montrent aux employeurs potentiels que vous avez les compétences et la motivation nécessaires pour travailler en équipe. Les projets sont souvent plus que du code, donc GitHub vous permet de structurer votre projet comme vous le feriez pour un site Web. Vous pouvez gérer votre site Web avec une succursale. Une succursale est comme une expérience ou une copie de votre site Web. Lorsque vous souhaitez expérimenter une nouvelle fonctionnalité ou corriger quelque chose, vous créez une branche et vous y expérimentez. Si l'expérience réussit, vous pouvez fusionner la branche dans le site Web d'origine.