Statistiques pour l'apprentissage automatique : tout ce que vous devez savoir

Publié: 2021-03-12

Les statistiques et les probabilités forment le cœur de l'apprentissage automatique et de la science des données. C'est grâce à l'analyse statistique couplée à la puissance de calcul et à l'optimisation que le Machine Learning est capable de réaliser ce qu'il réalise aujourd'hui. Des bases de la probabilité aux statistiques descriptives et inférentielles, ces sujets constituent la base du Machine Learning.

À la fin de ce didacticiel, vous saurez ce qui suit :

Notions de base sur les probabilités
Distributions de probabilité
Distribution normale
Mesures de tendance centrale
Théorème central limite
Écart type et erreur type
Asymétrie et aplatissement

Table des matières

Notions de base sur les probabilités

Événements indépendants et dépendants

Considérons 2 événements, l'événement A et l'événement B. Lorsque la probabilité d'occurrence de l'événement A ne dépend pas de l'occurrence de l'événement B, alors A et B sont des événements indépendants. Par exemple, si vous avez 2 pièces équitables, la probabilité d'obtenir face sur les deux pièces sera de 0,5 pour les deux. Les événements sont donc indépendants.

Considérons maintenant une boîte contenant 5 balles - 2 noires et 3 rouges. La probabilité de tirer une boule noire en premier sera de 2/5. Maintenant, la probabilité de tirer à nouveau une boule noire parmi les 4 boules restantes sera de 1/4. Dans ce cas, les deux événements sont dépendants car la probabilité de tirer une boule noire pour la deuxième fois dépend de la boule qui a été tirée au premier coup.

Probabilité marginale

C'est la probabilité d'un événement indépendamment des résultats d'autres variables aléatoires, par exemple P(A) ou P(B).

Probabilité conjointe

C'est la probabilité que deux événements différents se produisent en même temps, c'est-à-dire deux (ou plus) événements simultanés, par exemple P(A et B) ou P(A, B).

Probabilite conditionnelle

C'est la probabilité qu'un (ou plusieurs) événements, compte tenu de l'occurrence d'un autre événement ou en d'autres termes, c'est la probabilité qu'un événement A se produise lorsqu'un événement secondaire B est vrai. par exemple P(A étant donné B) ou P(A | B).

Rejoignez le cours ML en ligne des meilleures universités du monde - Masters, Executive Post Graduate Programs et Advanced Certificate Program in ML & AI pour accélérer votre carrière.

Distributions de probabilité

Les distributions de probabilité décrivent la distribution des points de données dans un espace échantillon. Cela nous aide à voir la probabilité d'échantillonner certains points de données lorsqu'ils sont échantillonnés au hasard dans la population. Par exemple, si une population se compose de notes d'élèves d'une école, la distribution de probabilité aura des notes sur l'axe X et le nombre d'élèves avec ces notes sur l'axe Y. Ceci est également appelé un histogramme . L'histogramme est un type de distribution de probabilité discrète . Les principaux types de distribution discrète sont la distribution binomiale, la distribution de Poisson et la distribution uniforme.

D'autre part, une distribution de probabilité continue est faite pour les données qui ont une valeur continue. En d'autres termes, lorsqu'il peut avoir un ensemble infini de valeurs telles que la hauteur, la vitesse, la température, etc. Les distributions de probabilité continues ont une utilisation considérable dans la science des données et l'analyse statistique pour vérifier l'importance des caractéristiques, les distributions de données, les tests statistiques, etc.

Lisez aussi les mathématiques derrière l'apprentissage automatique

Distribution normale

La distribution continue la plus connue est la distribution normale, également appelée distribution gaussienne ou « courbe en cloche ».

Considérons une distribution normale des hauteurs des personnes. La plupart des hauteurs sont regroupées dans la partie médiane qui est plus haute et se réduit progressivement vers les extrêmes gauche et droite, ce qui dénote une probabilité plus faible d'obtenir cette valeur au hasard.

Cette courbe est centrée sur sa moyenne et peut être haute et mince ou elle peut être courte et étalée. Un mince indique qu'il y a moins de nombre de valeurs distinctes que nous pouvons échantillonner. Et une courbe plus étalée montre qu'il y a une plus grande plage de valeurs. Cet écart est défini par son écart type .

Plus l'écart type est grand, plus vos données seront diffusées. L'écart type n'est qu'une dérivation mathématique d'une autre propriété appelée la variance, qui définit de combien les données « varient ». Et la variance est l'essence même des données, la variance est l'information. Aucune variation, aucune information. La distribution normale a un rôle crucial dans les statistiques - le théorème central limite.

Mesures de tendance centrale

Les mesures de la tendance centrale sont les moyens par lesquels nous pouvons résumer un ensemble de données en prenant une seule valeur. Il existe 3 Mesures de Tendance principalement :

1. Moyenne : La moyenne est simplement la moyenne arithmétique ou la moyenne des valeurs dans les données/l'entité. La somme de toutes les valeurs divisée par le nombre de valeurs nous donne la moyenne. La moyenne est généralement le moyen le plus courant de mesurer le centre de toutes les données, mais peut être trompeuse dans certains cas. Par exemple, lorsqu'il y a beaucoup de valeurs aberrantes, la moyenne commencera à se déplacer vers les valeurs aberrantes et sera une mauvaise mesure du centre de vos données.

2. Médiane : La médiane est le point de données qui se trouve exactement au centre lorsque les données sont triées par ordre croissant ou décroissant. Lorsque le nombre de points de données est impair, la médiane est facilement choisie comme point le plus central. Lorsque le nombre de points de données est pair, la médiane est calculée comme la moyenne des 2 points de données les plus centraux.

3. Mode : le mode est le point de données le plus fréquemment présent dans un ensemble de données. Le mode reste le plus robuste aux valeurs aberrantes car il restera toujours fixé au point le plus fréquent.

Théorème central limite

Le théorème central limite en statistique stipule que, étant donné une taille d'échantillon suffisamment grande, la distribution d'échantillonnage se rapprochera d'une distribution normale quelle que soit la distribution de cette variable. Permettez-moi d'apporter l'essence de la déclaration ci-dessus en termes clairs.

Les données peuvent avoir n'importe quelle distribution. Cela pourrait être parfait ou normal, cela pourrait être exponentiel ou (presque) n'importe quelle distribution à laquelle vous pourriez penser. Cependant, si vous prélevez à plusieurs reprises des échantillons de la population et continuez à tracer l'histogramme de leurs moyennes, vous finirez par constater que cette nouvelle distribution de toutes les moyennes ressemble à la distribution normale !

En substance, peu importe la distribution de vos données, la distribution de leurs moyennes sera toujours normale.

Mais combien d'échantillons sont nécessaires pour que le CLT soit vrai ? La règle du pouce dit qu'il devrait être> 30. Donc, si vous prenez 30 échantillons ou plus de n'importe quelle distribution, les moyennes seront normalement distribuées, quel que soit le type de distribution sous-jacent.

Écart type et erreur type

L'écart type et l'erreur type sont souvent confondus. L'écart type, comme vous le savez peut-être, décrit ou quantifie la variation des données des deux côtés de la distribution - inférieure à la moyenne et supérieure à la moyenne. Si vos points de données sont répartis sur une large plage de valeurs, l'écart type sera élevé.

Maintenant, comme nous l'avons vu ci-dessus, par le théorème central limite, si nous traçons les moyennes de tous les échantillons d'une population, la distribution de ces moyennes sera à nouveau une distribution normale. Il aura donc son propre écart-type, n'est-ce pas ?

L'écart type des moyennes de tous les échantillons d'une population est appelé erreur standard. La valeur de l'erreur standard sera généralement inférieure à l'écart type lorsque vous calculez l'écart type des moyennes, et la valeur des moyennes serait moins étendue que les points de données individuels en raison de l'agrégation.

Vous pouvez même calculer l'écart type des médianes, le mode ou encore l'écart type des écarts types !

Avant que tu partes

Les concepts statistiques forment le véritable noyau de la Data Science et du ML. Pour être en mesure de faire des déductions valides et de comprendre efficacement les données disponibles, vous devez avoir une solide compréhension des concepts statistiques et de probabilité abordés dans ce didacticiel.

upGrad propose un programme exécutif PG en apprentissage automatique et IA et une maîtrise ès sciences en apprentissage automatique et IA qui peuvent vous guider vers la construction d'une carrière. Ces cours expliqueront la nécessité de l'apprentissage automatique et les étapes supplémentaires pour acquérir des connaissances dans ce domaine couvrant des concepts variés allant de la descente de gradient à l'apprentissage automatique.

La connaissance des statistiques est-elle obligatoire pour réussir en machine learning ?

La statistique est un domaine très vaste. Dans l'apprentissage automatique, les statistiques aident essentiellement à comprendre les données en profondeur. Certains concepts statistiques comme la probabilité, l'interprétation des données, etc. sont nécessaires dans plusieurs algorithmes d'apprentissage automatique. Cependant, vous n'avez pas besoin d'être un expert sur tous les sujets de statistiques pour réussir dans l'apprentissage automatique. En ne connaissant que les concepts fondamentaux, vous serez en mesure d'effectuer efficacement.

Connaître un peu de codage à l'avance sera-t-il utile dans l'apprentissage automatique ?

Le codage est au cœur de l'apprentissage automatique, et les programmeurs qui comprennent bien comment coder auront une compréhension approfondie du fonctionnement des algorithmes et, par conséquent, seront en mesure de surveiller et d'optimiser ces algorithmes plus efficacement. Vous n'avez pas besoin d'être un expert dans un langage de programmation, bien que toute connaissance préalable soit bénéfique. Si vous êtes débutant, Python est un bon choix car il est simple à apprendre et possède une syntaxe conviviale.

Comment utilisons-nous le calcul dans la vie de tous les jours ?

Les prévisions météorologiques sont basées sur un certain nombre de variables, telles que la vitesse du vent, la teneur en humidité et la température, qui ne peuvent être calculées qu'à l'aide de calculs. L'utilisation du calcul peut également être observée dans l'ingénierie aéronautique de diverses manières. Le calcul est également utilisé par les industries automobiles pour améliorer et assurer une bonne sécurité des véhicules. Il est également utilisé par les sociétés de cartes de crédit à des fins de paiement.