Statistiken für maschinelles Lernen: Alles, was Sie wissen müssen
Veröffentlicht: 2021-03-12Statistik und Wahrscheinlichkeit bilden den Kern von Machine Learning und Data Science. Es ist die statistische Analyse gepaart mit Rechenleistung und Optimierung, die maschinelles Lernen zu dem in der Lage ist, das zu erreichen, was es heute leistet. Von den Grundlagen der Wahrscheinlichkeit bis hin zur deskriptiven und schlussfolgernden Statistik bilden diese Themen die Grundlage des maschinellen Lernens.
Am Ende dieses Tutorials werden Sie Folgendes wissen:
- Wahrscheinlichkeitsgrundlagen
- Wahrscheinlichkeitsverteilungen
- Normalverteilung
- Maße der zentralen Tendenz
- Zentraler Grenzwertsatz
- Standardabweichung und Standardfehler
- Schiefe & Kurtosis
Inhaltsverzeichnis
Wahrscheinlichkeitsgrundlagen
Unabhängige und abhängige Ereignisse
Betrachten wir 2 Ereignisse, Ereignis A und Ereignis B. Wenn die Wahrscheinlichkeit des Eintretens von Ereignis A nicht vom Eintreten von Ereignis B abhängt, dann sind A und B unabhängige Ereignisse. Wenn Sie beispielsweise 2 faire Münzen haben, beträgt die Wahrscheinlichkeit, dass beide Münzen Kopf bekommen, 0,5 für beide. Daher sind die Ereignisse unabhängig.
Stellen Sie sich nun eine Kiste mit 5 Bällen vor – 2 schwarze und 3 rote. Die Wahrscheinlichkeit, zuerst eine schwarze Kugel zu ziehen, beträgt 2/5. Jetzt beträgt die Wahrscheinlichkeit, aus den verbleibenden 4 Kugeln erneut eine schwarze Kugel zu ziehen, 1/4. In diesem Fall sind die beiden Ereignisse voneinander abhängig, da die Wahrscheinlichkeit, zum zweiten Mal eine schwarze Kugel zu ziehen, davon abhängt, welche Kugel beim ersten Mal gezogen wurde.
Grenzwahrscheinlichkeit
Es ist die Wahrscheinlichkeit eines Ereignisses unabhängig von den Ergebnissen anderer Zufallsvariablen, zB P(A) oder P(B).
Gemeinsame Wahrscheinlichkeit
Es ist die Wahrscheinlichkeit, dass zwei verschiedene Ereignisse gleichzeitig auftreten, dh zwei (oder mehr) gleichzeitige Ereignisse, zB P(A und B) oder P(A, B).
Bedingte Wahrscheinlichkeit
Es ist die Wahrscheinlichkeit, dass ein (oder mehrere) Ereignisse auftreten, wenn ein anderes Ereignis eintritt, oder mit anderen Worten, es ist die Wahrscheinlichkeit, dass ein Ereignis A eintritt, wenn ein sekundäres Ereignis B wahr ist. zB P(A gegeben B) oder P(A | B).
Nehmen Sie online am ML-Kurs von den besten Universitäten der Welt teil – Masters, Executive Post Graduate Programs und Advanced Certificate Program in ML & AI, um Ihre Karriere zu beschleunigen.
Wahrscheinlichkeitsverteilungen
Wahrscheinlichkeitsverteilungen zeigen die Verteilung von Datenpunkten in einem Stichprobenraum. Es hilft uns, die Wahrscheinlichkeit zu sehen, bestimmte Datenpunkte zu erfassen, wenn sie zufällig aus der Grundgesamtheit entnommen werden. Wenn beispielsweise eine Grundgesamtheit aus Noten von Schülern einer Schule besteht, dann hat die Wahrscheinlichkeitsverteilung Noten auf der X-Achse und die Anzahl der Schüler mit diesen Noten auf der Y-Achse. Dies wird auch als Histogramm bezeichnet . Das Histogramm ist eine Art der diskreten Wahrscheinlichkeitsverteilung . Die wichtigsten Arten der diskreten Verteilung sind die Binomialverteilung, die Poisson-Verteilung und die Gleichverteilung.
Andererseits wird eine kontinuierliche Wahrscheinlichkeitsverteilung für Daten erstellt, die einen kontinuierlichen Wert haben. Mit anderen Worten, wenn es einen unendlichen Satz von Werten wie Höhe, Geschwindigkeit, Temperatur usw. haben kann. Kontinuierliche Wahrscheinlichkeitsverteilungen haben einen enormen Nutzen in der Datenwissenschaft und der statistischen Analyse, um die Wichtigkeit von Merkmalen, Datenverteilungen, statistischen Tests usw. zu überprüfen.
Lesen Sie auch die Mathematik hinter maschinellem Lernen
Normalverteilung
Die bekannteste kontinuierliche Verteilung ist die Normalverteilung, die auch als Gaußsche Verteilung oder „Glockenkurve“ bekannt ist.
Betrachten Sie eine Normalverteilung der Körpergröße von Menschen. Die meisten Höhen sind im mittleren Teil gebündelt, der größer ist und sich allmählich zu den linken und rechten Extremen hin verringert, was eine geringere Wahrscheinlichkeit anzeigt, diesen Wert zufällig zu erhalten.
Diese Kurve ist an ihrem Mittelwert zentriert und kann hoch und schlank oder kurz und ausgebreitet sein. Ein schmaler Wert bedeutet, dass es weniger verschiedene Werte gibt, die wir abtasten können. Und eine breitere Kurve zeigt, dass es einen größeren Wertebereich gibt. Dieser Spread wird durch seine Standardabweichung definiert .
Je größer die Standardabweichung, desto mehr Streuung werden Ihre Daten haben. Die Standardabweichung ist nur eine mathematische Ableitung einer anderen Eigenschaft namens Varianz, die definiert, wie stark die Daten „variieren“. Und Varianz ist das, worum es bei Daten geht, Varianz ist Information. Keine Varianz, keine Informationen. Die Normalverteilung spielt eine entscheidende Rolle in Statistiken – The Central Limit Theorem.
Maße der zentralen Tendenz
Maße der zentralen Tendenz sind die Möglichkeiten, wie wir einen Datensatz zusammenfassen können, indem wir einen einzelnen Wert nehmen. Es gibt hauptsächlich 3 Tendenzmaße:
1. Mittelwert: Der Mittelwert ist nur das arithmetische Mittel oder der Durchschnitt der Werte in den Daten/Merkmal. Die Summe aller Werte dividiert durch die Anzahl der Werte ergibt den Mittelwert. Der Mittelwert ist normalerweise die gebräuchlichste Methode, um das Zentrum von Daten zu messen, kann aber in einigen Fällen irreführend sein. Wenn beispielsweise viele Ausreißer vorhanden sind, verschiebt sich der Mittelwert in Richtung der Ausreißer und ist ein schlechter Maßstab für das Zentrum Ihrer Daten.
2. Median : Median ist der Datenpunkt, der genau in der Mitte liegt, wenn die Daten aufsteigend oder absteigend sortiert werden. Wenn die Anzahl der Datenpunkte ungerade ist, wird der Median einfach als der zentralste Punkt ausgewählt. Wenn die Anzahl der Datenpunkte gerade ist, wird der Median als Mittelwert der 2 mittleren Datenpunkte berechnet.
3. Modus: Modus ist der Datenpunkt, der am häufigsten in einem Datensatz vorhanden ist. Der Modus bleibt gegenüber Ausreißern am robustesten, da er immer noch am häufigsten Punkt fixiert bleibt.
Zentraler Grenzwertsatz
Der zentrale Grenzwertsatz in der Statistik besagt, dass sich die Stichprobenverteilung bei einer ausreichend großen Stichprobengröße einer Normalverteilung annähert, unabhängig von der Verteilung dieser Variablen. Lassen Sie mich die Essenz der obigen Aussage in einfachen Worten wiedergeben.
Die Daten können beliebig verteilt sein. Es könnte perfekt oder schief normal sein, es könnte exponentiell sein oder (fast) jede Verteilung, die Sie sich vorstellen können. Wenn Sie jedoch wiederholt Stichproben aus der Grundgesamtheit nehmen und das Histogramm ihrer Mittelwerte weiter zeichnen, werden Sie schließlich feststellen, dass diese neue Verteilung aller Mittelwerte der Normalverteilung ähnelt!
Im Grunde spielt es keine Rolle, in welcher Verteilung sich Ihre Daten befinden, die Verteilung ihrer Mittel wird immer normal sein.
Aber wie viele Proben sind erforderlich, um CLT wahr zu halten? Die Faustregel besagt, dass es >30 sein sollte. Wenn Sie also 30 oder mehr Stichproben aus einer beliebigen Verteilung nehmen, werden die Mittelwerte unabhängig vom zugrunde liegenden Verteilungstyp normalverteilt.
Standardabweichung und Standardfehler
Standardabweichung und Standardfehler werden oft miteinander verwechselt. Wie Sie vielleicht wissen, beschreibt oder quantifiziert die Standardabweichung die Variation in den Daten auf beiden Seiten der Verteilung – niedriger als der Mittelwert und größer als der Mittelwert. Wenn Ihre Datenpunkte über einen großen Wertebereich verteilt sind, ist die Standardabweichung hoch.
Nun, wie wir oben besprochen haben, ist nach dem zentralen Grenzwertsatz, wenn wir die Mittelwerte aller Stichproben aus einer Grundgesamtheit darstellen, die Verteilung dieser Mittelwerte wieder eine Normalverteilung. Es wird also seine eigene Standardabweichung haben, richtig?
Die Standardabweichung der Mittelwerte aller Stichproben einer Grundgesamtheit wird als Standardfehler bezeichnet. Der Wert des Standardfehlers ist normalerweise geringer als die Standardabweichung, da Sie die Standardabweichung der Mittelwerte berechnen, und der Wert der Mittelwerte wäre aufgrund der Aggregation weniger gestreut als einzelne Datenpunkte.
Sie können sogar die Standardabweichung der Mediane, den Modus oder sogar die Standardabweichung der Standardabweichungen berechnen!
Bevor du gehst
Statistische Konzepte bilden den eigentlichen Kern von Data Science und ML. Um gültige Schlussfolgerungen ziehen und die vorliegenden Daten effektiv verstehen zu können, benötigen Sie ein solides Verständnis der statistischen und Wahrscheinlichkeitskonzepte, die in diesem Lernprogramm besprochen werden.
upGrad bietet ein Executive PG-Programm in maschinellem Lernen und KI und einen Master of Science in maschinellem Lernen und KI , das Sie beim Aufbau einer Karriere unterstützen kann. Diese Kurse erläutern die Notwendigkeit des maschinellen Lernens und weitere Schritte zum Sammeln von Wissen in diesem Bereich, die verschiedene Konzepte umfassen, die von Gradient Descent bis hin zum maschinellen Lernen reichen.
Sind Statistikkenntnisse zwingend erforderlich, um beim maschinellen Lernen erfolgreich zu sein?
Statistik ist ein sehr weites Feld. Beim maschinellen Lernen helfen Statistiken grundsätzlich dabei, die Daten tiefgehend zu verstehen. Einige statistische Konzepte wie Wahrscheinlichkeit, Dateninterpretation usw. werden in mehreren maschinellen Lernalgorithmen benötigt. Sie müssen jedoch kein Experte für alle Themen der Statistik sein, um im maschinellen Lernen erfolgreich zu sein. Wenn Sie nur die grundlegenden Konzepte kennen, können Sie effizient arbeiten.
Wird es beim maschinellen Lernen hilfreich sein, vorher etwas Codierung zu kennen?
Das Codieren ist das Herzstück des maschinellen Lernens, und Programmierer, die wissen, wie man gut codiert, haben ein tiefes Verständnis dafür, wie die Algorithmen funktionieren, und können diese Algorithmen daher effektiver überwachen und optimieren. Sie müssen kein Experte in irgendeiner Programmiersprache sein, Vorkenntnisse sind jedoch von Vorteil. Wenn Sie ein Anfänger sind, ist Python eine gute Wahl, da es einfach zu erlernen ist und eine benutzerfreundliche Syntax hat.
Wie verwenden wir Kalkül im Alltag?
Wettervorhersagen basieren auf einer Reihe von Variablen wie Windgeschwindigkeit, Feuchtigkeitsgehalt und Temperatur, die nur mithilfe von Kalkül berechnet werden können. Die Verwendung von Analysis kann auch in der Luftfahrttechnik auf vielfältige Weise gesehen werden. Calculus wird auch von der Fahrzeugindustrie verwendet, um die Sicherheit der Fahrzeuge zu verbessern und zu gewährleisten. Es wird auch von Kreditkartenunternehmen für Zahlungszwecke verwendet.