Was ist Hypothese beim maschinellen Lernen? Wie bildet man eine Hypothese?

Veröffentlicht: 2021-03-12

Hypothesentests sind ein breites Thema, das auf viele Bereiche anwendbar ist. Wenn wir Statistiken untersuchen, bezieht der Hypothesentest dort Daten aus mehreren Bevölkerungsgruppen ein, und der Test besteht darin, zu sehen, wie signifikant der Effekt auf die Bevölkerung ist.

Dazu wird der p-Wert berechnet und mit dem kritischen Wert oder dem Alpha verglichen. Beim maschinellen Lernen geht es beim Hypothesentest darum, die Funktion zu finden, die unabhängige Merkmale am besten an das Ziel annähert. Mit anderen Worten: Ordnen Sie die Eingänge den Ausgängen zu.

Am Ende dieses Tutorials werden Sie Folgendes wissen:

  • Was ist Hypothese in Statistik vs. maschinelles Lernen?
  • Was ist Hypothesenraum?
  • Prozess der Hypothesenbildung

Inhaltsverzeichnis

Hypothese in der Statistik

Eine Hypothese ist eine Annahme eines Ergebnisses, das falsifizierbar ist, was bedeutet, dass es durch einige Beweise als falsch erwiesen werden kann. Eine Hypothese kann entweder abgelehnt oder nicht abgelehnt werden. Wir akzeptieren in der Statistik niemals Hypothesen, weil es nur um Wahrscheinlichkeiten geht und wir uns nie zu 100 % sicher sind. Vor Beginn des Experiments definieren wir zwei Hypothesen:

1. Nullhypothese: besagt, dass es keinen signifikanten Effekt gibt

2. Alternativhypothese: besagt, dass es einen signifikanten Effekt gibt

In der Statistik vergleichen wir den P-Wert (der mit verschiedenen Arten von statistischen Tests berechnet wird) mit dem kritischen Wert oder Alpha. Je größer der P-Wert ist, desto höher ist die Wahrscheinlichkeit, was wiederum bedeutet, dass der Effekt nicht signifikant ist, und wir schlussfolgern, dass wir die Nullhypothese nicht ablehnen .

Mit anderen Worten, der Effekt ist mit hoher Wahrscheinlichkeit zufällig aufgetreten und es gibt keine statistische Signifikanz dafür. Wenn wir andererseits einen sehr kleinen P-Wert erhalten, bedeutet dies, dass die Wahrscheinlichkeit gering ist. Das bedeutet, dass die Wahrscheinlichkeit, dass das Ereignis zufällig eintritt, sehr gering ist.

Nehmen Sie online am ML- und KI-Kurs der weltbesten Universitäten teil – Master, Executive Post Graduate Programs und Advanced Certificate Program in ML & AI, um Ihre Karriere zu beschleunigen.

Signifikanzniveau

Das Signifikanzniveau wird vor Beginn des Experiments festgelegt. Dies definiert, wie hoch die Fehlertoleranz ist und ab welchem ​​Grad der Effekt als signifikant angesehen werden kann. Ein üblicher Wert für das Signifikanzniveau ist 95 %, was auch bedeutet, dass die Wahrscheinlichkeit, dass wir uns vom Test täuschen lassen und einen Fehler machen, bei 5 % liegt. Mit anderen Worten, der kritische Wert ist 0,05, der als Schwellenwert dient. Wenn das Signifikanzniveau auf 99 % festgelegt wurde, würde dies einen kritischen Wert von 0,01 % bedeuten.

P-Wert

An der Grundgesamtheit und Stichprobe wird ein statistischer Test durchgeführt, um den P-Wert zu ermitteln, der dann mit dem kritischen Wert verglichen wird. Wenn sich herausstellt, dass der P-Wert kleiner als der kritische Wert ist, können wir schlussfolgern, dass der Effekt signifikant ist, und daher die Nullhypothese ablehnen (das besagt, dass es keinen signifikanten Effekt gibt). Wenn sich herausstellt, dass der P-Wert über dem kritischen Wert liegt, können wir schlussfolgern, dass es keinen signifikanten Effekt gibt, und daher die Nullhypothese nicht zurückweisen.

Da wir uns nie 100 % sicher sein können, besteht immer die Möglichkeit, dass unsere Tests korrekt sind, die Ergebnisse jedoch irreführend sind. Das bedeutet, dass wir entweder die Null ablehnen, wenn sie eigentlich nicht falsch ist. Es kann auch bedeuten, dass wir die Null nicht ablehnen, wenn sie eigentlich falsch ist. Dies sind Fehler vom Typ 1 und Typ 2 des Hypothesentests.

Beispiel

Stellen Sie sich vor, Sie arbeiten für einen Impfstoffhersteller und Ihr Team entwickelt den Impfstoff gegen Covid-19. Um die Wirksamkeit dieses Impfstoffs nachzuweisen, muss statistisch nachgewiesen werden, dass er beim Menschen wirksam ist. Daher nehmen wir zwei Personengruppen gleicher Größe und Eigenschaften. Wir geben Gruppe A den Impfstoff und Gruppe B ein Placebo. Wir führen Analysen durch, um zu sehen, wie viele Menschen in Gruppe A infiziert wurden und wie viele in Gruppe B sich angesteckt haben.

Wir testen dies mehrmals, um festzustellen, ob Gruppe A eine signifikante Immunität gegen Covid-19 entwickelt hat oder nicht. Wir berechnen den P-Wert für alle diese Tests und kommen zu dem Schluss, dass die P-Werte immer kleiner als der kritische Wert sind. Daher können wir die Nullhypothese sicher verwerfen und schlussfolgern, dass es tatsächlich einen signifikanten Effekt gibt.

Lesen Sie: Modelle für maschinelles Lernen erklärt

Hypothese im maschinellen Lernen

Die Hypothese beim maschinellen Lernen wird verwendet, wenn wir beim überwachten maschinellen Lernen die Funktion finden müssen, die die Eingabe der Ausgabe am besten zuordnet. Dies kann auch als Funktionsnäherung bezeichnet werden, da wir eine Zielfunktion approximieren, die das Merkmal am besten dem Ziel zuordnet.

1. Hypothese(h): Eine Hypothese kann ein einzelnes Modell sein, das Merkmale auf das Ziel abbildet, kann jedoch das Ergebnis/die Metrik sein. Eine Hypothese wird durch „ h “ gekennzeichnet.

2. Hypothesenraum (H): Ein Hypothesenraum ist ein vollständiger Bereich von Modellen und ihren möglichen Parametern, die zum Modellieren der Daten verwendet werden können. Es wird mit „ H “ bezeichnet. Mit anderen Worten, die Hypothese ist eine Teilmenge des Hypothesenraums.

Prozess der Hypothesenbildung

Im Wesentlichen haben wir die Trainingsdaten (unabhängige Merkmale und das Ziel) und eine Zielfunktion, die Merkmale dem Ziel zuordnet. Diese werden dann auf verschiedenen Arten von Algorithmen ausgeführt, wobei verschiedene Arten der Konfiguration ihres Hyperparameterraums verwendet werden, um zu prüfen, welche Konfiguration die besten Ergebnisse liefert. Die Trainingsdaten werden verwendet, um die beste Hypothese aus dem Hypothesenraum zu formulieren und zu finden. Die Testdaten werden verwendet, um die von der Hypothese erzeugten Ergebnisse zu validieren oder zu verifizieren.

Stellen Sie sich ein Beispiel vor, in dem wir einen Datensatz von 10.000 Instanzen mit 10 Features und einem Ziel haben. Das Ziel ist binär, was bedeutet, dass es sich um ein binäres Klassifizierungsproblem handelt. Nehmen wir an, wir modellieren diese Daten mithilfe der logistischen Regression und erhalten eine Genauigkeit von 78 %. Wir können die Regressionslinie ziehen, die beide Klassen trennt. Dies ist eine Hypothese(h). Dann testen wir diese Hypothese anhand von Testdaten und erhalten eine Punktzahl von 74 %.

Nehmen wir nun wieder an, wir passen ein RandomForests-Modell an dieselben Daten an und erhalten eine Genauigkeitsbewertung von 85 %. Dies ist bereits eine gute Verbesserung gegenüber der logistischen Regression. Jetzt entscheiden wir uns, die Hyperparameter von RandomForests abzustimmen, um bei denselben Daten eine bessere Punktzahl zu erzielen. Wir führen eine Rastersuche durch und führen mehrere RandomForest-Modelle auf den Daten aus und überprüfen ihre Leistung. In diesem Schritt durchsuchen wir im Wesentlichen den Hypothesenraum (H), um eine bessere Funktion zu finden. Nach Abschluss der Rastersuche erhalten wir die beste Punktzahl von 89 % und beenden die Suche.

Jetzt testen wir auch mehr Modelle wie XGBoost, Support Vector Machine und Naive Bayes Theorem, um ihre Leistung mit denselben Daten zu testen. Wir wählen dann das leistungsstärkste Modell aus und testen es anhand der Testdaten, um seine Leistung zu validieren und eine Punktzahl von 87 % zu erhalten.

Checkout: Machine Learning-Projekte und -Themen

Bevor du gehst

Die Hypothese ist ein entscheidender Aspekt des maschinellen Lernens und der Datenwissenschaft. Sie ist in allen Bereichen der Analytik präsent und entscheidet darüber, ob eine Änderung eingeführt werden soll oder nicht. Sei es Pharma, Software, Vertrieb usw. Eine Hypothese deckt den gesamten Trainingsdatensatz ab, um die Leistung der Modelle aus dem Hypothesenraum zu überprüfen.

Eine Hypothese muss falsifizierbar sein, was bedeutet, dass es möglich sein muss, sie zu testen und zu beweisen, dass sie falsch ist, wenn die Ergebnisse dagegen sprechen. Die Suche nach der besten Konfiguration des Modells ist zeitaufwändig, wenn viele verschiedene Konfigurationen verifiziert werden müssen. Es gibt auch Möglichkeiten, diesen Prozess zu beschleunigen, indem Techniken wie die Zufallssuche von Hyperparametern verwendet werden.

Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das Executive PG-Programm von IIIT-B & upGrad für maschinelles Lernen und KI an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben, IIIT, bietet -B Alumni-Status, mehr als 5 praktische Schlusssteinprojekte und Arbeitsunterstützung bei Top-Unternehmen.

Warum sollten wir Open-Source-Projekte machen?

Es gibt viele Gründe, Open-Source-Projekte durchzuführen. Sie lernen neue Dinge, Sie helfen anderen, Sie vernetzen sich mit anderen, Sie schaffen sich einen guten Ruf und vieles mehr. Open Source macht Spaß, und irgendwann bekommt man etwas zurück. Einer der wichtigsten Gründe ist, dass es ein Portfolio großartiger Arbeiten aufbaut, die Sie Unternehmen präsentieren und eingestellt werden können. Open-Source-Projekte sind eine wunderbare Möglichkeit, neue Dinge zu lernen. Sie könnten Ihr Wissen über Softwareentwicklung erweitern oder eine neue Fähigkeit erlernen. Es gibt keinen besseren Weg zu lernen als zu lehren.

Kann ich als Anfänger zu Open Source beitragen?

Jawohl. Open-Source-Projekte diskriminieren nicht. Die Open-Source-Communities bestehen aus Menschen, die gerne Code schreiben. Es gibt immer einen Platz für einen Neuling. Du lernst viel und hast außerdem die Möglichkeit, an einer Vielzahl von Open-Source-Projekten mitzuwirken. Sie erfahren, was funktioniert und was nicht, und Sie haben auch die Möglichkeit, Ihren Code von einer großen Community von Entwicklern verwenden zu lassen. Es gibt eine Liste von Open-Source-Projekten, die immer nach neuen Mitwirkenden suchen.

Wie funktionieren GitHub-Projekte?

GitHub bietet Entwicklern eine Möglichkeit, Projekte zu verwalten und zusammenzuarbeiten. Es dient auch als eine Art Lebenslauf für Entwickler, in dem die Mitwirkenden, die Dokumentation und die Veröffentlichungen eines Projekts aufgeführt sind. Beiträge zu einem Projekt zeigen potenziellen Arbeitgebern, dass Sie die Fähigkeiten und die Motivation haben, im Team zu arbeiten. Projekte sind oft mehr als Code, daher bietet GitHub eine Möglichkeit, Ihr Projekt so zu strukturieren, wie Sie eine Website strukturieren würden. Sie können Ihre Website mit einer Filiale verwalten. Ein Zweig ist wie ein Experiment oder eine Kopie Ihrer Website. Wenn Sie mit einer neuen Funktion experimentieren oder etwas reparieren möchten, erstellen Sie einen Zweig und experimentieren dort. Wenn das Experiment erfolgreich ist, können Sie den Zweig wieder mit der ursprünglichen Website zusammenführen.