Lineare Regression am Beispiel erklärt
Veröffentlicht: 2021-10-13Die lineare Regression ist einer der gebräuchlichsten Algorithmen zum Herstellen von Beziehungen zwischen den Variablen eines Datensatzes. Ein mathematisches Modell ist ein notwendiges Werkzeug für Data Scientists bei der Durchführung von Vorhersageanalysen. Dieser Blog wird Sie mit dem grundlegenden Konzept vertraut machen und auch ein Beispiel für eine lineare Regression diskutieren.
Inhaltsverzeichnis
Was sind Regressionsmodelle?
Ein Regressionsmodell beschreibt die Beziehung zwischen Datensatzvariablen, indem es eine Linie an die beobachteten Daten anpasst. Es ist eine mathematische Analyse, die herausfindet, welche Variablen einen Einfluss haben und am wichtigsten sind. Es bestimmt auch, wie sicher wir uns über die beteiligten Faktoren sind. Die zwei Arten von Variablen sind:
- Abhängig: Faktor, den Sie vorherzusagen oder zu verstehen versuchen.
- Unabhängig: Faktoren, von denen Sie vermuten, dass sie einen Einfluss auf die abhängige Variable haben.
Regressionsmodelle werden verwendet, wenn die abhängige Variable quantitativ ist. Im Fall der logistischen Regression kann es binär sein. Aber in diesem Blog werden wir uns hauptsächlich auf das lineare Regressionsmodell konzentrieren, bei dem beide Variablen quantitativ sind.
Angenommen, Sie haben Daten zu den monatlichen Verkäufen und den durchschnittlichen monatlichen Niederschlägen der letzten drei Jahre. Angenommen, Sie haben diese Informationen in einem Diagramm dargestellt. Die y-Achse stellt die Anzahl der Verkäufe dar (abhängige Variable), und die x-Achse zeigt den Gesamtniederschlag. Jeder Punkt auf dem Diagramm würde zeigen, wie viel es in einem bestimmten Monat geregnet hat, und die entsprechenden Verkaufszahlen.
Wenn Sie sich die Daten noch einmal ansehen, fällt Ihnen vielleicht ein Muster auf. Gehen Sie davon aus, dass die Verkäufe an den Tagen, an denen es mehr geregnet hat, höher sind. Aber es wäre schwierig abzuschätzen, wie viel Sie normalerweise verkaufen würden, wenn es eine bestimmte Menge regnete, sagen wir 3 oder 4 Zoll. Eine gewisse Gewissheit könnten Sie erlangen, wenn Sie in der Grafik eine Linie durch die Mitte aller Datenpunkte ziehen würden.
Heutzutage können Ihnen Excel und Statistiksoftware wie SPSS, R oder STATA dabei helfen, eine Linie zu ziehen, die am besten zu den vorliegenden Daten passt. Zusätzlich können Sie sich auch eine Formel ausgeben lassen, die die Steigung der Geraden erklärt.
Betrachten Sie diese Formel für das obige Beispiel: Y = 200 + 3X. Es sagt Ihnen, dass Sie 200 Einheiten verkauft haben, als es überhaupt nicht geregnet hat (dh als X = 0). Unter der Annahme, dass die Variablen im weiteren Verlauf gleich bleiben, würde jeder zusätzliche Zentimeter Regen zu einem durchschnittlichen Verkauf von drei weiteren Einheiten führen. Sie würden 203 Einheiten verkaufen, wenn es 1 Zoll regnet, 206 Einheiten, wenn es 2 Zoll regnet, 209 Zoll, wenn es 3 Zoll regnet, und so weiter.
Typischerweise enthält die Formel der Regressionslinie auch einen Fehlerterm (Y = 200 + 3 X + Fehlerterm). Es berücksichtigt die Realität, dass unabhängige Prädiktoren möglicherweise nicht immer perfekte Prädiktoren für abhängige Variablen sind. Und die Linie gibt Ihnen lediglich eine Schätzung basierend auf den verfügbaren Daten. Je größer der Fehlerterm, desto weniger sicher wäre Ihre Regressionslinie.
Grundlagen der linearen Regression
Ein einfaches lineares Regressionsmodell verwendet eine gerade Linie, um die Beziehung zwischen zwei quantitativen Variablen zu schätzen. Wenn Sie mehr als eine unabhängige Variable haben, verwenden Sie stattdessen die multiple lineare Regression.
Bei der einfachen linearen Regressionsanalyse geht es um zwei Dinge. Erstens zeigt es Ihnen die Stärke der Beziehung zwischen den abhängigen und unabhängigen Faktoren der historischen Daten. Zweitens gibt es Ihnen den Wert der abhängigen Variablen bei einem bestimmten Wert der unabhängigen Variablen.
Betrachten Sie dieses Beispiel einer linearen Regression. Ein Sozialforscher, der wissen möchte, wie sich das Einkommen einer Person auf ihr Glücksniveau auswirkt, führt eine einfache Regressionsanalyse durch, um zu sehen, ob eine lineare Beziehung auftritt. Der Forscher ermittelt quantitative Werte der abhängigen Variablen (Glück) und der unabhängigen Variablen (Einkommen), indem er Personen an einem bestimmten geografischen Ort befragt.
Die Daten enthalten beispielsweise Einkommenszahlen und Glücksniveaus (auf einer Skala von 1 bis 10) von 500 Menschen aus dem indischen Bundesstaat Maharashtra. Der Forscher würde dann die Datenpunkte grafisch darstellen und eine Regressionslinie anpassen, um zu wissen, wie stark das Einkommen der Befragten ihr Wohlbefinden beeinflusst.
Die lineare Regressionsanalyse basiert auf einigen Annahmen zu den Daten. Es gibt:
- Linearität der Beziehung zwischen abhängiger und unabhängiger Variable, d. h. die Linie der besten Anpassung ist gerade und nicht gekrümmt.)
- Die Varianzhomogenität, d. h. die Größe des Fehlers in der Vorhersage, ändert sich nicht signifikant über verschiedene Werte der unabhängigen Variablen hinweg.
- Unabhängigkeit der Beobachtungen im Datensatz, d.h. keine versteckten Beziehungen.
- Normalität der Datenverteilung für die abhängige Variable. Sie können dasselbe mit der Funktion hist() in R überprüfen.
Die Mathematik hinter der linearen Regression
y = c + ax ist eine Standardgleichung, in der y die Ausgabe ist (die wir schätzen wollen), x die Eingabevariable (die wir kennen), a die Steigung der Geraden und c die Konstante ist.
Hier variiert die Ausgabe linear basierend auf der Eingabe. Die Steigung bestimmt, wie stark x den Wert von y beeinflusst. Die Konstante ist der Wert von y, wenn x null ist.
Lassen Sie uns dies anhand eines weiteren Beispiels für eine lineare Regression verstehen. Stellen Sie sich vor, Sie sind in einem Automobilunternehmen angestellt und möchten den indischen Pkw-Markt studieren. Nehmen wir an, dass das nationale BIP den Verkauf von Personenkraftwagen beeinflusst. Um für das Unternehmen besser planen zu können, möchten Sie vielleicht die lineare Gleichung der Anzahl der im Land verkauften Fahrzeuge in Bezug auf das BIP herausfinden
Dazu benötigen Sie Beispieldaten für den jährlichen Pkw-Absatz und die BIP-Zahlen für jedes Jahr. Möglicherweise stellen Sie fest, dass das BIP des laufenden Jahres die Verkäufe für das nächste Jahr beeinflusst: In jedem Jahr, in dem das BIP niedriger war, waren die Fahrzeugverkäufe im Folgejahr niedriger.
Um diese Daten für Machine Learning-Analysen vorzubereiten, müssten Sie etwas mehr Arbeit leisten.
- Bitte beginnen Sie mit der Gleichung y = c + ax, wobei y die Anzahl der in einem Jahr verkauften Fahrzeuge und x das BIP des Vorjahres ist.
- Um c und an im obigen Problem herauszufinden, können Sie ein Modell mit Python erstellen.
Sehen Sie sich dieses Tutorial an, um die Schritt-für-Schritt-Methode zu verstehen
Wenn Sie eine einfache lineare Regression in R durchführen würden, wird das Interpretieren und Berichten von Ergebnissen viel einfacher.
Für dasselbe lineare Regressionsbeispiel ändern wir die Gleichung in y=B0 + B1x + e. Auch hier ist y die abhängige Variable und x die unabhängige oder bekannte Variable. B0 ist die Konstante oder der Achsenabschnitt, B1 ist die Steigung des Regressionskoeffizienten und e ist der Fehler der Schätzung.
Statistische Software wie R kann die Linie der besten Anpassung durch die Daten finden und nach dem B1 suchen, das den Gesamtfehler des Modells minimiert.
Befolgen Sie diese Schritte, um zu beginnen:
- Laden Sie den Pkw-Verkaufsdatensatz in die R-Umgebung.
- Führen Sie den Befehl aus, um ein lineares Modell zu generieren, das die Beziehung zwischen den Verkäufen von Personenkraftwagen und dem BIP beschreibt.
- sales.gdp.lm <- lm(bip ~ sales, data = sales.data)
- Verwenden Sie die Funktion summary(), um die wichtigsten linearen Modellparameter in tabellarischer Form anzuzeigen.
- Zusammenfassung (sales.gdp.lm)
Hinweis: Die Ausgabe würde Ergebnisse wie Aufrufe, Residuen und Koeffizienten enthalten. Die 'Call'-Tabelle gibt die verwendete Formel an. Die „Residuen“ geben den Median, die Quartile, die Mindest- und Höchstwerte an, um anzugeben, wie gut das Modell zu den realen Daten passt. Die erste Zeile der Tabelle „Koeffizienten“ schätzt den y-Achsenabschnitt, und die zweite Zeile gibt den Regressionskoeffizienten an. Die Spalten dieser Tabelle haben Beschriftungen wie Schätzung, Std. Fehler, t-Wert und p-Wert.
Lernen Sie maschinelles Lernen von den besten Universitäten der Welt. Erwerben Sie Master-, Executive PGP- oder Advanced Certificate-Programme, um Ihre Karriere zu beschleunigen.
- Setzen Sie den (Intercept)-Wert in die Regressionsgleichung ein, um Verkaufswerte über den Bereich der BIP-Zahlen hinweg vorherzusagen.
- Untersuchen Sie die Spalte (Schätzung), um den Effekt zu erfahren. Der Regressionskoeffizient würde Ihnen sagen, wie stark sich der Umsatz mit der Änderung des BIP ändert.
- Finden Sie die Variation in Ihrer Schätzung der Beziehung zwischen Umsatz und BIP anhand des Labels (Std. Error) heraus.
- Sehen Sie sich die Teststatistik unter (t-Wert) an, um festzustellen, ob die Ergebnisse zufällig aufgetreten sind. Je größer der t-Wert, desto unwahrscheinlicher wäre es.
- Gehen Sie die Spalte Pr(>|t|) oder die p-Werte durch, um die geschätzte Auswirkung des BIP auf den Umsatz anzuzeigen, wenn die Nullhypothese wahr wäre.
- Präsentieren Sie Ihre Ergebnisse mit geschätztem Effekt, Standardfehler und p-Werten und machen Sie deutlich, was der Regressionskoeffizient bedeutet.
- Fügen Sie dem Bericht ein Diagramm bei. Eine einfache lineare Regression kann als Diagramm mit Regressionslinie und -funktion dargestellt werden.
- Berechnen Sie den Fehler, indem Sie den Abstand der beobachteten und vorhergesagten y-Werte messen, die Abstände bei jedem Wert von x quadrieren und ihren Mittelwert berechnen.
Fazit
Mit dem obigen linearen Regressionsbeispiel haben wir Ihnen einen Überblick gegeben, wie Sie ein einfaches lineares Regressionsmodell erstellen, den Regressionskoeffizienten finden und den Fehler der Schätzung berechnen. Wir haben auch die Relevanz von Python und R für die prädiktive Datenanalyse und Statistik angesprochen. Praktisches Wissen über solche Tools ist heute entscheidend für Karrieren in den Bereichen Data Science und maschinelles Lernen.
Wenn Sie Ihre Programmierkenntnisse verfeinern möchten, sehen Sie sich das Advanced Certificate Program in Machine Learning von IIT Madras und upGrad an. Der Online-Kurs umfasst auch Fallstudien, Projekte und Experten-Mentoring-Sitzungen, um den Schulungsprozess branchenorientiert zu gestalten.