Wie führt man eine multiple Regressionsanalyse durch?

Veröffentlicht: 2021-11-23

In der statistischen Analyse werden Regressionsmodelle meistens immer dann eingesetzt, wenn es notwendig ist, Beziehungen zwischen den betrachteten Variablen herzustellen. Die Beziehung wird durch Anpassen einer Linie zwischen allen Variablen hergestellt. Um das Verhalten der abhängigen Variablen zu verstehen, werden Regressionsmodelle verwendet. Sie teilen dem Benutzer mit, wie sich die abhängigen Variablen mit der Änderung der unabhängigen Variablen ändern.

Mehrfache lineare Regressionen sind eine solche Technik, die uns hilft, die Beziehung zwischen diesen Variablen, dh der abhängigen und der unabhängigen Variablen, abzuschätzen. Dieser Artikel konzentriert sich auf die Technik der multiplen linearen Regression und wie sie durchgeführt wird.

Inhaltsverzeichnis

Mehrere lineare Regressionen

Multiple lineare Regressionen sind eine Form statistischer Technik, die verwendet wird, um die Ergebnisse einer beliebigen Antwortvariablen vorherzusagen. Eines der Ziele der Technik besteht darin, eine lineare Beziehung zwischen den unabhängigen und den abhängigen Variablen herzustellen. Die multiple lineare Regressionsanalyse ist eine Form der multivariaten Analyse , die mehr als eine Form der Beobachtung umfasst.

Meistens kann die Technik durchgeführt werden, wenn man über folgende Dinge Bescheid wissen möchte:

  • Verstehen, wie stark die Beziehung zwischen Variablen ist. Wenn Sie auch die Beziehung zwischen den unabhängigen und den abhängigen Variablen verstehen möchten, können wir in diesen Fällen die Technik der multiplen linearen Regression verwenden.
  • Die Technik kann verwendet werden, um den Wert der abhängigen Variablen vorherzusagen, die den unabhängigen Variablen entsprechen.

In den multiplen linearen Regressionen berücksichtigte Annahmen

Bestimmte Annahmen werden in den Techniken der multiplen linearen Regression berücksichtigt. Hier sind einige Annahmen für MLR aufgelistet:

1. Homogenität der Varianz

Sie wird auch als Homoskedastizität bezeichnet. Dies bedeutet, dass bei der Vorhersage eines Ergebnisses keine signifikanten Änderungen des Fehlers auftreten, der mit der Vorhersage des Ergebnisses durch die Werte unabhängiger Variablen verbunden ist. Das Verfahren geht davon aus, dass der Fehlerbetrag im gesamten MLR-Modell gleich ist. Der Analyst muss die standardisierten Residuen gegen die vorhergesagten Werte darstellen. Dies hilft bei der Bestimmung, ob es eine faire Verteilung der Punkte über die unabhängigen Variablen gibt. Zur Darstellung der Daten kann ein Streudiagramm verwendet werden.

2. Unabhängigkeit der Beobachtungen

Die in der multiplen linearen Regression berücksichtigten Beobachtungen werden durch gültige statistische Techniken gesammelt. Das bedeutet, dass es keine versteckten oder bestehenden Beziehungen zwischen den gesammelten Variablen gibt. Manchmal gibt es bei dieser Technik Szenarien, in denen einige Variablen mit anderen Variablen korreliert sind. Daher ist es vor der Entwicklung des Regressionsmodells immer wichtig, diese korrelierten Variablen zu überprüfen. Das Entfernen einer der Variablen aus der Modellentwicklung ist immer besser für Variablen, die eine hohe Korrelation aufweisen.

3. Es gibt keine Korrelation zwischen den unabhängigen Variablen

Auf andere Weise kann erwähnt werden, dass es keine Multikollinearität in den Daten geben sollte. Wenn eine Multikollinearität vorhanden ist, wird es für den Analysten schwierig sein, die Variable zu identifizieren, die zur Varianz der abhängigen Variablen beiträgt. Daher ist eine der Methoden, die zum Testen der Annahme als am besten angesehen wird, die Methode des Variationsinflationsfaktors.

4. Normalität:

Das bedeutet, dass der Datensatz der Normalverteilung folgt.

5. Linearität

Bei der Suche nach der Beziehung zwischen den Variablen wird versucht, eine gerade Linie zwischen den Variablen zu finden. Es wird allgemein angenommen, dass es eine lineare Beziehung zwischen den unabhängigen Variablen und den abhängigen Variablen gibt. Eine Möglichkeit, die lineare Beziehung zu überprüfen, besteht darin, Streudiagramme zu erstellen und die Streudiagramme dann zu visualisieren. Es ermöglicht dem Benutzer, die in den Beobachtungen vorhandene Linearität zu beobachten. Falls es keine lineare Beziehung gibt, muss der Analytiker seine Analyse wiederholen. Statistische Software wie SPSS kann zur Durchführung der MLR verwendet werden.

Mathematische Darstellung der multiplen linearen Regression

Das mathematische Bild eines multiplen linearen Regressionsmodells ist in der folgenden Gleichung dargestellt:

In der obigen Gleichung

  • Y stellt die Ausgangsvariable dar,
  • X stellt die Eingangsvariablen dar,
  • Β repräsentiert den jedem Term zugeordneten Koeffizienten.
  • B0 ist der Wert des y-Achsenabschnitts, was den Wert von Y bedeutet, wenn alle anderen Prädiktoren fehlen.

Manchmal besteht die MLR-Gleichung aus einem Fehlerterm, der mit dem Term „e“ am Ende der Terme in der Gleichung dargestellt wird.

Beim Finden der besten Anpassung der Linie wird die MLR-Gleichung verwendet, um die folgenden Dinge zu berechnen:

  • Berechnung der Regressionskoeffizienten, die den kleinsten Fehler in der MLR-Gleichung ergeben.
  • Für das Gesamtmodell berechnet die Gleichung den t-Statistikwert.
  • P-Wert des Modells.

Gewöhnliche kleinste Quadrate

Die Methode der multiplen linearen Regression wird auch als Ordinary Least Squares (OLS) bezeichnet. Dies liegt daran, dass das MLR-Verfahren versucht, die kleinste Summe von Quadraten zu finden. Daher auch als OLS-Verfahren bekannt. Zur Implementierung dieser Methoden kann die Programmiersprache Python verwendet werden. Die zwei Methoden, die die OLS-Methode in Python anwenden können, sind:

1. SciKit-Lernen

Dies ist ein verfügbares Paket in einer Python-Programmiersprache. Die linearen Regressionsmodule müssen aus dem Paket von Scikit Learn importiert werden. Das Modell wird dann mit den Daten gefittet. Es ist eine unkomplizierte Methode und kann vielseitig eingesetzt werden.

2. StatsModels

Eine der anderen Methoden, die in der Programmiersprache Python verwendet werden, ist das Paket von Statsmodels. Dieses Paket kann bei der Implementierung der OLS-Techniken helfen.

Beispiele für mehrere lineare Regressionen

Einige der Beispiele für MLR sind unten aufgeführt:

  • Das multiple lineare Regressionsmodell kann für die Vorhersage von Ernteerträgen verwendet werden. Dies liegt daran, dass in MLR eine Assoziation zwischen den abhängigen und den unabhängigen Variablen besteht. Bei solchen Studien können zusätzliche Faktoren wie Klimafaktoren, Niederschlag, Düngermenge und Temperatur berücksichtigt werden.
  • Wenn ein Zusammenhang zwischen der Anzahl der durchgeführten Studienstunden und der Klasse GPA hergestellt werden muss, kann das MLR-Verfahren verwendet werden. In solchen Fällen ist GPA die abhängige Variable, während die andere Variable, wie z. B. Studienstunden, die erklärende Variable ist.
  • Die MLR-Technik kann zur Bestimmung des Gehalts von Führungskräften in einem Unternehmen auf der Grundlage der Erfahrung und des Alters der Führungskräfte verwendet werden. In solchen Fällen wird das Gehalt zur abhängigen Variablen, während Alter und Erfahrung die unabhängige Variable sind.

Arbeitsablauf des MLR

Die Daten sind aufzubereiten und zu analysieren, bevor sie in das Regressionsmodell einfließen. Die Daten werden hauptsächlich auf das Vorhandensein von Fehlern, Ausreißern, fehlenden Werten usw. analysiert. Hier sind einige Schritte aufgeführt, die Ihnen zeigen, wie Sie die multiplen linearen Regressionstechniken implementieren oder anwenden.

1. Variablen auswählen

Für die MLR ist ein Datensatz erforderlich, der die Prädiktorwerte enthält, die die größte Beziehung zur Antwortvariablen aufweisen. Das bedeutet, dass die maximale Information aus einer minimalen Anzahl von Variablen extrahiert werden sollte. Die Auswahl der Variablen kann aus folgenden Prozessen erfolgen.

  • Für die Suche der Variablen kann ein automatisches Verfahren gewählt werden. Tools können zusammen mit den Programmierpaketen von R und Python verwendet werden, um die besten Variablen für die MLR-Studie zu bestimmen.
  • Alle möglichen Regressionen können gewählt werden, um das Vorhandensein beliebiger Unterteile beliebiger unabhängiger Variablen zu überprüfen.
  • Der Wert von R2 kann für die Analyse der besten Variablen berücksichtigt werden. Die Variablen mit einem größeren Wert von R2 werden als am besten in das Modell passend betrachtet. Die Werte von R2 können aus den beiden Zahlen 0 und 1 bestehen. Der Wert 0 bedeutet, dass keine der unabhängigen Variablen das Ergebnis der abhängigen Variablen vorhersagen kann. Der Wert 1 bedeutet die Vorhersage durch die unabhängigen Variablen und ohne Fehler.
  • Es gibt auch einen anderen Term, nämlich die vorhergesagte Summe der Quadrate (PRESSp). Wenn das MLR-Modell einen kleineren PRESSp hat, wird angenommen, dass das Modell eine bessere Vorhersagekraft hat.

2. Modellverfeinerung

Das Modell der MLR kann durch die Prüfung folgender Kriterien verbessert werden:

  • Der Wert des globalen F-Tests. Dies wird verwendet, um die Signifikanz der Vorhersage des Ergebnisses der abhängigen Variablen durch die unabhängige Variable zu testen.
  • Angepasstes R2 zum Überprüfen der Variation der gesamten Stichprobe, nachdem die Parameter und die Stichprobengröße angepasst wurden. Der größere Wert des Begriffs zeigt an, dass die Variablen besser zu den Daten passen.
  • Die mittlere quadratische Abweichung oder der RMSE wird verwendet, um die Standardabweichung für zufällige Fehler zu schätzen.
  • Es wird davon ausgegangen, dass das MLR-Modell genaue Vorhersagen liefert, wenn der Wert des Variationskoeffizienten 10 % oder weniger beträgt.

3. Testen von Modellannahmen

Die berücksichtigten Annahmen werden im Modell der linearen Regression getestet. Diese Annahmen sollten erfüllt sein.

4. Behandlung der mit dem Modell verbundenen Probleme

In Fällen, in denen einige der im Modell berücksichtigten Annahmen verletzt werden, sollten Schritte unternommen werden, um solche Probleme zu minimieren.

5. Modellvalidierung

Dies ist der letzte Schritt in der MLR-Modellgeneration und gilt als wichtiger. Nach der Modellgenerierung muss das Modell validiert werden. Sobald es validiert ist, kann es für jede multiple lineare Regressionsanalyse verwendet werden .

Fazit

Die multiple lineare Regression ist eine der am häufigsten verwendeten Techniken in jeder Forschungsstudie, um die Korrelation zwischen den Variablen herzustellen. Es gilt auch als wichtiger Algorithmus in der Welt des maschinellen Lernens. Wenn Sie jedoch neu in der Regressionsanalyse sind, ist es immer besser, sich ein Bild von den Regressionsmodellen und den einfachen linearen Regressionen zu machen.

Holen Sie sich Machine Learning-Kurse von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Verbessern Sie Ihre Karriere in maschinellem Lernen und künstlicher Intelligenz

Bewerben Sie sich jetzt für die Executive-Zertifizierung in Ai-ml vom IIITB