Jak wykonać analizę regresji wielokrotnej?

Opublikowany: 2021-11-23

W analizie statystycznej modele regresji są najczęściej używane, gdy jest to konieczne do opracowania relacji między rozważanymi zmiennymi. Związek ustala się, dopasowując linię między wszystkimi zmiennymi. Aby zrozumieć zachowanie zmiennej zależnej, wykorzystywane są modele regresji. Dzięki nim użytkownik wie, jak zmienne zależne zmieniają się wraz ze zmianą zmiennych niezależnych.

Regresja liniowa wielokrotna jest jedną z takich technik, która pomaga nam oszacować związek między tymi zmiennymi, tj. zmienną zależną i zmienną niezależną. W tym artykule skupimy się na technice wielokrotnych regresji liniowych i sposobie jej przeprowadzania.

Spis treści

Wielokrotne regresje liniowe

Wielokrotne regresje liniowe są formą techniki statystycznej stosowanej do przewidywania wyników dowolnej zmiennej odpowiedzi. Jednym z celów tej techniki jest ustalenie liniowej zależności między zmienną niezależną i zmienną zależną. Analiza wielowymiarowej regresji liniowej jest formą analizy wielowymiarowej, która obejmuje więcej niż jedną formę obserwacji.

Przeważnie technikę można przeprowadzić, jeśli chcesz wiedzieć o następujących rzeczach:

  • Aby zrozumieć, jak silny jest związek między zmiennymi. Ponadto, jeśli chcesz zrozumieć związek między zmienną niezależną i zmienną zależną, w takich przypadkach możemy użyć techniki wielokrotnych regresji liniowych.
  • Technikę można wykorzystać do przewidywania wartości zmiennych zależnych odpowiadających zmiennym niezależnym.

Założenia uwzględnione w wielokrotnych regresjach liniowych

W technikach wielokrotnych regresji liniowych brane są pod uwagę pewne założenia. Oto kilka wymienionych założeń dla MLR:

1. Jednorodność wariancji

Jest również znany jako homoskedastyczność. Oznacza to, że podczas przewidywania wyniku nie ma znaczących zmian w błędzie związanym z przewidywaniem wyniku poprzez wartości zmiennych niezależnych. Metoda zakłada, że ​​wielkość błędu jest taka sama w całym modelu MLR. Analityk musi wykreślić reszty, które są standaryzowane w stosunku do przewidywanych wartości. Pomaga to w ustaleniu, czy istnieje sprawiedliwy rozkład punktów między zmiennymi niezależnymi. Do wykreślania danych można użyć wykresu rozrzutu.

2. Niezależność obserwacji

Obserwacje uwzględnione w wielokrotnej regresji liniowej są zbierane za pomocą odpowiednich technik statystycznych. Oznacza to, że między zebranymi zmiennymi nie ma żadnych ukrytych ani istniejących relacji. Czasami w tej technice istnieją scenariusze, w których niektóre zmienne są skorelowane z innymi zmiennymi. Dlatego przed opracowaniem modelu regresji zawsze ważne jest sprawdzenie tych skorelowanych zmiennych. Usunięcie jednej ze zmiennych z rozwoju modelu jest zawsze lepsze w przypadku zmiennych wykazujących wysoką korelację.

3. Nie ma korelacji między zmiennymi niezależnymi

W inny sposób można wspomnieć, że w danych nie powinno być żadnej współliniowości. Jeśli występuje jakakolwiek wielokolinearność, analitykowi trudno będzie zidentyfikować zmienną przyczyniającą się do wariancji zmiennej zależnej. Dlatego jedną z metod, które uważa się za najlepsze do testowania założenia, jest metoda zmienności współczynnika inflacji.

4. Normalność:

Oznacza to, że zbiór danych ma rozkład normalny.

5. Liniowość

Szukając zależności między zmiennymi, próbuje się dopasować linię prostą między zmiennymi. Powszechnie przyjmuje się, że istnieje liniowa zależność między zmiennymi niezależnymi a zmiennymi zależnymi. Jednym ze sposobów sprawdzenia zależności liniowej jest utworzenie wykresów rozrzutu, a następnie ich wizualizacja. Umożliwia to użytkownikowi obserwację liniowości występującej w obserwacjach. Jeśli w przypadku braku liniowej zależności, analityk musi powtórzyć swoją analizę. Oprogramowanie statystyczne, takie jak SPSS, może być użyte do przeprowadzenia MLR.

Matematyczna reprezentacja wielokrotnej regresji liniowej

Matematyczny obraz modelu wielokrotnej regresji liniowej jest przedstawiony w poniższym równaniu:

W powyższym równaniu

  • Y reprezentuje zmienną wyjściową,
  • X reprezentuje zmienne wejściowe,
  • Β reprezentuje współczynnik związany z każdym terminem.
  • B0 jest wartością przecięcia z osią y, co oznacza wartość Y, gdy wszystkie inne predyktory są nieobecne.

Czasami równanie MLR składa się z terminu błędu reprezentowanego przez termin „e” na końcu składników równania.

Znajdując najlepsze dopasowanie linii, równanie MLR służy do obliczania następujących rzeczy:

  • Obliczanie współczynników regresji, które powodują najmniejszy błąd w równaniu MLR.
  • Dla całego modelu równanie oblicza wartość statystyki t.
  • Wartość P modelu.

Zwykłe najmniejsze kwadraty

Metoda wielokrotnej regresji liniowej jest również znana jako zwykłe najmniejsze kwadraty (OLS). Dzieje się tak, ponieważ metoda MLR próbuje znaleźć najmniejszą sumę kwadratów. Stąd znana również jako metoda OLS. Do implementacji tych metod można użyć języka programowania Python. Dwie metody, które mogą zastosować metodę OLS w Pythonie to:

1. Nauka SciKit

Jest to dostępny pakiet w języku programowania Python. Moduły regresji liniowej mają być importowane z pakietu Scikit Learn. Model jest następnie dopasowywany do danych. Jest to prosta metoda i może być szeroko stosowana.

2. StatsModele

Jedną z innych metod stosowanych w języku programowania Python jest pakiet Statsmodels. Pakiet ten może pomóc we wdrożeniu technik OLS.

Przykłady wielokrotnych regresji liniowych

Poniżej wymieniono kilka przykładów MLR:

  • Model wielokrotnej regresji liniowej można wykorzystać do przewidywania plonów. Dzieje się tak, ponieważ w MLR istnieje związek między zmienną zależną a zmienną niezależną. W tego typu badaniach można uwzględnić dodatkowe czynniki, takie jak czynniki klimatyczne, opady, poziom nawozu, temperatura.
  • W przypadku konieczności ustalenia związku między liczbą godzin prowadzonych badań a klasą GPA można zastosować metodę MLR. W takich przypadkach GPA będzie zmienną zależną, podczas gdy inna zmienna, taka jak godziny nauki, będzie zmienną objaśniającą.
  • Technikę MLR można wykorzystać do ustalenia wynagrodzenia kadry zarządzającej w firmie na podstawie doświadczenia i wieku kadry zarządzającej. W takich przypadkach zmienną zależną będzie wynagrodzenie, a zmienną niezależną wiek i doświadczenie.

Przepływ pracy MLR

Dane należy przygotować i przeanalizować przed przejściem do modelu regresji. Dane są w większości analizowane pod kątem występowania błędów, wartości odstających, brakujących wartości itp. Oto kilka wymienionych kroków, aby pokazać, jak wdrożyć lub zastosować techniki regresji liniowej wielokrotnej.

1. Wybór zmiennych

MLR wymaga posiadania zestawu danych zawierającego wartości predyktorów, które mają największy związek ze zmienną odpowiedzi. Oznacza to, że maksymalna ilość informacji powinna zostać wydobyta z minimalnej liczby zmiennych. Wyboru zmiennych można dokonać z następujących procesów.

  • Można wybrać automatyczną procedurę wyszukiwania zmiennych. Narzędzia mogą być używane wraz z pakietami programistycznymi R i Python, aby wybrać najlepsze zmienne do badania MLR.
  • W przypadku wszystkich możliwych regresji można wybrać opcję sprawdzania obecności dowolnych podczęści dowolnych zmiennych niezależnych.
  • Wartość R2 można wziąć pod uwagę do analizy najlepszych zmiennych. Zmienne o większej wartości R2 są uważane za najlepiej dopasowane do modelu. Wartości R2 mogą być z dwóch liczb, 0 i 1. Wartość 0 oznacza, że ​​żadna ze zmiennych niezależnych nie może przewidzieć wyniku zmiennych zależnych. Wartość 1 oznacza przewidywanie przez zmienne niezależne i bez błędów.
  • Jest jeszcze inny wyraz, który jest przewidywaną sumą kwadratów (PRESSp). Jeśli model MLR ma mniejszy PRESSp, uważa się, że model ma lepszą siłę predykcyjną.

2. Udoskonalenie modelu

Model MLR można ulepszyć poprzez zbadanie następujących kryteriów:

  • Wartość globalnego testu F. Służy do testowania istotności przewidywania wyniku zmiennej zależnej przez zmienną niezależną.
  • Skorygowany R2 w celu sprawdzenia zmienności całej próbki po dostosowaniu parametrów i wielkości próbki. Większa wartość terminu wskazuje, że zmienne lepiej pasują do danych.
  • Odchylenie średnie kwadratowe lub RMSE służy do oszacowania odchylenia standardowego dla błędów losowych.
  • Uważa się, że model MLR daje dokładne prognozy, jeśli wartość współczynnika zmienności wynosi 10% lub mniej.

3. Testowanie założeń modelu

Rozważane założenia są testowane w modelu regresji liniowej. Te założenia powinny być spełnione.

4. Rozwiązywanie problemów związanych z modelem

W przypadku naruszenia niektórych założeń uwzględnionych w modelu, należy podjąć kroki w celu zminimalizowania takich problemów.

5. Walidacja modelu

Jest to ostatni krok w generacji modelu MLR i jest uważany za ważny. Po wygenerowaniu modelu model wymaga walidacji. Po walidacji można go użyć do dowolnej analizy regresji liniowej wielokrotnej .

Wniosek

Wielokrotna regresja liniowa jest jedną z najczęściej stosowanych technik w każdym badaniu badawczym w celu ustalenia korelacji między zmiennymi. Jest również uważany za ważny algorytm w świecie uczenia maszynowego. Jednakże, jeśli jesteś nowy w analizie regresji, zawsze lepiej jest zapoznać się z modelami regresji i prostymi regresjami liniowymi.

Pobierz kursy uczenia maszynowego z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Rozwiń swoją karierę w dziedzinie uczenia maszynowego i sztucznej inteligencji

Złóż wniosek teraz o certyfikat dla kadry kierowniczej w Ai-ml z IIITB