Regresja liniowa wyjaśniona na przykładzie

Opublikowany: 2021-10-13

Regresja liniowa jest jednym z najczęstszych algorytmów ustalania relacji między zmiennymi zbioru danych. Model matematyczny jest niezbędnym narzędziem dla naukowców zajmujących się danymi w przeprowadzaniu analiz predykcyjnych. Ten blog wprowadzi Cię w podstawową koncepcję, a także omówi przykład regresji liniowej.

Spis treści

Czym są modele regresji?

Model regresji opisuje związek między zmiennymi zestawu danych, dopasowując linię do obserwowanych danych. Jest to analiza matematyczna, która określa, które zmienne mają największy wpływ i mają największe znaczenie. Określa również, na ile jesteśmy pewni co do zaangażowanych czynników. Dwa rodzaje zmiennych to:

  • Zależny: czynnik, który próbujesz przewidzieć lub zrozumieć.
  • Niezależny: Czynniki, co do których podejrzewasz, że mają wpływ na zmienną zależną.

Modele regresji stosuje się, gdy zmienna zależna jest ilościowa. Może być binarny w przypadku regresji logistycznej. Ale na tym blogu skupimy się głównie na modelu regresji liniowej, w którym obie zmienne są ilościowe.

Załóżmy, że masz dane o miesięcznej sprzedaży i średnich miesięcznych opadach z ostatnich trzech lat. Załóżmy, że wykreśliłeś te informacje na wykresie. Oś y reprezentuje liczbę sprzedaży (zmienna zależna), a oś x przedstawia sumę opadów. Każda kropka na wykresie pokazywałaby, ile padało w danym miesiącu i odpowiadała jej liczba sprzedaży.

Jeśli spojrzysz jeszcze raz na dane, możesz zauważyć wzór. Załóżmy, że sprzedaż będzie wyższa w dni, w których częściej padało. Ale trudno byłoby oszacować, ile zwykle można sprzedać, gdy pada określona ilość, powiedzmy 3 lub 4 cale. Możesz uzyskać pewien stopień pewności, rysując linię przez środek wszystkich punktów danych na wykresie.

Obecnie Excel i oprogramowanie statystyczne, takie jak SPSS, R lub STATA, mogą pomóc w narysowaniu linii, która najlepiej pasuje do dostępnych danych. Ponadto możesz również wyprowadzić wzór wyjaśniający nachylenie linii.

Rozważ tę formułę dla powyższego przykładu: Y = 200 + 3X. Mówi ci, że sprzedałeś 200 sztuk, kiedy w ogóle nie padało (tzn. gdy X=0). Zakładając, że zmienne pozostaną takie same w miarę postępów, każdy dodatkowy cal deszczu spowodowałby średnią sprzedaż o trzy kolejne jednostki. Sprzedałbyś 203 jednostki, jeśli pada 1 cal, 206 jednostek, jeśli pada 2 cale, 209 cali, jeśli pada 3 cale i tak dalej.

Zazwyczaj wzór linii regresji zawiera również składnik błędu (Y = 200 + 3 X + składnik błędu). Uwzględnia fakt, że predyktory niezależne nie zawsze mogą być doskonałymi predyktorami zmiennych zależnych. A linia podaje jedynie oszacowanie na podstawie dostępnych danych. Im większy składnik błędu, tym mniej pewna będzie linia regresji.

Podstawy regresji liniowej

Prosty model regresji liniowej wykorzystuje linię prostą do oszacowania związku między dwiema zmiennymi ilościowymi. Jeśli masz więcej niż jedną zmienną niezależną, zamiast tego użyjesz wielokrotnej regresji liniowej.

Prosta analiza regresji liniowej dotyczy dwóch rzeczy. Po pierwsze, informuje o sile związku między zależnymi i niezależnymi czynnikami danych historycznych. Po drugie, daje wartość zmiennej zależnej przy określonej wartości zmiennej niezależnej.

Rozważmy ten przykład regresji liniowej. Badacz społeczny zainteresowany poznaniem, w jaki sposób dochody poszczególnych osób wpływają na ich poziom szczęścia, przeprowadza prostą analizę regresji, aby sprawdzić, czy występuje zależność liniowa. Badacz dokonuje ilościowych wartości zmiennej zależnej (szczęście) i zmiennej niezależnej (dochód) poprzez badanie osób w określonym położeniu geograficznym.

Na przykład dane zawierają dane o dochodach i poziomach szczęścia (w skali od 1 do 10) od 500 osób z indyjskiego stanu Maharashtra. Następnie badacz wykreśli punkty danych i dopasuje linię regresji, aby wiedzieć, jak bardzo zarobki respondentów wpływają na ich samopoczucie.

Analiza regresji liniowej opiera się na kilku założeniach dotyczących danych. Są:

  • Liniowość relacji między zmienną zależną i niezależną, tj. linia najlepszego dopasowania jest prosta, a nie zakrzywiona.)
  • Jednorodność wariancji, czyli wielkość błędu w predykcji, nie zmienia się istotnie dla różnych wartości zmiennej niezależnej.
  • Niezależność obserwacji w zbiorze danych, odnosząca się do braku ukrytych relacji.
  • Normalność rozkładu danych dla zmiennej zależnej. Możesz sprawdzić to samo za pomocą funkcji hist() w R.

Matematyka za regresją liniową

y = c + ax to standardowe równanie, w którym y to wyjście (które chcemy oszacować), x to zmienna wejściowa (którą znamy), a to nachylenie prostej, a c to stała.

Tutaj dane wyjściowe zmieniają się liniowo w zależności od danych wejściowych. Nachylenie określa, jak bardzo x wpływa na wartość y. Stała jest wartością y, gdy x wynosi zero.

Zrozummy to za pomocą innego przykładu regresji liniowej. Wyobraź sobie, że jesteś zatrudniony w firmie motoryzacyjnej i chcesz zbadać indyjski rynek samochodów osobowych. Załóżmy, że krajowy PKB wpływa na sprzedaż samochodów osobowych. Aby lepiej planować dla biznesu, możesz chcieć znaleźć równanie liniowe liczby sprzedanych pojazdów w kraju dotyczące PKB

W tym celu potrzebne są przykładowe dane dotyczące rocznej sprzedaży samochodów osobowych oraz dane dotyczące PKB za każdy rok. Możesz odkryć, że PKB z bieżącego roku wpływa na sprzedaż w przyszłym roku: niezależnie od tego, który rok PKB był niższy, sprzedaż pojazdów była niższa w kolejnym roku.

Aby przygotować te dane do analizy uczenia maszynowego, musisz wykonać trochę więcej pracy.

  • Proszę zacząć od równania y = c + ax, gdzie y to liczba pojazdów sprzedanych w ciągu roku, a x to PKB z poprzedniego roku.
  • Aby znaleźć c i an w powyższym problemie, możesz stworzyć model za pomocą Pythona.

Zapoznaj się z tym samouczkiem , aby zrozumieć metodę krok po kroku

Gdybyś miał wykonać prostą regresję liniową w R, interpretacja i raportowanie wyników stałoby się znacznie łatwiejsze.

Dla tego samego przykładu regresji liniowej zmieńmy równanie na y=B0 + B1x + e. Znowu y jest zmienną zależną, a x jest zmienną niezależną lub znaną. B0 to stała lub wyraz wolny, B1 to nachylenie współczynnika regresji, a e to błąd oszacowania.

Oprogramowanie statystyczne, takie jak R, może znaleźć linię najlepszego dopasowania w danych i wyszukać B1, który minimalizuje całkowity błąd modelu.

Aby rozpocząć, wykonaj następujące kroki:

  • Załaduj zestaw danych sprzedaży samochodów osobowych do środowiska R.
  • Uruchom polecenie, aby wygenerować model liniowy opisujący zależność między sprzedażą samochodów osobowych a PKB.
    • sprzedaz.gdp.lm <- lm(gdp ~ sprzedaz, dane = sprzedaz.dane)
  • Użyj funkcji summary(), aby wyświetlić najważniejsze parametry modelu liniowego w formie tabelarycznej.
    • podsumowanie(sprzedaż.gdp.lm)

Uwaga: dane wyjściowe będą zawierały wyniki, takie jak wywołania, wartości rezydualne i współczynniki. Tabela „Zadzwoń” podaje zastosowaną formułę. „Residuals” wyszczególniają medianę, kwartyle, wartości minimalne i maksymalne, aby wskazać, jak dobrze model pasuje do rzeczywistych danych. Pierwszy wiersz tabeli „Współczynniki” szacuje punkt przecięcia z osią y, a drugi wiersz podaje współczynnik regresji. Kolumny tej tabeli mają etykiety takie jak Szacunek, Std. Błąd, wartość t i wartość p.

Ucz się kursu uczenia maszynowego z najlepszych uniwersytetów na świecie. Zdobywaj programy Masters, Executive PGP lub Advanced Certificate Programy, aby przyspieszyć swoją karierę.

  • Wstaw wartość (punkt przecięcia) do równania regresji, aby przewidzieć wartości sprzedaży w całym zakresie wartości PKB.
  • Zbadaj kolumnę (Oszacowanie), aby poznać efekt. Współczynnik regresji powie Ci, jak bardzo zmienia się sprzedaż wraz ze zmianą PKB.
  • Sprawdź różnicę w szacowanej relacji między sprzedażą a PKB na etykiecie (Błąd standardowy).
  • Spójrz na statystykę testu pod (wartość t), aby dowiedzieć się, czy wyniki pojawiły się przypadkowo. Im większa wartość t, tym mniejsze prawdopodobieństwo.
  • Przejrzyj kolumnę Pr(>|t|) lub wartości p, aby zobaczyć szacowany wpływ PKB na sprzedaż, jeśli hipoteza zerowa jest prawdziwa.
  • Przedstaw swoje wyniki z szacowanym efektem, błędem standardowym i wartościami p, jasno komunikując, co oznacza współczynnik regresji.
  • Dołącz wykres do raportu. Prostą regresję liniową można przedstawić w postaci wykresu z linią i funkcją regresji.
  • Oblicz błąd, mierząc odległość obserwowanych i przewidywanych wartości y, podnosząc do kwadratu odległości przy każdej wartości x i obliczając ich średnią.

Wniosek

W powyższym przykładzie regresji liniowej przedstawiliśmy przegląd generowania prostego modelu regresji liniowej, znajdowania współczynnika regresji i obliczania błędu oszacowania. Poruszyliśmy również kwestię znaczenia Pythona i R dla predykcyjnej analizy danych i statystyk. Praktyczna wiedza na temat takich narzędzi ma dziś kluczowe znaczenie dla kariery w nauce danych i uczeniu maszynowym.

Jeśli chcesz doskonalić swoje umiejętności programowania, sprawdź Advanced Certificate Program in Machine Learning firmy IIT Madras i upGrad. Kurs online obejmuje również studia przypadków, projekty i eksperckie sesje mentoringowe, aby nadać procesowi szkoleniowemu orientację branżową.

Rozwiń swoją karierę w dziedzinie uczenia maszynowego i sztucznej inteligencji

Złóż wniosek o Złóż wniosek o tytuł magistra nauki w zakresie uczenia maszynowego i sztucznej inteligencji od LJMU