Binarna regresja logistyczna: przegląd, możliwości i założenia

Opublikowany: 2021-10-05

Jedna z najbardziej akceptowanych definicji uczenia maszynowego brzmi mniej więcej tak:

„Mówi się, że program komputerowy uczy się z doświadczenia E w odniesieniu do pewnej klasy zadań T i pomiaru wydajności P, jeśli jego wydajność w zadaniach w T, mierzona przez P, poprawia się wraz z doświadczeniem E”.

Teraz, aby z czasem poprawić wydajność maszyny w tej samej klasie zadań, stosuje się różne algorytmy do optymalizacji wydajności maszyny i zbliżenia jej do pożądanych wyników. Analiza regresji jest jedną z podstawowych i najczęściej używanych technik pozwalających na poprawę wydajności maszyny.

Składa się z szeregu technik uczenia maszynowego do przewidywania ciągłej zmiennej wyjściowej na podstawie wartości jednej lub większej liczby zmiennych predykcyjnych. Analiza regresji ma na celu opracowanie równania matematycznego, które może zdefiniować zmienną ciągłą jako funkcję zmiennej predykcyjnej.

W jednym z naszych wcześniejszych artykułów przyjrzeliśmy się regresji logistycznej i sposobom implementacji regresji logistycznej w Pythonie. Rozmawialiśmy również krótko o trzech różnych rodzajach regresji logistycznych w uczeniu maszynowym. W tym artykule przedstawimy nieco szczegółowy przewodnik po binarnej regresji logistycznej wraz z jej przeglądem, możliwościami i założeniami.

Spis treści

Przegląd binarnej regresji logistycznej

Regresję logistyczną binarną lub dwumianową można rozumieć jako typ regresji logistycznej, który zajmuje się scenariuszami, w których obserwowane wyniki dla zmiennych zależnych mogą być tylko binarne, tj. mogą mieć tylko dwa możliwe typy. Te dwa typy klas mogą mieć wartość 0 lub 1, zaliczyć lub przegrać, martwe lub żywe, wygrane lub przegrane i tak dalej.

Wielomianowa regresja logistyczna działa w scenariuszach, w których wynik może mieć więcej niż dwa możliwe typy – choroba A vs choroba B vs choroba C – które nie są w określonej kolejności. Jeszcze innym rodzajem regresji logistycznej jest porządkowa regresja logistyczna, która zajmuje się zmiennymi zależnymi w uporządkowany sposób.

W binarnej regresji logistycznej możliwe wyniki są ogólnie definiowane jako 0 lub 1, ponieważ skutkuje to najprostszą interpretacją i zrozumieniem modelu regresji. Jeśli konkretny wynik dla dowolnej zmiennej zależnej jest wynikiem pomyślnym lub godnym uwagi, jest kodowany jako 0, a jeśli jest nieudany lub niepomyślny, jest kodowany jako 0.

Mówiąc prościej, binarna regresja logistyczna może być używana do ostrożnego i dokładnego przewidywania prawdopodobieństwa bycia przypadkiem na podstawie wartości predyktorów lub zmiennych niezależnych.

Możliwości binarnej regresji logistycznej – rodzaje pytań, na które można odpowiedzieć

Jak wspomniano powyżej, binarna regresja logistyczna idealnie nadaje się do scenariuszy, w których dane wyjściowe mogą należeć do jednej z dwóch klas lub grup. W rezultacie, binarna regresja logistyczna najlepiej nadaje się do odpowiedzi na pytania o następującym charakterze:

  • Czy prawdopodobieństwo zachorowania na raka zmienia się z każdym dodatkowym kilogramem masy ciała osoby z nadwagą?
  • Czy to prawdopodobieństwo zmienia się dla każdej paczki papierosów wypalanych dziennie?
  • Czy masa ciała, spożycie tłuszczu, spożycie kalorii i wiek wpływają na prawdopodobieństwo wystąpienia zawału serca?

Jak widać, odpowiedzi na wszystkie powyższe trzy pytania mogą brzmieć tak lub nie, 0 lub 1. Binarna regresja logistyczna może być zatem użyta do precyzyjnej odpowiedzi na te pytania.

Główne założenie binarnej regresji logistycznej

Podobnie jak w przypadku każdego innego algorytmu uczenia maszynowego, binarna regresja logistyczna również działa na pewnych założeniach. Oto te:

  • Zmienna zależna jest dychotomiczna. Oznacza to, że jest albo obecny, albo nieobecny, ale nigdy obu naraz.
  • W danych nie powinno być żadnych wartości odstających.
  • Pomiędzy różnymi predyktorami nie powinno być wysokiej korelacji ani współliniowości. Można to ocenić za pomocą macierzy korelacji między różnymi predyktorami.

Na zakończenie

Binarna regresja logistyczna pomaga w wielu przypadkach użycia uczenia maszynowego. Od poszukiwania osób niespłacających pożyczki po pomoc firmom w utrzymaniu klientów — binarna regresja logistyczna może zostać rozszerzona, aby rozwiązać nawet bardziej złożone problemy biznesowe. Należy jednak pamiętać, że to tylko jeden z oceanów technik algorytmów uczenia maszynowego. Po opanowaniu analizy regresji jesteś na dobrej drodze do radzenia sobie z bardziej złożonymi i zniuansowanymi tematami.

Jeśli jednak nadal zmagasz się ze zrozumieniem analizy regresji i rozpoczęciem przygody z uczeniem maszynowym, polecamy Ci naszą listę kursów z uczenia maszynowego . W upGrad mamy bazę uczących się w ponad 85 krajach, z ponad 40 000 opłacanymi uczniami na całym świecie, a nasze programy wpłynęły na ponad 500 000 pracujących profesjonalistów.

Nasz Master of Science in Machine Learning i Artificial Intelligence , oferowany we współpracy z Liverpool John Moores University, ma na celu pomóc uczniom zacząć od zera i zdobyć wystarczającą ilość wiedzy do pracy nad prawdziwymi projektami. Nasza pomoc w karierze 360 ​​stopni zapewni, że będziesz w pełni przygotowany do objęcia czołowych ról w branży. Skontaktuj się z nami już dziś i poznaj moc uczenia się partnerskiego i globalnego networkingu!

Do czego służy statystyczny model bayesowski?

Bayesowskie modele statystyczne są oparte na procedurach matematycznych i wykorzystują pojęcie prawdopodobieństwa do rozwiązywania problemów statystycznych. Dostarczają dowodów, aby ludzie opierali się na nowych danych i sporządzali prognozy na podstawie parametrów modelu.

Co to jest wnioskowanie bayesowskie?

Jest to przydatna technika w statystyce, w której polegamy na nowych danych i informacjach, aby zaktualizować prawdopodobieństwo hipotezy przy użyciu twierdzenia Bayesa.

Czy modele bayesowskie są wyjątkowe?

Modele bayesowskie są unikalne pod tym względem, że wszystkim parametrom w modelu statystycznym, niezależnie od tego, czy są obserwowane, czy nie, przypisywany jest łączny rozkład prawdopodobieństwa.