Statystyki dla uczenia maszynowego: wszystko, co musisz wiedzieć
Opublikowany: 2021-03-12Statystyka i prawdopodobieństwo stanowią podstawę uczenia maszynowego i nauki o danych. To właśnie analiza statystyczna połączona z mocą obliczeniową i optymalizacją umożliwia uczenie maszynowe osiągnięcie tego, co osiąga dzisiaj. Od podstaw prawdopodobieństwa po statystyki opisowe i wnioskowania, te tematy stanowią podstawę uczenia maszynowego.
Pod koniec tego samouczka poznasz następujące rzeczy:
- Podstawy prawdopodobieństwa
- Rozkłady prawdopodobieństwa
- Normalna dystrybucja
- Miary tendencji centralnej
- Centralne twierdzenie graniczne
- Odchylenie standardowe i błąd standardowy
- Skośność i kurtoza
Spis treści
Podstawy prawdopodobieństwa
Wydarzenia niezależne i zależne
Rozważmy 2 zdarzenia, zdarzenie A i zdarzenie B. Gdy prawdopodobieństwo wystąpienia zdarzenia A nie zależy od wystąpienia zdarzenia B, to A i B są zdarzeniami niezależnymi. Na przykład, jeśli masz 2 uczciwe monety, prawdopodobieństwo trafienia orłem na obie monety wyniesie 0,5 dla obu. Stąd wydarzenia są niezależne.
Rozważmy teraz pudełko zawierające 5 kulek — 2 czarne i 3 czerwone. Prawdopodobieństwo wylosowania czarnej bili jako pierwszej wyniesie 2/5. Teraz prawdopodobieństwo ponownego wylosowania czarnej bili z pozostałych 4 bil wyniesie 1/4. W tym przypadku oba zdarzenia są zależne, ponieważ prawdopodobieństwo wylosowania czarnej bili po raz drugi zależy od tego, jaka piłka została wylosowana za pierwszym razem.
Prawdopodobieństwo krańcowe
Jest to prawdopodobieństwo zdarzenia niezależnie od wyników innych zmiennych losowych, np. P(A) lub P(B).
Wspólne prawdopodobieństwo
Jest to prawdopodobieństwo wystąpienia dwóch różnych zdarzeń w tym samym czasie, tj. dwóch (lub więcej) jednoczesnych zdarzeń, np. P(A i B) lub P(A, B).
Warunkowe prawdopodobieństwo
Jest to prawdopodobieństwo wystąpienia jednego (lub więcej) zdarzeń, biorąc pod uwagę wystąpienie innego zdarzenia lub innymi słowy, jest to prawdopodobieństwo wystąpienia zdarzenia A, gdy zdarzenie wtórne B jest prawdziwe. np. P(A dane B) lub P(A | B).
Dołącz do kursu ML online z najlepszych uniwersytetów na świecie — studiów magisterskich, programów podyplomowych dla kadry kierowniczej i zaawansowanego programu certyfikacji w ML i AI, aby przyspieszyć swoją karierę.
Rozkłady prawdopodobieństwa
Rozkłady prawdopodobieństwa przedstawiają rozkład punktów danych w przestrzeni próbki. Pomaga nam to zobaczyć prawdopodobieństwo pobrania próbek z niektórych punktów danych podczas losowej próby z populacji. Na przykład, jeśli populacja składa się z ocen uczniów szkoły, wówczas rozkład prawdopodobieństwa będzie miał oceny na osi X i liczbę uczniów z tymi ocenami na osi Y. Nazywa się to również histogramem . Histogram jest rodzajem dyskretnego rozkładu prawdopodobieństwa . Główne typy rozkładu dyskretnego to rozkład dwumianowy, rozkład Poissona i rozkład jednostajny.
Z drugiej strony ciągły rozkład prawdopodobieństwa jest tworzony dla danych, które mają ciągłą wartość. Innymi słowy, gdy może mieć nieskończony zestaw wartości, takich jak wysokość, prędkość, temperatura itp. Ciągłe rozkłady prawdopodobieństwa mają ogromne zastosowanie w nauce o danych i analizie statystycznej do sprawdzania ważności funkcji, rozkładów danych, testów statystycznych itp.
Przeczytaj także matematykę stojącą za uczeniem maszynowym
Normalna dystrybucja
Najbardziej znanym rozkładem ciągłym jest rozkład normalny, znany również jako rozkład Gaussa lub „krzywa dzwonowa”.
Rozważ normalny rozkład wzrostu ludzi. Większość wysokości jest skupiona w środkowej części, która jest wyższa i stopniowo zmniejsza się w kierunku skrajnych lewej i prawej strony, co oznacza mniejsze prawdopodobieństwo przypadkowego uzyskania tej wartości.
Ta krzywa jest wyśrodkowana w swojej średniej i może być wysoka i szczupła lub może być krótka i rozłożysta. Cienki oznacza, że jest mniej różnych wartości, które możemy próbkować. A bardziej rozłożona krzywa pokazuje, że istnieje większy zakres wartości. Ten spread jest określony przez jego Odchylenie standardowe .
Większe odchylenie standardowe, większe rozproszenie danych. Odchylenie standardowe to po prostu matematyczne wyprowadzenie innej właściwości zwanej wariancją, która określa, jak bardzo dane są „różniące się”. A wariancja jest tym, o co chodzi w danych, wariancja to informacja. Bez wariancji, bez informacji. Rozkład normalny odgrywa kluczową rolę w statystykach – Centralne Twierdzenie Limitowe.
Miary tendencji centralnej
Miary tendencji centralnej to sposoby, za pomocą których możemy podsumować zbiór danych, przyjmując pojedynczą wartość. Istnieją 3 Miary Tendencji, głównie:
1. Średnia: Średnia to tylko średnia arytmetyczna lub średnia wartości danych/cech. Suma wszystkich wartości podzielona przez liczbę wartości daje nam średnią. Średnia jest zwykle najczęstszym sposobem mierzenia środka dowolnych danych, ale w niektórych przypadkach może być myląca. Na przykład, gdy jest wiele wartości odstających, średnia zacznie przesuwać się w kierunku wartości odstających i będzie złą miarą centrum danych.
2. Mediana : Mediana to punkt danych, który leży dokładnie w środku, gdy dane są sortowane w kolejności rosnącej lub malejącej. Gdy liczba punktów danych jest nieparzysta, medianę można łatwo wybrać jako najbardziej środkowy punkt. Gdy liczba punktów danych jest parzysta, mediana jest obliczana jako średnia z 2 najbardziej środkowych punktów danych.
3. Tryb: Tryb to punkt danych, który jest najczęściej obecny w zestawie danych. Tryb pozostaje najbardziej odporny na wartości odstające, ponieważ nadal pozostaje stały w najczęstszym punkcie.
Centralne twierdzenie graniczne
Centralne twierdzenie graniczne w statystyce mówi, że przy odpowiednio dużej wielkości próby rozkład próbkowania będzie zbliżony do rozkładu normalnego niezależnie od rozkładu tej zmiennej. Pozwólcie, że w prostych słowach sprowadzę esencję powyższego stwierdzenia.
Dane mogą mieć dowolną dystrybucję. Może być idealny lub przekrzywiony w normalny sposób, może być wykładniczy lub (prawie) dowolny rozkład, o którym myślisz. Jednakże, jeśli wielokrotnie będziesz pobierać próbki z populacji i dalej wykreślać histogram ich średnich, w końcu odkryjesz, że ten nowy rozkład wszystkich średnich przypomina rozkład normalny!
Zasadniczo nie ma znaczenia, w jakim rozkładzie znajdują się twoje dane, rozkład ich środków zawsze będzie normalny.
Ale ile próbek jest potrzebnych, aby CLT było prawdziwe? Zasada kciuka mówi, że powinno być >30. Tak więc, jeśli pobierzesz 30 lub więcej próbek z dowolnego rozkładu, średnie zostaną rozłożone normalnie bez względu na rodzaj rozkładu.
Odchylenie standardowe i błąd standardowy
Odchylenie standardowe i błąd standardowy są często mylone ze sobą. Jak zapewne wiesz, odchylenie standardowe opisuje lub określa ilościowo zróżnicowanie danych po obu stronach rozkładu — mniejsze niż średnia i większe niż średnia. Jeśli Twoje punkty danych są rozłożone na duży zakres wartości, odchylenie standardowe będzie wysokie.
Teraz, jak omówiliśmy powyżej, według centralnego twierdzenia granicznego, jeśli wykreślimy średnie wszystkich próbek z populacji, rozkład tych średnich będzie znowu rozkładem normalnym. Więc będzie miał swoje własne odchylenie standardowe, prawda?
Odchylenie standardowe średnich wszystkich próbek z populacji nazywa się błędem standardowym. Wartość błędu standardowego będzie zwykle mniejsza niż odchylenie standardowe, ponieważ obliczane jest odchylenie standardowe średnich, a wartość średnich będzie mniej rozłożona niż poszczególne punkty danych z powodu agregacji.
Możesz nawet obliczyć odchylenie standardowe median, mody lub nawet odchylenie standardowe odchyleń standardowych!
Zanim pójdziesz
Koncepcje statystyczne stanowią prawdziwy rdzeń Data Science i ML. Aby móc dokonywać prawidłowych dedukcji i skutecznie rozumieć dostępne dane, musisz dobrze rozumieć pojęcia statystyczne i prawdopodobieństwa omawiane w tym samouczku.
upGrad zapewnia program Executive PG w uczeniu maszynowym i sztucznej inteligencji oraz tytuł magistra w uczeniu maszynowym i sztucznej inteligencji , które mogą poprowadzić Cię w kierunku budowania kariery. Kursy te wyjaśnią potrzebę uczenia maszynowego i dalsze kroki w celu gromadzenia wiedzy w tej domenie, obejmujące różne koncepcje, od gradientowego zejścia po uczenie maszynowe.
Czy znajomość statystyk jest obowiązkowa, aby dobrze radzić sobie z uczeniem maszynowym?
Statystyka to bardzo rozległa dziedzina. W uczeniu maszynowym statystyki zasadniczo pomagają w głębokim zrozumieniu danych. Niektóre koncepcje statystyczne, takie jak prawdopodobieństwo, interpretacja danych itp., są potrzebne w kilku algorytmach uczenia maszynowego. Jednak nie musisz być ekspertem we wszystkich tematach statystycznych, aby dobrze radzić sobie z uczeniem maszynowym. Znając tylko podstawowe pojęcia, będziesz w stanie wydajnie działać.
Czy wcześniejsza znajomość kodowania będzie pomocna w uczeniu maszynowym?
Kodowanie jest sercem uczenia maszynowego, a programiści, którzy rozumieją, jak dobrze kodować, będą mieli głęboką wiedzę na temat działania algorytmów, a tym samym będą mogli skuteczniej monitorować i optymalizować te algorytmy. Nie musisz być ekspertem w żadnym języku programowania, chociaż każda wcześniejsza wiedza będzie korzystna. Jeśli jesteś początkującym, Python jest dobrym wyborem, ponieważ jest łatwy do nauczenia i ma przyjazną dla użytkownika składnię.
Jak używamy rachunku różniczkowego w życiu codziennym?
Prognozy pogody opierają się na szeregu zmiennych, takich jak prędkość wiatru, wilgotność i temperatura, które można obliczyć tylko za pomocą rachunku różniczkowego. Wykorzystanie rachunku różniczkowego można zaobserwować również w inżynierii lotniczej na różne sposoby. Rachunek jest również wykorzystywany przez przemysł motoryzacyjny do poprawy i zapewnienia dobrego bezpieczeństwa pojazdów. Jest również używany przez firmy obsługujące karty kredytowe do celów płatniczych.