Czym jest hipoteza w uczeniu maszynowym? Jak sformułować hipotezę?

Opublikowany: 2021-03-12

Testowanie hipotez to szeroki temat, który ma zastosowanie w wielu dziedzinach. Kiedy badamy statystyki, Testowanie Hipotezy obejmuje dane z wielu populacji, a test ma na celu sprawdzenie, jak istotny jest wpływ na populację.

Obejmuje to obliczenie wartości p i porównanie jej z wartością krytyczną lub alfa. Jeśli chodzi o uczenie maszynowe, testowanie hipotez zajmuje się znajdowaniem funkcji, która najlepiej przybliża niezależne cechy do celu. Innymi słowy, zmapuj wejścia na wyjścia.

Pod koniec tego samouczka poznasz następujące rzeczy:

  • Czym jest hipoteza w statystyce a uczenie maszynowe
  • Czym jest przestrzeń Hipotezy?
  • Proces tworzenia hipotezy

Spis treści

Hipoteza w statystyce

Hipoteza to założenie, że wynik jest falsyfikowalny, co oznacza, że ​​można udowodnić, że jest błędny na podstawie pewnych dowodów. Hipotezę można odrzucić lub nie można jej odrzucić. Nigdy nie przyjmujemy żadnych hipotez w statystykach, ponieważ chodzi o prawdopodobieństwa i nigdy nie jesteśmy w 100% pewni. Przed rozpoczęciem eksperymentu stawiamy dwie hipotezy:

1. Hipoteza zerowa: mówi, że nie ma znaczącego efektu

2. Hipoteza alternatywna: mówi, że istnieje pewien znaczący efekt

W statystyce porównujemy wartość P (która jest obliczana przy użyciu różnych rodzajów testów statystycznych) z wartością krytyczną lub alfa. Im większa wartość P, tym większe prawdopodobieństwo, co z kolei oznacza, że ​​efekt nie jest istotny i dochodzimy do wniosku, że nie odrzucamy hipotezy zerowej .

Innymi słowy, jest wysoce prawdopodobne, że efekt wystąpił przypadkowo i nie ma jego statystycznego znaczenia. Z drugiej strony, jeśli otrzymamy bardzo małą wartość P, oznacza to, że prawdopodobieństwo jest małe. Oznacza to, że prawdopodobieństwo przypadkowego zajścia zdarzenia jest bardzo niskie.

Dołącz do kursu ML i AI online z najlepszych uniwersytetów na świecie – Masters, Executive Post Graduate Programs i Advanced Certificate Program in ML & AI, aby przyspieszyć swoją karierę.

Poziom istotności

Poziom istotności jest ustawiany przed rozpoczęciem eksperymentu. Określa to, jaka jest tolerancja błędu i na jakim poziomie efekt można uznać za znaczący. Typowa wartość poziomu istotności wynosi 95%, co oznacza również, że istnieje 5% szans na to, że zostaniemy oszukani przez test i popełnimy błąd. Innymi słowy, wartość krytyczna to 0,05, która działa jako próg. Podobnie, gdyby poziom istotności został ustawiony na 99%, oznaczałoby to wartość krytyczną 0,01%.

Wartość P

Na populacji i próbce przeprowadza się test statystyczny w celu ustalenia wartości P, którą następnie porównuje się z wartością krytyczną. Jeśli wartość P okaże się mniejsza niż wartość krytyczna, możemy stwierdzić, że efekt jest znaczący, a zatem odrzucić Hipotezę Zerową (która mówi, że nie ma znaczącego efektu). Jeśli wartość P okaże się większa niż wartość krytyczna, możemy stwierdzić, że nie ma znaczącego efektu, a zatem nie możemy odrzucić Hipotezy Zerowej.

Ponieważ nigdy nie możemy być w 100% pewni, zawsze istnieje szansa, że ​​nasze testy będą poprawne, ale wyniki będą mylące. Oznacza to, że albo odrzucamy wartość null, gdy w rzeczywistości nie jest ona błędna. Może to również oznaczać, że nie odrzucamy wartości null, gdy faktycznie jest ona fałszywa. Są to błędy typu 1 i typu 2 testowania hipotez.

Przykład

Weź pod uwagę, że pracujesz dla producenta szczepionek, a Twój zespół opracowuje szczepionkę na Covid-19. Aby udowodnić skuteczność tej szczepionki, trzeba statystycznie udowodnić, że jest skuteczna na ludziach. Dlatego bierzemy dwie grupy osób o równej wielkości i właściwościach. Grupie A podajemy szczepionkę, a grupie B placebo. Przeprowadzamy analizę, aby zobaczyć, ile osób w grupie A zostało zarażonych, a ile w grupie B.

Testujemy to wiele razy, aby sprawdzić, czy grupa A rozwinęła jakąkolwiek znaczącą odporność na Covid-19, czy nie. Obliczamy wartość P dla wszystkich tych testów i wnioskujemy, że wartości P są zawsze mniejsze niż wartość krytyczna. Dlatego możemy bezpiecznie odrzucić hipotezę zerową i stwierdzić, że rzeczywiście istnieje znaczący efekt.

Przeczytaj: Wyjaśnienie modeli uczenia maszynowego

Hipoteza w uczeniu maszynowym

Hipoteza w uczeniu maszynowym jest używana, gdy w nadzorowanym uczeniu maszynowym musimy znaleźć funkcję, która najlepiej odwzorowuje dane wejściowe na dane wyjściowe. Można to również nazwać aproksymacją funkcji, ponieważ przybliżamy funkcję docelową, która najlepiej mapuje funkcję do celu.

1. Hipoteza(h): Hipoteza może być pojedynczym modelem, który mapuje cechy do celu, jednak może być wynikiem/metrykami. Hipoteza jest oznaczona przez „ h ”.

2. Przestrzeń Hipotezy(H): Przestrzeń Hipotezy to kompletna gama modeli i ich możliwych parametrów, które można wykorzystać do modelowania danych. Jest oznaczony przez „ H ”. Innymi słowy, Hipoteza jest podzbiorem Przestrzeni Hipotezy.

Proces tworzenia hipotezy

Zasadniczo mamy dane treningowe (niezależne cechy i cel) oraz funkcję celu, która mapuje cechy do celu. Są one następnie uruchamiane na różnych typach algorytmów przy użyciu różnych typów konfiguracji ich przestrzeni hiperparametrów, aby sprawdzić, która konfiguracja daje najlepsze wyniki. Dane uczące są wykorzystywane do formułowania i znajdowania najlepszej hipotezy z przestrzeni hipotez. Dane testowe służą do walidacji lub weryfikacji wyników uzyskanych przez hipotezę.

Rozważmy przykład, w którym mamy zbiór danych składający się z 10000 instancji z 10 funkcjami i jednym celem. Cel jest binarny, co oznacza, że ​​jest to problem klasyfikacji binarnej. Powiedzmy, że modelujemy te dane za pomocą regresji logistycznej i uzyskujemy dokładność 78%. Możemy narysować linię regresji dzielącą obie klasy. To jest Hipoteza(h). Następnie testujemy tę hipotezę na danych testowych i uzyskujemy wynik 74%.

Teraz ponownie załóżmy, że dopasowujemy model RandomForests do tych samych danych i uzyskujemy wynik dokładności wynoszący 85%. To już dobre ulepszenie w stosunku do regresji logistycznej. Teraz decydujemy się dostroić hiperparametry RandomForests, aby uzyskać lepszy wynik na tych samych danych. Przeszukujemy siatkę i uruchamiamy wiele modeli RandomForest na danych i sprawdzamy ich wydajność. Na tym etapie zasadniczo przeszukujemy Przestrzeń Hipotezy (H), aby znaleźć lepszą funkcję. Po zakończeniu wyszukiwania siatki uzyskujemy najlepszy wynik 89% i kończymy wyszukiwanie.

Teraz wypróbowujemy również więcej modeli, takich jak XGBoost, Support Vector Machine i twierdzenie Naive Bayes, aby przetestować ich wydajność na tych samych danych. Następnie wybieramy najbardziej wydajny model i testujemy go na danych testowych, aby zweryfikować jego wydajność i uzyskać wynik 87%.

Zamówienie: projekty i tematy związane z uczeniem maszynowym

Zanim pójdziesz

Hipoteza jest kluczowym aspektem uczenia maszynowego i nauki o danych. Jest obecny we wszystkich dziedzinach analityki i decyduje o tym, czy zmiana powinna zostać wprowadzona, czy nie. Czy to farmacja, oprogramowanie, sprzedaż itp. Hipoteza obejmuje pełny zestaw danych szkoleniowych, aby sprawdzić wydajność modeli z przestrzeni Hipotezy.

Hipoteza musi być falsyfikowalna, co oznacza, że ​​musi być możliwe przetestowanie i udowodnienie jej błędności, jeśli wyniki są jej sprzeczne. Proces poszukiwania najlepszej konfiguracji modelu jest czasochłonny, gdy trzeba zweryfikować wiele różnych konfiguracji. Istnieją również sposoby na przyspieszenie tego procesu za pomocą technik takich jak losowe wyszukiwanie hiperparametrów.

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, zapoznaj się z programem IIIT-B i upGrad Executive PG w zakresie uczenia maszynowego i sztucznej inteligencji , który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznych szkoleń, ponad 30 studiów przypadków i zadań, IIIT Status -B Alumni, ponad 5 praktycznych praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Dlaczego powinniśmy robić projekty open-source?

Istnieje wiele powodów, dla których warto robić projekty open source. Uczysz się nowych rzeczy, pomagasz innym, nawiązujesz kontakty z innymi, budujesz reputację i wiele więcej. Open source jest fajny i w końcu coś dostaniesz. Jednym z najważniejszych powodów jest to, że buduje portfolio świetnych prac, które możesz zaprezentować firmom i zostać zatrudnionym. Projekty open-source to wspaniały sposób na naukę nowych rzeczy. Możesz poszerzać swoją wiedzę na temat tworzenia oprogramowania lub uczyć się nowych umiejętności. Nie ma lepszego sposobu na naukę niż nauczanie.

Czy jako początkujący mogę przyczynić się do open source?

TAk. Projekty open source nie dyskryminują. Społeczności open-source składają się z ludzi, którzy uwielbiają pisać kod. Zawsze jest miejsce dla nowicjusza. Dużo się nauczysz, a także będziesz miał szansę uczestniczyć w różnych projektach open-source. Dowiesz się, co działa, a co nie, a także będziesz miał szansę, aby Twój kod był używany przez dużą społeczność programistów. Istnieje lista projektów open-source, które zawsze szukają nowych współtwórców.

Jak działają projekty GitHub?

GitHub oferuje programistom sposób na zarządzanie projektami i współpracę ze sobą. Służy również jako rodzaj życiorysu dla programistów, z wyszczególnionymi współtwórcami projektu, dokumentacją i wydaniami. Wpłaty do projektu pokazują potencjalnym pracodawcom, że masz umiejętności i motywację do pracy w zespole. Projekty to często coś więcej niż kod, więc GitHub ma sposób, w jaki możesz ustrukturyzować swój projekt tak, jakbyś ustrukturyzował witrynę internetową. Możesz zarządzać swoją stroną internetową za pomocą oddziału. Oddział jest jak eksperyment lub kopia Twojej witryny. Kiedy chcesz poeksperymentować z nową funkcją lub coś naprawić, tworzysz gałąź i tam eksperymentujesz. Jeśli eksperyment się powiedzie, możesz scalić gałąź z powrotem z oryginalną witryną.