Dowiedz się klasyfikacji bayesowskiej w eksploracji danych [2022]

Opublikowany: 2021-03-10

Jeśli od jakiegoś czasu zajmujesz się eksploracją danych, na pewno słyszałeś o terminie „klasyfikacja bayesowska”. Zastanawiasz się, co to oznacza i jak ważne jest jako pojęcie w eksploracji danych?

Ten artykuł odpowie na te pytania, gdy będziesz badać, czym jest klasyfikacja bayesowska w eksploracji danych. Zaczynajmy:

Spis treści

Co to jest klasyfikacja bayesowska?

Podczas eksploracji danych okaże się, że połączenie między zmienną klasy a zestawem atrybutów jest niedeterministyczne. Oznacza to, że nie możemy przyjąć etykiety klasy rekordu testu z absolutną pewnością, nawet jeśli zestaw atrybutów jest taki sam jak w przykładach szkoleniowych.

Może się to zdarzyć z powodu obecności określonych czynników wpływających lub zaszumionych danych. Załóżmy, że chcesz przewidzieć, czy dana osoba jest zagrożona chorobą serca na podstawie jej nawyków żywieniowych. Podczas gdy nawyki żywieniowe danej osoby są ogromnym czynnikiem decydującym o tym, czy będzie cierpieć na problemy z sercem, czy nie, mogą istnieć inne przyczyny występowania tego samego, takie jak genetyka lub infekcja.

Tak więc Twoja analiza określająca, czy dana osoba byłaby narażona na choroby serca na podstawie samych nawyków żywieniowych, byłaby błędna i mogłaby spowodować wiele problemów.

Wtedy pojawia się pytanie: „Jak rozwiązać ten problem w eksploracji danych?” Odpowiedzią jest klasyfikacja bayesowska.

Możesz użyć klasyfikacji Bayesa w eksploracji danych, aby rozwiązać ten problem i przewidzieć wystąpienie dowolnego zdarzenia. Klasyfikatory bayesowskie składają się z klasyfikatorów statystycznych wykorzystujących rozumienie prawdopodobieństwa bayesowskiego.

Aby zrozumieć działanie klasyfikacji Bayesa w eksploracji danych, musisz zacząć od twierdzenia Bayesa.

Twierdzenie Bayesa

Zasługa za twierdzenie Bayesa należy do Thomasa Bayesa, który wykorzystał prawdopodobieństwo warunkowe do stworzenia algorytmu, który wykorzystuje dowody do obliczania limitów nieznanych parametrów. Był pierwszą osobą, która wpadła na to rozwiązanie.

Matematycznie twierdzenie Bayesa wygląda tak:

P(A/B) = P(B/A)P(A) P(B)

Tutaj A i B reprezentują zdarzenia, a P(B) nie może być równe zeru.

P(B) 0

P(B/A) to prawdopodobieństwo warunkowe, które wyjaśnia wystąpienie zdarzenia B, gdy A jest prawdziwe. Podobnie, P(A/B) jest prawdopodobieństwem warunkowym, które wyjaśnia wystąpienie zdarzenia A, gdy B jest prawdziwe.

P(B) i P(A) to prawdopodobieństwa obserwacji B i A niezależnie i nazywane są prawdopodobieństwami krańcowymi.

Interpretacja Bayesowska

W interpretacji bayesowskiej prawdopodobieństwo oblicza stopień wiary. Zgodnie z twierdzeniem Bayesa stopień wiary w hipotezę przed rozważeniem dowodów jest powiązany ze stopniem wiary w hipotezę po jej rozważeniu.

Załóżmy, że masz monetę. Jeśli raz rzucisz monetą, dostaniesz orła lub reszka, a prawdopodobieństwo ich wystąpienia wynosi 50%. Jeśli jednak rzucisz monetą kilka razy i zaobserwujesz wyniki, stopień wiary może wzrosnąć, spaść lub pozostać stabilny w oparciu o wyniki.

Jeśli masz propozycję A i dowód B, to:

P(A) to podstawowy stopień przekonania w A. P(A/B) to późniejszy stopień przekonania po uwzględnieniu B. Iloraz P(B/A)/P(B) pokazuje wsparcie, jakie B oferuje dla A .

Twierdzenie Bayesa można wyprowadzić z prawdopodobieństwa warunkowego:

P(A/B) = P(A B) P(B) , jeśli P(B) 0

P(B/A) = P(B A) P(A) , jeśli P(A) 0

Tutaj P(A B) jest łącznym prawdopodobieństwem, że zarówno A, jak i B są prawdziwe, ponieważ:

P(B A) = P(A B)

LUB, P(A B) = P( A B )P(B) = P( BA )P( A )

LUB, P( A B ) = P( BA )P( A ) P(B) , JEŻELI P(B) 0

Sieć Bayesowska

Używamy sieci bayesowskich (znanych również jako sieci przekonań), aby pokazać niepewności za pomocą DAG (Directed Acyclic Graphs). Ukierunkowany wykres acykliczny przedstawia sieć bayesowską jak każdy inny wykres statystyczny. Zawiera grupę węzłów i linków, gdzie linki oznaczają połączenie między odpowiednimi węzłami.

Każdy węzeł na grafie ukierunkowanym acyklicznym reprezentuje zmienną losową. Zmienne mogą być wartościami ciągłymi lub dyskretnymi i mogą odpowiadać rzeczywistemu atrybutowi nadanemu danym.

Sieć bayesowska umożliwia definiowanie zależności warunkowych klas między podzbiorami zmiennych. Daje Ci graficzny model relacji, na której będziesz wykonywał wdrożenia.

Oprócz DAG, sieć bayesowska posiada również zestaw tabel prawdopodobieństwa warunkowego.

Wniosek

Do tej pory musisz znać podstawy klasyfikacji bayesowskiej w eksploracji danych. Zrozumienie twierdzenia stojącego za zastosowaniami wdrożeń eksploracji danych ma kluczowe znaczenie dla poczynienia postępów.

Co sądzisz o klasyfikacji bayesowskiej w eksploracji danych? Czy próbowałeś go wdrożyć? Podziel się swoimi odpowiedziami w komentarzach. Chcielibyśmy usłyszeć od ciebie.

Jeśli jesteś zainteresowany nauką o danych, sprawdź IIIT-B i upGrad's PG Diploma in Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1- on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Czym jest klasyfikacja i regresja w uczeniu maszynowym?

Klasyfikacja i regresja to rodzaje nadzorowanych algorytmów uczenia stosowanych w uczeniu maszynowym. Ale istnieją konkretne wyraźne różnice między tymi algorytmami. Algorytm regresji w uczeniu maszynowym służy do szacowania wartości ciągłej zmiennej na podstawie poszczególnych zmiennych wejściowych. Algorytm ten służy do obliczania zmiennych ciągłych, takich jak wzrost, dochód, waga, wyniki, pogoda itp. Oznacza to, że można go używać tylko do obliczania wartości dyskretnych w formacie liczb całkowitych. Do obliczenia wartości zmiennych dyskretnych wykorzystywany jest algorytm klasyfikacji. Co ciekawe, techniki klasyfikacji mogą radzić sobie zarówno ze zmiennymi dyskretnymi, jak i o wartości rzeczywistej, ale muszą być one sklasyfikowane w odrębnych kategoriach sklasyfikowanych lub oznaczonych etykietami.

Czy eksploracja danych i uczenie maszynowe to to samo?

Jakie są korzyści z eksploracji danych?

Eksploracja danych skutecznie oferuje sposoby rozwiązywania problemów związanych z danymi lub informacjami w tym zorientowanym na dane świecie. Pomaga firmom gromadzić przydatne i wiarygodne informacje. W rezultacie firmy mogą opierać swoje decyzje lub modyfikować operacje, które ostatecznie przynoszą większe zyski. Eksploracja danych odgrywa kluczową rolę w pomaganiu firmom w podejmowaniu świadomych decyzji, wykrywaniu i ograniczaniu ryzyka oraz minimalizowaniu przypadków oszustw. Naukowcy zajmujący się danymi mogą szybko przeszukiwać ogromne ilości codziennych danych, korzystając z opłacalnych i wydajnych technik eksploracji danych.