예제와 함께 설명된 베이즈 정리 – 완전한 가이드

게시 됨: 2021-06-14

소개

베이즈 정리란?

Bayes의 정리는 직관이 자주 실패하는 조건부 확률 계산에 사용됩니다. 확률적으로 많이 사용되지만 머신러닝 분야에서도 이 정리가 적용되고 있다. 머신 러닝에서의 사용에는 모델을 훈련 데이터 세트에 피팅하고 분류 모델을 개발하는 것이 포함됩니다.

조건부 확률이란 무엇입니까?

조건부 확률은 일반적으로 다른 이벤트가 발생했을 때 한 이벤트의 확률로 정의됩니다.

A와 B가 두 사건이면 조건부 확률 me는 P(A 주어진 B) 또는 P(A|B)로 지정됩니다.
조건부 확률은 결합 확률(A | B) = P(A, B) / P(B)에서 계산할 수 있습니다.

조건부 확률은 대칭이 아닙니다. 예를 들어 P(A | B) != P(B | A)

조건부 확률을 계산하는 다른 방법에는 다른 조건부 확률을 사용하는 것이 포함됩니다.

P(A|B) = P(B|A) * P(A) / P(B)

역도 사용

P(B|A) = P(A|B) * P(B) / P(A)

이 계산 방법은 결합 확률을 계산하기 어려울 때 유용합니다. 또는 역조건부확률을 사용할 수 있는 경우 이를 통한 계산이 용이해진다.

이러한 조건부 확률의 대체 계산을 베이즈 규칙 또는 베이즈 정리라고 합니다. 그것을 처음 기술한 사람의 이름을 따서 명명되었습니다. "토마스 베이즈 목사".

베이즈 정리의 공식

베이즈 정리는 결합 확률을 사용할 수 없을 때 조건부 확률을 계산하는 방법입니다. 때로는 분모에 직접 액세스할 수 없습니다. 이러한 경우 다른 계산 방법은 다음과 같습니다.

P(B) = P(B|A) * P(A) + P(B|A 아님) * P(A 아님)

이것은 P(B)의 대체 계산을 보여주는 Bayes 정리의 공식입니다.

P(A|B) = P(B|A) * P(A) / P(B|A) * P(A) + P(B|A 아님) * P(A 아님)

위의 공식은 분모를 괄호로 묶어 설명할 수 있습니다.

P(A|B) = P(B|A) * P(A) / (P(B|A) * P(A) + P(B|A 아님) * P(A 아님))

또한 P(A)가 있는 경우 P(A가 아님)는 다음과 같이 계산할 수 있습니다.

P(A 아님) = 1 – P(A)

유사하게, P(not B|not A)가 있는 경우 P(B|not A)는 다음과 같이 계산할 수 있습니다.

P(B|A 아님) = 1 – P(B 아님|A 아님)

조건부 확률의 베이즈 정리

Bayes Theorem은 방정식에 적용되는 맥락에 따라 이름이 지정된 여러 용어로 구성됩니다.

사후 확률은 P(A|B)의 결과를 나타내고 사전 확률은 P(A)를 나타냅니다.

P(A|B): 사후 확률.
P(A): 사전 확률.

유사하게, P(B|A) 및 P(B)는 가능성 및 증거라고 합니다.

P(B|A): 가능성.
P(B): 증거.

따라서 조건부 확률의 베이즈 정리는 다음과 같이 다시 설명할 수 있습니다.

사후 = 가능성 * 사전 / 증거

연기가 있는 경우 화재가 발생할 확률을 계산해야 하는 경우 다음 방정식이 사용됩니다.

P(불|연기) = P(연기|불) * P(불) / P(연기)

여기서 P(화재)는 우선순위, P(연기|화재)는 가능성, P(연기)는 증거입니다.

베이즈 정리의 예시

Bayes 정리 예제 는 문제 에서 Bayes 정리의 사용을 설명하기 위해 설명됩니다.

문제

A, B, C로 표시된 세 개의 상자가 있습니다. 상자의 세부 정보는 다음과 같습니다.

상자 A에는 빨간색 공 2개와 검은색 공 3개가 들어 있습니다.
상자 B에는 빨간색 공 3개와 검은색 공 1개가 들어 있습니다.
그리고 상자 C에는 빨간 공 1개와 검은 공 4개가 들어 있습니다.

3개의 상자는 모두 동일한 확률로 집게 될 확률이 동일합니다. 따라서 상자 A에서 빨간 공을 집어 들었을 확률은 얼마입니까?

해결책

E는 빨간 공을 집어 든 사건을 나타내고 A, B, C는 공이 각각의 상자에서 집어 들었음을 나타냅니다. 따라서 조건부 확률은 계산해야 하는 P(A|E)가 됩니다.

기존 확률 P(A) = P(B) = P (C) = 1 / 3, 모든 상자가 선택될 확률이 동일하기 때문입니다.

P(E|A) = 상자 A에 있는 빨간 공의 수 / 상자 A에 있는 총 공 수 = 2 / 5

유사하게, P(E|B) = 3 / 4 및 P(E|C) = 1 / 5

그러면 증거 P(E) = P(E|A)*P(A) + P(E|B)*P(B) + P(E|C)*P(C)

= (2/5) * (1/3) + (3/4) * (1/3) + (1/5) * (1/3) = 0.45

따라서 P(A|E) = P(E|A) * P(A) / P(E) = (2/5) * (1/3) / 0.45 = 0.296

베이즈 정리의 예

Bayes theorem은 "test"에 대한 주어진 정보로 "event"의 확률을 제공합니다.

"이벤트"와 "테스트"에는 차이가 있습니다. 예를 들어, 실제로 간질환이 있는 것과는 다른 간질환 검사가 있습니다. 즉, 이벤트입니다.
드문 이벤트의 위양성 비율이 더 높을 수 있습니다.

실시예 1

알코올 중독 환자가 간 질환에 걸릴 확률은 얼마입니까?

여기서 "알코올중독"이란 간질환에 대한 "검사"(리트머스 검사의 일종)입니다.

A는 "환자가 간 질환이 있음"이라는 이벤트입니다.

진료소의 초기 기록에 따르면 진료소에 들어가는 환자의 10%가 간질환을 앓고 있다고 합니다.

따라서 P(A)=0.10

B는 "환자는 알코올 중독자"라는 리트머스 테스트입니다.

진료소의 이전 기록에 따르면 진료소에 들어오는 환자의 5%가 알코올 중독자였습니다.

따라서 P(B)=0.05

또한 간질환 진단을 받은 환자 중 7%가 알코올 중독자다. 이것은 B|A를 정의합니다. 간 질환이 있는 환자가 알코올 중독일 확률은 7%입니다.

Bayes 정리 공식 에 따르면 ,

P(A|B) = (0.07 * 0.1)/0.05 = 0.14

따라서 알코올 중독 환자의 간 질환 발병 확률은 0.14(14%)입니다.

예2

위험한 화재는 드물다(1%)
하지만 바베큐로 인해 연기가 꽤 흔한(10%),
그리고 위험한 화재의 90%는 연기를 만듭니다

연기가 있을 때 위험한 화재가 발생할 확률은 얼마입니까?

계산

P(불|연기) = P(불) P(연기|불)/P(연기)

= 1% x 90%/10%

= 9%

실시예 3

낮에 비가 올 확률은? 여기서 Rain은 낮 동안의 비를 의미하고 Cloud는 흐린 아침을 의미합니다.

구름이 주어졌을 때 비가 올 확률은 P(Rain|Cloud)로 기록됩니다.

P(비|구름) = P(비) P(구름|비)/P(구름)

P(비)는 비가 올 확률 = 10%입니다.

P(구름|비)는 비가 발생한다고 가정할 때 구름의 확률 = 50%입니다.

P(구름)은 구름의 확률 = 40%

P(비|구름) = 0.1 x 0.5/0.4 = .125

따라서 비가 올 확률은 12.5%입니다.

애플리케이션

베이즈 정리의 여러 응용 프로그램이 현실 세계에 존재합니다. 정리의 몇 가지 주요 응용 프로그램은 다음과 같습니다.

1. 모델링 가설

Bayes theorem은 응용 기계 학습에서 폭넓게 응용되고 데이터와 모델 간의 관계를 설정합니다. 응용 기계 학습은 주어진 데이터 세트에 대한 다양한 가설을 테스트하고 분석하는 프로세스를 사용합니다.

데이터와 모델 간의 관계를 설명하기 위해 베이즈 정리는 확률 모델을 제공합니다.

P(h|D) = P(D|h) * P(h) / P(D)

어디에,

P(h|D): 가설의 사후 확률

P(h): 가설의 사전 확률.

P(D)가 증가하면 P(h|D)가 감소합니다. 반대로 P(h) 및 주어진 가설 데이터를 관찰할 확률이 증가하면 P(h|D)의 확률이 증가합니다.

2. 분류를 위한 베이즈 정리

분류 방법에는 주어진 데이터의 레이블이 포함됩니다. 주어진 데이터 샘플에서 클래스 레이블의 조건부 확률 계산으로 정의할 수 있습니다.

P(클래스|데이터) = (P(데이터|클래스) * P(클래스)) / P(데이터)

여기서 P(class|data)는 제공된 데이터가 제공된 클래스의 확률입니다.

계산은 각 클래스에 대해 수행할 수 있습니다. 입력 데이터에 가장 확률이 높은 클래스를 할당할 수 있습니다.

조건부 확률의 계산은 예제의 수가 적은 조건에서는 실현 가능하지 않습니다. 따라서 Bayes 정리를 직접 적용하는 것은 불가능합니다. 분류 모델에 대한 솔루션은 단순화된 계산에 있습니다.

나이브 베이즈 분류기

Bayes theorem은 입력 변수가 계산의 복잡성을 유발하는 다른 변수에 의존한다고 생각합니다. 따라서 가정이 제거되고 모든 입력 변수는 독립 변수로 간주됩니다. 결과적으로 모델은 종속에서 독립 조건부 확률 모델로 변경됩니다. 궁극적으로 복잡성을 줄입니다.

이러한 베이즈 정리의 단순화를 나이브 베이즈라고 합니다. 모델 분류 및 예측에 널리 사용됩니다.

베이즈 최적 분류기

이것은 훈련 데이터 세트가 주어진 새로운 예의 예측을 포함하는 확률 모델 유형입니다. Bayes Optimal Classifier의 한 가지 예는 "훈련 데이터가 주어지면 새 인스턴스의 가장 가능성 있는 분류는 무엇입니까?"입니다.

훈련 데이터가 주어지면 새 인스턴스의 조건부 확률 계산은 다음 방정식을 통해 수행할 수 있습니다.

P(vj | D) = 합 {h in H} P(vj | hi) * P(hi | D)

vj가 분류할 새 인스턴스인 경우,

H는 인스턴스를 분류하기 위한 일련의 가설이며,

안녕은 주어진 가설,

P(vj | hi)는 주어진 가설 hi에 대한 vi의 사후 확률이며,

P(hi | D)는 데이터 D가 주어졌을 때 가설 hi의 사후 확률입니다.

3. 머신러닝에서 베이즈 정리의 활용

머신 러닝에서 베이즈 정리의 가장 일반적인 적용은 분류 문제의 개발입니다. 분류가 아닌 다른 응용 프로그램에는 최적화 및 캐주얼 모델이 포함됩니다.

베이지안 최적화

주어진 목적 함수의 최소 또는 최대 비용을 초래하는 입력을 찾는 것은 항상 어려운 작업입니다. 베이지안 최적화는 베이지안 정리를 기반으로 하며 전역 최적화 문제 검색을 위한 측면을 제공합니다. 이 방법에는 확률 모델(대리 함수) 구축, 획득 함수 검색, 실제 목적 함수 평가를 위한 후보 샘플 선택이 포함됩니다.

응용 기계 학습에서 베이지안 최적화는 잘 수행되는 모델의 하이퍼파라미터를 조정하는 데 사용됩니다.

베이지안 신념 네트워크

변수 간의 관계는 확률 모델을 사용하여 정의할 수 있습니다. 확률 계산에도 사용됩니다. 완전 조건부 확률 모델은 데이터의 양이 많기 때문에 확률을 계산하지 못할 수 있습니다. Naive Bayes는 계산 방식을 단순화했습니다. 확률 변수 간의 알려진 조건부 종속성과 다른 경우의 조건부 독립성을 기반으로 모델을 개발하는 또 다른 방법이 있습니다. 베이지안 네트워크는 방향 모서리가 있는 확률 그래프 모델을 통해 이러한 종속성과 독립성을 표시합니다. 알려진 조건부 종속성은 유향 모서리로 표시되고 누락된 연결은 모델의 조건부 종속성을 나타냅니다.

4. 베이지안 스팸 필터링

스팸 필터링은 베이즈 정리의 또 다른 응용 프로그램입니다. 두 가지 이벤트가 있습니다.

이벤트 A: 메시지가 스팸입니다.
테스트 X: 메시지에 특정 단어가 포함됨(X)

Bayes 정리를 적용하면 "테스트 결과"를 통해 메시지가 스팸인지 예측할 수 있습니다. 메시지의 단어를 분석하면 스팸 메시지가 될 가능성을 계산할 수 있습니다. 반복되는 메시지가 포함된 필터 교육을 통해 메시지에 특정 단어가 있을 확률이 스팸일 가능성이 있다는 사실을 업데이트합니다.

예를 들어 Bayes 정리의 적용

촉매 생산자는 특정 전기촉매(EC)의 결함을 테스트하는 장치를 생산합니다. 촉매 생산자는 EC에 결함이 있으면 테스트가 97% 신뢰할 수 있고 결함이 없으면 99% 신뢰할 수 있다고 주장합니다. 그러나 해당 EC의 4%는 배송 시 결함이 있을 것으로 예상될 수 있습니다. 장치의 진정한 신뢰성을 확인하기 위해 Bayes 규칙이 적용됩니다. 기본 이벤트 세트는

A : EC에 결함이 있습니다. A': EC는 흠잡을 데가 없습니다. B: EC는 결함이 있는 것으로 테스트되었습니다. B': EC는 결함이 없는 것으로 테스트되었습니다.

확률은

B/A: EC는 (알려진) 결함이 있고 테스트된 결함, P(B/A) = 0.97,

B'/A: EC는 결함이 있는 것으로 알려져 있지만 결함이 없는 것으로 테스트됨, P(B'/A)=1-P(B/A)=0.03,

B/A': EC는 (알려진) 결함이 있지만 테스트된 결함, P(B/A') = 1- P(B'/A')=0.01

B'/A: = EC는 (알려진) 무결점이며 테스트된 무결점 P(B'/A') = 0.99

베이즈 정리에 의해 계산된 확률은 다음과 같습니다.

계산 확률은 결함이 없는 EC를 거부할 가능성이 높고(약 20%) 결함이 있는 EC를 식별할 가능성이 낮습니다(약 80%).

결론

베이즈 정리의 가장 두드러진 특징 중 하나는 몇 가지 확률 비율에서 엄청난 양의 정보를 얻을 수 있다는 것입니다. 가능성의 수단을 사용하면 이전 사건의 확률이 사후 확률로 변환될 수 있습니다. Bayes 정리의 접근 방식은 통계, 인식론 및 귀납 논리의 영역에 적용될 수 있습니다.

Bayes Theorem, AI 및 기계 학습에 대해 자세히 알아보려면 작업 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례를 제공하는 IIIT-B & upGrad의 기계 학습 및 AI 경영자 PG 프로그램을 확인하십시오. 연구 및 과제, IIIT-B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

기계 학습의 가설은 무엇입니까?

가장 넓은 의미에서 가설은 테스트할 아이디어나 명제입니다. 가설은 추측입니다. 머신 러닝은 데이터, 특히 인간에게 너무 복잡하고 겉보기에 무작위성을 특징으로 하는 데이터를 이해하는 과학입니다. 기계 학습을 사용할 때 가설은 기계가 특정 데이터 세트를 분석하고 예측이나 결정을 내리는 데 도움이 될 수 있는 패턴을 찾는 데 사용하는 일련의 명령입니다. 기계 학습을 사용하여 알고리즘의 도움으로 예측이나 결정을 내릴 수 있습니다.

기계 학습에서 가장 일반적인 가설은 무엇입니까?

머신 러닝의 가장 일반적인 가설은 데이터에 대한 이해가 없다는 것입니다. 표기법과 모델은 해당 데이터의 표현일 뿐이며 해당 데이터는 복잡한 시스템입니다. 따라서 데이터를 완전하고 일반적으로 이해하는 것은 불가능합니다. 데이터에 대해 무엇이든 배울 수 있는 유일한 방법은 데이터를 사용하고 데이터와 함께 예측이 어떻게 변경되는지 확인하는 것입니다. 일반적인 가설은 모델이 작동하도록 만들어진 영역에서만 유용하며 실제 현상에는 일반적으로 적용되지 않는다는 것입니다. 일반적인 가설은 데이터가 고유하고 학습 프로세스가 각 문제에 고유하다는 것입니다.

가설이 측정 가능해야 하는 이유는 무엇입니까?

질적 또는 양적 변수에 숫자를 할당할 수 있을 때 가설을 측정할 수 있습니다. 이것은 관찰을 하거나 실험을 수행하여 수행할 수 있습니다. 예를 들어, 영업 사원이 제품을 판매하려고 하면 고객에게 제품을 판매하는 것이 가설이 됩니다. 이 가설은 판매량이 하루 또는 일주일에 측정되는 경우 측정 가능합니다.