베이지안 추론에 대한 초보자 가이드: 전체 가이드
게시 됨: 2021-11-26연구, 소셜 미디어, 광고 등 다양한 분야에 적용 가능하며 머신 러닝 응용이 증가하고 있습니다. 그러나 대부분의 응용 프로그램은 엄청난 양의 데이터가 포함된 예측을 처리합니다. 통계는 종종 불확실성 값의 측정을 정량화하는 데 사용됩니다. 서로 다른 이벤트가 있는 경우 세 가지 접근 방식으로 이벤트의 확률을 결정할 수 있습니다.
이 세 가지 방법은 다음과 같습니다.
- 고전
- 베이지안
- 빈도주의자
주사위가 "4"의 면을 보여줄지 여부를 알아보기 위해 던진 주사위의 예를 고려해 보겠습니다. 확률을 결정하는 세 가지 유형의 방법을 이해하는 데 도움이 됩니다. 확률 추정의 고전적인 방법을 고려한다고 가정합니다. 이 경우 총 6개의 결과가 있을 것으로 생각되며 모든 결과가 발생할 확률은 동일합니다. 이러한 가정에서 결과가 4가 될 확률은 1/6이 됩니다. 고전적 방법은 일반적으로 결과가 동일한 가능성이 있는 결과를 가질 때 잘 작동합니다. 그러나 결과가 보다 주관적인 경우에는 이 방법을 사용할 수 없습니다.
빈도주의적 방법을 고려하면 가상의 사건의 무한한 순서가 있어야 합니다. 그런 다음 무한 가상 시퀀스에서 관련 주파수를 검색해야 합니다. 위의 주사위 예를 보면 주사위를 무한대로 던진다면 1/6이라는 결과를 얻을 수 있습니다. 따라서 6면체 주사위에서 결과가 4일 확률은 빈도주의 방법의 정의에 따라 1/6이 됩니다.
이제 베이지안 접근 방식을 사용하여 몇 가지 이점을 제공합니다. 이 방법의 관점에 따라 의사 결정 과정에서 개인적인 신념을 통합할 수 있습니다. 즉, 문제와 관련하여 알려진 정보와 같은 사항을 고려할 것입니다. 다른 개인이 다른 신념을 가질 수 있다는 사실도 이 접근 방식에서 고려됩니다. 예를 들어 누군가가 내일 비가 올 확률이 90%라고 언급하고 다른 사람에게 비가 올 확률은 60%일 수 있다고 가정합니다. 따라서 베이지안 접근 방식은 주관적입니다. 그러나 결과는 Frequencyist 방법에 비해 더 직관적입니다.
목차
베이지안 추론
베이지안 추론은 통계적 추론 문제에 주로 사용됩니다. 이러한 경우 추정해야 하는 알 수 없는 양(데이터)이 항상 있습니다. 그런 다음 데이터에서 원하는 금액을 추정합니다. 미지의 양을 θ라고 합니다. θ가 임의의 양이라는 가정이 있고 θ 값에 대한 초기 추측이 있습니다. 이러한 유형의 배포를 사전 배포라고 합니다. 값의 업데이트는 일반적으로 Bayes 규칙을 통해 수행됩니다. 따라서 이러한 접근 방식을 베이지안 접근 방식이라고 합니다.
베이즈 정리
베이지안 추론의 적용은 베이즈 정리의 이해에 달려 있습니다.
세트 A 및 세트 B와 같은 두 가지 결과 세트가 있다고 가정합니다. 이러한 세트를 이벤트라고도 합니다. 사건 A의 확률을 P(A)로, 사건 B의 확률을 P(B)로 표기합시다. 이것은 개별적인 사건의 확률이었습니다. 그러나 결합 확률은 P(A, B) 항을 통해 정의할 수 있습니다. 조건부 확률은 다음과 같이 확장할 수 있습니다.
P(A,B) = P(A|B)P(B),
이것은 B가 주어지는 동안 A와 B의 조건부 확률이 두 사건의 결합 확률을 초래한다는 것을 의미합니다.
P(A,B) = P(B|A)P(A)
위의 두 방정식에서 방정식의 좌변은 같으므로 방정식의 우변은 같아야 합니다.
P(A|B)P(B) = P(B|A)P(A)
P(A|B) = P(B|A)P(A)/P(B)
이 방정식을 베이즈 정리라고 합니다.
데이터 과학 분야에서 Bayes' Theorem은 다음과 같이 쓸 수 있습니다.
P(가설|데이터) = P(데이터|가설) P(가설)/p(데이터)
증거인 분모는 방정식의 왼쪽에 있는 사후 분포가 유효한 확률 밀도임을 확인합니다. 이것을 정규화 상수라고도 합니다.
베이즈 정리의 방정식에는 세 가지 구성 요소가 있습니다.
- 이전의
- 있을 수 있는 일
- 후부
사전 배포
베이지안 추론 방법의 핵심 요소 중 하나는 사전 분포입니다. 이를 통해 개인의 신념을 의사 결정 과정에 통합할 수 있습니다. 또한 다른 개인에 기반한 판단을 연구에 통합할 수 있습니다. 이것은 수학적 표현을 통해 수행됩니다. θ로 표시되는 미지의 매개변수는 믿음을 표현하는 데 사용됩니다. 이러한 신념을 표현하기 위해 사전 분포인 분포 함수가 사용됩니다. 따라서 실험을 실행하기 전에 분포가 선택됩니다.
베이지안 추론에 대한 초보자 안내서
1. 우선순위 선택
누적 분포는 일반적으로 모수 θ에 대해 정의됩니다. 사전 확률 값이 0인 이벤트는 사후 확률 값이 0입니다. 그리고 사전 확률 값을 갖는 이벤트에 대해 사후 확률 값은 1입니다. 따라서 베이지안 접근 방식의 좋은 프레임워크는 이미 발생한 이벤트에 대한 일부 점 추정치를 정의하지 않거나 발생에 대한 정보가 없습니다. 사전 선택을 위한 특정 기술이 있습니다. 사전 선택에 널리 사용되는 기술 중 하나는 분포 함수를 사용하는 것입니다. 모든 기능의 패밀리가 사용됩니다. 이러한 기능은 유연해야 하며 개인의 신념을 나타낼 수 있어야 합니다.
2. 가능성
추정할 미지의 매개변수로 θ를 고려합시다. 코인의 공정성은 베이지안 추론 예제 를 고려하여 θ로 표현할 수 있습니다 . 동전은 공정성을 확인하기 위해 무한히 뒤집히고 있습니다. 따라서 뒤집을 때마다 머리 또는 꼬리가 있습니다. 이벤트에 할당되는 값은 0과 1입니다. 이를 베르누이 시행이라고도 합니다. 모든 결과는 독립적인 것으로 간주됩니다. 이것은 우도의 개념을 정의하는 방정식을 통해 표현할 수 있습니다. 우도는 θ의 함수인 밀도 함수입니다. 가능성을 최대화하려면 θ 값이 가장 큰 가능성 값이 되어야 합니다. 추정 방법은 최대 우도 추정이라고도 합니다.
3. 후방 분포
Bayes 정리의 결과는 사후 분포로 알려져 있습니다. 새로운 정보를 고려한 후 발생하는 모든 이벤트의 업데이트된 확률입니다.
4. 베이지안 추론 메커니즘
위에서 보았듯이 베이지안 추론 방법은 확률 개념을 어느 정도 믿음으로 취급합니다. 이러한 믿음은 그러한 증거 하에서 사건이 발생할 수 있다는 사실과 관련이 있습니다. 따라서 매개변수 θ "θ"는 랜덤 변수로 간주됩니다.
5. 재무 위험에 대한 베이지안 추론 적용
베이지안 추론을 적용할 수 있는 알고리즘은 많이 있습니다. 알고리즘 중 일부는 신경망, 랜덤 포레스트, 회귀 등입니다. 이 방법은 금융 부문에서도 인기를 얻었습니다. 여러 은행의 운영 위험 모델링에 사용할 수 있습니다. 영업 손실을 보여주는 은행의 데이터는 손실된 일부 이벤트를 보여줍니다. 이러한 손실 이벤트의 빈도는 낮았지만 심각도는 높았습니다. 따라서 이러한 경우 베이지안 추론이 매우 유용합니다. 이 방법 역시 분석에 많은 데이터가 필요하지 않기 때문이다.
빈도주의적 방법과 같은 다른 통계적 분석 방법도 운영 위험을 모델링하기 위해 더 일찍 적용되었습니다. 그러나 불확실성 매개변수를 추정하는데 문제가 있었다. 따라서 베이지안 추론이 가장 효과적인 방법으로 간주됩니다. 전문가의 의견과 데이터가 사후분포를 도출하는데 활용될 수 있기 때문이다. 이러한 유형의 작업에서는 은행의 내부 손실 데이터를 여러 개의 작은 조각으로 나눈 다음 전문가의 판단을 통해 각 조각의 빈도를 추정합니다. 그런 다음 확률 분포에 적합합니다.
세계 최고의 대학에서 온라인으로 머신 러닝 과정 에 참여하십시오. 석사, 대학원 대학원 과정, ML 및 AI 고급 인증 프로그램을 통해 빠르게 경력을 쌓을 수 있습니다.
결론
통계 및 기계 학습에서 적용할 수 있는 두 가지 주요 접근 방식은 빈도주의 및 베이지안 추론 방법입니다. 우리는 확률이 주관적 신념으로 계산되는 베이지안 추론 방법에 대해 논의했습니다. 데이터와 함께 사람들의 개인적인 신념도 통합하면서 확률을 추정합니다. 이는 많은 추정 연구에서 모델을 훨씬 더 널리 받아 들여지게 합니다. 따라서 베이지안 추론의 기술은 데이터 관찰에 믿음을 적용하는 방법이나 방법을 지정합니다. 또한 잡음이 많은 데이터가 많은 여러 유형의 응용 프로그램에서 베이지안 추론 기법을 사용할 수 있습니다. 따라서 베이즈의 법칙에 있는 힘은 임의적 성격의 질문에 답하는 데 사용할 수 있는 것으로 계산할 수 있는 양과 관련될 수 있습니다.