베이지안 통계 및 모델: 설명

게시 됨: 2021-09-29

베이지안 기법은 데이터 분석 및 매개변수 추정에 사용되는 통계 접근 방식입니다. 이 접근 방식은 Bayes 정리를 기반으로 합니다.

베이지안 통계는 통계 모델을 사용하여 관찰된 매개변수와 관찰되지 않은 매개변수에 대한 공동 확률 분포를 결정하는 데 도움이 되는 고유한 원칙을 따릅니다. 통계 지식은 이 시나리오에서 분석 문제를 해결하는 데 필수적입니다.

1770년대 Thomas Bayes가 Bayes 정리를 도입한 이래로 통계학에서 없어서는 안될 도구로 남아 있습니다. 베이지안 모델은 최근 통계의 혁신이 의학 연구, 웹 검색 이해, 자연어 처리(자연어 처리)를 포함한 광범위한 산업에서 이정표를 깨는 데 도움이 되었기 때문에 빈도주의 모델의 고전적인 대체품입니다.

예를 들어, 알츠하이머는 나이가 들수록 점진적인 위험을 초래하는 것으로 알려진 질병입니다. 그러나 베이즈 정리의 도움으로 의사는 미래에 알츠하이머에 걸릴 확률을 추정할 수 있습니다. 이것은 또한 사람이 말년에 취약하게 되는 암 및 기타 연령 관련 질병에도 적용됩니다.

목차

빈번한 통계 대 베이지안 통계

빈번한 통계 대 베이지안 통계는 둘 중 하나를 선택하는 데 어려움을 겪는 초보자에게 지속적으로 논란과 악몽의 주제였습니다. 20세기 초에 베이지안 통계는 불신과 수용 문제의 몫을 겪었습니다. 그러나 시간이 지나면서 사람들은 베이지안 모델의 적용 가능성과 그것이 산출하는 정확한 솔루션을 깨달았습니다.

다음은 빈번한 통계 및 이와 관련된 복잡성을 살펴보겠습니다.

빈번한 통계

통계 세계에서 널리 사용되는 추론 방법입니다. 이벤트(가설로 언급됨)가 발생했는지 여부를 분석합니다. 또한 실험 기간 동안 이벤트가 발생할 확률을 추정합니다. 원하는 결과를 얻을 때까지 실험을 반복합니다.

그들의 분포 표본은 실제 크기이며 실험은 이론적으로 무한 반복됩니다. 다음은 동전 던지기를 연구하는 데 통계가 얼마나 자주 사용될 수 있는지 보여주는 예입니다.

  • 동전을 한 번 던질 때 앞면이 나올 확률은 0.5(1/2)입니다.
  • 헤드 수는 실제 획득한 리드 수를 나타냅니다.
  • 실제 앞면 수와 예상 앞면 수의 차이는 던지기 횟수가 증가할수록 커집니다.

따라서 여기에서 결과는 실험을 반복하는 횟수에 따라 다릅니다. 빈번한 통계의 주요 단점입니다.

그 설계 및 해석 기술과 관련된 다른 결함은 수치 모델에 빈번한 통계를 적용하는 것이 절정에 달했던 20세기에 분명해졌습니다.

빈번한 통계의 한계

빈번한 통계의 세 가지 주요 결함은 다음과 같습니다.

1. 변수 p 값

끝점이 정의된 실험에서 크기가 고정된 표본에 대해 측정된 p 값은 끝점 및 표본 크기가 변경되면 변경됩니다. 잘못된 단일 데이터에 대해 두 개의 p 값이 발생합니다.

2. 일관성 없는 신뢰구간

CI(신뢰구간)는 표본 크기에만 의존합니다. 정지 가능성을 무의미하게 만듭니다.

3. CI 추정치

신뢰 구간은 확률 분포가 아니며 모수에 대한 해당 값은 실제 값이 아닌 추정치일 뿐입니다.

위의 세 가지 이유는 통계적 문제에 확률을 적용하는 베이지안 접근법을 탄생시켰습니다.

베이지안 통계의 탄생

Thomas Bayes 목사는 1763년에 쓴 그의 에세이에서 통계에 대한 베이지안 접근 방식을 처음 제안했습니다. 이 접근 방식은 Richard Price가 과거를 기반으로 미래 사건을 예측하는 역확률 전략으로 발표했습니다.

이 접근 방식은 아래에 설명된 Bayes 정리를 기반으로 합니다.

베이즈의 정리

Renyi의 확률 공리는 이벤트 A 와 이벤트 B발생 가능성이 종속적이거나 조건부 인 조건부 확률을 조사합니다 . 기본 조건부 확률은 다음과 같이 쓸 수 있습니다.

사건 B가 발생할 확률은 사건 A에 따라 다릅니다.

위 방정식은 다음과 같은 Bayes 정리의 수학적 표현인 Bayes 규칙의 기초입니다.

여기서 ∩는 교집합을 나타낸다.

베이즈 법칙은 다음과 같이 쓸 수 있습니다.

베이지안 규칙은 베이지안 통계의 기초로, 통계 모델의 특정 매개변수에 대한 사용 가능한 정보를 수집된 데이터와 비교하고 업데이트합니다.

배경지식은 사전 분포로 표현되며, 이를 관찰하거나 수집한 데이터와 우도함수로 비교 연구하여 사후 분포를 알아낸다.

이 사후 분포는 미래 사건에 대한 예측을 하는 데 사용됩니다.

베이지안 접근 방식의 적용은 다음 매개변수에 따라 다릅니다.

  1. 사전 및 데이터 모델 정의
  2. 관련 추론하기
  3. 모델 조사 및 간소화

베이지안 신경망이란 무엇입니까?

베이지안 신경망(BNN)은 통계적 방법론을 사용하여 표준 네트워크를 확장하고 과적합을 추적하기 위해 사후 추론을 변경할 때 생성하는 네트워크입니다. 베이지안 접근 방식이므로 신경망의 매개변수와 관련된 확률 분포가 있습니다.

사용 가능한 데이터의 자유로운 흐름이 없는 복잡한 문제를 해결하는 데 사용됩니다. 베이지안 신경망은 분자 생물학 및 의료 진단과 같은 영역에서 과적합을 제어하는 ​​데 도움이 됩니다.

베이지안 신경망을 사용하는 한 가지 가능성보다는 질문에 대한 답변의 전체 분포를 고려할 수 있습니다. 모델 선택/비교를 결정하고 정규화와 관련된 문제를 해결하는 데 도움이 됩니다.

베이지안 통계는 새로운 데이터 또는 과학적 증거에 관한 주관적인 지식을 합리화하고 업데이트하는 수학적 도구를 제공합니다. 빈번한 통계적 접근 방식과 달리 확률은 동일한 조건에서 반복되는 이벤트의 빈도에 따라 달라진다는 가정을 기반으로 작동합니다.

요컨대, 베이지안 기법은 개인의 가정과 의견의 확장입니다. 베이지안 모델을 보다 효율적으로 만드는 핵심 측면은 개인이 받는 정보의 종류에 따라 의견이 다르다는 것을 이해하는 것입니다.

그러나 새로운 증거와 데이터가 나오면서 개인은 수렴점인 베이지안 추론 을 갖게 됩니다. 이 합리적인 업데이트는 분석 문제에 더 효과적으로 만드는 베이지안 통계의 특수 기능입니다.

여기서 확률 0은 어떤 사건이 일어날 것이라는 희망이 없을 때 적용되고, 1의 확률은 사건이 일어날 것이 확실할 때 적용된다. 0과 1 사이의 확률은 다른 잠재적인 결과를 위한 여지를 제공합니다.

이제 모델에서 더 나은 추론을 얻기 위해 베이지안 추론을 달성하기 위해 베이지안 규칙이 적용됩니다.

베이지안 추론을 얻기 위해 베이지안 규칙을 어떻게 적용합니까?

다음 방정식을 고려하십시오.

P(θ|D) = P(D|θ.)P(θ) / P(D)

P(θ)는 사전 분포를 나타내며,

P(θ|D)는 사후 믿음을 나타내며,

P(D)는 증거를 나타내며,

P(D|θ)는 가능성을 나타냅니다.

베이지안 추론의 주요 목적은 업데이트된 사후 신념을 얻기 위해 신념과 증거를 혼합하는 합리적이고 수학적으로 정확한 방법을 제공하는 것입니다. 사후 신념은 새로운 데이터가 생성될 때 사전 신념으로 사용될 수 있습니다. 따라서 베이지안 추론은 베이지안 규칙의 도움으로 신념을 지속적으로 업데이트하는 데 도움이 됩니다.

동일한 동전 던지기 예를 고려할 때 베이지안 모델은 새로운 동전 던지기로 이전의 절차를 사후 신념으로 업데이트합니다. 베이지안 방법은 다음과 같은 확률을 제공합니다.

원천

따라서 베이지안 모델을 사용하면 정보가 제한된 불확실한 시나리오를 상당한 양의 데이터가 포함된 보다 정의된 시나리오로 합리화할 수 있습니다.

베이지안 모델과 빈도주의 모델의 주목할만한 차이점

빈번한 통계

베이지안 통계

목표는 점 추정치로 간주되며 CI

목표는 사후 분포로 간주됩니다.

절차는 관찰에서 시작됩니다.

프로세스는 사전 배포부터 시작됩니다.

새로운 관찰이 이루어질 때마다 빈도주의적 접근은 기존 모델을 다시 계산합니다.

새로운 관찰이 이루어질 때마다 사후 분포(이데올로기/가설)가 업데이트됩니다.

예: 평균, t-검정 및 ANOVA 추정.

예: 고밀도 구간의 겹침과 평균의 사후 분포 추정.

베이지안 통계의 장점

  • 과학적 증거가 있는 확고한 프레임워크와 선입견 정보를 혼합하는 유기적이고 간단한 수단을 제공합니다. 매개변수에 대한 과거 정보는 향후 조사를 위한 사전 분포를 형성하는 데 사용할 수 있습니다. 추론은 베이즈 정리를 따릅니다.
  • 베이지안 모델의 추론은 논리적이고 수학적으로 정확하며 조잡한 가정이 아닙니다. 정확도는 샘플 크기에 관계없이 일정하게 유지됩니다.
  • 베이지안 통계는 우도 원칙을 따릅니다. 두 개의 서로 다른 샘플이 믿음 θ에 대한 공통 우도 함수를 가질 때 믿음에 대한 모든 추론은 유사해야 합니다. 고전적 통계 기법은 우도 원칙을 따르지 않습니다.
  • 베이지안 분석의 솔루션은 쉽게 해석될 수 있습니다.
  • 계층적 모델 및 불완전한 데이터 문제와 같은 다양한 모델에 도움이 되는 플랫폼을 제공합니다. 모든 매개변수 모델의 계산은 다른 수치 기술의 도움으로 가상으로 추적할 수 있습니다.

역사 전반에 걸친 베이지안 모델의 성공적인 적용

베이지안 방법은 제2차 세계 대전 중에 많은 성공적인 적용을 했습니다. 그 중 몇 가지가 아래에 나열되어 있습니다.

  • 러시아 통계학자 Andrey Kolmogorov 는 베이지안 방법을 사용하여 러시아 포병의 효율성을 높이는 데 성공했습니다.
  • 베이지안 모델은 독일 U 보트의 코드를 깨는 데 사용되었습니다.
  • 프랑스 태생의 미국 수학자 버나드 쿠프만(Bernard Koopman)은 베이지안 모델의 도움으로 연합군이 독일 U보트의 위치를 ​​식별하도록 도왔습니다.

베이지안 통계에 대해 자세히 알아보려면 실제 산업 프로젝트 및 사례 연구를 통해 기본 개념을 이해할 수 있는 upGrad의 기계 학습 및 클라우드 고급 인증을 참조하세요. 12개월 과정은 IIT Madras에서 제공하며 자기 주도 학습을 지원합니다.

자세한 내용은 당사에 문의하세요.

베이지안 통계 모델은 무엇에 사용됩니까?

베이지안 통계 모델은 수학적 절차를 기반으로 하며 통계 문제를 해결하기 위해 확률 개념을 사용합니다. 사람들이 새로운 데이터에 의존하고 모델 매개변수를 기반으로 예측할 수 있는 증거를 제공합니다.

베이지안 추론이란 무엇입니까?

베이즈 정리를 사용하여 가설에 대한 확률을 업데이트하기 위해 새로운 데이터와 정보에 의존하는 통계에서 유용한 기술입니다.

베이지안 모델은 고유합니까?

베이지안 모델은 관찰 여부에 관계없이 통계 모델의 모든 매개변수에 공동 확률 분포가 할당된다는 점에서 고유합니다.