데이터 마이닝에서 베이지안 분류 배우기 [2022]

게시 됨: 2021-03-10

데이터 마이닝에 대해 오랫동안 공부해 왔다면 '베이지안 분류'라는 용어를 들어봤을 것입니다. 그것이 의미하는 바가 무엇이며 데이터 마이닝의 개념으로서 얼마나 중요한지 궁금하십니까?

이 기사에서는 데이터 마이닝에서 베이지안 분류가 무엇인지 탐구할 것이기 때문에 이러한 질문에 답할 것입니다. 의 시작하자:

베이지안 분류란?

데이터 마이닝 중에 클래스 변수와 속성 집합 사이의 연결이 비결정적임을 알게 됩니다. 이는 속성 세트가 훈련 예제와 동일하더라도 절대적으로 확실하게 테스트 레코드의 클래스 레이블을 가정할 수 없음을 의미합니다.

특정 영향 요인이나 잡음이 있는 데이터가 있기 때문에 발생할 수 있습니다. 사람의 식습관에 따라 심장병의 위험이 있는지 여부를 예측한다고 가정해 보겠습니다. 사람의 식습관이 심장 문제로 고통받을지 여부를 결정하는 큰 요소이지만 유전이나 감염과 같은 다른 원인도 있을 수 있습니다.

따라서 식습관만으로 사람이 심장 질환에 걸릴 위험이 있는지 여부를 결정하는 분석은 결함이 있고 여러 문제가 발생할 수 있습니다.

그런 다음 "데이터 마이닝에서 이 문제를 어떻게 해결합니까?"라는 질문이 발생합니다. 정답은 베이지안 분류입니다.

데이터 마이닝에서 베이지안 분류를 사용하여 이 문제를 해결하고 이벤트 발생을 예측할 수 있습니다. 베이지안 분류기는 베이지안 확률 이해를 사용하는 통계적 분류기로 구성됩니다.

데이터 마이닝에서 베이지안 분류의 작동을 이해하려면 베이지안 정리부터 시작해야 합니다.

베이즈 정리

Bayes 정리에 대한 크레딧은 조건부 확률을 사용하여 알려지지 않은 매개변수에 대한 한계를 계산하기 위한 증거를 활용하는 알고리즘을 만든 Thomas Bayes에게 돌아갑니다. 그는 이 솔루션을 처음으로 제안한 사람입니다.

수학적으로 Bayes 정리는 다음과 같습니다.

P(A/B) = P(B/A)P(A) P(B)

여기서 A와 B는 사건을 나타내고 P(B)는 0이 될 수 없습니다.

P(B) 0

P(B/A)는 A가 참일 때 사건 B의 발생을 설명하는 조건부 확률입니다. 유사하게, P(A/B)는 B가 참일 때 사건 A의 발생을 설명하는 조건부 확률입니다.

P(B)와 P(A)는 B와 A를 독립적으로 관측할 확률이며 이를 한계 확률이라고 합니다.

베이지안 해석

베이지안 해석에서 확률은 믿음의 정도를 계산합니다. 베이즈 정리에 따르면 증거를 고려하기 전의 가설에 대한 믿음의 정도는 같은 것을 고려한 후의 가설에 대한 믿음의 정도와 연결됩니다.

동전이 있다고 가정해 봅시다. 동전을 한 번 던지면 앞면이나 뒷면이 나오며 둘 다 발생할 확률은 50%입니다. 그러나 동전을 여러 번 던지고 그 결과를 지켜보면 그 결과에 따라 믿음의 정도가 증가하거나 감소하거나 일정하게 유지될 수 있습니다.

명제 A와 증거 B가 있는 경우:

P(A)는 A에 대한 기본 믿음 정도입니다. P(A/B)는 B를 고려한 후의 사후 믿음 정도입니다. 몫 P(B/A)/P(B)는 B가 A에 대해 제공하는 지원을 나타냅니다. .

조건부 확률에서 베이즈 정리를 유도할 수 있습니다.

P(A/B) = P(A B) P(B) , P(B) 0 인 경우

P(B/A) = P(B A) P(A) , P(A) 0 인 경우

여기서 P(A B) 는 다음과 같은 이유로 A와 B가 모두 참일 확률입니다.

P(B A) = P(A B)

OR, P(A B) = P( A B )P(B) = P( B A ) P(A)

OR, P( A B ) = P( B A )P(A) P(B) , IF P(B) 0

베이지안 네트워크

우리는 베이지안 네트워크(믿음 네트워크라고도 함)를 사용하여 DAG(Directed Acyclic Graph)를 통해 불확실성을 표시합니다. 방향성 비순환 그래프는 다른 통계 그래프와 마찬가지로 베이지안 네트워크를 보여줍니다. 여기에는 링크가 각 노드 간의 연결을 나타내는 노드 및 링크 그룹이 포함됩니다.

방향성 비순환 그래프의 모든 노드는 확률 변수를 나타냅니다. 변수는 연속 또는 불연속 값일 수 있으며 데이터에 제공된 실제 속성에 해당할 수 있습니다.

베이지안 네트워크를 사용하면 변수 하위 집합 간에 클래스 조건부 독립성을 정의할 수 있습니다. 구현을 수행할 관계의 그래픽 모델을 제공합니다.

DAG 외에도 베이지안 네트워크에는 조건부 확률 테이블 세트도 있습니다.

결론

이제 데이터 마이닝에서 베이지안 분류의 기본 사항에 익숙해져야 합니다. 데이터 마이닝 구현의 응용 프로그램 이면에 있는 이론을 이해하는 것은 진행 상황에 매우 중요합니다.

데이터 마이닝에서 베이지안 분류에 대해 어떻게 생각하십니까? 구현해 보셨나요? 댓글에 답을 공유하세요. 여러분의 의견을 듣고 싶습니다.

데이터 과학에 대해 자세히 알아보려면 IIIT-B & upGrad의 데이터 과학 PG 디플로마를 확인하십시오. 이 디플로마는 실무 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 멘토링, 1- 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

기계 학습에서 분류 및 회귀란 무엇입니까?

분류 및 회귀는 기계 학습에 사용되는 일종의 지도 학습 알고리즘입니다. 그러나 이러한 알고리즘 사이에는 특정한 뚜렷한 차이점이 있습니다. 머신 러닝의 회귀 알고리즘은 특정 입력 변수를 기반으로 변수의 연속 값을 추정하는 데 사용됩니다. 이 알고리즘은 키, 소득, 체중, 점수, 날씨 등과 같은 연속 변수를 계산하는 데 사용됩니다. 즉, 정수 형식의 이산 값을 계산하는 데에만 사용할 수 있습니다. 이산 변수의 값을 계산하기 위해 분류 알고리즘이 사용됩니다. 흥미롭게도 분류 기술은 이산 변수와 실제 값 변수를 모두 처리할 수 있지만 별개의 분류 또는 레이블이 지정된 범주로 분류되어야 합니다.

데이터 마이닝과 머신 러닝은 동일한가요?

데이터 마이닝의 이점은 무엇입니까?

데이터 마이닝은 이러한 데이터 중심 세계에서 데이터 또는 정보와 관련된 문제를 해결할 수 있는 수단을 효과적으로 제공합니다. 기업이 유용하고 신뢰할 수 있는 정보를 수집하는 데 도움이 됩니다. 결과적으로 기업은 결정을 내리거나 궁극적으로 더 많은 수익을 창출하는 운영을 수정할 수 있습니다. 데이터 마이닝은 기업이 정보에 입각한 결정을 내리고 위험을 감지 및 완화하며 사기 사건을 최소화하는 데 중요한 역할을 합니다. 데이터 과학자는 비용 효율적이고 효율적인 데이터 마이닝 기술을 사용하여 방대한 양의 일일 데이터를 빠르게 탐색할 수 있습니다.