확률 질량 함수: 이산 분포 및 속성

게시 됨: 2021-02-08

소개

확률은 데이터 과학 분야에서 중요한 측면이었습니다. 데이터 분석가와 데이터 과학자의 삶에서 중추적인 역할을 했습니다. 확률 이론에서 사용되는 개념은 데이터 과학 영역에 있는 사람들이 반드시 알아야 하는 개념입니다. 특정 예측에 사용되는 통계적 방법은 확률 및 통계 이론을 기반으로 하므로 확률을 데이터 과학 영역의 중요한 부분으로 만듭니다.

확률은 몇 가지 가정 하에서 특정 이벤트의 발생에 대한 정보를 제공합니다. 즉, 이벤트가 발생할 가능성을 나타냅니다. 확률 변수가 취할 수 있는 다양한 가능한 값을 나타내기 위해 확률 분포를 사용합니다.

임의의 변수는 주어진 상황에서 가능한 다양한 결과라고 할 수 있습니다. 예를 들어, 주사위를 던진 경우 이 상황에 대한 가능한 결과는 확률 변수의 값이 되는 1에서 6 사이의 값입니다.

확률 분포는 두 가지 유형이 있습니다. – 이산 및 연속. 이산 분포는 범위 내에서 제한된 수의 값만 취하는 변수에 대한 것입니다. 연속 분포는 범위 내에서 무한한 수의 값을 취할 수 있는 변수용입니다. 이 기사에서는 이산 분포에 대해 자세히 알아보고 나중에 확률 질량 함수에 대해 알아보겠습니다.

이산 분포

이산 분포는 이산 확률 변수에 대한 다양한 결과의 확률을 나타냅니다. 간단히 말해서 확률 변수의 다양한 결과 패턴을 이해할 수 있습니다. 그것은 확률 변수의 모든 확률을 합친 것에 불과합니다.

확률 변수에 대한 확률 분포를 생성하려면 확률 변수의 결과와 관련 확률이 있어야 하며 확률 분포 함수를 계산할 수 있습니다.

이산 분포의 일부 유형은 다음과 같이 나열됩니다.

이항 분포: – 단일 시행의 결과 수는 2개일 수 있습니다(예 또는 아니오, 성공 또는 실패 등). 예: – 동전 던지기
베르누이 분포: – 실험에서 수행된 시행의 수가 항상 1인 이항 분포의 특수 버전입니다.
포아송 분포: – 특정 기간 동안 특정 횟수만큼 이벤트가 발생할 확률을 제공합니다. 예: – 토요일 밤에 영화가 스트리밍되는 횟수.
균일 분포: – 이 분포는 확률 변수의 모든 결과에 대한 확률이 동일하다고 가정합니다. 예: – 주사위 굴림(모든 면이 나타날 확률이 같으므로).

연속 및 불연속 분포 유형에 대한 자세한 내용은 이 링크 를 참조하십시오. 값이 범위 내의 일부 값과 같은 확률 변수의 확률을 계산하기 위해 확률 질량 함수(PMF)가 사용됩니다. 모든 분포에 대해 확률 질량 함수의 공식은 그에 따라 달라집니다.

확률 질량 함수에 대한 더 나은 명확성을 위해 예제를 살펴보겠습니다. 관련 데이터가 있는 경우 크리켓의 타자 위치 중 팀 내에서 한 세기를 득점할 확률이 더 높은 위치를 파악해야 한다고 가정합니다. 이제 팀에 11개의 플레이 위치만 있을 수 있으므로 랜덤 변수는 1에서 11 사이의 값을 갖습니다.

이산 밀도 함수라고도 하는 확률 질량 함수를 사용하면 각 위치, 즉 P(X=1), P(X=2)… 모든 확률을 계산한 후 해당 확률 변수의 확률 분포를 계산할 수 있습니다.

확률 질량 함수의 일반 공식은 다음과 같습니다. –

P X (x k ) = P(X = x k ) for k = 1,2,…k

어디,

X = 이산 확률 변수.

x k = 확률 변수의 가능한 값.

P = x k 와 같을 때 확률 변수의 확률 .

많은 사람들이 PMF(Probability Mass Function)와 PDF(Probability Density Function)를 혼동합니다. 이 문제를 해결하기 위해 확률 질량 함수는 이산 확률 변수, 즉 범위 내에서 제한된 수의 값을 취할 수 있는 변수에 대한 것입니다.

확률 밀도 함수는 연속 확률 변수에 사용됩니다. 즉, 범위에서 무한한 수의 값을 취할 수 있는 변수입니다. 확률 질량 함수는 이산 분포의 평균 및 분산과 같은 일반 통계를 계산하는 데 도움이 됩니다.

세계 최고의 대학에서 데이터 과학 인증 을 획득 하십시오. 귀하의 경력을 빠르게 추적하려면 Executive PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램에 가입하십시오.

확률 질량 함수의 속성

확률 변수의 모든 가능한 값의 확률은 합이 1이 되어야 합니다. [ ∑P X (x k ) = 1]
모든 확률은 0이거나 0보다 클 수 있습니다. [P(x k ) ≥ 0]
각 이벤트가 발생할 확률은 0에서 1 사이입니다. [1 ≥ P(x k ) ≥ 0]

결론

확률 질량 함수와 같은 확률의 개념은 데이터 과학 영역에서 매우 유용했습니다. 이러한 개념은 데이터 과학 프로젝트의 모든 측면에서 또는 전체 프로젝트에서도 해당 문제에 대해 사용되지 않을 수 있습니다. 그러나 이것이 이 영역에서 확률 이론의 중요성을 과소 평가하는 것은 아닙니다.

확률 이론의 적용은 데이터 과학 영역뿐만 아니라 업계의 다른 영역에서도 흥미로운 통찰력과 의사 결정에 도움이 될 수 있으므로 항상 시도해 볼 가치가 있기 때문에 훌륭한 결과를 제공했습니다.

이 기사는 데이터 과학 분야에서 확률의 중요성에 대한 개요를 제공하고 확률 분포 및 확률 질량 함수와 같은 확률의 기본 개념을 소개했습니다. 이 기사는 확률 질량 함수가 사용되기 때문에 이산 변수 용어에 주로 초점을 맞췄습니다. 연속 변수에 사용되는 용어는 다르지만 이러한 개념의 전반적인 이념은 이 기사에서 설명하는 것과 유사합니다.

이산 확률 분포는 연속 확률 분포와 어떻게 다릅니까?

이산 확률 분포 또는 단순히 이산 분포는 이산될 수 있는 확률 변수의 확률을 계산합니다. 예를 들어, 동전을 두 번 던지면 총 앞면 수를 나타내는 확률 변수 X의 가능한 값은 임의의 값이 아닌 {0, 1, 2}가 됩니다.
Bernoulli, Binomial, Hypergeometric은 이산 확률 분포의 몇 가지 예입니다.
반면에 연속 확률 분포는 임의의 숫자가 될 수 있는 임의 값의 확률을 제공합니다. 예를 들어, 도시의 시민 키를 나타내는 확률 변수 X의 값은 161.2, 150.9 등과 같은 숫자가 될 수 있습니다.
정규분포, 스튜던트 T, 카이제곱은 연속 분포의 몇 가지 예입니다.

초기하 분포를 설명합니까?

초기하 분포는 대체 없이 시행 횟수에 대한 성공 횟수를 고려하는 이산 분포입니다. 이러한 유형의 분포는 무언가를 대체하지 않고 확률을 찾아야 하는 경우에 유용합니다.
빨간 공과 녹색 공으로 가득 찬 가방이 있고 5번의 시도에서 녹색 공을 뽑을 확률을 찾아야 하지만 공을 선택할 때마다 가방에 다시 돌려주지 않는다고 가정해 보겠습니다. 이것은 초기하 분포의 적절한 예입니다.

데이터 과학에서 확률의 중요성은 무엇입니까?

데이터 과학은 데이터 연구에 관한 것이기 때문에 여기서 확률이 핵심적인 역할을 합니다. 다음 이유는 확률이 데이터 과학의 필수 불가결한 부분임을 설명합니다.
1. 분석가와 연구자가 데이터 세트에서 예측을 수행하는 데 도움이 됩니다. 이러한 종류의 추정 결과는 데이터의 추가 분석을 위한 기초입니다.
2. 기계 학습 모델에 사용되는 알고리즘을 개발할 때도 확률이 사용됩니다. 모델 훈련에 사용되는 데이터 세트를 분석하는 데 도움이 됩니다.
3. 데이터를 정량화하고 도함수, 평균 및 분포와 같은 결과를 도출할 수 있습니다.
4. 확률을 사용하여 얻은 모든 결과는 결국 데이터를 요약합니다. 이 요약은 데이터 세트의 기존 이상값을 식별하는 데도 도움이 됩니다.