Função de Massa de Probabilidade: Distribuição Discreta e Propriedades

Publicados: 2021-02-08

Índice

Introdução

A probabilidade tem sido um aspecto importante quando se trata da área de Data Science. Ele desempenhou um papel fundamental na vida de analistas de dados e cientistas de dados. Os conceitos usados ​​na teoria da probabilidade são um conhecimento obrigatório para as pessoas no domínio da Ciência de Dados. Os métodos estatísticos usados ​​para fazer certas previsões são baseados nas teorias de probabilidade e estatística, tornando a probabilidade uma parte crucial do domínio da ciência de dados.

A probabilidade fornece informações sobre a ocorrência de um determinado evento sob algumas premissas, ou seja, indica a probabilidade de um evento ocorrer. Para representar os diferentes valores possíveis que uma variável aleatória pode assumir, utilizamos a distribuição de probabilidade.

Uma variável aleatória pode ser referida como os diferentes resultados que são possíveis em uma determinada situação. Para ilustrar, se um dado for lançado, os resultados possíveis para essa situação são valores que variam de 1 a 6, que se tornam os valores da variável aleatória.

A Distribuição de Probabilidades pode ser de dois tipos: – Discreta e Contínua. As distribuições discretas são para as variáveis ​​que assumem apenas um número limitado de valores dentro de um intervalo. As distribuições contínuas são para variáveis ​​que podem assumir um número infinito de valores dentro de um intervalo. Neste artigo, exploraremos mais a distribuição discreta e mais tarde a Função de Massa de Probabilidade.

Distribuição Discreta

A distribuição discreta representa as probabilidades dos diferentes resultados para uma variável aleatória discreta. Em termos simples, permite-nos compreender o padrão dos diferentes resultados na variável aleatória. Não é nada mais do que a representação de todas as probabilidades de uma variável aleatória juntas.

Para criar uma distribuição de probabilidade para uma variável aleatória, precisamos ter os resultados da variável aleatória junto com suas probabilidades associadas e então podemos calcular sua função de distribuição de probabilidade.

Alguns dos tipos de distribuições discretas estão listados a seguir: –

  1. Distribuição Binomial: – O número de resultados em uma única tentativa pode ser apenas dois (sim ou não, sucesso ou fracasso, etc). Exemplo: – Lançamento de uma moeda
  2. Distribuição de Bernoulli: – Uma versão especial da distribuição Binomial onde o número de tentativas realizadas no experimento é sempre igual a 1.
  3. Distribuição de Poisson: – Fornece a probabilidade de um evento ocorrer um certo número de vezes em um determinado período de tempo. Exemplo: – Número de vezes que um filme será transmitido em uma noite de sábado.
  4. Distribuição uniforme: – Esta distribuição assume que a probabilidade para todos os resultados em uma variável aleatória é a mesma. Exemplo: – Lançamento de um dado (pois todos os lados têm a mesma probabilidade de aparecer).

Você pode consultar este link para obter mais detalhes sobre os tipos de distribuições contínuas e discretas. Para calcular a probabilidade de uma variável aleatória com seu valor igual a algum valor dentro do intervalo, é utilizada a Função de Massa de Probabilidade (PMF). Para cada distribuição, a fórmula da função de massa de probabilidade varia de acordo.

Para melhor clareza sobre a função de massa de probabilidade, vejamos um exemplo. Suponha que tenhamos que descobrir qual das posições de batedor no críquete tem mais probabilidade de marcar um século dentro de um time, desde que tenhamos alguns dados relacionados. Agora, como pode haver apenas 11 posições de jogo no time, a variável aleatória terá valores que variam de 1 a 11.

A Função de Massa de Probabilidade, também chamada de Função de Densidade Discreta, nos permitirá descobrir a probabilidade de marcar um século para cada posição, ou seja, P(X=1), P(X=2)….P(X=11). Após o cálculo de todas as probabilidades, podemos calcular a distribuição de probabilidade dessa variável aleatória.

A fórmula geral para a função de massa de probabilidade é a seguinte: –

P X (x k ) = P(X = x k ) para k = 1,2,…k

Onde,

X = Variável aleatória discreta.

x k = Valor possível da variável aleatória.

P = Probabilidade da variável aleatória quando igual a x k .

Muitos se metem na confusão entre Função de Massa de Probabilidade (PMF) e Função de Densidade de Probabilidade (PDF). Para esclarecer isso, a função de massa de probabilidade é para as variáveis ​​aleatórias discretas, ou seja, as variáveis ​​que podem assumir um número limitado de valores dentro de um intervalo.

A função de densidade de probabilidade é usada para as variáveis ​​aleatórias contínuas. ou seja, as variáveis ​​que podem assumir um número infinito de valores em um intervalo. A função de massa de probabilidade ajuda no cálculo das estatísticas gerais como média e variância da distribuição discreta.

Obtenha a certificação em ciência de dados das melhores universidades do mundo. Junte-se aos nossos Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Propriedades da Função de Massa de Probabilidade

  1. As probabilidades de todos os valores possíveis da variável aleatória devem somar 1. [ ∑P X (x k ) = 1]
  2. Todas as probabilidades devem ser 0 ou maiores que 0. [P(x k ) ≥ 0]
  3. A probabilidade de cada evento ocorrer varia de 0 a 1. [1 ≥ P(x k ) ≥ 0]

Conclusão

Os conceitos de probabilidade como Função de Massa de Probabilidade têm sido muito úteis no domínio da ciência de dados. Esses conceitos não podem ser usados ​​em todos os aspectos de um projeto de ciência de dados ou em todo o projeto também. Mas isso não diminui a importância da teoria da probabilidade neste domínio.

As aplicações da teoria das probabilidades forneceram ótimos resultados não apenas no domínio da ciência de dados, mas também em outros domínios da indústria, pois podem ajudar em insights interessantes e na tomada de decisões, o que sempre vale a pena tentar.

Este artigo forneceu uma visão geral da importância da probabilidade no campo da ciência de dados, introduziu os conceitos básicos de probabilidade, como distribuição de probabilidade e função de massa de probabilidade. O artigo se concentrou principalmente nos termos de variáveis ​​discretas, pois a função de massa de probabilidade é usada para eles. As terminologias usadas para as variáveis ​​contínuas são diferentes, mas a ideologia geral desses conceitos permanece semelhante à explicada neste artigo.

Como uma distribuição de probabilidade discreta é diferente de uma distribuição de probabilidade contínua?

A distribuição de probabilidade discreta ou simplesmente distribuição discreta calcula as probabilidades de uma variável aleatória que pode ser discreta. Por exemplo, se lançarmos uma moeda duas vezes, os valores prováveis ​​de uma variável aleatória X que denota o número total de caras serão {0, 1, 2} e não qualquer valor aleatório.
Bernoulli, Binomial, Hipergeométrica são alguns exemplos de distribuição de probabilidade discreta.
Por outro lado, a distribuição de probabilidade contínua fornece as probabilidades de um valor aleatório que pode ser qualquer número aleatório. Por exemplo, o valor de uma variável aleatória X que denota a altura dos cidadãos de uma cidade pode ser qualquer número como 161,2, 150,9 etc.
Normal, T de Student, Qui-quadrado são alguns exemplos de distribuição contínua.

Explique a distribuição hipergeométrica?

A distribuição hipergeométrica é uma distribuição discreta onde consideramos o número de sucessos sobre o número de tentativas sem qualquer reposição. Esse tipo de distribuição é útil nos casos em que precisamos encontrar a probabilidade de algo sem substituí-lo.
Digamos que temos um saco cheio de bolas vermelhas e verdes e temos que encontrar a probabilidade de pegar uma bola verde em 5 tentativas, mas cada vez que pegamos uma bola, não a devolvemos ao saco. Este é um exemplo adequado da distribuição hipergeométrica.

Qual é a importância da probabilidade na Ciência de Dados?

Como a ciência de dados trata do estudo de dados, a probabilidade desempenha um papel fundamental aqui. As razões a seguir descrevem como a probabilidade é uma parte indispensável da ciência de dados:
1. Ajuda analistas e pesquisadores a fazer previsões a partir de conjuntos de dados. Esses tipos de resultados estimados são a base para uma análise mais aprofundada dos dados.
2. A probabilidade também é usada no desenvolvimento de algoritmos usados ​​em modelos de aprendizado de máquina. Ele ajuda a analisar os conjuntos de dados usados ​​para treinar os modelos.
3. Permite quantificar dados e derivar resultados como derivadas, média e distribuição.
4. Todos os resultados obtidos usando a probabilidade eventualmente resumem os dados. Este resumo também ajuda na identificação de outliers existentes nos conjuntos de dados.