Estatísticas para aprendizado de máquina: tudo o que você precisa saber

Publicados: 2021-03-12

Estatística e Probabilidade formam o núcleo de Machine Learning e Data Science. É a análise estatística aliada ao poder e à otimização da computação que o Machine Learning é capaz de alcançar o que está alcançando hoje. Dos fundamentos da probabilidade à estatística descritiva e inferencial, esses tópicos formam a base do Machine Learning.

Ao final deste tutorial, você saberá o seguinte:

Noções básicas de probabilidade
Distribuições de probabilidade
Distribuição normal
Medidas de tendência central
Teorema do limite central
Desvio padrão e erro padrão
Distorção e Curtose

Índice

Noções básicas de probabilidade

Eventos independentes e dependentes

Vamos considerar 2 eventos, evento A e evento B. Quando a probabilidade de ocorrência do evento A não depende da ocorrência do evento B, então A e B são eventos independentes. Por exemplo, se você tiver 2 moedas honestas, a probabilidade de obter cara em ambas as moedas será de 0,5 para ambas. Portanto, os eventos são independentes.

Agora considere uma caixa contendo 5 bolas - 2 pretas e 3 vermelhas. A probabilidade de tirar primeiro uma bola preta será de 2/5. Agora a probabilidade de tirar uma bola preta novamente das 4 bolas restantes será 1/4. Nesse caso, os dois eventos são dependentes, pois a probabilidade de tirar uma bola preta pela segunda vez depende de qual bola foi sorteada na primeira jogada.

Probabilidade marginal

É a probabilidade de um evento independente dos resultados de outras variáveis aleatórias, por exemplo, P(A) ou P(B).

Probabilidade conjunta

É a probabilidade de dois eventos diferentes ocorrerem ao mesmo tempo, ou seja, dois (ou mais) eventos simultâneos, por exemplo, P(A e B) ou P(A, B).

Probabilidade Condicional

É a probabilidade de um (ou mais) eventos, dada a ocorrência de outro evento, ou seja, é a probabilidade de um evento A ocorrer quando um evento secundário B for verdadeiro. por exemplo, P(A dado B) ou P(A | B).

Participe do Curso de ML online das melhores universidades do mundo - Mestrados, Programas de Pós-Graduação Executiva e Programa de Certificado Avançado em ML e IA para acelerar sua carreira.

Distribuições de probabilidade

Distribuições de probabilidade descrevem a distribuição de pontos de dados em um espaço amostral. Isso nos ajuda a ver a probabilidade de amostragem de certos pontos de dados quando amostrados aleatoriamente da população. Por exemplo, se uma população consiste em notas de alunos de uma escola, então a distribuição de probabilidade terá Marcas no eixo X e o número de alunos com essas notas no eixo Y. Isso também é chamado de Histograma . O histograma é um tipo de Distribuição de Probabilidade Discreta . Os principais tipos de Distribuição Discreta são a Distribuição Binomial, a Distribuição de Poisson e a Distribuição Uniforme.

Por outro lado, uma Distribuição de Probabilidade Contínua é feita para dados que possuem valor contínuo. Em outras palavras, quando pode ter um conjunto infinito de valores como altura, velocidade, temperatura, etc. Distribuições Contínuas de Probabilidade têm um uso tremendo em Ciência de Dados e análise estatística para verificar a importância de recursos, distribuições de dados, testes estatísticos, etc.

Leia também a matemática por trás do aprendizado de máquina

Distribuição normal

A distribuição contínua mais conhecida é a Distribuição Normal, também conhecida como distribuição Gaussiana ou “Curva de Bell”.

Considere uma distribuição normal da altura das pessoas. A maioria das alturas estão agrupadas na parte do meio, que é mais alta e reduz gradualmente para os extremos esquerdo e direito, o que denota uma menor probabilidade de obter esse valor aleatoriamente.

Esta curva está centrada na sua média e pode ser alta e esguia ou pode ser curta e espalhada. Um magro denota que há um número menor de valores distintos que podemos amostrar. E uma curva mais espalhada mostra que há uma gama maior de valores. Este spread é definido pelo seu Desvio Padrão .

Quanto maior o Desvio Padrão, mais spread serão seus dados. O Desvio Padrão é apenas uma derivação matemática de outra propriedade chamada Variação, que define o quanto os dados 'variam'. E variância é o que os dados tratam, variância é informação. Nenhuma variação, nenhuma informação. A Distribuição Normal tem um papel crucial nas estatísticas – O Teorema do Limite Central.

Medidas de tendência central

As medidas de tendência central são as maneiras pelas quais podemos resumir um conjunto de dados tomando um único valor. Existem 3 Medidas de Tendência principalmente:

1. Média: A média é apenas a média aritmética ou a média dos valores nos dados/característica. A soma de todos os valores dividido pelo número de valores nos dá a média. A média geralmente é a maneira mais comum de medir o centro de qualquer dado, mas pode ser enganosa em alguns casos. Por exemplo, quando há muitos outliers, a média começará a mudar para os outliers e será uma medida ruim do centro de seus dados.

2. Mediana : A mediana é o ponto de dados que fica exatamente no centro quando os dados são classificados em ordem crescente ou decrescente. Quando o número de pontos de dados é ímpar, a mediana é facilmente escolhida como o ponto mais central. Quando o número de pontos de dados é par, então a mediana é calculada como a média dos 2 pontos mais centrais de dados.

3. Modo: Modo é o ponto de dados que está presente com mais frequência em um conjunto de dados. O modo permanece mais robusto para outliers, pois ainda permanecerá fixo no ponto mais frequente.

Teorema do limite central

O teorema do limite central em estatística afirma que, dado um tamanho de amostra suficientemente grande, a distribuição amostral se aproximará de uma distribuição normal, independentemente da distribuição dessa variável. Deixe-me trazer a essência da afirmação acima em palavras simples.

Os dados podem ser de qualquer distribuição. Pode ser perfeito ou normal distorcido, pode ser exponencial ou (quase) qualquer distribuição que você possa imaginar. No entanto, se você coletar repetidamente amostras da população e continuar traçando o histograma de suas médias, você acabará descobrindo que essa nova distribuição de todas as médias se assemelha à Distribuição Normal!

Em essência, não importa em qual distribuição seus dados estejam, a distribuição de seus meios sempre será normal.

Mas quantas amostras são necessárias para manter o CLT verdadeiro? A regra geral diz que deve ser >30. Portanto, se você coletar 30 ou mais amostras de qualquer distribuição, os meios serão distribuídos normalmente, independentemente do tipo de distribuição subjacente.

Desvio padrão e erro padrão

Desvio Padrão e Erro Padrão são frequentemente confundidos um com o outro. O Desvio Padrão, como você deve saber, descreve ou quantifica a variação nos dados em ambos os lados da distribuição – menor que a média e maior que a média. Se seus pontos de dados estiverem espalhados por um grande intervalo de valores, o desvio padrão será alto.

Agora, como discutimos acima, pelo Teorema do Limite Central, se traçarmos as médias de todas as amostras de uma população, a distribuição dessas médias será novamente uma distribuição normal. Então ele terá seu próprio desvio padrão, certo?

O desvio padrão das médias de todas as amostras de uma população é chamado de erro padrão. O valor do Erro Padrão será geralmente menor que o Desvio Padrão, pois você está calculando o desvio padrão das médias, e o valor das médias seria menos espalhado do que os pontos de dados individuais devido à agregação.

Você pode até calcular o desvio padrão das medianas, moda ou até mesmo o desvio padrão dos desvios padrão!

Antes de você ir

Os conceitos estatísticos formam o verdadeiro núcleo de Data Science e ML. Para poder fazer deduções válidas e entender os dados disponíveis de forma eficaz, você precisa ter uma compreensão sólida dos conceitos estatísticos e de probabilidade discutidos neste tutorial.

O upGrad oferece um Programa PG Executivo em Machine Learning & AI e um Master of Science em Machine Learning & AI que podem orientá-lo na construção de uma carreira. Esses cursos explicarão a necessidade de Machine Learning e outras etapas para reunir conhecimento neste domínio, abrangendo conceitos variados, desde Gradient Descent até Machine Learning.

O conhecimento de estatística é obrigatório para um bom desempenho em aprendizado de máquina?

A estatística é um campo muito vasto. No aprendizado de máquina, as estatísticas basicamente ajudam a entender profundamente os dados. Alguns conceitos estatísticos como probabilidade, interpretação de dados, etc. são necessários em vários algoritmos de aprendizado de máquina. No entanto, você não precisa ser um especialista em todos os tópicos de estatística para se sair bem em aprendizado de máquina. Conhecendo apenas os conceitos fundamentais, você será capaz de atuar com eficiência.

Saber alguma codificação de antemão será útil no aprendizado de máquina?

A codificação é o coração do aprendizado de máquina, e os programadores que entendem bem como codificar terão uma compreensão profunda de como os algoritmos funcionam e, assim, poderão monitorar e otimizar esses algoritmos com mais eficiência. Você não precisa ser um especialista em nenhuma linguagem de programação, embora qualquer conhecimento prévio seja benéfico. Se você é iniciante, o Python é uma boa escolha, pois é simples de aprender e possui uma sintaxe amigável.

Como usamos o cálculo no dia a dia?

As previsões meteorológicas são baseadas em uma série de variáveis, como velocidade do vento, teor de umidade e temperatura, que só podem ser calculadas por meio de cálculo. O uso do cálculo também pode ser visto na engenharia aeronáutica de várias maneiras. O cálculo também é usado pelas indústrias de veículos para melhorar e garantir uma boa segurança dos veículos. Também é usado por empresas de cartão de crédito para fins de pagamento.