Aprenda a Classificação Bayesiana em Mineração de Dados [2022]

Publicados: 2021-03-10

Se você estuda mineração de dados há algum tempo, já deve ter ouvido falar do termo 'classificação bayesiana'. Você quer saber o que isso significa e quão importante é como um conceito em mineração de dados?

Este artigo responderá a essas perguntas à medida que você explorará o que é a classificação Bayesiana na mineração de dados. Vamos começar:

Índice

O que é Classificação Bayesiana?

Durante a mineração de dados, você descobrirá que a conexão entre a variável de classe e o atributo definido não é determinística. Isso significa que não podemos assumir o rótulo de classe de um registro de teste com certeza absoluta, mesmo que o conjunto de atributos seja o mesmo dos exemplos de treinamento.

Isso pode acontecer devido à presença de fatores influenciadores específicos ou dados ruidosos. Suponha que você queira prever se uma pessoa está em risco de doença cardíaca de acordo com seus hábitos alimentares. Embora os hábitos alimentares de uma pessoa sejam um grande fator para determinar se ela sofrerá de problemas cardíacos ou não, pode haver outras razões para a ocorrência do mesmo, como genética ou infecção.

Portanto, sua análise para determinar se a pessoa estaria em risco de doenças cardíacas com base apenas em seus hábitos alimentares seria falha e poderia causar vários problemas.

Então surge a pergunta: “Como você resolve esse problema na mineração de dados?” A resposta é a classificação Bayesiana.

Você pode usar a classificação Bayesiana na mineração de dados para resolver esse problema e prever a ocorrência de qualquer evento. Os classificadores bayesianos consistem em classificadores estatísticos usando entendimentos de probabilidade bayesiana.

Para entender o funcionamento da classificação Bayesiana na mineração de dados, você terá que começar com o teorema de Bayes.

Teorema de Bayes

O crédito pelo teorema de Bayes vai para Thomas Bayes, que usou probabilidade condicional para criar um algoritmo que utiliza evidências para calcular limites em parâmetros desconhecidos. Ele foi a primeira pessoa a apresentar essa solução.

Matematicamente, o teorema de Bayes é assim:

P(A/B) = P(B/A)P(A) P(B)

Aqui, A e B representam os eventos e P(B) não pode ser igual a zero.

P(B) 0

P(B/A) é uma probabilidade condicional que explica a ocorrência do evento B quando A é verdadeiro. Da mesma forma, P(A/B) é uma probabilidade condicional que explica a ocorrência do evento A quando B é verdadeiro.

P(B) e P(A) são as probabilidades de observar B e A independentemente e são chamadas de probabilidades marginais.

Interpretação Bayesiana

Na interpretação Bayesiana, a probabilidade calcula um grau de crença. De acordo com o teorema de Bayes, o grau de crença em uma hipótese antes de considerar a evidência está ligado ao grau de crença em uma hipótese após considerar a mesma.

Suponha que você tenha uma moeda. Se você jogar a moeda uma vez, obterá cara ou coroa e a probabilidade de ambas ocorrências é de 50%. No entanto, se você jogar a moeda várias vezes e observar os resultados, o grau de crença pode aumentar, diminuir ou permanecer estável com base nos resultados.

Se você tem a proposição A e a evidência B, então:

P(A) é o grau primário de crença em A. P(A/B) é o grau posterior de crença após considerar B. O quociente P(B/A)/P(B) mostra o suporte que B oferece para A .

Você pode derivar o teorema de Bayes da probabilidade condicional:

P(A/B) = P(A B) P(B) , se P(B) 0

P(B/A) = P(BA ) P(A) , se P(A) 0

Aqui P(A B) é a probabilidade conjunta de A e B serem verdadeiras porque:

P (B A) = P(A B)

OU, P(A B) = P( A B )P(B) = P( B A )P(A)

OU, P( A B ) = P( B A ) P(A) P(B) , SE P(B) 0

Rede Bayesiana

Usamos redes Bayesianas (também conhecidas como redes de crenças) para mostrar incertezas através de DAGs (Directed Acyclic Graphs). Um gráfico acíclico dirigido mostra uma rede bayesiana como qualquer outro gráfico estatístico. Ele contém um grupo de nós e links onde os links denotam a conexão entre os respectivos nós.

Cada nó em um gráfico Acíclico direcionado representa uma variável aleatória. As variáveis podem ser valores contínuos ou discretos e podem corresponder ao atributo real dado aos dados.

Uma rede Bayesiana permite que independências condicionais de classe sejam definidas entre subconjuntos de variáveis. Ele fornece um modelo gráfico do relacionamento no qual você realizaria implementações.

Além do DAG, uma rede Bayesiana também possui um conjunto de tabelas de probabilidade condicional.

Conclusão

Até agora você deve estar familiarizado com os fundamentos da classificação Bayesiana em mineração de dados. Compreender o teorema por trás das aplicações de implementações de mineração de dados é vital para progredir.

O que você acha da classificação Bayesiana em mineração de dados? Já tentou implementá-lo? Compartilhe suas respostas nos comentários. Adoraríamos ouvir de você.

Se você está curioso para aprender sobre ciência de dados, confira o PG Diploma in Data Science do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1- on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

O que é classificação e regressão no aprendizado de máquina?

Classificação e regressão são tipos de algoritmos de aprendizado supervisionado usados no aprendizado de máquina. Mas existem diferenças distintas específicas entre esses algoritmos. Um algoritmo de regressão em aprendizado de máquina é usado para estimar o valor contínuo de uma variável com base em variáveis de entrada específicas. Este algoritmo é usado para calcular variáveis contínuas como altura, renda, peso, pontuação, clima, etc. Ou seja, pode ser usado apenas para calcular valores discretos de formato inteiro. Um algoritmo de classificação é empregado para calcular os valores das variáveis discretas. Curiosamente, as técnicas de classificação podem lidar com variáveis discretas e de valor real, mas devem ser classificadas em categorias distintas classificadas ou rotuladas.

Mineração de dados e aprendizado de máquina são a mesma coisa?

Quais são os benefícios da mineração de dados?

A mineração de dados oferece meios eficazes para resolver problemas relacionados a dados ou informações neste mundo centrado em dados. Ele ajuda as empresas a coletar informações úteis e confiáveis. Como resultado, as empresas podem basear suas decisões ou modificar operações que, em última análise, geram mais lucros. A mineração de dados desempenha um papel crucial para ajudar as empresas a tomar decisões informadas, detectar e mitigar riscos e minimizar incidentes de fraude. Os cientistas de dados podem vasculhar rapidamente grandes volumes de dados diários usando técnicas de mineração de dados que são econômicas e eficientes.