Regressão Logística Binária: Visão Geral, Capacidades e Suposições

Publicados: 2021-10-05

Uma das definições mais aceitas de Machine Learning é mais ou menos assim:

“Diz-se que um programa de computador aprende com a experiência E em relação a alguma classe de tarefas T e medida de desempenho P, se seu desempenho em tarefas em T, medido por P, melhora com a experiência E.”

Agora, para melhorar o desempenho da máquina ao longo do tempo na mesma classe de tarefas, diferentes algoritmos são usados ​​para otimizar a saída da máquina e aproximá-la dos resultados desejados. A Análise de Regressão é uma das técnicas básicas e mais utilizadas para fazer com que a máquina melhore seu desempenho.

Consiste em uma série de técnicas de aprendizado de máquina para prever uma variável de saída contínua com base em um ou mais valores de variáveis ​​de previsão. A Análise de Regressão visa desenvolver uma equação matemática que possa definir a variável contínua em função da variável preditora.

Em um de nossos artigos anteriores, analisamos a regressão logística e como implementar a regressão logística em Python. Também falamos brevemente sobre os três tipos diferentes de Regressões Logísticas em Machine Learning. Neste artigo, vamos apresentar um passo a passo ligeiramente detalhado da regressão logística binária, juntamente com sua visão geral, recursos e suposições.

Índice

Visão geral da regressão logística binária

A Regressão Logística Binária ou Binomial pode ser entendida como o tipo de Regressão Logística que trata de cenários em que os resultados observados para variáveis ​​dependentes podem ser apenas binários, ou seja, podem ter apenas dois tipos possíveis. Esses dois tipos de classes podem ser 0 ou 1, passar ou falhar, morto ou vivo, ganhar ou perder e assim por diante.

A Regressão Logística Multinomial funciona em cenários em que o resultado pode ter mais de dois tipos possíveis – doença A versus doença B versus doença C – que não estão em nenhuma ordem específica. Ainda outro tipo de Regressão Logística é a Regressão Logística Ordinal que lida com variáveis ​​dependentes de forma ordenada.

Na regressão logística binária, as saídas possíveis são geralmente definidas como 0 ou 1, pois isso resulta na interpretação e compreensão mais diretas do modelo de regressão. Se um resultado específico para qualquer variável dependente for o resultado bem-sucedido ou digno de nota, ele será codificado como 0 e, se for malsucedido ou fracassado, será codificado como 0.

Em termos simples, a Regressão Logística Binária pode ser usada para prever com cuidado e precisão as chances de ser um caso com base nos valores dos preditores ou variáveis ​​independentes.

Capacidades de regressão logística binária - tipos de perguntas que ela pode responder

Como mencionado acima, a regressão logística binária é ideal para cenários em que a saída pode pertencer a uma das duas classes ou grupos. Por isso, a Regressão Logística Binária é mais adequada para responder a perguntas da seguinte natureza:

  • A probabilidade de contrair câncer muda para cada KG adicional que uma pessoa está acima do peso?
  • A referida probabilidade varia para cada maço de cigarros fumados por dia?
  • O peso corporal, a ingestão de gordura, a ingestão de calorias e a idade influenciam a probabilidade de ter um ataque cardíaco?

Como você pode ver, as respostas para todas as três perguntas acima podem ser sim ou não, 0 ou 1. A regressão logística binária pode, portanto, ser usada para responder precisamente a essas perguntas.

Assunção Principal da Regressão Logística Binária

Como acontece com qualquer outro algoritmo de Machine Learning, a Regressão Logística Binária também funciona com algumas suposições. Aqui estão aqueles:

  • A variável dependente é dicotômica. Ou seja, está presente ou ausente, mas nunca os dois ao mesmo tempo.
  • Não deve existir outliers nos dados.
  • Não deve haver alta correlação ou multicolinearidade entre os diferentes preditores. Isso pode ser avaliado usando uma matriz de correlação entre diferentes preditores.

Para concluir

A regressão logística binária ajuda em muitos casos de uso de aprendizado de máquina. Desde descobrir os inadimplentes até ajudar as empresas a reter clientes – a regressão logística binária pode ser estendida para resolver até mesmo os problemas de negócios mais complexos. No entanto, você deve se lembrar que esta é apenas uma das técnicas de algoritmos de aprendizado de máquina do oceano. Depois de dominar a análise de regressão, você estará no caminho certo para lidar com tópicos mais complexos e sutis.

Se, no entanto, você ainda estiver lutando para entender a análise de regressão e iniciar sua jornada de aprendizado de máquina, recomendamos nossa lista de cursos de aprendizado de máquina . No upGrad, temos uma base de alunos em mais de 85 países, com mais de 40.000 alunos pagos em todo o mundo, e nossos programas impactaram mais de 500.000 profissionais.

Nosso Mestrado em Aprendizado de Máquina e Inteligência Artificial , oferecido em colaboração com a Liverpool John Moores University, foi projetado para ajudar os alunos a começar do zero e adquirir aprendizado suficiente para trabalhar em projetos da vida real. Nossa assistência de carreira 360 graus garantirá que você esteja totalmente preparado para assumir os principais cargos do setor. Então, entre em contato conosco hoje e experimente o poder do aprendizado entre pares e da rede global!

Para que serve o modelo estatístico Bayesiano?

Os modelos estatísticos bayesianos são baseados em procedimentos matemáticos e empregam o conceito de probabilidade para resolver problemas estatísticos. Eles fornecem evidências para que as pessoas confiem em novos dados e façam previsões com base nos parâmetros do modelo.

O que é Inferência Bayesiana?

É uma técnica útil em estatística em que contamos com novos dados e informações para atualizar a probabilidade de uma hipótese usando o teorema de Bayes.

Os modelos bayesianos são únicos?

Os modelos bayesianos são únicos porque todos os parâmetros em um modelo estatístico, sejam eles observados ou não observados, recebem uma distribuição de probabilidade conjunta.