Introdução à regressão binomial negativa: guia passo a passo

Publicados: 2022-04-17

A técnica de Regressão Binomial Negativa é utilizada para realizar a modelagem das variáveis ​​de contagem. O método é quase semelhante ao método de regressão múltipla. No entanto, há a diferença de que no caso da Regressão Binomial Negativa, a variável dependente, ou seja, Y, segue a distribuição binomial negativa. Portanto, os valores da variável podem ser inteiros não negativos, como 0, 1, 2.

O método também é uma extensão da regressão de Poisson que faz um relaxamento ao assumir que a média é igual à variância. Um dos modelos tradicionais de regressão binomial, definido como “NB2”, é baseado na distribuição mista de Poisson-gama.

O método da regressão de Poisson é generalizado através da adição de uma variável de ruído gama. Esta variável tem um valor de média um e também um parâmetro de escala que é “v”.

Aqui estão alguns exemplos da Regressão Binomial Negativa:

  • Os administradores da escola realizaram um estudo para estudar o comportamento de atendimento dos alunos do ensino médio de duas escolas. Os fatores que podem influenciar o comportamento de assiduidade podem incluir os dias em que os calouros faltaram à escola. Além disso, o programa em que estavam matriculados.
  • Um pesquisador de um estudo relacionado à saúde realizou um estudo de quantos idosos visitaram um hospital nos últimos 12 meses. O estudo baseou-se nas características do indivíduo e nos planos de saúde que os idosos adquiriram.

Índice

Exemplo de regressão binomial negativa

Suponha que haja uma folha de presença de cerca de 314 alunos do ensino médio. Os dados são obtidos de duas escolas urbanas e armazenados em um arquivo chamado nb_data.dta. A variável de resposta interessante neste exemplo são os dias ausentes que são “daysabs”. Uma variável, “matemática”, está presente, que define a pontuação de matemática para cada aluno. Há outra variável que é “prog”. Essa variável indica o curso em que os alunos estão matriculados.

Fonte

Cada uma das variáveis ​​tem cerca de 314 observações. Portanto, as distribuições entre as variáveis ​​também são razoáveis. Além disso, considerando a variável desfecho, a média incondicional é menor que a variância.

Agora, concentre-se na descrição da variável considerada no conjunto de dados. Uma tabela tabula a média de dias que um aluno faltou à escola em cada tipo de programa. Isso sugere que a variável tipo de programa pode prever os dias em que o aluno faltou à escola. Você também pode usá-lo para prever a variável de resultado. Isso ocorre porque o valor médio da variável de resultado varia de acordo com a variável prog. Além disso, os valores das variâncias são maiores do que em cada nível da variável prog. Esses valores são chamados de variâncias e médias. As diferenças existentes sugerem que existe a presença de sobredispersão e, portanto, será apropriado utilizar um modelo binomial negativo.

Fonte

Um pesquisador pode considerar vários métodos de análise para esse tipo de estudo. Esses métodos são descritos abaixo. Alguns dos métodos de análise que o usuário pode usar para analisar o modelo de regressão são:

1. Regressão binomial negativa

O método de Regressão Binomial Negativa deve ser usado quando há dados superdispersos. Isso significa que o valor da variância condicional é maior ou excede o valor da média condicional. O método é considerado generalizado a partir do método de regressão de Poisson. Isso ocorre porque ambos os métodos têm a mesma estrutura da média. Mas, há um parâmetro adicional na regressão binomial negativa usada para modelar a superdispersão. Os intervalos de confiança são considerados mais estreitos do que a regressão de paixão quando a distribuição condicional é superdispersa da variável de resultado.

2. Regressão de Poisson

O método de regressão de Poisson é utilizado na modelagem dos dados de contagem. Muitas extensões podem ser usadas para modelar as variáveis ​​de contagem na regressão de Poisson.

3. Regressão OLS

Os resultados das variáveis ​​de contagem são algumas vezes transformados em log e então analisados ​​através do método de regressão OLS. No entanto, às vezes há problemas relacionados ao método de regressão OLS. Esses problemas podem ser a perda de dados devido à geração de qualquer valor indefinido por meio da consideração do log do valor zero. Além disso, pode ser gerado devido à falta de modelagem dos dados dispersos.

4. Modelos inflados a zero

Esses tipos de modelos tentam levar em conta todos os zeros em excesso no modelo.

Análise usando a regressão binomial negativa

O comando “nbreg” é utilizado para estimar o modelo de Regressão Binomial Negativa. Há um “i” antes da variável “prog”. A presença de “i” indica que a variável é do tipo fator, ou seja, variável categórica. Estas devem ser incluídas como variáveis ​​indicadoras no modelo.

  • A saída do modelo começa com um log de iteração. Inicia-se pelo ajuste do modelo de Poisson, seguido de um modelo nulo e, em seguida, o modelo do binomial negativo. O método usa a estimativa de máxima verossimilhança e continua iterando até que haja uma mudança no valor do log final. A verossimilhança do log é utilizada para a comparação dos modelos.
  • A próxima informação está no arquivo de cabeçalho.
  • Há a informação dos coeficientes da Regressão Binomial Negativa logo abaixo do cabeçalho. Os coeficientes são gerados para cada variável juntamente com os erros, como os valores p, z-scores. Há também um intervalo de confiança de 95% para todos os coeficientes. O coeficiente para a variável “matemática” é -0,006, o que denota que ela é estatisticamente significativa. O resultado significa que, se houver um aumento em uma unidade na variável “matemática”, a contagem de logs esperada para o número de dias ausentes diminui em um valor de 0,006. Além disso, o valor de 2. prog, variável indicadora, é a diferença esperada na contagem de log entre os dois grupos (grupo 2 e grupo de referência).
  • A estimativa do parâmetro para a sobredispersão do perfil transferido é feita e, em seguida, exibida com o valor não transformado. No modelo de Poisson, o valor é zero.
  • Há uma informação de verossimilhança do teste de razão abaixo da tabela de coeficientes. O modelo pode ser mais bem compreendido através do uso dos comandos “margens”.

Processo de fazer análise de regressão binomial negativa em Python

Os pacotes necessários para realizar o processo de regressão precisam ser importados do Python. Esses pacotes estão listados abaixo:

  • importar statsmodels.api como sm
  • importar matplotlib.pyplot como plt
  • importar numpy como np
  • de patsy import dmatrices
  • importar pandas como pd

Considerações para Regressão Binomial Negativa

Há algumas coisas que devem ser consideradas ao aplicar o método de análise de regressão binomial negativa. Esses incluem:

  • Se houver a presença de amostras pequenas, o método de Regressão Binomial Negativa não é recomendado.
  • Às vezes, há excesso de zeros presentes, o que pode ser a causa da superdispersão. Esses zeros podem ser gerados devido ao processo de adição de geração de dados. Se esse tipo de caso ocorrer, recomenda-se usar o método do modelo inflado por zero.
  • Se o processo de geração de dados não considerar zeros, nesses casos, é recomendável usar o método do modelo truncado em zero.
  • Existe uma variável de exposição associada aos dados de contagem. A variável denota as vezes em que há uma chance de que o evento possa ocorrer. Esta variável precisa ser incorporada ao modelo de Regressão Binomial Negativa. Isso é feito através da opção de exp().
  • A variável de resultado não pode ser nenhum valor negativo no modelo de análise de Regressão Binomial Negativa. Além disso, a variável de exposição não pode ter o valor 0.
  • O comando “glm” também pode ser usado para executar um método de análise de Regressão Binomial Negativa. Isso pode ser feito através do link do log e também da família de binômios.
  • O comando “glm” é necessário para obter os resíduos. Isso é para verificar se existem outras suposições no modelo de Regressão Binomial Negativa.
  • Existe a existência das várias medidas do pseudo-R-quadrado. No entanto, cada medida fornece informações semelhantes às informações fornecidas pelo R-quadrado na regressão de MQO.

Conclusão

O artigo discutiu o tema Regressão Binomial Negativa . Vimos que é quase semelhante ao método de regressões múltiplas e é uma forma generalizada da distribuição de Poisson. Existem várias aplicações do método. A técnica também pode ser aplicada através da linguagem de programação python ou em R.

Vários estudos de caso também estão presentes que mostram sua aplicação em estudos como o envelhecimento. Além disso, os modelos clássicos de regressões que podem ser usados ​​nos dados de contagem são a Regressão de Poisson, Regressão Binomial Negativa e Regressão Geométrica. Esses métodos pertenciam à família de modelos lineares e foram incluídos em quase todos os pacotes estatísticos, como o sistema R.

Se você deseja se destacar em aprendizado de máquina e deseja explorar o campo de dados, consulte o curso Programa PG Executivo em Aprendizado de Máquina e IA oferecido pelo upGrad. Então, se você é um profissional que sonha em ser um especialista em aprendizado de máquina, venha e ganhe a experiência de ser treinado por especialistas. Mais detalhes podem ser obtidos através do nosso site. Para qualquer dúvida, nossa equipe pode ajudá-lo prontamente.

Quer compartilhar este artigo?

Melhore sua carreira em Machine Learning e Inteligência Artificial

Inscreva-se agora para certificação executiva em Ai-ml do IIITB