Como realizar a análise de regressão múltipla?
Publicados: 2021-11-23Na análise estatística, os modelos de regressão são mais utilizados sempre que necessário para desenvolver relações entre as variáveis consideradas. A relação é estabelecida ajustando uma linha entre todas as variáveis. Para entender o comportamento da variável dependente, são utilizados modelos de regressão. Eles permitem que o usuário saiba como as variáveis dependentes estão mudando com a mudança das variáveis independentes.
A regressão linear múltipla é uma dessas técnicas que nos ajuda a estimar a relação entre essas variáveis, ou seja, as variáveis dependentes e independentes. Este artigo enfocará a técnica de regressões lineares múltiplas e como ela é realizada.
Índice
Múltiplas Regressões Lineares
As regressões lineares múltiplas são uma forma de técnica estatística usada para prever os resultados de qualquer variável de resposta. Um dos objetivos da técnica é estabelecer uma relação linear entre as variáveis independentes e dependentes. A análise de regressão linear múltipla é uma forma de análise multivariada que envolve mais de uma forma de observação.
Principalmente a técnica pode ser realizada se você quiser saber sobre as seguintes coisas:
- Para entender o quão forte é a relação entre as variáveis. Além disso, se você quiser entender a relação entre as variáveis independentes e dependentes, nesses casos, podemos usar a técnica de regressões lineares múltiplas.
- A técnica pode ser usada para prever o valor das variáveis dependentes correspondentes às variáveis independentes.
Premissas Consideradas nas Regressões Lineares Múltiplas
Certas suposições são consideradas nas técnicas de regressões lineares múltiplas. Aqui estão algumas suposições listadas para MLR:
1. Homogeneidade de variância
Também é conhecido como homocedasticidade. Isso significa que ao prever um resultado, não há mudanças significativas no erro associado à previsão do resultado por meio dos valores das variáveis independentes. O método assume que a quantidade de erro é a mesma em todo o modelo de MLR. O analista deve plotar os resíduos que são padronizados em relação aos valores previstos. Isso ajuda a determinar se há uma distribuição justa de pontos entre as variáveis independentes. Um gráfico de dispersão pode ser usado para plotar os dados.
2. Independência das observações
As observações consideradas na Regressão Linear Múltipla são coletadas por meio de técnicas estatísticas válidas. Isso significa que não há relacionamentos ocultos ou existentes entre as variáveis coletadas. Às vezes, nesta técnica, existem cenários em que algumas variáveis são correlacionadas com outras variáveis. Portanto, antes de desenvolver o modelo de regressão, é sempre importante verificar essas variáveis correlacionadas. Remover uma das variáveis do desenvolvimento do modelo é sempre melhor para variáveis que apresentam alta correlação.
3. Não há correlação entre as variáveis independentes
De outra forma, pode-se mencionar que não deve haver multicolinearidade nos dados. Se houver a presença de qualquer multicolinearidade, o analista terá dificuldade em identificar a variável que contribui para a variância da variável dependente. Portanto, um dos métodos que são considerados melhores para testar a premissa é o método da variação do fator de inflação.
4. Normalidade:
Isso significa que o conjunto de dados segue a distribuição normal.
5. Linearidade
Ao procurar a relação entre as variáveis, tenta-se ajustar uma linha reta entre as variáveis. É amplamente assumido que existe uma relação linear entre as variáveis independentes e as variáveis dependentes. Uma maneira de verificar a relação linear é através da criação de gráficos de dispersão e, em seguida, visualizando os gráficos de dispersão. Permite ao usuário observar a linearidade existente nas observações. Caso não haja relação linear, o analista deve repetir sua análise. Softwares estatísticos como o SPSS podem ser usados para realizar o MLR.
Representação Matemática da Regressão Linear Múltipla
A imagem matemática de um modelo de Regressão Linear Múltipla é mostrada na equação abaixo:
Na equação acima,
- Y representa a variável de saída,
- X representa as variáveis de entrada,
- Β representa o coeficiente associado a cada termo.
- B0 é o valor de y-intercept que significa o valor de Y quando todos os outros preditores estão ausentes.
Às vezes, a equação de MLR consiste em um termo de erro representado com o termo “e” no final dos termos da equação.
Ao encontrar o melhor ajuste da linha, a equação MLR é usada para calcular as seguintes coisas:
- Cálculo dos coeficientes de regressão que resultam no menor erro na equação MLR.
- Para o modelo geral, a equação calcula o valor da estatística t.
- Valor P do modelo.
Mínimos Quadrados Comuns
O método de Regressão Linear Múltipla também é conhecido como Mínimos Quadrados Ordinários (OLS). Isso ocorre porque o método de MLR tenta encontrar a menor soma dos quadrados. Por isso, também conhecido como o método OLS. A linguagem de programação python pode ser usada para implementar esses métodos. Os dois métodos que podem aplicar o método OLS em python são:
1. Aprendizado do SciKit
Este é um pacote disponível em uma linguagem de programação python. Os módulos de regressão linear devem ser importados do pacote do Scikit Learn. O modelo é então ajustado com os dados. É um método simples e pode ser usado amplamente.
2. Modelos de estatísticas
Um dos outros métodos usados na linguagem de programação python é o pacote Statsmodels. Este pacote pode ajudar na implementação das técnicas OLS.
Exemplos de Regressões Lineares Múltiplas
Alguns dos exemplos para MLR estão listados abaixo:
- O modelo de Regressão Linear Múltipla pode ser usado para a previsão de rendimentos de culturas. Isso porque, na MLR, há associação entre as variáveis dependentes e independentes. Nesses tipos de estudos, fatores adicionais como fatores climáticos, precipitação, nível de fertilizantes e temperatura podem ser considerados.
- Se uma conexão tiver que ser estabelecida entre o número de horas de um estudo realizado e o GPA da classe, o método MLR pode ser usado. Nesses casos, o GPA será a variável dependente enquanto a outra variável, como horas de estudo, será a variável explicativa.
- A técnica de MLR pode ser usada para determinar o salário do executivo em uma empresa com base na experiência e na idade dos executivos. Nesses casos, o salário se tornará a variável dependente, enquanto a idade e a experiência serão a variável independente.
Fluxo de trabalho do MLR
Os dados devem ser preparados e analisados antes de entrar no modelo de regressão. Os dados são analisados principalmente quanto à presença de erros, valores discrepantes, valores ausentes, etc. Aqui estão algumas etapas listadas para mostrar como implementar ou aplicar as técnicas de regressão linear múltipla.
1. Escolhendo variáveis
O MLR requer ter um conjunto de dados contendo os valores preditores que têm o maior relacionamento com a variável de resposta. Isso significa que o máximo de informação deve ser extraído de um número mínimo de variáveis. A seleção das variáveis pode ser realizada a partir dos seguintes processos.
- Pode-se optar por um procedimento automático de busca das variáveis. As ferramentas podem ser usadas junto com os pacotes de programação R e Python para decidir as melhores variáveis para o estudo MLR.
- A regressão de todas as possibilidades pode ser escolhida para verificar a presença de quaisquer subpartes de quaisquer variáveis independentes.
- O valor de R2 pode ser considerado para análise das melhores variáveis. Aquelas variáveis com maior valor de R2 são consideradas as de melhor ajuste no modelo. Os valores do R2 podem estar fora dos dois números, 0 e 1. O valor 0 significa que nenhuma das variáveis independentes pode prever o resultado das variáveis dependentes. O valor 1 significa a predição pelas variáveis independentes e sem erros.
- Há também outro termo que é a soma dos quadrados prevista (PRESSp). Se o modelo de MLR tiver uma PRESSp menor, então o modelo é considerado com melhor força preditiva.
2. Refinamento do modelo
O modelo de MLR pode ser melhorado através do exame dos seguintes critérios:
- O valor do teste F global. Isso é usado para testar a significância de prever o resultado da variável dependente pela variável independente.
- R2 ajustado para verificar a variação da amostra completa após os parâmetros e o tamanho da amostra terem sido ajustados. O maior valor do termo indica que as variáveis se ajustam melhor aos dados.
- O desvio quadrático médio ou o RMSE é usado para estimar o desvio padrão para erros aleatórios.
- Considera-se que o modelo de MLR fornece previsões precisas se o valor do Coeficiente de Variação for 10% ou menor que isso.
3. Suposições do modelo de teste
Os pressupostos considerados são testados no modelo de regressão linear. Essas suposições devem ser satisfeitas.
4. Abordando os problemas associados ao modelo
Nos casos em que algumas das suposições consideradas no modelo são violadas, devem ser tomadas medidas para minimizar tais problemas.
5. Validação do modelo
Este é o último passo na geração do modelo MLR e é considerado um passo importante. Após a geração do modelo, o modelo precisa ser validado. Uma vez validado, pode ser usado para qualquer análise de Regressão Linear Múltipla .
Conclusão
A Regressão Linear Múltipla é uma das técnicas mais utilizadas em qualquer estudo de pesquisa para estabelecer a correlação entre as variáveis. Também é considerado um algoritmo importante no mundo do aprendizado de máquina. No entanto, se você é novo na análise de regressão, é sempre melhor ter uma ideia dos modelos de regressão e das regressões lineares simples.
Obtenha cursos de aprendizado de máquina das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.