Regressão linear explicada com exemplo
Publicados: 2021-10-13A regressão linear é um dos algoritmos mais comuns para estabelecer relações entre as variáveis de um conjunto de dados. Um modelo matemático é uma ferramenta necessária para cientistas de dados na realização de análises preditivas. Este blog fornecerá informações sobre o conceito fundamental e também discutirá um exemplo de regressão linear.
Índice
O que são modelos de regressão?
Um modelo de regressão descreve a relação entre as variáveis do conjunto de dados ajustando uma linha aos dados observados. É uma análise matemática que separa quais variáveis têm impacto e são mais importantes. Também determina o quão certo estamos sobre os fatores envolvidos. Os dois tipos de variáveis são:
- Dependente: Fator que você está tentando prever ou entender.
- Independente: Fatores que você suspeita terem um impacto na variável dependente.
Modelos de regressão são usados quando a variável dependente é quantitativa. Pode ser binário no caso de regressão logística. Mas neste blog, vamos focar principalmente no modelo de regressão linear onde ambas as variáveis são quantitativas.
Suponha que você tenha dados sobre as vendas mensais e a precipitação média mensal dos últimos três anos. Digamos que você plotou essas informações em um gráfico. O eixo y representa o número de vendas (variável dependente) e o eixo x representa a precipitação total. Cada ponto no gráfico mostraria o quanto choveu durante um determinado mês e os números de vendas correspondentes.
Se você der outra olhada nos dados, poderá notar um padrão. Presuma que as vendas serão maiores nos dias em que choveu mais. Mas seria complicado estimar quanto você normalmente venderia quando chovesse uma certa quantidade, digamos 3 ou 4 polegadas. Você poderia obter algum grau de certeza se desenhasse uma linha no meio de todos os pontos de dados no gráfico.
Atualmente, o Excel e softwares estatísticos como SPSS, R ou STATA podem ajudá-lo a traçar uma linha que melhor se ajuste aos dados disponíveis. Além disso, você também pode produzir uma fórmula explicando a inclinação da linha.
Considere esta fórmula para o exemplo acima: Y = 200 + 3X. Diz-lhe que vendeu 200 unidades quando não choveu (ou seja, quando X=0). Supondo que as variáveis permaneçam as mesmas à medida que avançamos, cada centímetro adicional de chuva resultaria em uma média de vendas de mais três unidades. Você venderia 203 unidades se chovesse 1 polegada, 206 unidades se chovesse 2 polegadas, 209 polegadas se chovesse 3 polegadas e assim por diante.
Normalmente, a fórmula da linha de regressão também inclui um termo de erro (Y = 200 + 3 X + termo de erro). Leva em consideração a realidade de que os preditores independentes nem sempre podem ser preditores perfeitos de variáveis dependentes. E a linha apenas fornece uma estimativa com base nos dados disponíveis. Quanto maior o termo de erro, menos certo seria sua linha de regressão.
Noções básicas de regressão linear
Um modelo de regressão linear simples usa uma linha reta para estimar a relação entre duas variáveis quantitativas. Se você tiver mais de uma variável independente, usará regressão linear múltipla.
A análise de regressão linear simples está preocupada com duas coisas. Primeiro, ele informa a força da relação entre os fatores dependentes e independentes dos dados históricos. Segundo, fornece o valor da variável dependente em um determinado valor da variável independente.
Considere este exemplo de regressão linear. Um pesquisador social interessado em saber como a renda dos indivíduos afeta seus níveis de felicidade realiza uma análise de regressão simples para ver se ocorre uma relação linear. O pesquisador obtém valores quantitativos da variável dependente (felicidade) e da variável independente (renda) pesquisando pessoas em uma determinada localização geográfica.
Por exemplo, os dados contêm números de renda e níveis de felicidade (classificados em uma escala de 1 a 10) de 500 pessoas do estado indiano de Maharashtra. O pesquisador então traçaria os pontos de dados e ajustaria uma linha de regressão para saber o quanto os ganhos dos entrevistados influenciam seu bem-estar.
A análise de regressão linear é baseada em algumas suposições sobre os dados. Tem:
- Linearidade da relação entre a variável dependente e independente, ou seja, a linha de melhor ajuste é reta, não curva.)
- A homogeneidade da variância, ou seja, o tamanho do erro na previsão, não muda significativamente entre os diferentes valores da variável independente.
- Independência de observações no conjunto de dados, referindo-se a nenhum relacionamento oculto.
- Normalidade da distribuição dos dados para a variável dependente. Você pode verificar o mesmo usando a função hist() em R.
A matemática por trás da regressão linear
y = c + ax é uma equação padrão onde y é a saída (que queremos estimar), x é a variável de entrada (que conhecemos), a é a inclinação da linha e c é a constante.
Aqui, a saída varia linearmente com base na entrada. A inclinação determina quanto x afeta o valor de y. A constante é o valor de y quando x é nulo.
Vamos entender isso através de outro exemplo de regressão linear. Imagine que você trabalha em uma empresa automobilística e deseja estudar o mercado de veículos de passageiros da Índia. Digamos que o PIB nacional influencie as vendas de veículos de passeio. Para planejar melhor o negócio, você pode querer descobrir a equação linear do número de veículos vendidos no país em relação ao PIB
Para isso, você precisaria de dados de amostra para vendas anuais de veículos de passageiros e os números do PIB para cada ano. Você pode descobrir que o PIB do ano atual afeta as vendas do próximo ano: Qualquer que seja o ano em que o PIB foi menor, as vendas de veículos foram menores no ano seguinte.
Para preparar esses dados para análise de Machine Learning, você precisaria trabalhar um pouco mais.
- Comece com a equação y = c + ax, onde y é o número de veículos vendidos em um ano e x é o PIB do ano anterior.
- Para descobrir c e an no problema acima, você pode criar um modelo usando Python.
Confira este tutorial para entender o método passo a passo
Se você realizar uma regressão linear simples em R, interpretar e relatar os resultados se tornará muito mais fácil.
Para o mesmo exemplo de regressão linear, vamos alterar a equação para y=B0 + B1x + e. Novamente, y é a variável dependente e x é a variável independente ou conhecida. B0 é a constante ou intercepto, B1 é a inclinação do coeficiente de regressão e e é o erro da estimativa.
Softwares estatísticos como o R podem encontrar a linha de melhor ajuste através dos dados e buscar o B1 que minimiza o erro total do modelo.
Siga estas etapas para começar:
- Carregue o conjunto de dados de vendas de veículos de passageiros no ambiente R.
- Execute o comando para gerar um modelo linear que descreva a relação entre as vendas de veículos de passeio e o PIB.
- vendas.gdp.lm <- lm(gdp ~ vendas, dados = vendas.dados)
- Use a função summary() para visualizar os parâmetros de modelo linear mais importantes em forma de tabela.
- resumo(vendas.gdp.lm)
Nota: A saída conteria resultados como chamadas, Resíduos e Coeficientes. A tabela 'Chamada' indica a fórmula utilizada. Os 'Resíduos' detalham os valores de Mediana, Quartis, mínimo e máximo para indicar quão bem o modelo se ajusta aos dados reais. A primeira linha da tabela 'Coeficientes' estima a interseção y e a segunda linha fornece o coeficiente de regressão. As colunas desta tabela possuem rótulos como Estimativa, Padrão. Erro, valor t e valor p.
Aprenda o curso de aprendizado de máquina das melhores universidades do mundo. Ganhe Masters, Executive PGP ou Advanced Certificate Programs para acelerar sua carreira.
- Insira o valor (Interceptar) na equação de regressão para prever os valores de vendas em toda a faixa de números do PIB.
- Investigue a coluna (Estimativa) para saber o efeito. O coeficiente de regressão lhe diria quanto as vendas mudam com a mudança no PIB.
- Descubra a variação em sua estimativa da relação entre vendas e PIB a partir do rótulo (Erro padrão).
- Observe a estatística de teste em (valor t) para saber se os resultados ocorreram por acaso. Quanto maior o valor t, menos provável seria.
- Percorra a coluna Pr(>|t|) ou os valores-p para ver o efeito estimado do PIB nas vendas se a hipótese nula for verdadeira.
- Apresente seus resultados com o efeito estimado, erro padrão e valores p, comunicando claramente o que significa o coeficiente de regressão.
- Inclua um gráfico com o relatório. Uma regressão linear simples pode ser mostrada como um gráfico de plotagem com a linha de regressão e a função.
- Calcule o erro medindo a distância dos valores de y observados e previstos, elevando ao quadrado as distâncias em cada valor de x e calculando sua média.
Conclusão
Com o exemplo de regressão linear acima, fornecemos uma visão geral de como gerar um modelo de regressão linear simples, encontrar o coeficiente de regressão e calcular o erro da estimativa. Também abordamos a relevância do Python e R para análises e estatísticas preditivas de dados. O conhecimento prático dessas ferramentas é crucial para seguir carreiras em ciência de dados e aprendizado de máquina hoje.
Se você deseja aprimorar suas habilidades de programação, confira o Advanced Certificate Program in Machine Learning by IIT Madras e upGrad. O curso on-line também inclui estudos de caso, projetos e sessões de orientação especializada para trazer orientação do setor para o processo de treinamento.