Regressione lineare spiegata con l'esempio
Pubblicato: 2021-10-13La regressione lineare è uno degli algoritmi più comuni per stabilire relazioni tra le variabili di un set di dati. Un modello matematico è uno strumento necessario per i data scientist nell'esecuzione dell'analisi predittiva. Questo blog ti spiegherà il concetto fondamentale e discuterà anche un esempio di regressione lineare.
Sommario
Cosa sono i modelli di regressione?
Un modello di regressione descrive la relazione tra le variabili del set di dati adattando una linea ai dati osservati. È un'analisi matematica che individua quali variabili hanno un impatto e contano di più. Determina anche quanto siamo certi dei fattori coinvolti. I due tipi di variabili sono:
- Dipendente: fattore che stai tentando di prevedere o comprendere.
- Indipendente: fattori che si sospetta abbiano un impatto sulla variabile dipendente.
I modelli di regressione vengono utilizzati quando la variabile dipendente è quantitativa. Può essere binario nel caso della regressione logistica. Ma in questo blog, ci concentreremo principalmente sul modello di regressione lineare in cui entrambe le variabili sono quantitative.
Si supponga di disporre di dati sulle vendite mensili e sulla piovosità media mensile degli ultimi tre anni. Diciamo che hai tracciato queste informazioni su un grafico. L'asse y rappresenta il numero di vendite (variabile dipendente) e l'asse x rappresenta la piovosità totale. Ogni punto sul grafico mostrerebbe quanto è piovuto in un determinato mese e i corrispondenti numeri di vendita.
Se dai un'altra occhiata ai dati, potresti notare uno schema. Supponiamo che le vendite siano più alte nei giorni in cui pioveva di più. Ma sarebbe difficile stimare quanto venderesti in genere quando pioveva una certa quantità, diciamo 3 o 4 pollici. Potresti ottenere un certo grado di certezza se tracciassi una linea nel mezzo di tutti i punti dati sul grafico.
Al giorno d'oggi, Excel e software statistici come SPSS, R o STATA possono aiutarti a tracciare una linea che si adatta meglio ai dati a portata di mano. Inoltre, puoi anche produrre una formula che spieghi la pendenza della linea.
Considera questa formula per l'esempio precedente: Y = 200 + 3X. Ti dice che hai venduto 200 unità quando non pioveva affatto (cioè, quando X=0). Supponendo che le variabili rimangano le stesse mentre avanziamo, ogni pollice in più di pioggia comporterebbe una vendita media di tre unità in più. Venderesti 203 unità se piove 1 pollice, 206 unità se piove 2 pollici, 209 pollici se piove 3 pollici e così via.
Tipicamente, la formula della linea di regressione include anche un termine di errore (Y = 200 + 3 X + termine di errore). Tiene conto del fatto che i predittori indipendenti potrebbero non essere sempre perfetti predittori di variabili dipendenti. E la linea ti fornisce semplicemente una stima basata sui dati disponibili. Maggiore è il termine di errore, meno certa sarebbe la tua linea di regressione.
Nozioni di base sulla regressione lineare
Un semplice modello di regressione lineare utilizza una linea retta per stimare la relazione tra due variabili quantitative. Se hai più di una variabile indipendente, utilizzerai invece la regressione lineare multipla.
La semplice analisi di regressione lineare riguarda due cose. In primo luogo, ti dice la forza della relazione tra i fattori dipendenti e indipendenti dei dati storici. In secondo luogo, ti dà il valore della variabile dipendente a un certo valore della variabile indipendente.
Considera questo esempio di regressione lineare. Un ricercatore sociale interessato a sapere in che modo il reddito degli individui influisce sui loro livelli di felicità esegue una semplice analisi di regressione per vedere se si verifica una relazione lineare. Il ricercatore prende i valori quantitativi della variabile dipendente (felicità) e della variabile indipendente (reddito) esaminando le persone in una particolare posizione geografica.
Ad esempio, i dati contengono cifre sul reddito e livelli di felicità (classificati su una scala da 1 a 10) di 500 persone dello stato indiano del Maharashtra. Il ricercatore quindi tracciare i punti dati e adattare una linea di regressione per sapere quanto i guadagni degli intervistati influenzano il loro benessere.
L'analisi di regressione lineare si basa su alcune ipotesi sui dati. Ci sono:
- Linearità della relazione tra la variabile dipendente e quella indipendente, cioè la linea di miglior adattamento è diritta, non curva.)
- L'omogeneità della varianza, ovvero la dimensione dell'errore nella previsione, non cambia in modo significativo tra i diversi valori della variabile indipendente.
- Indipendenza delle osservazioni nel set di dati, riferita all'assenza di relazioni nascoste.
- Normalità della distribuzione dei dati per la variabile dipendente. Puoi controllare lo stesso usando la funzione hist() in R.
La matematica dietro la regressione lineare
y = c + ax è un'equazione standard in cui y è l'output (che vogliamo stimare), x è la variabile di input (che conosciamo), a è la pendenza della linea e c è la costante.
Qui, l'output varia linearmente in base all'input. La pendenza determina quanto x incide sul valore di y. La costante è il valore di y quando x è zero.
Capiamolo attraverso un altro esempio di regressione lineare. Immagina di essere impiegato in un'azienda automobilistica e di voler studiare il mercato indiano delle autovetture. Diciamo che il PIL nazionale influenza le vendite di autovetture. Per pianificare al meglio il business, potresti voler scoprire l'equazione lineare del numero di veicoli venduti nel paese rispetto al PIL
Per questo, avresti bisogno di dati di esempio per le vendite di veicoli passeggeri su base annua e le cifre del PIL per ogni anno. Potresti scoprire che il PIL dell'anno in corso influisce sulle vendite dell'anno successivo: indipendentemente dall'anno in cui il PIL è stato inferiore, le vendite di veicoli sono state inferiori nell'anno successivo.
Per preparare questi dati per l'analisi di Machine Learning, dovresti fare un po' più di lavoro.
- Inizia con l'equazione y = c + ax, dove y è il numero di veicoli venduti in un anno e x è il PIL dell'anno precedente.
- Per scoprire c e an nel problema precedente, puoi creare un modello usando Python.
Dai un'occhiata a questo tutorial per comprendere il metodo passo-passo
Se dovessi eseguire una semplice regressione lineare in R, interpretare e riportare i risultati diventa molto più semplice.
Per lo stesso esempio di regressione lineare, cambiamo l'equazione in y=B0 + B1x + e. Di nuovo, y è la variabile dipendente e x è la variabile indipendente o nota. B0 è la costante o intercetta, B1 è la pendenza del coefficiente di regressione ed e è l'errore della stima.
Un software statistico come R può trovare la linea di miglior adattamento attraverso i dati e cercare il B1 che riduce al minimo l'errore totale del modello.
Segui questi passaggi per iniziare:
- Carica il set di dati sulle vendite di veicoli passeggeri nell'ambiente R.
- Eseguire il comando per generare un modello lineare che descriva la relazione tra le vendite di autoveicoli e il PIL.
- sales.gdp.lm <- lm(gdp ~ vendite, dati = vendite.data)
- Utilizzare la funzione summary() per visualizzare i parametri più importanti del modello lineare in forma tabulare.
- sommario(sales.gdp.lm)
Nota: l'output conterrà risultati come chiamate, residui e coefficienti. La tabella 'Chiamata' indica la formula utilizzata. I "residui" specificano i valori mediana, quartile, minimo e massimo per indicare quanto bene il modello si adatta ai dati reali. La prima riga della tabella "Coefficienti" stima l'intercetta y e la seconda riga fornisce il coefficiente di regressione. Le colonne di questa tabella hanno etichette come Stima, Std. Errore, valore t e valore p.
Impara il corso di Machine Learning dalle migliori università del mondo. Guadagna master, Executive PGP o programmi di certificazione avanzati per accelerare la tua carriera.
- Inserisci il valore (Intercetta) nell'equazione di regressione per prevedere i valori delle vendite nell'intervallo dei numeri del PIL.
- Esaminare la colonna (stima) per conoscere l'effetto. Il coefficiente di regressione ti direbbe quanto cambiano le vendite con la variazione del PIL.
- Scopri la variazione nella tua stima del rapporto tra vendite e PIL dall'etichetta (Std. Error).
- Guarda la statistica del test sotto (valore t) per sapere se i risultati si sono verificati per caso. Maggiore è il valore t, meno probabile sarebbe.
- Scorri la colonna Pr(>|t|) oi valori p per vedere l'effetto stimato del PIL sulle vendite se l'ipotesi nulla fosse vera.
- Presenta i tuoi risultati con l'effetto stimato, l'errore standard e i valori p, comunicando chiaramente cosa significa il coefficiente di regressione.
- Includere un grafico con il rapporto. Una semplice regressione lineare può essere mostrata come un grafico con la retta e la funzione di regressione.
- Calcola l'errore misurando la distanza dei valori y osservati e previsti, quadrando le distanze a ciascun valore di x e calcolando la loro media.
Conclusione
Con l'esempio di regressione lineare sopra, abbiamo fornito una panoramica della generazione di un semplice modello di regressione lineare, della ricerca del coefficiente di regressione e del calcolo dell'errore della stima. Abbiamo anche toccato l'importanza di Python e R per l'analisi e la statistica dei dati predittivi. La conoscenza pratica di tali strumenti è fondamentale per perseguire carriere nella scienza dei dati e nell'apprendimento automatico oggi.
Se vuoi affinare le tue capacità di programmazione, dai un'occhiata al programma di certificazione avanzata in Machine Learning di IIT Madras e upGrad. Il corso online include anche casi di studio, progetti e sessioni di tutoraggio di esperti per portare l'orientamento al settore nel processo di formazione.