Come eseguire l'analisi di regressione multipla?

Pubblicato: 2021-11-23

Nell'analisi statistica, i modelli di regressione sono per lo più utilizzati quando necessario per sviluppare relazioni tra le variabili considerate. La relazione viene stabilita inserendo una linea tra tutte le variabili. Per comprendere il comportamento della variabile dipendente, vengono utilizzati modelli di regressione. Consentono all'utente di sapere come cambiano le variabili dipendenti con la modifica delle variabili indipendenti.

Le regressioni lineari multiple sono una di queste tecniche che ci aiutano a stimare la relazione tra quelle variabili, cioè le variabili dipendenti e indipendenti. Questo articolo si concentrerà sulla tecnica delle regressioni lineari multiple e su come viene eseguita.

Sommario

Regressioni lineari multiple

Le regressioni lineari multiple sono una forma di tecnica statistica utilizzata per prevedere i risultati di qualsiasi variabile di risposta. Uno degli obiettivi della tecnica è quello di stabilire una relazione lineare tra le variabili indipendenti e dipendenti. L'analisi di regressione lineare multipla è una forma di analisi multivariata che coinvolge più di una forma di osservazione.

Per lo più la tecnica può essere eseguita se vuoi sapere le seguenti cose:

  • Per capire quanto sia forte la relazione tra le variabili. Inoltre, se si vuole comprendere la relazione tra le variabili indipendenti e dipendenti, in questi casi si può utilizzare la tecnica delle regressioni lineari multiple.
  • La tecnica può essere utilizzata per prevedere il valore delle variabili dipendenti corrispondenti alle variabili indipendenti.

Assunzioni considerate nelle regressioni lineari multiple

Alcune ipotesi sono considerate nelle tecniche di regressione lineare multipla. Ecco alcune ipotesi elencate per MLR:

1. Omogeneità della varianza

È anche noto come omoscedasticità. Ciò significa che durante la previsione di un risultato, non ci sono cambiamenti significativi nell'errore associato alla previsione del risultato attraverso i valori di variabili indipendenti. Il metodo presuppone che l'importo dell'errore sia lo stesso in tutto il modello di MLR. L'analista deve tracciare i residui standardizzati rispetto ai valori previsti. Questo aiuta a determinare se esiste un'equa distribuzione dei punti tra le variabili indipendenti. Un grafico a dispersione può essere utilizzato per tracciare i dati.

2. Indipendenza delle osservazioni

Le osservazioni considerate nella Regressione Lineare Multipla sono raccolte attraverso valide tecniche statistiche. Ciò significa che non esistono relazioni nascoste o esistenti tra le variabili raccolte. A volte, in questa tecnica, ci sono scenari in cui alcune variabili sono correlate con altre variabili. Pertanto, prima di sviluppare il modello di regressione, è sempre importante verificare la presenza di queste variabili correlate. Rimuovere una delle variabili dallo sviluppo del modello è sempre meglio per le variabili che mostrano un'elevata correlazione.

3. Non c'è correlazione tra le variabili indipendenti

In un altro modo, si può menzionare che non dovrebbe esserci alcuna multicollinearità nei dati. Se è presente una qualsiasi multicollinearità, l'analista avrà difficoltà a identificare la variabile che contribuisce alla varianza della variabile dipendente. Pertanto, uno dei metodi considerati migliori per verificare l'ipotesi è il metodo del fattore di variazione dell'inflazione.

4. Normalità:

Ciò significa che il set di dati segue la distribuzione normale.

5. Linearità

Durante la ricerca della relazione tra le variabili, si tenta di adattare una linea retta tra le variabili. È opinione diffusa che esista una relazione lineare tra le variabili indipendenti e le variabili dipendenti. Un modo per controllare la relazione lineare è attraverso la creazione di grafici a dispersione e quindi la visualizzazione dei grafici a dispersione. Consente all'utente di osservare la linearità esistente nelle osservazioni. Se nel caso non esiste una relazione lineare, l'analista deve ripetere la sua analisi. Il software statistico come SPSS può essere utilizzato per eseguire l'MLR.

Rappresentazione matematica della regressione lineare multipla

L'immagine matematica di un modello di regressione lineare multipla è mostrata nell'equazione seguente:

Nell'equazione di cui sopra,

  • Y rappresenta la variabile di output,
  • X rappresenta le variabili di input,
  • Β rappresenta il coefficiente associato a ciascun termine.
  • B0 è il valore di y-intercept che indica il valore di Y quando tutti gli altri predittori sono assenti.

A volte l'equazione di MLR consiste in un termine di errore rappresentato con il termine "e" alla fine dei termini nell'equazione.

Mentre si trova l'adattamento migliore della linea, l'equazione MLR viene utilizzata per calcolare le seguenti cose:

  • Calcolo dei coefficienti di regressione che determinano il minimo errore nell'equazione MLR.
  • Per il modello generale, l'equazione calcola il valore della statistica t.
  • Valore P del modello.

Minimi quadrati ordinari

Il metodo della regressione lineare multipla è anche noto come i minimi quadrati ordinari (OLS). Questo perché il metodo di MLR tenta di trovare la minima somma di quadrati. Quindi, noto anche come metodo OLS. Il linguaggio di programmazione Python può essere utilizzato per implementare questi metodi. I due metodi che possono applicare il metodo OLS in Python sono:

1. Impara SciKit

Questo è un pacchetto disponibile in un linguaggio di programmazione Python. I moduli di regressione lineare devono essere importati dal pacchetto di Scikit Learn. Il modello viene quindi dotato dei dati. È un metodo semplice e può essere ampiamente utilizzato.

2. Statistiche Modelli

Uno degli altri metodi utilizzati nel linguaggio di programmazione Python è il pacchetto di Statsmodels. Questo pacchetto può aiutare nell'implementazione delle tecniche OLS.

Esempi di regressioni lineari multiple

Alcuni degli esempi per MLR sono elencati di seguito:

  • Il modello di regressione lineare multipla può essere utilizzato per la previsione dei raccolti. Questo perché, in MLR, esiste un'associazione tra le variabili dipendenti e indipendenti. In tali tipi di studi possono essere presi in considerazione fattori aggiuntivi come fattori climatici, precipitazioni, livello di fertilizzante e temperatura.
  • Se è necessario stabilire un collegamento tra il numero di ore di studio condotto e il GPA di classe, è possibile utilizzare il metodo MLR. In questi casi, GPA sarà la variabile dipendente mentre l'altra variabile, come le ore di studio, sarà la variabile esplicativa.
  • La tecnica del MLR può essere utilizzata per determinare lo stipendio del dirigente in un'azienda in base all'esperienza e all'età dei dirigenti. In questi casi, lo stipendio diventerà la variabile dipendente, mentre l'età e l'esperienza saranno la variabile indipendente.

Flusso di lavoro dell'MLR

I dati devono essere preparati e analizzati prima di entrare nel modello di regressione. I dati vengono principalmente analizzati per la presenza di eventuali errori, valori anomali, valori mancanti, ecc. Di seguito sono elencati alcuni passaggi per mostrare come implementare o applicare le tecniche di regressione lineare multipla.

1. Scelta delle variabili

L'MLR richiede di disporre di un set di dati contenente i valori predittori che hanno la maggiore relazione con la variabile di risposta. Ciò significa che la massima informazione dovrebbe essere estratta da un numero minimo di variabili. La selezione delle variabili può essere effettuata dai seguenti processi.

  • Si può optare per una procedura automatica per la ricerca delle variabili. Gli strumenti possono essere utilizzati insieme ai pacchetti di programmazione R e Python per decidere le variabili migliori per lo studio MLR.
  • È possibile optare per la regressione totale per verificare la presenza di eventuali sottoparti di variabili indipendenti.
  • Il valore di R2 può essere considerato per analizzare le migliori variabili. Quelle variabili con un valore maggiore di R2 sono considerate il miglior adattamento nel modello. I valori di R2 possono essere dei due numeri, 0 e 1. Il valore 0 significa che nessuna delle variabili indipendenti può prevedere il risultato delle variabili dipendenti. Il valore di 1 indica la previsione delle variabili indipendenti e senza errori.
  • C'è anche un altro termine che è la somma dei quadrati prevista (PRESSp). Se il modello di MLR ha un PRESSp più piccolo, si ritiene che il modello abbia una migliore forza predittiva.

2. Affinamento del modello

Il modello di MLR può essere migliorato attraverso l'esame dei seguenti criteri:

  • Il valore del test F globale. Viene utilizzato per testare il significato della previsione del risultato della variabile dipendente da parte della variabile indipendente.
  • R2 aggiustato per controllare la variazione del campione completo dopo che i parametri e la dimensione del campione sono stati regolati. Il valore maggiore del termine indica che le variabili si adattano meglio ai dati.
  • La deviazione quadratica media della radice o RMSE viene utilizzata per stimare la deviazione standard per errori casuali.
  • Si ritiene che il modello di MLR fornisca previsioni accurate se il valore del coefficiente di variazione è del 10% o inferiore.

3. Verifica delle ipotesi del modello

Le ipotesi considerate sono verificate nel modello di regressione lineare. Queste ipotesi dovrebbero essere soddisfatte.

4. Affrontare i problemi associati al modello

Nei casi in cui alcune delle ipotesi considerate nel modello vengono violate, è necessario adottare misure per ridurre al minimo tali problemi.

5. Convalida del modello

Questo è l'ultimo passaggio nella generazione del modello MLR ed è considerato importante. Dopo la generazione del modello, il modello deve essere convalidato. Una volta convalidato, può essere utilizzato per qualsiasi analisi di regressione lineare multipla .

Conclusione

La regressione lineare multipla è una delle tecniche più utilizzate in qualsiasi studio di ricerca per stabilire la correlazione tra le variabili. È anche considerato un algoritmo importante nel mondo del machine learning. Tuttavia, se sei nuovo nell'analisi di regressione, è sempre meglio avere un'idea dei modelli di regressione e delle semplici regressioni lineari.

Ottieni corsi di Machine Learning dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

Migliora la tua carriera nell'apprendimento automatico e nell'intelligenza artificiale

Richiedi ora la certificazione esecutiva in Ai-ml da IIITB