Analisi di regressione lineare in Excel

  • Condividi Questo
Michael Brown

L'esercitazione spiega le basi dell'analisi di regressione e mostra alcuni modi diversi per eseguire la regressione lineare in Excel.

Immaginate di avere a disposizione una serie di dati diversi e di dover prevedere i numeri di vendita della vostra azienda per il prossimo anno. Avete scoperto decine, forse addirittura centinaia, di fattori che possono influenzare i numeri. Ma come fate a sapere quali sono davvero importanti? Eseguite l'analisi di regressione in Excel, che vi darà una risposta a questa e a molte altre domande: quali fattori?Quanto sono legati tra loro questi fattori e quanto si può essere certi delle previsioni?

    Analisi di regressione in Excel: le basi

    Nella modellazione statistica, analisi di regressione viene utilizzato per stimare le relazioni tra due o più variabili:

    Variabile dipendente (alias criterio è il fattore principale che si sta cercando di comprendere e prevedere.

    Variabili indipendenti (alias esplicativo variabili, o predittori ) sono i fattori che possono influenzare la variabile dipendente.

    L'analisi di regressione aiuta a capire come cambia la variabile dipendente al variare di una delle variabili indipendenti e permette di determinare matematicamente quale di queste variabili ha realmente un impatto.

    Tecnicamente, un modello di analisi di regressione si basa sulla somma dei quadrati L'obiettivo di un modello è ottenere la somma dei quadrati più piccola possibile e tracciare una linea che si avvicini maggiormente ai dati.

    In statistica, si distingue tra regressione lineare semplice e multipla. Regressione lineare semplice modella la relazione tra una variabile dipendente e una variabile indipendente utilizzando una funzione lineare. Se si utilizzano due o più variabili esplicative per predire la variabile dipendente, si ha a che fare con regressione lineare multipla Se la variabile dipendente è modellata come una funzione non lineare perché le relazioni tra i dati non seguono una linea retta, usare regressione non lineare L'esercitazione si concentrerà invece su una semplice regressione lineare.

    Ad esempio, prendiamo i numeri delle vendite di ombrelli degli ultimi 24 mesi e scopriamo le precipitazioni medie mensili dello stesso periodo. Tracciando queste informazioni su un grafico, la retta di regressione dimostrerà la relazione tra la variabile indipendente (le precipitazioni) e la variabile dipendente (le vendite di ombrelli):

    Equazione di regressione lineare

    Matematicamente, una regressione lineare è definita da questa equazione:

    y = bx + a + ε

    Dove:

    • x è una variabile indipendente.
    • y è una variabile dipendente.
    • a è il Intercetta Y , che è il valore medio atteso di y quando tutti x Le variabili sono uguali a 0. In un grafico di regressione, è il punto in cui la retta incrocia l'asse Y.
    • b è il pendenza di una retta di regressione, che rappresenta il tasso di variazione per y come x modifiche.
    • ε è il termine di errore casuale, che rappresenta la differenza tra il valore effettivo di una variabile dipendente e il suo valore previsto.

    L'equazione di regressione lineare ha sempre un termine di errore perché, nella vita reale, i predittori non sono mai perfettamente precisi. Tuttavia, alcuni programmi, tra cui Excel, eseguono il calcolo del termine di errore dietro le quinte. In Excel, quindi, si esegue la regressione lineare utilizzando il comando minimi quadrati metodo e ricerca dei coefficienti a e b tale che:

    y = bx + a

    Per il nostro esempio, l'equazione di regressione lineare assume la seguente forma:

    Ombrelli venduti = b * precipitazioni + a

    Esistono diversi modi per trovare a e b I tre metodi principali per eseguire l'analisi di regressione lineare in Excel sono:

    • Strumento di regressione incluso in Analysis ToolPak
    • Grafico a dispersione con linea di tendenza
    • Formula di regressione lineare

    Di seguito sono riportate le istruzioni dettagliate per l'utilizzo di ciascun metodo.

    Come eseguire la regressione lineare in Excel con Analysis ToolPak

    Questo esempio mostra come eseguire una regressione in Excel utilizzando uno strumento speciale incluso nel componente aggiuntivo Analysis ToolPak.

    Abilitare il componente aggiuntivo Analysis ToolPak

    Analysis ToolPak è disponibile in tutte le versioni di Excel dalla 365 alla 2003, ma non è abilitato per impostazione predefinita. È quindi necessario attivarlo manualmente. Ecco come fare:

    1. In Excel, fare clic su File > Opzioni .
    2. Nel Opzioni di Excel selezionare la finestra di dialogo Componenti aggiuntivi nella barra laterale sinistra, assicurarsi che Componenti aggiuntivi di Excel è selezionato nel menu Gestire e fare clic su Vai .
    3. Nel Componenti aggiuntivi spuntare la casella di dialogo Toolpak di analisi e fare clic su OK :

    In questo modo si aggiungerà il Analisi dei dati strumenti al Dati della barra multifunzione di Excel.

    Eseguire l'analisi di regressione

    In questo esempio, faremo una semplice regressione lineare in Excel. Abbiamo un elenco di precipitazioni medie mensili degli ultimi 24 mesi nella colonna B, che è la nostra variabile indipendente (predittore), e il numero di ombrelli venduti nella colonna C, che è la variabile dipendente. Naturalmente, ci sono molti altri fattori che possono influenzare le vendite, ma per ora ci concentriamo solo su queste due variabili:

    Con l'aggiunta di Analysis Toolpak abilitato, eseguire i seguenti passaggi per eseguire l'analisi di regressione in Excel:

    1. Sul Dati nella scheda Analisi fare clic sul gruppo Analisi dei dati pulsante.
    2. Selezionare Regressione e fare clic su OK .
    3. Nel Regressione configurare le seguenti impostazioni:
      • Selezionare la voce Ingresso Gamma Y , che è il vostro variabile dipendente Nel nostro caso, si tratta di vendite di ombrelli (C1:C25).
      • Selezionare la voce Ingresso X Gamma cioè il vostro variabile indipendente In questo esempio, si tratta delle precipitazioni medie mensili (B1:B25).

      Se si sta costruendo un modello di regressione multipla, selezionare due o più colonne adiacenti con variabili indipendenti diverse.

      • Controllare il Scatola delle etichette se ci sono intestazioni nella parte superiore degli intervalli X e Y.
      • Scegliete il vostro preferito Opzione di uscita, un nuovo foglio di lavoro nel nostro caso.
      • Facoltativamente, selezionare l'opzione Residui per ottenere la differenza tra i valori previsti e quelli effettivi.
    4. Cliccare OK e osservare l'output dell'analisi di regressione creato da Excel.

    Interpretare i risultati dell'analisi di regressione

    Come si è appena visto, eseguire una regressione in Excel è facile perché tutti i calcoli vengono eseguiti automaticamente. L'interpretazione dei risultati è un po' più complicata, perché è necessario sapere cosa c'è dietro ogni numero. Qui di seguito sono descritte le 4 parti principali dell'output dell'analisi di regressione.

    Questa parte indica quanto l'equazione di regressione lineare calcolata si adatta ai dati di partenza.

    Ecco il significato di ciascuna informazione:

    Multiplo R È il C Coefficiente di correlazione che misura la forza di una relazione lineare tra due variabili. Il coefficiente di correlazione può avere un valore qualsiasi compreso tra -1 e 1 e il suo valore assoluto indica la forza della relazione. Più grande è il valore assoluto, più forte è la relazione:

    • 1 significa una forte relazione positiva
    • -1 significa una forte relazione negativa
    • 0 significa che non c'è alcuna relazione

    Quadrato R . è il Coefficiente di determinazione Il valore R2 è calcolato dalla somma totale dei quadrati, più precisamente dalla somma degli scarti quadratici dei dati originali rispetto alla media.

    Nel nostro esempio, l'R2 è pari a 0,91 (arrotondato a 2 cifre), che è un buon risultato. Significa che il 91% dei nostri valori si adatta al modello di analisi di regressione. In altre parole, il 91% delle variabili dipendenti (valori y) è spiegato dalle variabili indipendenti (valori x). In genere, un valore di R Squared pari o superiore al 95% è considerato un buon adattamento.

    Quadrato R aggiustato . è il Piazza R aggiustato per il numero di variabili indipendenti nel modello. Si consiglia di utilizzare questo valore al posto di Piazza R per l'analisi di regressione multipla.

    Errore standard Si tratta di un'altra misura di bontà di adattamento che mostra la precisione dell'analisi di regressione - più piccolo è il numero, più si può essere certi dell'equazione di regressione. Mentre l'R2 rappresenta la percentuale della varianza delle variabili dipendenti spiegata dal modello, l'errore standard è una misura assoluta che mostra la distanza media dei punti dati dalla regressione.linea.

    Osservazioni È semplicemente il numero di osservazioni nel modello.

    Output dell'analisi di regressione: ANOVA

    La seconda parte dell'output è l'Analisi della varianza (ANOVA):

    In sostanza, divide la somma dei quadrati in singole componenti che forniscono informazioni sui livelli di variabilità del modello di regressione:

    • df è il numero dei gradi di libertà associati alle fonti di varianza.
    • SS Quanto più piccola è la SS residua rispetto alla SS totale, tanto meglio il modello si adatta ai dati.
    • SM è il quadrato medio.
    • F è la statistica F, o test F per l'ipotesi nulla, utilizzata per verificare la significatività complessiva del modello.
    • Significatività F è il valore P di F.

    La parte ANOVA è raramente utilizzata per una semplice analisi di regressione lineare in Excel, ma si dovrebbe assolutamente dare un'occhiata all'ultimo componente. La parte ANOVA è un'analisi di regressione lineare. Significatività F Il valore di Significance F dà un'idea di quanto siano affidabili (statisticamente significativi) i risultati. Se il valore di Significance F è inferiore a 0,05 (5%), il modello è corretto. Se è superiore a 0,05, è meglio scegliere un'altra variabile indipendente.

    Output dell'analisi di regressione: coefficienti

    Questa sezione fornisce informazioni specifiche sui componenti dell'analisi:

    Il componente più utile di questa sezione è Coefficienti Consente di costruire un'equazione di regressione lineare in Excel:

    y = bx + a

    Per il nostro set di dati, dove y è il numero di ombrelli venduti e x è la media delle precipitazioni mensili, la nostra formula di regressione lineare è la seguente:

    Y = Coefficiente di pioggia * x + Intercetta

    Con i valori a e b arrotondati al terzo decimale, diventa:

    Y=0,45*x-19,074

    Ad esempio, con una piovosità media mensile pari a 82 mm, la vendita di ombrelloni sarebbe di circa 17,8:

    0.45*82-19.074=17.8

    In modo analogo, è possibile scoprire quanti ombrelli saranno venduti con qualsiasi altra precipitazione mensile (variabile x) specificata.

    Output dell'analisi di regressione: residui

    Se si confronta il numero stimato e quello effettivo di ombrelli venduti in corrispondenza di una precipitazione mensile di 82 mm, si nota che questi numeri sono leggermente diversi:

    • Stimato: 17,8 (calcolato sopra)
    • Effettivo: 15 (riga 2 dei dati di partenza)

    Perché le variabili indipendenti non sono mai predittori perfetti delle variabili dipendenti e i residui possono aiutare a capire quanto i valori reali siano lontani da quelli previsti:

    Per il primo punto di dati (precipitazioni di 82 mm), il residuo è di circa -2,8. Quindi, aggiungiamo questo numero al valore previsto e otteniamo il valore reale: 17,8 - 2,8 = 15.

    Come creare un grafico di regressione lineare in Excel

    Se avete bisogno di visualizzare rapidamente la relazione tra le due variabili, disegnate un grafico di regressione lineare. È molto facile! Ecco come fare:

    1. Selezionare le due colonne con i dati, comprese le intestazioni.
    2. Sul Inserto nella scheda Chat fare clic sul gruppo Grafico a dispersione e selezionare l'icona Spargimento (la prima):

      In questo modo si inserisce un grafico di dispersione nel foglio di lavoro, che assomiglia a questo:

    3. Ora è necessario disegnare la retta di regressione dei minimi quadrati. Per farlo, fare clic con il tasto destro del mouse su un punto qualsiasi e scegliere Aggiungi linea di tendenza... dal menu contestuale.
    4. Nel riquadro di destra, selezionare la voce Lineare forma della linea di tendenza e, facoltativamente, controllare Visualizzazione dell'equazione sul grafico per ottenere la formula di regressione:

      Come si può notare, l'equazione di regressione creata da Excel è la stessa della formula di regressione lineare costruita in base all'output Coefficienti.

    5. Passare alla schermata Riempimento & Linea e personalizzare la linea a proprio piacimento. Ad esempio, è possibile scegliere un colore diverso per la linea e utilizzare una linea solida invece di una linea tratteggiata (selezionare Linea solida in Tipo di cruscotto box):

    A questo punto, il vostro grafico sembra già un grafico di regressione decente:

    Tuttavia, è possibile apportare qualche altro miglioramento:

    • Trascinare l'equazione dove si ritiene opportuno.
    • Aggiungere i titoli degli assi ( Elementi del grafico pulsante> Titoli dell'asse ).
    • Se i punti dei dati iniziano al centro dell'asse orizzontale e/o verticale, come in questo esempio, si potrebbe voler eliminare l'eccessivo spazio bianco. Il seguente suggerimento spiega come fare: ridimensionare gli assi del grafico per ridurre lo spazio bianco.

      Ecco come appare il nostro grafico di regressione migliorato:

      Nota importante: nel grafico di regressione, la variabile indipendente deve sempre trovarsi sull'asse X e la variabile dipendente sull'asse Y. Se il grafico è tracciato nell'ordine inverso, scambiare le colonne nel foglio di lavoro e quindi tracciare nuovamente il grafico. Se non è possibile riorganizzare i dati di partenza, è possibile cambiare gli assi X e Y direttamente in un grafico.

    Come eseguire una regressione in Excel utilizzando le formule

    Microsoft Excel dispone di alcune funzioni statistiche che possono aiutare a eseguire l'analisi di regressione lineare, come LINEST, SLOPE, INTERCEPT e CORREL.

    La funzione LINEST utilizza il metodo della regressione ai minimi quadrati per calcolare una retta che spieghi al meglio la relazione tra le variabili e restituisce un array che descrive tale retta. La spiegazione dettagliata della sintassi della funzione è contenuta in questo tutorial. Per ora ci limitiamo a creare una formula per il nostro set di dati di esempio:

    =LINEST(C2:C25, B2:B25)

    Poiché la funzione LINEST restituisce una matrice di valori, è necessario inserirla come formula di matrice. Selezionate due celle adiacenti nella stessa riga, E2:F2 nel nostro caso, digitate la formula e premete Ctrl + Maiusc + Invio per completarla.

    La formula restituisce il valore b coefficiente (E1) e il a costante (F1) per la già nota equazione di regressione lineare:

    y = bx + a

    Se si evita di utilizzare le formule di matrice nei fogli di lavoro, è possibile calcolare a e b individualmente con formule regolari:

    Ottenere l'intercetta Y (a):

    =INTERCETTA(C2:C25, B2:B25)

    Ottenere la pendenza (b):

    =PENDENZA(C2:C25, B2:B25)

    Inoltre, è possibile trovare il coefficiente di correlazione ( Multiplo R nell'output di riepilogo dell'analisi di regressione) che indica quanto fortemente le due variabili sono correlate tra loro:

    =CORREL(B2:B25,C2:C25)

    La seguente schermata mostra tutte queste formule di regressione di Excel in azione:

    Suggerimento: se si desidera ottenere statistiche aggiuntive per l'analisi di regressione, utilizzare la funzione LINEST con l'opzione s tatuaggi impostato su VERO, come mostrato in questo esempio.

    Questo è il modo in cui si esegue la regressione lineare in Excel. Detto questo, tenete presente che Microsoft Excel non è un programma statistico. Se avete bisogno di eseguire analisi di regressione a livello professionale, potreste voler utilizzare software mirati come XLSTAT, RegressIt, ecc.

    Per dare un'occhiata più da vicino alle formule di regressione lineare e alle altre tecniche discusse in questo tutorial, potete scaricare la nostra cartella di lavoro di esempio qui sotto. Grazie per aver letto!

    Quaderno pratico

    Analisi di regressione in Excel - esempi (file .xlsx)

    Michael Brown è un appassionato di tecnologia dedicato con una passione per la semplificazione di processi complessi utilizzando strumenti software. Con oltre un decennio di esperienza nel settore tecnologico, ha affinato le sue competenze in Microsoft Excel e Outlook, nonché in Fogli Google e Documenti. Il blog di Michael è dedicato alla condivisione delle sue conoscenze e competenze con gli altri, fornendo suggerimenti e tutorial facili da seguire per migliorare la produttività e l'efficienza. Che tu sia un professionista esperto o un principiante, il blog di Michael offre spunti preziosi e consigli pratici per ottenere il massimo da questi strumenti software essenziali.