Anàlisi de regressió lineal en Excel

  • Comparteix Això
Michael Brown

El tutorial explica els conceptes bàsics de l'anàlisi de regressió i mostra algunes maneres diferents de fer una regressió lineal a Excel.

Imagineu això: se us proporcionen un munt de dades diferents i se'ls demana que prediu les xifres de vendes de la vostra empresa l'any vinent. Heu descobert desenes, potser fins i tot centenars, de factors que possiblement poden afectar els números. Però, com saps quins són realment importants? Executeu l'anàlisi de regressió a Excel. Et donarà resposta a aquesta i moltes més preguntes: quins factors importen i quins es poden ignorar? Què tan estretament estan relacionats entre ells aquests factors? I fins a quin punt podeu estar segur de les prediccions?

    Anàlisi de regressió a Excel: conceptes bàsics

    En el modelatge estadístic, l' anàlisi de regressió s'utilitza per estimar les relacions entre dues o més variables:

    La variable dependent (també coneguda com a variable criteri ) és el factor principal que intenteu entendre i predir.

    Les variables independents (també conegudes variables explicatives o predictores ) són els factors que poden influir en la variable dependent.

    L'anàlisi de regressió us ajuda comprendre com canvia la variable dependent quan varia una de les variables independents i permet determinar matemàticament quina d'aquestes variables realment té un impacte.

    Tècnicament, un model d'anàlisi de regressió es basa en la suma de

    En aquest punt, el vostre gràfic ja sembla un gràfic de regressió decent:

    Tot i així, és possible que vulgueu fer algunes millores més:

    • Arrossegueu l'equació allà on us convingui.
    • Afegiu títols dels eixos (botó Elements del gràfic > Títols dels eixos ).
    • Si el vostre els punts de dades comencen al mig de l'eix horitzontal i/o vertical, com en aquest exemple, és possible que vulgueu desfer-vos de l'excés d'espai en blanc. El consell següent explica com fer-ho: Escala els eixos del gràfic per reduir l'espai en blanc.

      I així és el nostre gràfic de regressió millorat:

      Nota important! En el gràfic de regressió, la variable independent hauria d'estar sempre a l'eix X i la variable dependent a l'eix Y. Si el vostre gràfic es representa en ordre invers, canvieu les columnes del vostre full de treball i, a continuació, dibuixeu el gràfic de nou. Si no teniu permís per reordenar les dades d'origen, podeu canviar els eixos X i Y directament en un gràfic.

    Com fer regressió a Excel mitjançant fórmules

    Microsoft Excel té algunes funcions estadístiques que us poden ajudar a fer anàlisis de regressió lineal, com ara LINEST, SLOPE, INTERCEPT i CORREL.

    La funció LINEST utilitza el mètode de regressió de mínims quadrats per calcular una recta. línia que explica millor la relació entre les vostres variables i retorna una matriu que descriu aquesta línia. Podeu trobar l'explicació detallada dela sintaxi de la funció en aquest tutorial. De moment, només fem una fórmula per al nostre conjunt de dades d'exemple:

    =LINEST(C2:C25, B2:B25)

    Com que la funció LINEST retorna una matriu de valors, l'heu d'introduir com a fórmula de matriu. Seleccioneu dues cel·les adjacents a la mateixa fila, E2:F2 en el nostre cas, escriviu la fórmula i premeu Ctrl + Maj + Retorn per completar-la.

    La fórmula retorna el coeficient b ( E1) i la constant a (F1) per a l'equació de regressió lineal ja coneguda:

    y = bx + a

    Si eviteu utilitzar fórmules de matriu als vostres fulls de treball, podeu calcular a i b individualment amb fórmules regulars:

    Obtenir la intercepció Y (a):

    =INTERCEPT(C2:C25, B2:B25)

    Obtenir el pendent (b):

    =SLOPE(C2:C25, B2:B25)

    A més, podeu trobar el coeficient de correlació ( Múltiple R a la sortida del resum de l'anàlisi de regressió) que indica com fortament les dues variables estan relacionades entre si:

    =CORREL(B2:B25,C2:C25)

    La següent captura de pantalla mostra totes aquestes fórmules de regressió d'Excel en acció:

    Consell. Si voleu obtenir estadístiques addicionals per a l'anàlisi de regressió, utilitzeu la funció LINEST amb el paràmetre s tats definit com a TRUE, tal com es mostra en aquest exemple.

    Així és com feu la regressió lineal. en Excel. Dit això, tingueu en compte que Microsoft Excel no és un programa estadístic. Si necessiteu realitzar anàlisis de regressió a nivell professional, és possible que vulgueu utilitzar l'orientacióprogramari com XLSTAT, RegressIt, etc.

    Per veure amb més detall les nostres fórmules de regressió lineal i altres tècniques que es comenten en aquest tutorial, us convidem a descarregar el nostre quadern d'exemple a continuació. Gràcies per llegir-lo!

    Quader de pràctiques

    Anàlisi de regressió a Excel - exemples (fitxer .xlsx)

    quadrats, que és una manera matemàtica de trobar la dispersió de punts de dades. L'objectiu d'un model és obtenir la suma de quadrats més petita possible i dibuixar una línia que s'acosti més a les dades.

    En estadística, diferencien entre una regressió lineal simple i una regressió lineal múltiple. Regresió lineal simple. modela la relació entre una variable dependent i una variable independent mitjançant una funció lineal. Si utilitzeu dues o més variables explicatives per predir la variable dependent, tracteu amb regressió lineal múltiple . Si la variable dependent es modela com una funció no lineal perquè les relacions de dades no segueixen una línia recta, utilitzeu regressió no lineal . El focus d'aquest tutorial se centrarà en una regressió lineal simple.

    A tall d'exemple, prenem les xifres de vendes de paraigües dels darrers 24 mesos i esbrinem la pluja mensual mitjana del mateix període. Traceu aquesta informació en un gràfic i la línia de regressió demostrarà la relació entre la variable independent (pluvies) i la variable dependent (vendes de paraigües):

    Equació de regressió lineal

    Matemàticament, una regressió lineal es defineix per aquesta equació:

    y = bx + a + ε

    On:

    • x és una variable independent.
    • y és una variable dependent.
    • a és la intercepció Y , que és el valor mitjà esperat de y quan totes les variables x són iguals a 0. En un gràfic de regressió, és el punt on la línia creua l'eix Y.
    • b és el pendent d'una línia de regressió, que és la taxa de canvi de y quan canvia x .
    • ε és l'error aleatori terme, que és la diferència entre el valor real d'una variable dependent i el seu valor previst.

    L'equació de regressió lineal sempre té un terme d'error perquè, a la vida real, els predictors mai són perfectament precisos. Tanmateix, alguns programes, inclòs Excel, fan el càlcul del terme d'error darrere de les escenes. Per tant, a Excel, feu una regressió lineal mitjançant el mètode mínims quadrats i busqueu els coeficients a i b de manera que:

    y = bx + a

    Per al nostre exemple, l'equació de regressió lineal pren la forma següent:

    Umbrellas sold = b * rainfall + a

    Hi ha un grapat de maneres diferents de trobar a i b . Els tres mètodes principals per realitzar anàlisis de regressió lineal a Excel són:

    • Eina de regressió inclosa amb Analysis ToolPak
    • Gràfic de dispersió amb una línia de tendència
    • Fórmula de regressió lineal

    A continuació trobareu les instruccions detallades sobre com utilitzar cada mètode.

    Com fer una regressió lineal a Excel amb Analysis ToolPak

    Aquest exemple mostra com executar una regressió a Excel utilitzant una eina especial inclosa amb el complement Analysis ToolPak.

    Activeu el complement Analysis ToolPak.a

    Analysis ToolPak està disponible en totes les versions d'Excel 365 a 2003, però no està habilitat per defecte. Per tant, cal activar-lo manualment. A continuació us indiquem com:

    1. A l'Excel, feu clic a Fitxer > Opcions .
    2. A les Opcions d'Excel quadre de diàleg, seleccioneu Complements a la barra lateral esquerra, assegureu-vos que Complements d'Excel estigui seleccionat al quadre Gestiona i feu clic a Vés .
    3. Al quadre de diàleg Complements , marqueu Paquet d'eines d'anàlisi i feu clic a D'acord :

    Això s'afegiran les eines Anàlisi de dades a la pestanya Dades de la cinta d'Excel.

    Executa l'anàlisi de regressió

    A En aquest exemple, farem una regressió lineal simple a Excel. El que tenim és una llista de les precipitacions mitjanes mensuals dels darrers 24 mesos a la columna B, que és la nostra variable independent (predictor), i el nombre de paraigües venuts a la columna C, que és la variable dependent. Per descomptat, hi ha molts altres factors que poden afectar les vendes, però de moment només ens centrem en aquestes dues variables:

    Amb el paquet d'eines d'anàlisi habilitat, seguiu aquests passos per realitzar anàlisis de regressió a Excel:

    1. A la pestanya Dades , al grup Anàlisi , feu clic al botó Anàlisi de dades .
    2. Seleccioneu Regressió i feu clic a D'acord .
    3. Al quadre de diàleg Regressió , configureu els paràmetres següents:
      • Seleccioneu l' EntradaInterval Y , que és la vostra variable dependent . En el nostre cas, es tracta de vendes paraigües (C1:C25).
      • Seleccioneu l' Interval X d'entrada , és a dir, la vostra variable independent . En aquest exemple, és la precipitació mensual mitjana (B1:B25).

      Si esteu creant un model de regressió múltiple, seleccioneu dues o més columnes adjacents amb diferents variables independents.

      • Marqueu la casella Etiquetes si hi ha capçaleres a la part superior dels intervals X i Y.
      • Trieu la vostra opció de sortida preferida, un full de treball nou al nostre cas.
      • Opcionalment, seleccioneu la casella de selecció Residuals per obtenir la diferència entre els valors previstos i reals.
    4. Feu clic a D'acord i observeu la sortida de l'anàlisi de regressió creada per Excel.

    Interpreteu la sortida de l'anàlisi de regressió

    Com acabeu de veure, executar la regressió a Excel és fàcil perquè tots els càlculs es realitzen automàticament. La interpretació dels resultats és una mica més complicada perquè cal saber què hi ha darrere de cada número. A continuació trobareu un desglossament de 4 parts principals de la sortida de l'anàlisi de regressió.

    Sortida de l'anàlisi de regressió: resultat de resum

    Aquesta part us indica fins a quin punt l'equació de regressió lineal calculada s'adapta a les vostres dades d'origen.

    Així és el que significa cada informació:

    R múltiple . És el coeficient C orrelació que mesura la força deuna relació lineal entre dues variables. El coeficient de correlació pot ser qualsevol valor entre -1 i 1, i el seu valor absolut indica la força de la relació. Com més gran sigui el valor absolut, més forta és la relació:

    • 1 significa una relació positiva forta
    • -1 significa una relació negativa forta
    • 0 significa que no hi ha relació a tot

    R Quadrat . És el Coeficient de determinació , que s'utilitza com a indicador de la bondat de l'ajust. Mostra quants punts cauen a la recta de regressió. El valor R2 es calcula a partir de la suma total de quadrats, més precisament, és la suma de les desviacions al quadrat de les dades originals respecte a la mitjana.

    En el nostre exemple, R2 és 0,91 (arrodonit a 2 dígits) , que és bo de fades. Significa que el 91% dels nostres valors s'ajusten al model d'anàlisi de regressió. És a dir, el 91% de les variables dependents (valors y) s'expliquen per les variables independents (valors x). En general, R quadrat del 95% o més es considera un bon ajust.

    R quadrat ajustat . És el R quadrat ajustat pel nombre de variables independents del model. Voleu utilitzar aquest valor en lloc de R quadrat per a l'anàlisi de regressió múltiple.

    Error estàndard . És una altra mesura de bondat d'ajust que mostra la precisió de la vostra anàlisi de regressió: com més petit sigui el nombre, més segur que podeu estar.la teva equació de regressió. Mentre que R2 representa el percentatge de la variància de les variables dependents que s'explica pel model, l'error estàndard és una mesura absoluta que mostra la distància mitjana que cauen els punts de dades des de la línia de regressió.

    Observacions . És simplement el nombre d'observacions del vostre model.

    Sortida de l'anàlisi de regressió: ANOVA

    La segona part de la sortida és Anàlisi de la variància (ANOVA):

    Bàsicament, divideix la suma de quadrats en components individuals que donen informació sobre els nivells de variabilitat dins del vostre model de regressió:

    • df és el nombre de graus de llibertat associats a les fonts. de variància.
    • SS és la suma de quadrats. Com més petit sigui el SS residual en comparació amb el SS total, millor s'ajusta el vostre model a les dades.
    • MS és el quadrat mitjà.
    • F és l'estadística F, o prova F per a la hipòtesi nul·la. S'utilitza per provar la significació global del model.
    • Significació F és el valor P de F.

    La part ANOVA s'utilitza poques vegades per a una simple anàlisi de regressió lineal a Excel, però definitivament hauríeu de mirar de prop l'últim component. El valor Importància F dóna una idea de com de fiables (estadísticament significatius) són els vostres resultats. Si la significació F és inferior a 0,05 (5%), el vostre model està bé. Si és superior a 0,05, ho fariesProbablement millor escolliu una altra variable independent.

    Resultat de l'anàlisi de regressió: coeficients

    Aquesta secció proporciona informació específica sobre els components de la vostra anàlisi:

    El component més útil d'aquesta secció és Coeficients . Us permet construir una equació de regressió lineal a Excel:

    y = bx + a

    Per al nostre conjunt de dades, on y és el nombre de paraigües venuts i x és una pluja mensual mitjana, la nostra fórmula de regressió lineal és la següent:

    Y = Rainfall Coefficient * x + Intercept

    Equipada amb valors a i b arrodonits a tres decimals, es converteix en:

    Y=0.45*x-19.074

    Per exemple, amb una precipitació mitjana mensual igual a 82 mm, les vendes de paraigües serien aproximadament 17,8:

    0.45*82-19.074=17.8

    De manera semblant, podeu esbrinar quants paraigües seran. venut amb qualsevol altra pluja mensual (variable x) que especifiqueu.

    Resultat de l'anàlisi de regressió: residus

    Si compareu el nombre estimat i real de paraigües venuts corresponent a la precipitació mensual de 82 mm, veureu que aquests números són lleugerament diferents:

    • Estimat: 17,8 (calculat a dalt)
    • Real: 15 (fila 2 de les dades font)

    Per què hi ha la diferència? Perquè les variables independents mai són predictors perfectes de les variables dependents. I els residus us poden ajudar a entendre a quina distància es troben els valors reals dels valors predits:

    Perel primer punt de dades (precipitació de 82 mm), el residu és d'aproximadament -2,8. Per tant, afegim aquest nombre al valor previst i obtenim el valor real: 17,8 - 2,8 = 15.

    Com fer un gràfic de regressió lineal a Excel

    Si necessiteu visualitzar ràpidament la relació entre les dues variables, dibuixeu un gràfic de regressió lineal. Això és molt fàcil! A continuació us indiquem com:

    1. Seleccioneu les dues columnes amb les vostres dades, incloses les capçaleres.
    2. A la pestanya Inserció , al grup Xats , feu clic a la icona Diagrama de dispersió i seleccioneu la miniatura Dispersió (la primera):

      Això inserirà un gràfic de dispersió al vostre full de treball, que s'assemblarà a aquest. un:

    3. Ara, hem de dibuixar la línia de regressió dels mínims quadrats. Per fer-ho, feu clic amb el botó dret a qualsevol punt i trieu Afegeix una línia de tendència... al menú contextual.
    4. Al panell dret, seleccioneu la forma de línia de tendència Lineal i, opcionalment, marqueu Mostra l'equació al gràfic per obtenir la vostra fórmula de regressió:

      Com podeu observar, l'equació de regressió que Excel ha creat per a nosaltres és la mateixa que la fórmula de regressió lineal que hem creat a partir de la sortida de Coeficients.

    5. Canvia a Emplenar & Pestanya Línia i personalitzeu la línia al vostre gust. Per exemple, podeu triar un color de línia diferent i utilitzar una línia sòlida en lloc d'una línia discontínua (seleccioneu Línia sòlida al quadre Tipus de guió ):

    Michael Brown és un entusiasta de la tecnologia dedicat amb una passió per simplificar processos complexos mitjançant eines de programari. Amb més d'una dècada d'experiència en la indústria tecnològica, ha perfeccionat les seves habilitats en Microsoft Excel i Outlook, així com en Google Sheets i Docs. El bloc de Michael es dedica a compartir els seus coneixements i experiència amb altres persones, oferint consells i tutorials fàcils de seguir per millorar la productivitat i l'eficiència. Tant si sou un professional experimentat com si sou un principiant, el bloc de Michael ofereix valuoses idees i consells pràctics per treure el màxim profit d'aquestes eines de programari essencials.