Correlació en Excel: coeficient, matriu i gràfic

  • Comparteix Això
Michael Brown

El tutorial explica els conceptes bàsics de la correlació a Excel, mostra com calcular un coeficient de correlació, construir una matriu de correlació i interpretar els resultats.

Un dels càlculs estadístics més senzills que pots fer a Excel és la correlació. Encara que senzill, és molt útil per entendre les relacions entre dues o més variables. Microsoft Excel ofereix totes les eines necessàries per executar l'anàlisi de correlació, només cal saber com utilitzar-les.

    Correlació a Excel: conceptes bàsics

    Correlació és una mesura que descriu la força i la direcció d'una relació entre dues variables. S'utilitza habitualment en estadística, economia i ciències socials per a pressupostos, plans d'empresa i similars.

    El mètode que s'utilitza per estudiar fins a quin punt estan relacionades les variables s'anomena anàlisi de correlacions .

    Aquí hi ha un parell d'exemples de forta correlació:

    • El nombre de calories que mengeu i el vostre pes (correlació positiva)
    • La temperatura exterior i les vostres factures de calefacció ( correlació negativa)

    I aquí els exemples de dades que tenen una correlació feble o nul·la:

    • El nom del vostre gat i el seu menjar preferit
    • El color de els teus ulls i la teva alçada

    Una cosa essencial per entendre sobre la correlació és que només mostra la relació estreta que hi ha entre dues variables. La correlació, però, no implicad'un interval especificat.

  • FILES i COLUMNES: retorna el nombre de files i columnes d'un interval, respectivament. A la nostra fórmula de correlació, tots dos s'utilitzen amb un propòsit: obtenir el nombre de columnes per compensar des de l'interval inicial. I això s'aconsegueix utilitzant intel·ligentment referències absolutes i relatives.
  • Per entendre millor la lògica, vegem com la fórmula calcula els coeficients destacats a la captura de pantalla anterior.

    Primer, anem a examineu la fórmula de B18, que troba la correlació entre la temperatura mensual (B2:B13) i els escalfadors venuts (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    A la primera funció OFFSET, ROWS($1: 1) s'ha transformat a ROWS ($1:3) perquè la segona coordenada és relativa, de manera que canvia en funció de la posició relativa de la fila on es copia la fórmula (2 files cap avall). Així, ROWS() retorna 3, del qual restem 1, i obtenim un interval de 2 columnes a la dreta de l'interval d'origen, és a dir, $D$2:$D$13 (vendes de calefacció).

    El segon OFFSET no canvia l'interval especificat $B$2:$B$13 (temperatura) perquè COLUMNS($A:A)-1 retorna zero.

    Com a resultat, la nostra fórmula llarga es converteix en un simple CORREL( $D$2:$D$13, $B$2:$B$13) i retorna exactament el coeficient que volem.

    La fórmula de C18 que calcula un coeficient de correlació per al cost publicitari (C2:C13) i les vendes ( D2:D13) funciona de manera similar:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    La primera funció OFFSET ésabsolutament el mateix que es descriu anteriorment, retornant l'interval de $D$2:$D$13 (vendes d'escalfadors).

    En el segon OFFSET, COLUMNS($A:A)-1 canvia a COLUMNS($A: B)-1 perquè hem copiat la columna de la fórmula 1 a la dreta. En conseqüència, OFFSET obté un interval que és 1 columna a la dreta de l'interval d'origen, és a dir, $C$2:$C$13 (cost publicitari).

    Com traçar un gràfic de correlació a Excel

    Quan feu una correlació a Excel, la millor manera d'obtenir una representació visual de les relacions entre les vostres dades és dibuixar un gràfic de dispersió amb una línia de tendència . A continuació us indiquem com:

    1. Seleccioneu dues columnes amb dades numèriques, incloses les capçaleres de columnes. L'ordre de les columnes és important: la variable independent hauria d'estar a la columna de l'esquerra, ja que aquesta columna s'ha de representar en l'eix x; la variable dependent hauria d'estar a la columna de la dreta, ja que es representarà a l'eix y.
    2. A la pestanya Inserció , a la pestanya Xats grup, feu clic a la icona del gràfic Dispersió . Això inserirà immediatament un gràfic de dispersió XY al vostre full de treball.
    3. Feu clic amb el botó dret a qualsevol punt de dades del gràfic i trieu Afegeix una línia de tendència... al menú contextual.

    Per obtenir instruccions detallades pas a pas, consulteu:

    • Com crear un gràfic de dispersió a Excel
    • Com afegir una línia de tendència al gràfic d'Excel

    Per al nostre conjunt de dades de mostra, els gràfics de correlació semblen com es mostren a la imatge següent.A més, vam mostrar el valor R-quadrat, també anomenat Coeficient de determinació . Aquest valor indica com de bé es correspon la línia de tendència amb les dades: com més a prop R2 a 1, millor serà l'ajust.

    A partir del valor R2 que es mostra al vostre gràfic de dispersió, podeu calcular fàcilment el coeficient de correlació:

    1. Per obtenir una millor precisió, feu que Excel mostri més dígits al valor R quadrat que no pas per defecte.
    2. Feu clic al valor R2 del gràfic, seleccioneu-lo amb el ratolí i premeu Ctrl + C per copiar-lo.
    3. Obtenir una arrel quadrada de R2 utilitzant la funció SQRT o augmentant el valor R2 copiat a la potència de 0,5.

    Per exemple, el El valor R2 del segon gràfic és 0,9174339392. Per tant, podeu trobar el coeficient de correlació per a Publicitat i Escalfadors venuts amb una d'aquestes fórmules:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Com podeu assegurar-vos, els coeficients calculats d'aquesta manera estan perfectament en línia amb els coeficients de correlació trobats en els exemples anteriors, excepte el signe :

    Posibles problemes de correlació a Excel

    La correlació del moment del producte de Pearson només revela una relació lineal entre les dues variables. És a dir, les vostres variables poden estar fortament relacionades d'una altra manera, curvilínia, i encara tenen el coeficient de correlació igual o proper a zero.

    La correlació de Pearson no és capaç dedistingir variables dependents i independents . Per exemple, quan utilitzem la funció CORREL per trobar l'associació entre una temperatura mitjana mensual i el nombre d'escalfadors venuts, vam obtenir un coeficient de -0,97, que indica una alta correlació negativa. Tanmateix, podeu canviar les variables i obtenir el mateix resultat. Per tant, algú pot concloure que les vendes més altes d'escalfadors fan que la temperatura baixi, cosa que òbviament no té sentit. Per tant, quan executeu l'anàlisi de correlació a Excel, tingueu en compte les dades que esteu subministrant.

    A més, la correlació de Pearson és molt sensible a valors atípics . Si teniu un o més punts de dades que difereixen molt de la resta de dades, podeu obtenir una imatge distorsionada de la relació entre les variables. En aquest cas, seria prudent utilitzar la correlació de rang de Spearman.

    Així és com es fa la correlació a Excel. Per veure amb més detall els exemples tractats en aquest tutorial, us convidem a descarregar el nostre quadern de treball de mostra a continuació. Us agraeixo la lectura i espero veure-us al nostre blog la setmana vinent!

    Quader de pràctiques

    Calculeu la correlació a Excel (fitxer .xlsx)

    causalitat. El fet que els canvis en una variable estiguin associats amb els canvis en l'altra variable no vol dir que una variable faci que l'altra canviï.

    Si us interessa conèixer la causalitat i fer prediccions, feu un pas endavant. i realitzar anàlisis de regressió lineal.

    Coeficient de correlació en Excel - interpretació de la correlació

    La mesura numèrica del grau d'associació entre dues variables contínues s'anomena coeficient de correlació ( r).

    El valor del coeficient sempre està entre -1 i 1 i mesura tant la força com la direcció de la relació lineal entre les variables.

    Força

    Com més gran és el valor absolut del coeficient, més forta és la relació:

    • Els valors extrems de -1 i 1 indiquen una relació lineal perfecta quan tots els punts de dades cauen en una línia. A la pràctica, rarament s'observa una correlació perfecta, ja sigui positiva o negativa.
    • Un coeficient de 0 indica que no hi ha relació lineal entre les variables. Això és el que és probable que obtingueu amb dos conjunts de nombres aleatoris.
    • Els valors entre 0 i +1/-1 representen una escala de relacions febles, moderades i fortes. A mesura que r s'acosta a -1 o 1, la força de la relació augmenta.

    Direcció

    El signe del coeficient (més o menys) indica el direcció de larelació.

    • Els coeficients positius representen una correlació directa i produeixen un pendent ascendent en un gràfic; a mesura que una variable augmenta també ho fa l'altra, i viceversa.
    • Els coeficients negatius representen una correlació inversa i produeixen un pendent descendent en un gràfic; a mesura que una variable augmenta, l'altra variable tendeix a disminuir.

    Per a una millor comprensió, fes una ullada a els següents gràfics de correlació:

    • Un coeficient de 1 significa una relació positiva perfecta: a mesura que una variable augmenta, l'altra augmenta proporcionalment.
    • Un coeficient de -1 significa una relació negativa perfecta: a mesura que una variable augmenta, l'altra disminueix proporcionalment.
    • Un coeficient de 0 significa que no hi ha relació entre dues variables; els punts de dades són dispersos per tot el gràfic.

    Correlació de Pearson

    En estadística, mesuren diversos tipus de correlació en funció del tipus de dades amb què treballeu. En aquest tutorial, ens centrarem en el més comú.

    Correlació de Pearson , el nom complet és Correlació del moment del producte de Pearson (PPMC), s'utilitza per avaluar les relacions lineals entre dades quan un canvi en una variable s'associa amb un canvi proporcional en l'altra variable. En termes senzills, la correlació de Pearson respon a la pregunta: Es poden representar les dades en alínia?

    En estadístiques, és el tipus de correlació més popular, i si es tracta d'un "coeficient de correlació" sense més qualificació, és més probable que sigui el Pearson.

    Aquí teniu el Fórmula més utilitzada per trobar el coeficient de correlació de Pearson, també anomenat R de Pearson :

    De vegades, podeu trobar dues fórmules més per calcular el coeficient de correlació de la mostra (r) i el coeficient de correlació de la població (ρ).

    Com fer la correlació de Pearson a Excel

    Calcular a mà el coeficient de correlació de Pearson implica moltes matemàtiques . Per sort, Microsoft Excel ha fet les coses molt senzilles. Depenent del vostre conjunt de dades i del vostre objectiu, podeu utilitzar una de les tècniques següents:

    • Cerqueu el coeficient de correlació de Pearson amb la funció CORREL.
    • Feu una matriu de correlació mitjançant realitzant l'anàlisi de dades.
    • Troba múltiples coeficients de correlació amb una fórmula.
    • Traceu un gràfic de correlació per obtenir la representació visual de la relació de dades.

    Com calcular-la. coeficient de correlació a Excel

    Per calcular un coeficient de correlació a mà, hauríeu d'utilitzar aquesta llarga fórmula. Per trobar el coeficient de correlació a Excel, aprofiteu la funció CORREL o PEARSON i obteniu el resultat en una fracció de segon.

    Funció CORREL d'Excel

    La funció CORREL retorna elCoeficient de correlació de Pearson per a dos conjunts de valors. La seva sintaxi és molt senzilla i senzilla:

    CORREL(matriu1, matriu2)

    On:

    • Matriu1 és el primer rang de valors.
    • Matriu2 és el segon rang de valors.

    Les dues matrius haurien de tenir la mateixa longitud.

    Suposant que tenim un conjunt de variables independents ( x ) a B2:B13 i variables dependents (y) a C2:C13, la nostra fórmula del coeficient de correlació és el següent:

    =CORREL(B2:B13, C2:C13)

    O bé, podríem intercanviar els intervals i encara obteniu el mateix resultat:

    =CORREL(C2:C13, B2:B13)

    En qualsevol cas, la fórmula mostra una forta correlació negativa (al voltant de -0,97) entre la temperatura mitjana mensual i el nombre d'escalfadors venuts:

    3 coses que hauríeu de saber sobre la funció CORREL a Excel

    Per calcular el coeficient de correlació a Excel amb èxit, tingueu en compte aquests 3 fets senzills:

    • Si una o més cel·les en una matriu conté text, valors lògics o espais en blanc, aquestes cel·les s'ignoren; es calculen cel·les amb valors zero.
    • Si les matrius subministrades tenen longituds diferents, es retorna un error #N/A.
    • Si qualsevol de les matrius està buida o si la desviació estàndard de els seus valors són iguals a zero, un #DIV/0! es produeix un error.

    Funció PEARSON d'Excel

    La funció PEARSON d'Excel fa el mateix: calcula el coeficient de correlació del moment del producte de Pearson.

    PEARSON(matriu1,matriu2)

    On:

    • Matriu1 és un interval de valors independents.
    • Matriu2 és un interval de valors dependents.

    Com que PEARSON i CORREL calculen el coeficient de correlació lineal de Pearson, els seus resultats haurien de coincidir, i en general ho fan en les versions recents d'Excel 2007 a Excel 2019.

    En Excel 2003 i Excel 2019. Les versions anteriors, però, la funció PEARSON pot mostrar alguns errors d'arrodoniment. Per tant, en versions anteriors, es recomana utilitzar CORREL amb preferència a PEARSON.

    Al nostre conjunt de dades de mostra, ambdues funcions mostren els mateixos resultats:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Com fer una matriu de correlació a Excel amb anàlisi de dades

    Quan necessiteu provar les interrelacions entre més de dues variables, té sentit construir una matriu de correlació, que de vegades s'anomena coeficient de correlació múltiple .

    La matriu de correlació és una taula que mostra els coeficients de correlació entre les variables a la intersecció de les files i columnes corresponents.

    La matriu de correlació d'Excel es crea mitjançant l'eina Correlació del complement Analysis ToolPak . Aquest complement està disponible en totes les versions d'Excel 2003 a Excel 2019, però no està habilitat de manera predeterminada. Si encara no l'heu activat, feu-ho ara seguint els passos descrits a Com habilitar el paquet d'eines d'anàlisi de dades a Excel.

    Ambles eines d'anàlisi de dades afegides a la cinta d'Excel, esteu preparat per executar l'anàlisi de correlació:

    1. A l'extrem superior dret de la pestanya Dades > Anàlisi grup, feu clic al botó Anàlisi de dades .
    2. Al quadre de diàleg Anàlisi de dades , seleccioneu Correlació i feu clic a D'acord.
    3. Al quadre Correlació , configureu els paràmetres d'aquesta manera:
      • Feu clic al quadre Interval d'entrada i seleccioneu l'interval amb les vostres dades d'origen, incloses les capçaleres de columnes (B1:D13 en el nostre cas).
      • A la secció Agrupades per , assegureu-vos que el quadre de ràdio Columnes estigui seleccionat (donat que les vostres dades d'origen s'agrupin en columnes).
      • Marqueu la casella de selecció Etiquetes a la primera fila si l'interval seleccionat conté capçaleres de columna.
      • Seleccioneu l'opció de sortida desitjada. Per tenir la matriu al mateix full, seleccioneu Interval de sortida i especifiqueu la referència a la cel·la més a l'esquerra a la qual s'ha de sortir la matriu (A15 en aquest exemple).

    Quan acabeu, feu clic al botó D'acord :

    La vostra matriu de coeficients de correlació està feta i hauria de semblar com es mostra a la secció següent.

    Interpretació dels resultats de l'anàlisi de correlació

    A la vostra matriu de correlació d'Excel, podeu trobar els coeficients a la intersecció de files i columnes. Si les coordenades de la columna i la fila són les mateixes, s'emet el valor 1.

    A l'anteriorPer exemple, ens interessa conèixer la correlació entre la variable dependent (nombre d'escalfadors venuts) i dues variables independents (temperatura mitjana mensual i costos publicitaris). Per tant, només mirem els números a la intersecció d'aquestes files i columnes, que es destaquen a la captura de pantalla següent:

    El coeficient negatiu de -0,97 (arrodonit a 2 decimals) mostra una forta correlació inversa entre la temperatura mensual i les vendes d'escalfadors: a mesura que la temperatura augmenta, es venen menys escalfadors.

    El coeficient positiu de 0,97 (arrodonit a 2 decimals) indica una forta connexió directa entre el pressupost publicitari i les vendes: més diners que gastes en publicitat, com més grans siguin les vendes.

    Com fer anàlisis de correlació múltiple a Excel amb fórmules

    Elaborar la taula de correlacions amb l'eina d'anàlisi de dades és fàcil. Tanmateix, aquesta matriu és estàtica, el que significa que haureu de tornar a executar l'anàlisi de correlació cada vegada que canvien les dades d'origen.

    La bona notícia és que podeu crear fàcilment una taula de correlació semblant, i aquesta matriu s'actualitzarà automàticament. amb cada canvi en els valors d'origen.

    Per fer-ho, utilitzeu aquesta fórmula genèrica:

    CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1) , OFFSET( primer_interval_variable , 0, COLUMNS($A:A)-1))

    Nota important! Perquè la fórmula funcioni, hauríeu de bloquejar-lael primer interval de variables utilitzant referències de cel·les absolutes.

    En el nostre cas, el primer interval de variables és $B$2:$B$13 (si us plau, tingueu en compte el signe $ que bloqueja la referència) i la nostra fórmula de correlació ho pren forma:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Amb la fórmula preparada, construïm una matriu de correlació:

    1. A la primera fila i primera columna de la matriu, escriviu les variables' etiquetes en el mateix ordre que apareixen a la taula d'origen (vegeu la captura de pantalla a continuació).
    2. Introduïu la fórmula anterior a la cel·la més a l'esquerra (B16 en el nostre cas).
    3. Arrossegueu la fórmula. cap avall i cap a la dreta per copiar-lo a tantes files i columnes com sigui necessari (3 files i 3 columnes en el nostre exemple).

    Com a resultat, tenim la següent matriu amb correlació múltiple coeficients. Tingueu en compte que els coeficients que retorna la nostra fórmula són exactament els mateixos que els que emet Excel a l'exemple anterior (els rellevants es destaquen):

    Com funciona aquesta fórmula

    Com ja sabeu, la funció CORREL d'Excel retorna el coeficient de correlació per a dos conjunts de variables que especifiqueu. El principal repte és subministrar els intervals adequats a les cel·les corresponents de la matriu. Per a això, introduïu només el primer interval de variables a la fórmula i utilitzeu les funcions següents per fer els ajustos necessaris:

    • OFFSET: retorna un interval que és un nombre determinat de files i columnes.

    Michael Brown és un entusiasta de la tecnologia dedicat amb una passió per simplificar processos complexos mitjançant eines de programari. Amb més d'una dècada d'experiència en la indústria tecnològica, ha perfeccionat les seves habilitats en Microsoft Excel i Outlook, així com en Google Sheets i Docs. El bloc de Michael es dedica a compartir els seus coneixements i experiència amb altres persones, oferint consells i tutorials fàcils de seguir per millorar la productivitat i l'eficiència. Tant si sou un professional experimentat com si sou un principiant, el bloc de Michael ofereix valuoses idees i consells pràctics per treure el màxim profit d'aquestes eines de programari essencials.