Correlación en Excel: coeficiente, matriz e gráfica

  • Comparte Isto
Michael Brown

O titorial explica os conceptos básicos da correlación en Excel, mostra como calcular un coeficiente de correlación, construír unha matriz de correlación e interpretar os resultados.

Un dos cálculos estatísticos máis sinxelos que podes facer en Excel é a correlación. Aínda que sinxelo, é moi útil para comprender as relacións entre dúas ou máis variables. Microsoft Excel ofrece todas as ferramentas necesarias para realizar análises de correlación, só precisa saber usalas.

    Correlación en Excel: conceptos básicos

    Correlación é unha medida que describe a forza e a dirección dunha relación entre dúas variables. Úsase habitualmente en estatística, economía e ciencias sociais para orzamentos, plans de negocio e similares.

    O método utilizado para estudar a estreita relación entre as variables chámase análise de correlación .

    Aquí tes un par de exemplos de forte correlación:

    • O número de calorías que comes e o teu peso (correlación positiva)
    • A temperatura exterior e as túas facturas de calefacción ( correlación negativa)

    E aquí os exemplos de datos que teñen unha correlación débil ou nula:

    • O nome do teu gato e a súa comida favorita
    • A cor de os teus ollos e a túa estatura

    Unha cousa esencial para entender sobre a correlación é que só mostra o estreitamente relacionados que están dúas variables. A correlación, porén, non implicadun intervalo especificado.

  • FILAS e COLUMNAS: devolve o número de filas e columnas dun intervalo, respectivamente. Na nosa fórmula de correlación, ambos úsanse cun único propósito: obter o número de columnas para compensar desde o intervalo inicial. E isto conséguese mediante un uso intelixente de referencias absolutas e relativas.
  • Para comprender mellor a lóxica, vexamos como a fórmula calcula os coeficientes destacados na captura de pantalla anterior.

    Primeiro, imos examina a fórmula en B18, que atopa a correlación entre a temperatura mensual (B2:B13) e os quentadores vendidos (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Na primeira función OFFSET, ROWS($1: 1) transformouse en FILAS($1:3) porque a segunda coordenada é relativa, polo que cambia en función da posición relativa da fila onde se copia a fórmula (2 filas cara abaixo). Así, ROWS() devolve 3, do que restamos 1, e obtemos un intervalo que está a 2 columnas á dereita do intervalo de orixe, é dicir, $D$2:$D$13 (vendas de quentadores).

    O segundo OFFSET non cambia o intervalo especificado $B$2:$B$13 (temperatura) porque COLUMNS($A:A)-1 devolve cero.

    Como resultado, a nosa fórmula longa convértese nun simple CORREL( $D$2:$D$13, $B$2:$B$13) e devolve exactamente o coeficiente que queremos.

    A fórmula en C18 que calcula un coeficiente de correlación para o custo publicitario (C2:C13) e as vendas ( D2:D13) funciona de forma similar:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    A primeira función OFFSET éabsolutamente o mesmo que o descrito anteriormente, devolvendo o intervalo de $D$2:$D$13 (vendas de calefacción).

    No segundo OFFSET, COLUMNS($A:A)-1 cambia a COLUMNS($A: B)-1 porque copiamos a columna da fórmula 1 á dereita. En consecuencia, OFFSET obtén un intervalo que está 1 columna á dereita do intervalo de orixe, é dicir, $C$2:$C$13 (custo de publicidade).

    Como trazar un gráfico de correlación en Excel

    Ao facer correlación en Excel, a mellor forma de obter unha representación visual das relacións entre os teus datos é debuxar un gráfico de dispersión cunha liña de tendencia . Vexa como:

    1. Seleccione dúas columnas con datos numéricos, incluídos os encabezados das columnas. A orde das columnas é importante: a variable independente debería estar na columna da esquerda xa que esta columna debe ser representada no eixe x; a variable dependente debería estar na columna da dereita xa que se representará no eixe y.
    2. Na pestana Insertar , na pestana Chats , faga clic na icona do gráfico Dispersión . Isto inserirá inmediatamente un gráfico de dispersión XY na túa folla de traballo.
    3. Fai clic co botón dereito en calquera punto de datos do gráfico e escolla Engadir liña de tendencia... no menú contextual.

    Para obter instrucións detalladas paso a paso, consulte:

    • Como crear un gráfico de dispersión en Excel
    • Como engadir unha liña de tendencia ao gráfico de Excel

    Para o noso conxunto de datos de mostra, os gráficos de correlación parecen os que se mostran na imaxe de abaixo.Ademais, mostramos o valor R-cadrado, tamén chamado Coeficiente de determinación . Este valor indica o ben que a liña de tendencia se corresponde cos datos: canto máis preto de R2 a 1, mellor será o axuste.

    A partir do valor de R2 que aparece no teu diagrama de dispersión, podes calcular facilmente o coeficiente de correlación:

    1. Para unha mellor precisión, fai que Excel mostre máis díxitos no valor R-cadrado do que fai por defecto.
    2. Fai clic no valor R2 do gráfico, selecciónao co rato e prema Ctrl + C para copialo.
    3. Obtén unha raíz cadrada de R2 usando a función SQRT ou elevando o valor de R2 copiado á potencia de 0,5.

    Por exemplo, o O valor R2 no segundo gráfico é 0,9174339392. Polo tanto, podes atopar o coeficiente de correlación para Publicidade e Quentadores vendidos cunha destas fórmulas:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Como podes asegurarte, os coeficientes calculados deste xeito están perfectamente en consonancia cos coeficientes de correlación atopados nos exemplos anteriores, excepto o signo :

    Potenciais problemas de correlación en Excel

    A correlación do momento do produto de Pearson só revela unha relación lineal entre as dúas variables. É dicir, as súas variables poden estar fortemente relacionadas doutro xeito curvilíneo e aínda ter o coeficiente de correlación igual ou próximo a cero.

    A correlación de Pearson non é capaz dedistinguir variables dependentes e independentes . Por exemplo, ao usar a función CORREL para atopar a asociación entre unha temperatura media mensual e o número de quentadores vendidos, obtivemos un coeficiente de -0,97, o que indica unha alta correlación negativa. Non obstante, pode cambiar as variables e obter o mesmo resultado. Entón, alguén pode concluír que as vendas máis altas de quentadores fan que a temperatura caia, o que obviamente non ten sentido. Polo tanto, ao executar a análise de correlación en Excel, teña en conta os datos que está a proporcionar.

    Ademais, a correlación de Pearson é moi sensible aos outliers . Se tes un ou máis puntos de datos que difiren moito do resto dos datos, podes ter unha imaxe distorsionada da relación entre as variables. Neste caso, sería prudente utilizar a correlación de clasificación de Spearman.

    Así é como facer a correlación en Excel. Para ver os exemplos que se comentan neste tutorial, podes descargar o noso libro de exemplo a continuación. Grazas por ler e espero verte no noso blog a próxima semana!

    Caderno de prácticas

    Calcular correlación en Excel (ficheiro .xlsx)

    causalidade. O feito de que os cambios nunha variable estean asociados a cambios na outra variable non significa que unha variable realmente provoque que a outra cambie.

    Se estás interesado en coñecer a causalidade e facer predicións, dá un paso adiante. e realizar unha análise de regresión lineal.

    Coeficiente de correlación en Excel - interpretación da correlación

    A medida numérica do grao de asociación entre dúas variables continuas chámase coeficiente de correlación ( r).

    O valor do coeficiente está sempre entre -1 e 1 e mide tanto a forza como a dirección da relación lineal entre as variables.

    Forza

    Canto maior o valor absoluto do coeficiente, máis forte é a relación:

    • Os valores extremos de -1 e 1 indican unha relación lineal perfecta cando todos os puntos de datos caen nunha liña. Na práctica, raramente se observa unha correlación perfecta, xa sexa positiva ou negativa.
    • Un coeficiente de 0 indica que non hai relación lineal entre as variables. Isto é o que é probable que obteñas con dous conxuntos de números aleatorios.
    • Os valores entre 0 e +1/-1 representan unha escala de relacións débiles, moderadas e fortes. A medida que r se achega a -1 ou 1, a forza da relación aumenta.

    Dirección

    O signo do coeficiente (máis ou menos) indica o dirección dorelación.

    • Os coeficientes positivos representan correlación directa e producen unha pendente ascendente nun gráfico; a medida que aumenta unha variable, tamén o fai a outra, e viceversa.
    • Os coeficientes negativos representan unha correlación inversa e producen unha pendente descendente nun gráfico; a medida que unha variable aumenta, a outra tende a diminuír.

    Para unha mellor comprensión, bótalle un ollo a os seguintes gráficos de correlación:

    • Un coeficiente de 1 significa unha relación positiva perfecta: a medida que unha variable aumenta, a outra aumenta proporcionalmente.
    • Un coeficiente de -1 significa unha relación negativa perfecta: a medida que unha variable aumenta, a outra diminúe proporcionalmente.
    • Un coeficiente de 0 significa que non hai relación entre dúas variables; os puntos de datos son espallados por todo o gráfico.

    Correlación de Pearson

    En estatística, miden varios tipos de correlación dependendo do tipo de datos cos que estea a traballar. Neste titorial, centrarémonos no máis común.

    Correlación de Pearson , o nome completo é a Correlación de momento do produto de Pearson (PPMC), utilízase para avaliar as relacións lineais entre datos cando un cambio nunha variable está asociado a un cambio proporcional na outra variable. En termos sinxelos, a correlación de Pearson responde á pregunta: ¿Pódense representar os datos en aliña?

    En estatística, é o tipo de correlación máis popular, e se estás a tratar cun "coeficiente de correlación" sen máis cualificación, o máis probable é que sexa o Pearson.

    Aquí está o Fórmula máis utilizada para atopar o coeficiente de correlación de Pearson, tamén chamado R de Pearson :

    Ás veces, pode atopar outras dúas fórmulas para calcular o coeficiente de correlación da mostra (r) e o coeficiente de correlación de poboación (ρ).

    Como facer a correlación de Pearson en Excel

    Calcular a man o coeficiente de correlación de Pearson implica moitas matemáticas . Afortunadamente, Microsoft Excel fixo as cousas moi sinxelas. Dependendo do seu conxunto de datos e do seu obxectivo, pode utilizar unha das seguintes técnicas:

    • Atopa o coeficiente de correlación de Pearson coa función CORREL.
    • Fai unha matriz de correlación mediante realizando a análise de datos.
    • Atopa múltiples coeficientes de correlación cunha fórmula.
    • Traza un gráfico de correlación para obter a representación visual da relación de datos.

    Como calcular coeficiente de correlación en Excel

    Para calcular un coeficiente de correlación a man, terías que usar esta fórmula longa. Para atopar o coeficiente de correlación en Excel, aproveita a función CORREL ou PEARSON e obtén o resultado nunha fracción de segundo.

    Función CORREL de Excel

    A función CORREL devolve oCoeficiente de correlación de Pearson para dous conxuntos de valores. A súa sintaxe é moi sinxela e sinxela:

    CORREL(matriz1, matriz2)

    Onde:

    • Matriz1 é o primeiro intervalo de valores.
    • Matrice2 é o segundo intervalo de valores.

    As dúas matrices deben ter a mesma lonxitude.

    Supoñendo que temos un conxunto de variables independentes ( x ) en B2:B13 e variables dependentes (y) en C2:C13, a nosa fórmula do coeficiente de correlación é o seguinte:

    =CORREL(B2:B13, C2:C13)

    Ou, poderiamos intercambiar os intervalos e aínda así. obtén o mesmo resultado:

    =CORREL(C2:C13, B2:B13)

    De calquera xeito, a fórmula mostra unha forte correlación negativa (uns -0,97) entre a temperatura media mensual e o número de quentadores vendidos:

    3 cousas que debes saber sobre a función CORREL en Excel

    Para calcular correctamente o coeficiente de correlación en Excel, ten en conta estes 3 feitos sinxelos:

    • Se unha ou máis celas nunha matriz contén texto, valores lóxicos ou espazos en branco, estas celas ignóranse; calcúlanse as celas con valores cero.
    • Se as matrices proporcionadas son de lonxitudes diferentes, devólvese un erro #N/A.
    • Se algunha das matrices está baleira ou se a desviación estándar de os seus valores son cero, un #DIV/0! ocorre un erro.

    Función PEARSON de Excel

    A función PEARSON en Excel fai o mesmo: calcula o coeficiente de correlación do momento do produto de Pearson.

    PEARSON(matriz1,matriz2)

    Onde:

    • Matriz1 é un intervalo de valores independentes.
    • Matriz2 é un intervalo de valores dependentes.

    Debido a que PEARSON e CORREL calculan o coeficiente de correlación lineal de Pearson, os seus resultados deberían coincidir, e xeralmente o fan nas versións recentes de Excel 2007 a Excel 2019.

    En Excel 2003 e Excel 2019. Con todo, nas versións anteriores, a función PEARSON pode mostrar algúns erros de redondeo. Polo tanto, en versións anteriores, recoméndase usar CORREL en lugar de PEARSON.

    No noso conxunto de datos de mostra, ambas as funcións presentan os mesmos resultados:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Como facer unha matriz de correlación en Excel con análise de datos

    Cando precisa probar as interrelacións entre máis de dúas variables, ten sentido construír unha matriz de correlación, que ás veces se chama coeficiente de correlación múltiple .

    A matriz de correlación é unha táboa que mostra os coeficientes de correlación entre as variables na intersección das filas e columnas correspondentes.

    A matriz de correlación en Excel constrúese mediante a ferramenta Correlación do complemento Pack de ferramentas de análise . Este complemento está dispoñible en todas as versións de Excel 2003 a través de Excel 2019, pero non está activado por defecto. Se aínda non o activaches, faino agora seguindo os pasos descritos en Como activar o paquete de ferramentas de análise de datos en Excel.

    ConAs ferramentas de análise de datos engadidas á cinta de Excel, está preparado para realizar análise de correlación:

    1. Na esquina superior dereita da pestana Datos > Análise , faga clic no botón Análise de datos .
    2. No cadro de diálogo Análise de datos , seleccione Correlación e faga clic en Aceptar.
    3. Na caixa Correlación , configure os parámetros deste xeito:
      • Faga clic na caixa Intervalo de entrada e seleccione o intervalo con os seus datos de orixe, incluídos os encabezados de columna (B1:D13 no noso caso).
      • Na sección Agrupado por , asegúrese de que a caixa de opción Columnas estea seleccionada (dada que os seus datos de orixe se agrupen en columnas).
      • Seleccione a caixa de verificación Etiquetas na primeira fila se o intervalo seleccionado contén cabeceiras de columna.
      • Escolla a opción de saída desexada. Para ter a matriz na mesma folla, seleccione Intervalo de saída e especifique a referencia á cela da esquerda na que se quere sacar a matriz (A15 neste exemplo).

    Cando remate, fai clic no botón Aceptar :

    A túa matriz de coeficientes de correlación está feita e debería parecer como se mostra na sección seguinte.

    Interpretación dos resultados da análise de correlación

    Na súa matriz de correlación de Excel, pode atopar os coeficientes na intersección de filas e columnas. Se as coordenadas da columna e da fila son iguais, saíse o valor 1.

    No anteriorpor exemplo, interésanos coñecer a correlación entre a variable dependente (número de quentadores vendidos) e dúas variables independentes (temperatura media mensual e custos publicitarios). Entón, miramos só os números na intersección destas filas e columnas, que se destacan na seguinte captura de pantalla:

    O coeficiente negativo de -0,97 (redondeado a 2 decimais) mostra unha forte correlación inversa entre a temperatura mensual e as vendas de quentadores - a medida que a temperatura aumenta, menos quentadores se venden.

    O coeficiente positivo de 0,97 (redondeado a 2 decimais) indica unha forte conexión directa entre o orzamento de publicidade e as vendas - máis diñeiro que gastas en publicidade, cantos maiores sexan as vendas.

    Como facer análise de correlación múltiple en Excel con fórmulas

    Construír a táboa de correlacións coa ferramenta de análise de datos é doado. Non obstante, esa matriz é estática, o que significa que terás que realizar unha análise de correlación de novo cada vez que cambien os datos de orixe.

    A boa noticia é que podes crear facilmente unha táboa de correlación similar e esa matriz actualizarase automaticamente. con cada cambio nos valores de orixe.

    Para facelo, use esta fórmula xenérica:

    CORREL(OFFSET( primeiro_rango_variable , 0, FILAS($1:1)-1) , OFFSET( primeiro_rango_variable , 0, COLUMNS($A:A)-1))

    Nota importante! Para que a fórmula funcione, debes bloquearo primeiro intervalo de variables utilizando referencias de cela absolutas.

    No noso caso, o primeiro intervalo de variables é $B$2:$B$13 (observe o signo $ que bloquea a referencia), e a nosa fórmula de correlación toma isto. shape:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Coa fórmula lista, imos construír unha matriz de correlación:

    1. Na primeira fila e primeira columna da matriz, escriba as variables' etiquetas na mesma orde na que aparecen na táboa de orixe (consulta a captura de pantalla a continuación).
    2. Introduce a fórmula anterior na cela da esquerda (B16 no noso caso).
    3. Arrastra a fórmula abaixo e á dereita para copialo en tantas filas e columnas como sexa necesario (3 filas e 3 columnas no noso exemplo).

    Como resultado, obtemos a seguinte matriz con correlación múltiple coeficientes. Teña en conta que os coeficientes devoltos pola nosa fórmula son exactamente os mesmos que os de Excel no exemplo anterior (os relevantes están destacados):

    Como funciona esta fórmula

    Como xa sabe, a función CORREL de Excel devolve o coeficiente de correlación para dous conxuntos de variables que especifique. O principal reto é proporcionar os rangos axeitados nas celas correspondentes da matriz. Para iso, introduce só o primeiro intervalo de variables na fórmula e utiliza as seguintes funcións para facer os axustes necesarios:

    • OFFSET - devolve un intervalo que é un número determinado de filas e columnas

    Michael Brown é un entusiasta da tecnoloxía dedicada á súa paixón por simplificar procesos complexos mediante ferramentas de software. Con máis dunha década de experiencia na industria tecnolóxica, perfeccionou as súas habilidades en Microsoft Excel e Outlook, así como en Follas de cálculo e Documentos de Google. O blog de Michael está dedicado a compartir o seu coñecemento e experiencia con outros, proporcionando consellos e titoriais fáciles de seguir para mellorar a produtividade e a eficiencia. Tanto se es un profesional experimentado como un principiante, o blog de Michael ofrece valiosas ideas e consellos prácticos para sacar o máximo proveito destas ferramentas de software esenciais.