Correlación en Excel: coeficiente, matriz y gráfico

  • Compartir Este
Michael Brown

El tutorial explica los fundamentos de la correlación en Excel, muestra cómo calcular un coeficiente de correlación, construir una matriz de correlaciones e interpretar los resultados.

Uno de los cálculos estadísticos más sencillos que se pueden realizar en Excel es la correlación. Aunque simple, es muy útil para comprender las relaciones entre dos o más variables. Microsoft Excel proporciona todas las herramientas necesarias para realizar análisis de correlación, sólo hay que saber utilizarlas.

    Correlación en Excel: conceptos básicos

    Correlación es una medida que describe la fuerza y la dirección de una relación entre dos variables. Se utiliza habitualmente en estadística, economía y ciencias sociales para presupuestos, planes empresariales y similares.

    El método utilizado para estudiar el grado de relación entre las variables se denomina análisis de correlación .

    He aquí un par de ejemplos de fuerte correlación:

    • El número de calorías que ingieres y tu peso (correlación positiva)
    • La temperatura exterior y la factura de calefacción (correlación negativa)

    Y aquí los ejemplos de datos que tienen una correlación débil o nula:

    • El nombre de su gato y su comida favorita
    • El color de sus ojos y su estatura

    Una cosa esencial que hay que entender sobre la correlación es que sólo muestra lo estrechamente relacionadas que están dos variables. La correlación, sin embargo, no implica causalidad. El hecho de que los cambios en una variable estén asociados a cambios en la otra variable no significa que una variable realmente provoque el cambio de la otra.

    Si te interesa conocer la causalidad y hacer predicciones, da un paso adelante y realiza un análisis de regresión lineal.

    Coeficiente de correlación en Excel - interpretación de la correlación

    La medida numérica del grado de asociación entre dos variables continuas se denomina coeficiente de correlación (r).

    El valor del coeficiente se sitúa siempre entre -1 y 1 y mide tanto la fuerza como la dirección de la relación lineal entre las variables.

    Fuerza

    Cuanto mayor sea el valor absoluto del coeficiente, más fuerte será la relación:

    • Los valores extremos de -1 y 1 indican una relación lineal perfecta cuando todos los puntos de datos caen sobre una línea. En la práctica, rara vez se observa una correlación perfecta, ya sea positiva o negativa.
    • Un coeficiente de 0 indica que no hay relación lineal entre las variables. Esto es lo que es probable obtener con dos conjuntos de números aleatorios.
    • Los valores entre 0 y +1/-1 representan una escala de relaciones débiles, moderadas y fuertes. Como r se acerca a -1 o 1, la fuerza de la relación aumenta.

    Dirección

    El signo del coeficiente (más o menos) indica la dirección de la relación.

    • Positivo Los coeficientes representan una correlación directa y producen una pendiente ascendente en un gráfico: a medida que una variable aumenta, también lo hace la otra, y viceversa.
    • Negativo Los coeficientes representan la correlación inversa y producen una pendiente descendente en un gráfico: a medida que aumenta una variable, la otra tiende a disminuir.

    Para comprenderlo mejor, eche un vistazo a los siguientes gráficos de correlación:

    • Un coeficiente de 1 significa una relación positiva perfecta: a medida que aumenta una variable, la otra aumenta proporcionalmente.
    • Un coeficiente de -1 significa una relación negativa perfecta: a medida que una variable aumenta, la otra disminuye proporcionalmente.
    • Un coeficiente de 0 significa que no hay relación entre dos variables: los puntos de datos están dispersos por todo el gráfico.

    Correlación de Pearson

    En estadística, se miden varios tipos de correlación dependiendo del tipo de datos con los que se esté trabajando. En este tutorial, nos centraremos en la más común.

    Correlación de Pearson el nombre completo es Correlación producto-momento de Pearson (PPMC), se utiliza para evaluar lineal relaciones entre datos cuando un cambio en una variable se asocia a un cambio proporcional en la otra variable. En términos sencillos, la Correlación de Pearson responde a la pregunta: ¿Pueden representarse los datos en una recta?

    En estadística, es el tipo de correlación más popular, y si se trata de un "coeficiente de correlación" sin más, lo más probable es que sea el Pearson.

    A continuación se presenta la fórmula más utilizada para hallar el coeficiente de correlación de Pearson, también denominado R de Pearson :

    A veces, puede encontrarse con otras dos fórmulas para calcular el coeficiente de correlación de la muestra (r) y el coeficiente de correlación de la población (ρ).

    Cómo hacer la correlación de Pearson en Excel

    Calcular el coeficiente de correlación de Pearson a mano implica bastantes cálculos matemáticos. Por suerte, Microsoft Excel ha simplificado mucho las cosas. Dependiendo de su conjunto de datos y de su objetivo, puede utilizar una de las técnicas siguientes:

    • Halla el coeficiente de correlación de Pearson con la función CORREL.
    • Haga una matriz de correlaciones realizando el Análisis de Datos.
    • Halla coeficientes de correlación múltiple con una fórmula.
    • Traza un gráfico de correlación para obtener una representación visual de la relación entre los datos.

    Cómo calcular el coeficiente de correlación en Excel

    Para calcular un coeficiente de correlación a mano, tendrías que utilizar esta larga fórmula. Para hallar el coeficiente de correlación en Excel, aprovecha la función CORREL o PEARSON y obtén el resultado en una fracción de segundo.

    Función CORREL de Excel

    La función CORREL devuelve el coeficiente de correlación de Pearson para dos conjuntos de valores. Su sintaxis es muy sencilla y directa:

    CORREL(array1, array2)

    Dónde:

    • Conjunto1 es el primer rango de valores.
    • Conjunto2 es el segundo rango de valores.

    Las dos matrices deben tener la misma longitud.

    Suponiendo que tenemos un conjunto de variables independientes ( x ) en B2:B13 y las variables dependientes (y) en C2:C13, nuestra fórmula del coeficiente de correlación es la siguiente:

    =CORREL(B2:B13, C2:C13)

    O podríamos intercambiar los rangos y seguir obteniendo el mismo resultado:

    =CORREL(C2:C13, B2:B13)

    En cualquier caso, la fórmula muestra una fuerte correlación negativa (aproximadamente -0,97) entre la temperatura media mensual y el número de calefactores vendidos:

    3 cosas que debe saber sobre la función CORREL en Excel

    Para calcular con éxito el coeficiente de correlación en Excel, tenga en cuenta estos 3 sencillos datos:

    • Si una o más celdas de una matriz contienen texto, valores lógicos o espacios en blanco, dichas celdas se ignoran; las celdas con valores cero se calculan.
    • Si las matrices suministradas tienen longitudes diferentes, se devuelve un error #N/A.
    • ¡Si alguna de las matrices está vacía o si la desviación estándar de sus valores es igual a cero, se produce un error #DIV/0!

    Función PEARSON de Excel

    La función PEARSON de Excel hace lo mismo: calcula el coeficiente de correlación producto-momento de Pearson.

    PEARSON(array1, array2)

    Dónde:

    • Conjunto1 es un rango de valores independientes.
    • Conjunto2 es un rango de valores dependientes.

    Dado que tanto PEARSON como CORREL calculan el coeficiente de correlación lineal de Pearson, sus resultados deberían coincidir, y generalmente lo hacen en las versiones recientes de Excel 2007 a Excel 2019.

    Sin embargo, en Excel 2003 y versiones anteriores, la función PEARSON puede mostrar algunos errores de redondeo, por lo que en versiones antiguas se recomienda utilizar CORREL en lugar de PEARSON.

    En nuestro conjunto de datos de muestra, ambas funciones presentan los mismos resultados:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Cómo hacer una matriz de correlaciones en Excel con Análisis de Datos

    Cuando se necesita comprobar las interrelaciones entre más de dos variables, tiene sentido construir una matriz de correlaciones, que a veces se denomina coeficiente de correlación múltiple .

    En matriz de correlaciones es una tabla que muestra los coeficientes de correlación entre las variables en la intersección de las filas y columnas correspondientes.

    La matriz de correlaciones en Excel se construye utilizando la función Correlación de la Herramientas de análisis Este complemento está disponible en todas las versiones de Excel 2003 hasta Excel 2019, pero no está activado por defecto. Si aún no lo ha activado, hágalo ahora siguiendo los pasos descritos en Cómo activar Data Analysis ToolPak en Excel.

    Con las herramientas de análisis de datos añadidas a la cinta de Excel, está preparado para realizar análisis de correlación:

    1. En la esquina superior derecha del Datos tab> Análisis haga clic en el botón Análisis de datos botón.
    2. En el Análisis de datos seleccione Correlación y haz clic en Aceptar.
    3. En el Correlación configure los parámetros de este modo:
      • Haga clic en el botón Rango de entrada y seleccione el rango con sus datos de origen, incluidas las cabeceras de columna (B1:D13 en nuestro caso).
      • En el Agrupados por asegúrese de que el Columnas (dado que los datos de origen están agrupados en columnas).
      • Seleccione Etiquetas de la primera fila si el rango seleccionado contiene cabeceras de columna.
      • Elija la opción de salida deseada. Para tener la matriz en la misma hoja, seleccione Gama de salida y especifique la referencia a la celda situada más a la izquierda en la que debe imprimirse la matriz (A15 en este ejemplo).

    Cuando haya terminado, pulse el botón OK botón:

    Su matriz de coeficientes de correlación está lista y debería parecerse a la que se muestra en la siguiente sección.

    Interpretación de los resultados del análisis de correlación

    En su matriz de correlaciones de Excel, puede encontrar los coeficientes en la intersección de filas y columnas. Si las coordenadas de la columna y la fila son iguales, sale el valor 1.

    En el ejemplo anterior, nos interesa conocer la correlación entre la variable dependiente (número de calefactores vendidos) y dos variables independientes (temperatura media mensual y costes de publicidad). Por lo tanto, nos fijamos únicamente en los números de la intersección de estas filas y columnas, que aparecen resaltados en la captura de pantalla siguiente:

    El coeficiente negativo de -0,97 (redondeado a 2 decimales) muestra una fuerte correlación inversa entre la temperatura mensual y las ventas de calefactores: a medida que aumenta la temperatura, se venden menos calefactores.

    El coeficiente positivo de 0,97 (redondeado a 2 decimales) indica una fuerte conexión directa entre el presupuesto publicitario y las ventas: cuanto más dinero se gasta en publicidad, mayores son las ventas.

    Cómo hacer análisis de correlación múltiple en Excel con fórmulas

    Construir la tabla de correlaciones con la herramienta de Análisis de Datos es fácil. Sin embargo, esa matriz es estática, lo que significa que tendrá que ejecutar de nuevo el análisis de correlaciones cada vez que cambien los datos de origen.

    La buena noticia es que usted mismo puede construir fácilmente una tabla de correlaciones similar, y esa matriz se actualizará automáticamente con cada cambio en los valores de origen.

    Para hacerlo, utilice esta fórmula genérica:

    CORREL(OFFSET( primer_rango_variable , 0, FILAS($1:1)-1), DESPLAZAMIENTO( primer_rango_variable , 0, COLUMNS($A:A)-1))

    Nota importante: para que la fórmula funcione, debe bloquear el primer rango de variables utilizando referencias de celda absolutas.

    En nuestro caso, el rango de la primera variable es $B$2:$B$13 (fíjese en el signo $ que bloquea la referencia), y nuestra fórmula de correlación toma esta forma:

    =CORREL(OFFSET($B$2:$B$13, 0, FILAS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNAS($A:A)-1))

    Con la fórmula lista, vamos a construir una matriz de correlaciones:

    1. En la primera fila y la primera columna de la matriz, escriba las etiquetas de las variables en el mismo orden en que aparecen en la tabla de origen (consulte la captura de pantalla siguiente).
    2. Introduzca la fórmula anterior en la celda situada más a la izquierda (B16 en nuestro caso).
    3. Arrastre la fórmula hacia abajo y a la derecha para copiarla en tantas filas y columnas como necesite (3 filas y 3 columnas en nuestro ejemplo).

    Como resultado, tenemos la siguiente matriz con múltiples coeficientes de correlación. Observe que los coeficientes devueltos por nuestra fórmula son exactamente los mismos que los obtenidos por Excel en el ejemplo anterior (los relevantes están resaltados):

    Cómo funciona esta fórmula

    Como ya sabes, la función CORREL de Excel devuelve el coeficiente de correlación de dos conjuntos de variables que especifiques. El principal reto consiste en suministrar los rangos adecuados en las celdas correspondientes de la matriz. Para ello, introduce sólo el primer rango de variables en la fórmula y utiliza las siguientes funciones para realizar los ajustes necesarios:

    • OFFSET - devuelve un rango que está a un número determinado de filas y columnas de un rango especificado.
    • FILAS y COLUMNAS - devuelven el número de filas y columnas de un rango, respectivamente. En nuestra fórmula de correlación, ambas se utilizan con un único propósito - obtener el número de columnas a desplazar del rango inicial. Y esto se consigue utilizando inteligentemente referencias absolutas y relativas.

    Para entender mejor la lógica, veamos cómo la fórmula calcula los coeficientes resaltados en la captura de pantalla anterior.

    En primer lugar, examinemos la fórmula de B18, que encuentra la correlación entre la temperatura mensual (B2:B13) y los calentadores vendidos (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, FILAS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNAS($A:A)-1))

    En la primera función OFFSET, ROWS($1:1) se ha transformado en ROWS($1:3) porque la segunda coordenada es relativa, por lo que cambia en función de la posición relativa de la fila en la que se copia la fórmula (2 filas hacia abajo). Así, ROWS() devuelve 3, al que restamos 1, y obtenemos un rango que está 2 columnas a la derecha del rango de origen, es decir, $D$2:$D$13 (ventas del calentador).

    El segundo OFFSET no cambia el rango especificado $B$2:$B$13 (temperatura) porque COLUMNS($A:A)-1 devuelve cero.

    Como resultado, nuestra larga fórmula se convierte en un simple CORREL($D$2:$D$13, $B$2:$B$13) y devuelve exactamente el coeficiente que queremos.

    La fórmula en C18 que calcula un coeficiente de correlación para el coste de publicidad (C2:C13) y las ventas (D2:D13) funciona de forma similar:

    =CORREL(OFFSET($B$2:$B$13, 0, FILAS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNAS($A:B)-1))

    La primera función OFFSET es absolutamente igual a la descrita anteriormente, devolviendo el rango de $D$2:$D$13 (ventas de calentadores).

    En el segundo OFFSET, COLUMNS($A:A)-1 cambia a COLUMNS($A:B)-1 porque hemos copiado la fórmula 1 columna a la derecha. En consecuencia, OFFSET obtiene un rango que está 1 columna a la derecha del rango de origen, es decir, $C$2:$C$13 (coste de publicidad).

    Cómo trazar un gráfico de correlación en Excel

    Al realizar correlaciones en Excel, la mejor forma de obtener una representación visual de las relaciones entre los datos es dibujar un gráfico diagrama de dispersión con un línea de tendencia He aquí cómo:

    1. Seleccione dos columnas con datos numéricos, incluidas las cabeceras de las columnas. El orden de las columnas es importante: la columna independiente debe estar en la columna de la izquierda, ya que esta columna se trazará en el eje x; la variable dependiente debe estar en la columna de la derecha, ya que se representará en el eje Y.
    2. En el Insertar en la pestaña Chats haga clic en el botón Dispersión Esto insertará inmediatamente un gráfico de dispersión XY en su hoja de cálculo.
    3. Haga clic con el botón derecho del ratón en cualquier punto del gráfico y seleccione Añadir línea de tendencia... del menú contextual.

    Para ver las instrucciones detalladas paso a paso, consulte:

    • Cómo crear un gráfico de dispersión en Excel
    • Cómo añadir una línea de tendencia a un gráfico Excel

    Para nuestro conjunto de datos de muestra, los gráficos de correlación tienen el aspecto que se muestra en la siguiente imagen. Además, mostramos el valor R-cuadrado, también llamado el Coeficiente de determinación Este valor indica la correspondencia de la línea de tendencia con los datos: cuanto más se acerque R2 a 1, mejor será el ajuste.

    A partir del valor R2 que aparece en el diagrama de dispersión, puede calcular fácilmente el coeficiente de correlación:

    1. Para una mayor precisión, haga que Excel muestre más dígitos en el valor R-cuadrado de los que muestra por defecto.
    2. Haga clic en el valor R2 del gráfico, selecciónelo con el ratón y pulse Ctrl + C para copiarlo.
    3. Obtenga una raíz cuadrada de R2 utilizando la función SQRT o elevando el valor de R2 copiado a la potencia de 0,5.

    Por ejemplo, el valor R2 en el segundo gráfico es 0,9174339392. Por lo tanto, se puede hallar el coeficiente de correlación para Publicidad y Calentadores vendidos con una de estas fórmulas:

    =SQRT(0,9174339392)

    =0.9174339392^0.5

    Como puede comprobar, los coeficientes calculados de este modo coinciden perfectamente con los coeficientes de correlación hallados en los ejemplos anteriores, excepto el signo :

    Posibles problemas de correlación en Excel

    En Correlación producto-momento de Pearson sólo revela un lineal Es decir, las variables pueden estar muy relacionadas de otra forma, curvilínea, y aun así tener un coeficiente de correlación igual o cercano a cero.

    La correlación de Pearson no es capaz de distinguir dependiente y independiente Por ejemplo, al utilizar la función CORREL para hallar la asociación entre una temperatura media mensual y el número de calefactores vendidos, obtuvimos un coeficiente de -0,97, lo que indica una alta correlación negativa. Sin embargo, se podrían intercambiar las variables y obtener el mismo resultado. Así, alguien podría concluir que el aumento de las ventas de calefactores provoca un descenso de la temperatura, lo que obviamente no tiene sentido.Por lo tanto, cuando realice análisis de correlación en Excel, tenga en cuenta los datos que suministra.

    Además, la correlación de Pearson es muy sensible a valores atípicos Si tiene uno o más puntos de datos que difieren mucho del resto de los datos, puede obtener una imagen distorsionada de la relación entre las variables. En este caso, sería aconsejable utilizar la correlación de rangos de Spearman en su lugar.

    Así es como se hace la correlación en Excel. Para ver más de cerca los ejemplos tratados en este tutorial, puede descargarse nuestro libro de trabajo de ejemplo. Le agradezco su lectura y espero verle en nuestro blog la semana que viene.

    Cuaderno de prácticas

    Calcular la correlación en Excel (archivo .xlsx)

    Michael Brown es un entusiasta de la tecnología dedicado y apasionado por simplificar procesos complejos utilizando herramientas de software. Con más de una década de experiencia en la industria de la tecnología, ha perfeccionado sus habilidades en Microsoft Excel y Outlook, así como en Google Sheets y Docs. El blog de Michael está dedicado a compartir su conocimiento y experiencia con otros, brindando consejos y tutoriales fáciles de seguir para mejorar la productividad y la eficiencia. Ya sea un profesional experimentado o un principiante, el blog de Michael ofrece información valiosa y consejos prácticos para aprovechar al máximo estas herramientas de software esenciales.