Análisis de regresión lineal en Excel

  • Compartir Este
Michael Brown

El tutorial explica los fundamentos del análisis de regresión y muestra algunas formas diferentes de realizar una regresión lineal en Excel.

Imagínese lo siguiente: le proporcionan un montón de datos diferentes y le piden que prediga las cifras de ventas de su empresa para el año que viene. Ha descubierto docenas, quizá incluso cientos, de factores que pueden afectar a las cifras. Pero, ¿cómo sabe cuáles son realmente importantes? Ejecute un análisis de regresión en Excel. Le dará respuesta a ésta y a muchas más preguntas: ¿Qué factores¿Qué relación guardan estos factores entre sí y con qué certeza se pueden hacer predicciones?

    Análisis de regresión en Excel: conceptos básicos

    En modelización estadística, análisis de regresión se utiliza para estimar las relaciones entre dos o más variables:

    Variable dependiente (alias criterio variable) es el factor principal que se intenta comprender y predecir.

    Variables independientes (alias explicativo variables, o predictores ) son los factores que pueden influir en la variable dependiente.

    El análisis de regresión ayuda a comprender cómo cambia la variable dependiente cuando varía una de las variables independientes y permite determinar matemáticamente cuál de esas variables tiene realmente un impacto.

    Técnicamente, un modelo de análisis de regresión se basa en la suma de cuadrados El objetivo de un modelo es obtener la menor suma de cuadrados posible y trazar una línea que se acerque lo más posible a los datos.

    En estadística, se diferencia entre regresión lineal simple y múltiple. Regresión lineal simple modela la relación entre una variable dependiente y una variable independiente mediante una función lineal. Si se utilizan dos o más variables explicativas para predecir la variable dependiente, se trata de regresión lineal múltiple Si la variable dependiente se modela como una función no lineal porque las relaciones de los datos no siguen una línea recta, utilice regresión no lineal Este tutorial se centrará en una regresión lineal simple.

    Por ejemplo, tomemos las cifras de ventas de paraguas de los últimos 24 meses y averigüemos la precipitación media mensual del mismo periodo. Represente esta información en un gráfico y la línea de regresión demostrará la relación entre la variable independiente (precipitación) y la variable dependiente (ventas de paraguas):

    Ecuación de regresión lineal

    Matemáticamente, una regresión lineal se define mediante esta ecuación:

    y = bx + a + ε

    Dónde:

    • x es una variable independiente.
    • y es una variable dependiente.
    • a es el Intercepto Y que es el valor medio esperado de y cuando todos x variables son iguales a 0. En un gráfico de regresión, es el punto donde la recta cruza el eje Y.
    • b es el pendiente de una recta de regresión, que es la tasa de variación de y como x cambios.
    • ε es el término de error aleatorio, que es la diferencia entre el valor real de una variable dependiente y su valor predicho.

    La ecuación de regresión lineal siempre tiene un término de error porque, en la vida real, los predictores nunca son perfectamente precisos. Sin embargo, algunos programas, incluido Excel, realizan el cálculo del término de error entre bastidores. Así, en Excel, la regresión lineal se realiza utilizando la función mínimos cuadrados método y buscar coeficientes a y b tal que:

    y = bx + a

    Para nuestro ejemplo, la ecuación de regresión lineal tiene la siguiente forma:

    Paraguas vendidos = b * precipitaciones + a

    Existen varias maneras de encontrar a y b Los tres métodos principales para realizar análisis de regresión lineal en Excel son:

    • Herramienta de regresión incluida en Analysis ToolPak
    • Gráfico de dispersión con una línea de tendencia
    • Fórmula de regresión lineal

    A continuación encontrará las instrucciones detalladas para utilizar cada método.

    Cómo realizar una regresión lineal en Excel con Analysis ToolPak

    Este ejemplo muestra cómo ejecutar la regresión en Excel utilizando una herramienta especial incluida con el complemento Analysis ToolPak.

    Activar el complemento Analysis ToolPak

    Analysis ToolPak está disponible en todas las versiones de Excel 365 a 2003, pero no está activado por defecto, por lo que es necesario activarlo manualmente. A continuación se explica cómo hacerlo:

    1. En su Excel, haga clic en Archivo > Opciones .
    2. En el Opciones de Excel seleccione Complementos en la barra lateral izquierda, asegúrese de que Complementos de Excel se selecciona en el Gestione y haga clic en Vaya a .
    3. En el Complementos marque la casilla Herramientas de análisis y haga clic en OK :

    Esto añadirá el Análisis de datos herramientas al Datos de la cinta de opciones de Excel.

    Análisis de regresión

    En este ejemplo, vamos a hacer una regresión lineal simple en Excel. Lo que tenemos es una lista de la precipitación media mensual de los últimos 24 meses en la columna B, que es nuestra variable independiente (predictor), y el número de paraguas vendidos en la columna C, que es la variable dependiente. Por supuesto, hay muchos otros factores que pueden afectar a las ventas, pero por ahora nos centramos sólo en estas dos variables:

    Con el paquete de herramientas de análisis activado, siga estos pasos para realizar un análisis de regresión en Excel:

    1. En el Datos en la pestaña Análisis haga clic en el botón Análisis de datos botón.
    2. Seleccione Regresión y haga clic en OK .
    3. En el Regresión configure los siguientes parámetros:
      • Seleccione Entrada Rango Y que es su variable dependiente En nuestro caso, es la venta de paraguas (C1:C25).
      • Seleccione Entrada X Rango es decir, su variable independiente En este ejemplo, es la precipitación media mensual (B1:B25).

      Si está construyendo un modelo de regresión múltiple, seleccione dos o más columnas adyacentes con diferentes variables independientes.

      • Compruebe el Caja de etiquetas si hay cabeceras en la parte superior de sus rangos X e Y.
      • Elija su opción preferida Opción de salida, una nueva hoja de cálculo en nuestro caso.
      • Opcionalmente, seleccione la opción Residuos para obtener la diferencia entre los valores previstos y los reales.
    4. Haga clic en OK y observe el resultado del análisis de regresión creado por Excel.

    Interpretar los resultados del análisis de regresión

    Como acaba de ver, ejecutar una regresión en Excel es fácil porque todos los cálculos se realizan automáticamente. La interpretación de los resultados es un poco más complicada porque necesita saber qué hay detrás de cada número. A continuación encontrará un desglose de las 4 partes principales del resultado del análisis de regresión.

    Resultados del análisis de regresión: Resumen

    Esta parte le indica lo bien que la ecuación de regresión lineal calculada se ajusta a sus datos de origen.

    He aquí lo que significa cada dato:

    R múltiple Es el C orrelación Coeficiente que mide la fuerza de una relación lineal entre dos variables. El coeficiente de correlación puede tener cualquier valor entre -1 y 1, y su valor absoluto indica la fuerza de la relación. Cuanto mayor sea el valor absoluto, más fuerte será la relación:

    • 1 significa una fuerte relación positiva
    • -1 significa una fuerte relación negativa
    • 0 significa que no hay ninguna relación

    R Cuadrado Es la Coeficiente de determinación El valor R2 se calcula a partir de la suma total de cuadrados, es decir, la suma de las desviaciones al cuadrado de los datos originales respecto a la media.

    En nuestro ejemplo, R2 es 0,91 (redondeado a 2 dígitos), lo que es bastante bueno. Significa que el 91% de nuestros valores se ajustan al modelo de análisis de regresión. En otras palabras, el 91% de las variables dependientes (valores y) se explican por las variables independientes (valores x). Generalmente, un R Cuadrado del 95% o más se considera un buen ajuste.

    R cuadrado ajustado Es la R cuadrado ajustado por el número de variables independientes en el modelo. Se recomienda utilizar este valor en lugar de R cuadrado para el análisis de regresión múltiple.

    Error estándar Es otra medida de la bondad del ajuste que muestra la precisión de su análisis de regresión: cuanto menor sea el número, más seguro puede estar de su ecuación de regresión. Mientras que R2 representa el porcentaje de la varianza de las variables dependientes que explica el modelo, el error estándar es una medida absoluta que muestra la distancia media a la que se encuentran los puntos de datos de la regresión.línea.

    Observaciones Es simplemente el número de observaciones en su modelo.

    Resultado del análisis de regresión: ANOVA

    La segunda parte del resultado es el análisis de la varianza (ANOVA):

    Básicamente, divide la suma de cuadrados en componentes individuales que proporcionan información sobre los niveles de variabilidad dentro de su modelo de regresión:

    • df es el número de grados de libertad asociados a las fuentes de varianza.
    • SS Cuanto menor sea la SS residual en comparación con la SS total, mejor se ajustará el modelo a los datos.
    • MS es el cuadrado medio.
    • F es el estadístico F, o prueba F para la hipótesis nula. Se utiliza para comprobar la significación global del modelo.
    • Significado F es el valor P de F.

    La parte ANOVA rara vez se utiliza para un simple análisis de regresión lineal en Excel, pero definitivamente debe echar un vistazo de cerca al último componente. El Significado F da una idea de lo fiables (estadísticamente significativos) que son sus resultados. Si la significación F es inferior a 0,05 (5%), su modelo es correcto. Si es superior a 0,05, probablemente será mejor que elija otra variable independiente.

    Resultados del análisis de regresión: coeficientes

    Esta sección proporciona información específica sobre los componentes de su análisis:

    El componente más útil de esta sección es Coeficientes Permite construir una ecuación de regresión lineal en Excel:

    y = bx + a

    Para nuestro conjunto de datos, en el que y es el número de paraguas vendidos y x es la precipitación media mensual, nuestra fórmula de regresión lineal es la siguiente:

    Y = Coeficiente de precipitación * x + Intercepto

    Equipado con los valores a y b redondeados a tres decimales, se convierte en:

    Y=0,45*x-19,074

    Por ejemplo, con una precipitación media mensual igual a 82 mm, la venta de paraguas sería de aproximadamente 17,8:

    0.45*82-19.074=17.8

    De forma similar, puede averiguar cuántos paraguas se van a vender con cualquier otra precipitación mensual (variable x) que especifique.

    Resultados del análisis de regresión: residuos

    Si se compara el número estimado y real de paraguas vendidos correspondientes a la precipitación mensual de 82 mm, se verá que estas cifras son ligeramente diferentes:

    • Estimado: 17,8 (calculado arriba)
    • Real: 15 (fila 2 de los datos de origen)

    ¿Por qué la diferencia? Porque las variables independientes nunca son predictores perfectos de las variables dependientes. Y los residuos pueden ayudar a entender lo lejos que están los valores reales de los valores predichos:

    Para el primer punto de datos (precipitación de 82 mm), el residuo es aproximadamente -2,8. Así pues, sumamos este número al valor previsto y obtenemos el valor real: 17,8 - 2,8 = 15.

    Cómo hacer un gráfico de regresión lineal en Excel

    Si necesitas visualizar rápidamente la relación entre las dos variables, dibuja un gráfico de regresión lineal. ¡Es muy fácil! He aquí cómo hacerlo:

    1. Seleccione las dos columnas con sus datos, incluidas las cabeceras.
    2. En el Insertar en la pestaña Chats haga clic en el botón Gráfico de dispersión y seleccione el icono Dispersión miniatura (la primera):

      Esto insertará un gráfico de dispersión en su hoja de cálculo, que se parecerá a éste:

    3. Ahora, tenemos que dibujar la línea de regresión por mínimos cuadrados. Para ello, haga clic con el botón derecho del ratón en cualquier punto y elija Añadir línea de tendencia... del menú contextual.
    4. En el panel derecho, seleccione la opción Lineal forma de la línea de tendencia y, opcionalmente, comprobar Mostrar ecuación en gráfico para obtener tu fórmula de regresión:

      Como puede observar, la ecuación de regresión que Excel ha creado para nosotros es la misma que la fórmula de regresión lineal que construimos basándonos en la salida Coeficientes.

    5. Cambiar a la Rellenar & Línea y personalice la línea a su gusto. Por ejemplo, puede elegir un color de línea diferente y utilizar una línea continua en lugar de discontinua (seleccione Línea continua en la pestaña Tipo de tablero box):

    En este punto, tu gráfico ya parece un gráfico de regresión decente:

    Aun así, puede que quieras hacer algunas mejoras más:

    • Arrastra la ecuación donde creas conveniente.
    • Añadir títulos de ejes ( Elementos del gráfico botón> Títulos del eje ).
    • Si sus puntos de datos empiezan en medio del eje horizontal y/o vertical como en este ejemplo, puede que quiera deshacerse del excesivo espacio en blanco. El siguiente consejo explica cómo hacerlo: Escale los ejes del gráfico para reducir el espacio en blanco.

      Y este es el aspecto de nuestro gráfico de regresión mejorado:

      Nota importante: en el gráfico de regresión, la variable independiente debe estar siempre en el eje X y la variable dependiente en el eje Y. Si el gráfico se representa en el orden inverso, intercambia las columnas en la hoja de cálculo y vuelve a dibujar el gráfico. Si no puedes reorganizar los datos de origen, puedes intercambiar los ejes X e Y directamente en un gráfico.

    Cómo hacer una regresión en Excel utilizando fórmulas

    Microsoft Excel dispone de algunas funciones estadísticas que pueden ayudarle a realizar análisis de regresión lineal, como LINEST, SLOPE, INTERCEPT y CORREL.

    La función LINEST utiliza el método de regresión por mínimos cuadrados para calcular la línea recta que mejor explica la relación entre tus variables y devuelve un array que describe dicha línea. Puedes encontrar la explicación detallada de la sintaxis de la función en este tutorial. Por ahora, vamos a hacer una fórmula para nuestro conjunto de datos de ejemplo:

    =LINEST(C2:C25, B2:B25)

    Como la función LINEST devuelve una matriz de valores, debes introducirla como una fórmula de matriz. Selecciona dos celdas adyacentes de la misma fila, E2:F2 en nuestro caso, escribe la fórmula y pulsa Ctrl + Mayús + Intro para completarla.

    La fórmula devuelve el b (E1) y el coeficiente a constante (F1) para la ya conocida ecuación de regresión lineal:

    y = bx + a

    Si evita utilizar fórmulas de matriz en sus hojas de cálculo, puede calcular a y b individualmente con fórmulas regulares:

    Obtén la intersección Y (a):

    =INTERCEPTO(C2:C25, B2:B25)

    Obtén la pendiente (b):

    =PENDIENTE(C2:C25, B2:B25)

    Además, puede encontrar el coeficiente de correlación ( R múltiple en el resumen del análisis de regresión) que indica el grado de relación entre las dos variables:

    =CORREL(B2:B25,C2:C25)

    La siguiente captura de pantalla muestra todas estas fórmulas de regresión de Excel en acción:

    Sugerencia: si desea obtener estadísticas adicionales para su análisis de regresión, utilice la función LINEST con el parámetro s tatuajes a TRUE como se muestra en este ejemplo.

    Así es como se hace la regresión lineal en Excel. Dicho esto, ten en cuenta que Microsoft Excel no es un programa estadístico. Si necesitas realizar análisis de regresión a nivel profesional, quizá te convenga utilizar software específico como XLSTAT, RegressIt, etc.

    Para ver más de cerca nuestras fórmulas de regresión lineal y otras técnicas tratadas en este tutorial, puede descargarse nuestro cuaderno de ejercicios de muestra. Gracias por leer.

    Cuaderno de prácticas

    Análisis de regresión en Excel - ejemplos (archivo .xlsx)

    Michael Brown es un entusiasta de la tecnología dedicado y apasionado por simplificar procesos complejos utilizando herramientas de software. Con más de una década de experiencia en la industria de la tecnología, ha perfeccionado sus habilidades en Microsoft Excel y Outlook, así como en Google Sheets y Docs. El blog de Michael está dedicado a compartir su conocimiento y experiencia con otros, brindando consejos y tutoriales fáciles de seguir para mejorar la productividad y la eficiencia. Ya sea un profesional experimentado o un principiante, el blog de Michael ofrece información valiosa y consejos prácticos para aprovechar al máximo estas herramientas de software esenciales.