Análise de regresión lineal en Excel

  • Comparte Isto
Michael Brown

O titorial explica os conceptos básicos da análise de regresión e mostra algunhas formas diferentes de facer a regresión lineal en Excel.

Imaxina isto: tes unha gran cantidade de datos diferentes e pídeselles que predigan as cifras de vendas do próximo ano para a súa empresa. Descubriches ducias, quizais centos, de factores que poden afectar os números. Pero como sabes cales son realmente importantes? Executar análise de regresión en Excel. Darache unha resposta a esta e moitas máis preguntas: Que factores importan e cales se poden ignorar? En que medida están estes factores relacionados entre si? E ata que punto podes estar seguro das predicións?

    Análise de regresión en Excel: conceptos básicos

    No modelado estatístico, a análise de regresión úsase para estima as relacións entre dúas ou máis variables:

    Variable dependente (tamén coñecida como variable criterio ) é o principal factor que estás tentando comprender e predicir.

    As variables independentes (tamén coñecidas como variables explicativas ou preditores ) son os factores que poden influír na variable dependente.

    A análise de regresión axúdache. comprender como cambia a variable dependente cando varía unha das variables independentes e permite determinar matematicamente cal desas variables realmente ten un impacto.

    Tecnicamente, un modelo de análise de regresión baséase na suma de

    Neste momento, o teu gráfico xa parece un gráfico de regresión decente:

    Aínda así, quizais queiras facer algunhas melloras máis:

    • Arrastra a ecuación onde consideres conveniente.
    • Engadir títulos de eixes (botón Elementos de gráfica > Títulos de eixes ).
    • Se o teu os puntos de datos comezan no medio do eixe horizontal e/ou vertical como neste exemplo, pode querer desfacerse do espazo en branco excesivo. O seguinte consello explica como facelo: Escala os eixes do gráfico para reducir o espazo en branco.

      E así é o noso gráfico de regresión mellorado:

      Nota importante! No gráfico de regresión, a variable independente debe estar sempre no eixe X e a variable dependente no eixe Y. Se a túa gráfica está representada na orde inversa, cambia as columnas da túa folla de traballo e despois debuxa o gráfico de novo. Se non tes permiso para reorganizar os datos de orixe, podes cambiar os eixes X e Y directamente nun gráfico.

    Como facer regresión en Excel usando fórmulas

    Microsoft Excel ten algunhas funcións estatísticas que poden axudarche a realizar análises de regresión lineal, como LINEST, SLOPE, INTERCEPT e CORREL.

    A función LINEST usa o método de regresión de mínimos cadrados para calcular unha recta. liña que mellor explica a relación entre as súas variables e devolve unha matriz que describe esa liña. Podes atopar a explicación detallada desintaxe da función neste tutorial. Polo momento, só fagamos unha fórmula para o noso conxunto de datos de mostra:

    =LINEST(C2:C25, B2:B25)

    Debido a que a función LINEST devolve unha matriz de valores, debes introducila como unha fórmula matricial. Seleccione dúas celas adxacentes na mesma fila, E2:F2 no noso caso, escriba a fórmula e prema Ctrl + Maiús + Intro para completala.

    A fórmula devolve o coeficiente b ( E1) e a constante a (F1) para a xa familiar ecuación de regresión lineal:

    y = bx + a

    Se evitas usar fórmulas matriciales nas túas follas de traballo, podes calcular a e b individualmente con fórmulas regulares:

    Obter a intersección en Y (a):

    =INTERCEPT(C2:C25, B2:B25)

    Obter a pendente (b):

    =SLOPE(C2:C25, B2:B25)

    Ademais, podes atopar o coeficiente de correlación ( Múltiple R na saída do resumo da análise de regresión) que indica como As dúas variables están fortemente relacionadas entre si:

    =CORREL(B2:B25,C2:C25)

    A seguinte captura de pantalla mostra todas estas fórmulas de regresión de Excel en acción:

    Consello. Se queres obter estatísticas adicionais para a túa análise de regresión, utiliza a función LINEST co parámetro s tats definido como TRUE como se mostra neste exemplo.

    Así é como fai a regresión lineal. en Excel. Dito isto, teña en conta que Microsoft Excel non é un programa estatístico. Se precisa realizar unha análise de regresión a nivel profesional, pode querer utilizar o obxectivosoftware como XLSTAT, RegressIt, etc.

    Para ter unha ollada máis atenta ás nosas fórmulas de regresión lineal e outras técnicas que se comentan neste tutorial, podes descargar o noso libro de exemplo a continuación. Grazas por ler!

    Caderno de prácticas

    Análise de regresión en Excel - exemplos (ficheiro .xlsx)

    cadrados, que é unha forma matemática de atopar a dispersión de puntos de datos. O obxectivo dun modelo é obter a menor suma posible de cadrados e trazar unha liña que se achegue máis aos datos.

    En estatística, diferencian entre unha regresión lineal simple e unha múltiple. Regresión lineal simple. modela a relación entre unha variable dependente e unha variable independente mediante unha función lineal. Se usa dúas ou máis variables explicativas para predicir a variable dependente, tratarase coa regresión lineal múltiple . Se a variable dependente se modela como unha función non lineal porque as relacións de datos non seguen unha liña recta, use regresión non lineal no seu lugar. O foco deste titorial estará nunha simple regresión lineal.

    Como exemplo, tomemos os números de vendas de paraugas dos últimos 24 meses e descubramos a precipitación media mensual para o mesmo período. Trace esta información nun gráfico e a recta de regresión demostrará a relación entre a variable independente (choiva) e a variable dependente (vendas de paraugas):

    Ecuación de regresión lineal

    Matemáticamente, unha regresión lineal defínese por esta ecuación:

    y = bx + a + ε

    Onde:

    • x é unha variable independente.
    • y é unha variable dependente.
    • a é a intersección en Y , que é o valor medio esperado de y cando todas as variables x son iguais a 0. Nun gráfico de regresión, é o punto onde a liña cruza o eixe Y.
    • b é o pendente dunha recta de regresión, que é a taxa de cambio para y a medida que cambia x .
    • ε é o erro aleatorio termo, que é a diferenza entre o valor real dunha variable dependente e o seu valor previsto.

    A ecuación de regresión lineal sempre ten un termo de erro porque, na vida real, os predictores nunca son perfectamente precisos. Non obstante, algúns programas, incluído Excel, fan o cálculo do termo de erro entre bastidores. Entón, en Excel, fai a regresión lineal usando o método mínimos cadrados e busca os coeficientes a e b tales que:

    y = bx + a

    Para o noso exemplo, a ecuación de regresión lineal toma a seguinte forma:

    Umbrellas sold = b * rainfall + a

    Existen un puñado de formas diferentes de atopar a e b . Os tres métodos principais para realizar análises de regresión lineal en Excel son:

    • Ferramenta de regresión incluída con Analysis ToolPak
    • Gráfico de dispersión cunha liña de tendencia
    • Fórmula de regresión lineal

    A continuación atoparás as instrucións detalladas sobre o uso de cada método.

    Como facer a regresión lineal en Excel con ToolPak de análise

    Este exemplo mostra como executar a regresión en Excel mediante unha ferramenta especial incluída co complemento Analysis ToolPak.

    Active o complemento Analysis ToolPak.en

    O paquete de ferramentas de análise está dispoñible en todas as versións de Excel 365 a 2003 pero non está activado por defecto. Polo tanto, cómpre activalo manualmente. Vexa como:

    1. No seu Excel, faga clic en Ficheiro > Opcións .
    2. Na Opcións de Excel caixa de diálogo, seleccione Complementos na barra lateral esquerda, asegúrese de que Complementos de Excel estea seleccionado na caixa Xestionar e faga clic en Ir .
    3. No cadro de diálogo Complementos , marque Paquete de ferramentas de análise e faga clic en Aceptar :

    Isto engadiranse as ferramentas Análise de datos á pestana Datos da cinta de Excel.

    Executar análise de regresión

    En neste exemplo, imos facer unha simple regresión lineal en Excel. O que temos é unha lista de precipitacións medias mensuais dos últimos 24 meses na columna B, que é a nosa variable independente (predictor), e o número de paraugas vendidos na columna C, que é a variable dependente. Por suposto, hai moitos outros factores que poden afectar ás vendas, pero de momento centrámonos só nestas dúas variables:

    Coa ferramenta de análise engadido activado, realiza estes pasos para realizar análises de regresión en Excel:

    1. Na pestana Datos , no grupo Análise , faga clic no botón Análise de datos .
    2. Seleccione Regresión e faga clic en Aceptar .
    3. No cadro de diálogo Regresión , configure os seguintes axustes:
      • Seleccione a EntradaIntervalo Y , que é a súa variable dependente . No noso caso, trátase de vendas de paraugas (C1:C25).
      • Seleccione o Intervalo X de entrada , é dicir, a súa variable independente . Neste exemplo, é a precipitación media mensual (B1:B25).

      Se está a construír un modelo de regresión múltiple, seleccione dúas ou máis columnas adxacentes con diferentes variables independentes.

      • Marque a Caixa Etiquetas se hai cabeceiras na parte superior dos seus intervalos X e Y.
      • Escolla a súa opción de saída preferida, unha nova folla de traballo no noso
      • Opcionalmente, seleccione a caixa de verificación Residuos para obter a diferenza entre os valores previstos e reais.
    4. Fai clic en Aceptar e observa a saída da análise de regresión creada por Excel.

    Interpreta a saída da análise de regresión

    Como acabas de ver, executar a regresión en Excel é doado porque todos os cálculos realízanse automaticamente. A interpretación dos resultados é un pouco máis complicada porque cómpre saber que hai detrás de cada número. A continuación atoparás un desglose de 4 partes principais da saída da análise de regresión.

    Saída da análise de regresión: resultado de resumo

    Esta parte indícalle o ben que a ecuación de regresión lineal calculada se adapta aos teus datos de orixe.

    Este é o que significa cada información:

    Múltiple R . É o coeficiente de relación C o que mide a forza deunha relación lineal entre dúas variables. O coeficiente de correlación pode ser calquera valor entre -1 e 1, e o seu valor absoluto indica a forza da relación. Canto maior sexa o valor absoluto, máis forte será a relación:

    • 1 significa unha relación positiva forte
    • -1 significa unha relación negativa forte
    • 0 significa que non hai relación en todo

    R cadrado . É o Coeficiente de determinación , que se usa como indicador da bondade de axuste. Mostra cantos puntos caen na recta de regresión. O valor R2 calcúlase a partir da suma total de cadrados, máis precisamente, é a suma das desviacións cadradas dos datos orixinais respecto da media.

    No noso exemplo, R2 é 0,91 (redondeado a 2 díxitos) , que é bo de fadas. Significa que o 91% dos nosos valores encaixan no modelo de análise de regresión. Noutras palabras, o 91% das variables dependentes (valores y) explícanse polas variables independentes (valores x). Xeralmente, R cadrado de 95 % ou máis considérase un bo axuste.

    R cadrado axustado . É o R cadrado axustado para o número de variable independente no modelo. Quererá usar este valor en lugar de R cadrado para a análise de regresión múltiple.

    Erro estándar . É outra medida de bondade de axuste que mostra a precisión da túa análise de regresión: canto menor sexa o número, máis seguro podes estar.a súa ecuación de regresión. Mentres que R2 representa a porcentaxe da varianza das variables dependentes que se explica polo modelo, o erro estándar é unha medida absoluta que mostra a distancia media á que se sitúan os puntos de datos desde a recta de regresión.

    Observacións . É simplemente o número de observacións do seu modelo.

    Saída da análise de regresión: ANOVA

    A segunda parte da saída é Análise da varianza (ANOVA):

    Basicamente, divide a suma de cadrados en compoñentes individuais que dan información sobre os niveis de variabilidade dentro do modelo de regresión:

    • df é o número de graos de liberdade asociados ás fontes. de varianza.
    • SS é a suma de cadrados. Canto menor sexa o SS residual en comparación co SS total, mellor se axustará o modelo aos datos.
    • MS é o cadrado medio.
    • F é o estatístico F, ou proba F para a hipótese nula. Utilízase para probar a significación global do modelo.
    • Significación F é o valor P de F.

    A parte ANOVA raramente se usa para unha simple análise de regresión lineal en Excel, pero definitivamente deberías ter unha ollada atenta ao último compoñente. O valor Significancia F dá unha idea do fiable (estatisticamente significativo) dos teus resultados. Se o significado F é inferior a 0,05 (5%), o seu modelo está ben. Se é maior que 0,05, faríaseprobablemente mellor escolla outra variable independente.

    Saída da análise de regresión: coeficientes

    Esta sección ofrece información específica sobre os compoñentes da súa análise:

    O compoñente máis útil desta sección é Coeficientes . Permítelle construír unha ecuación de regresión lineal en Excel:

    y = bx + a

    Para o noso conxunto de datos, onde y é o número de paraugas vendidos e x é unha precipitación media mensual. a nosa fórmula de regresión lineal é a seguinte:

    Y = Rainfall Coefficient * x + Intercept

    Equipada con valores a e b redondeados a tres cifras decimais, transfórmase en:

    Y=0.45*x-19.074

    Por exemplo, cunha precipitación media mensual igual a 82 mm, as vendas de paraugas serían de aproximadamente 17,8:

    0.45*82-19.074=17.8

    De forma similar, podes saber cantos paraugas serán vendido con calquera outra precipitación mensual (x variable) que especifique.

    Saída da análise de regresión: residuos

    Se compara o número estimado e real de paraugas vendidos correspondente á precipitación mensual de 82 mm, verá que estes números son lixeiramente diferentes:

    • Estimado: 17,8 (calculado arriba)
    • Real: 15 (fila 2 dos datos de orixe)

    Por que é a diferenza? Porque as variables independentes nunca son predictoras perfectas das variables dependentes. E os residuos poden axudarche a comprender a que distancia están os valores reais dos valores previstos:

    Parao primeiro punto de datos (choiva de 82 mm), o residual é de aproximadamente -2,8. Entón, engadimos este número ao valor previsto e obtemos o valor real: 17,8 - 2,8 = 15.

    Como facer un gráfico de regresión lineal en Excel

    Se precisa visualizar rapidamente a relación entre as dúas variables, debuxa un gráfico de regresión lineal. Iso é moi doado! Vexa como:

    1. Seleccione as dúas columnas cos seus datos, incluídos os encabezados.
    2. Na pestana Insertar , no grupo Chats , faga clic na icona Gráfico de dispersión e seleccione a miniatura Dispersión (a primeira):

      Isto inserirá un gráfico de dispersión na súa folla de traballo, que se asemellará a este un:

    3. Agora, necesitamos trazar a recta de regresión de mínimos cadrados. Para facelo, fai clic co botón dereito en calquera punto e escolla Engadir liña de tendencia... no menú contextual.
    4. No panel dereito, seleccione a forma da liña de tendencia Lineal e, opcionalmente, marque Mostrar ecuación no gráfico para obter a súa fórmula de regresión:

      Como podes notar, a ecuación de regresión que Excel creou para nós é a mesma que a fórmula de regresión lineal que creamos en función da saída de Coeficientes.

    5. Cambiar ao Encher & Liña e personaliza a liña ao teu gusto. Por exemplo, pode escoller unha cor de liña diferente e utilizar unha liña continua en lugar dunha liña discontinua (seleccione Liña continua na caixa Tipo de trazo ):

    Michael Brown é un entusiasta da tecnoloxía dedicada á súa paixón por simplificar procesos complexos mediante ferramentas de software. Con máis dunha década de experiencia na industria tecnolóxica, perfeccionou as súas habilidades en Microsoft Excel e Outlook, así como en Follas de cálculo e Documentos de Google. O blog de Michael está dedicado a compartir o seu coñecemento e experiencia con outros, proporcionando consellos e titoriais fáciles de seguir para mellorar a produtividade e a eficiencia. Tanto se es un profesional experimentado como un principiante, o blog de Michael ofrece valiosas ideas e consellos prácticos para sacar o máximo proveito destas ferramentas de software esenciais.