Analyse de régression linéaire dans Excel

  • Partage Ça
Michael Brown

Ce tutoriel explique les bases de l'analyse de régression et montre quelques méthodes différentes pour effectuer une régression linéaire dans Excel.

Imaginez la situation suivante : vous disposez d'un grand nombre de données différentes et on vous demande de prédire le chiffre d'affaires de votre entreprise pour l'année prochaine. Vous avez découvert des dizaines, voire des centaines, de facteurs susceptibles d'influer sur ces chiffres. Mais comment savoir lesquels sont vraiment importants ? Lancez une analyse de régression dans Excel. Elle vous donnera une réponse à cette question et à bien d'autres : quels facteursDans quelle mesure ces facteurs sont-ils liés les uns aux autres ? Et quel degré de certitude pouvez-vous avoir quant aux prédictions ?

    Analyse de régression dans Excel - les bases

    Dans la modélisation statistique, analyse de régression est utilisé pour estimer les relations entre deux ou plusieurs variables :

    Variable dépendante (alias critère variable) est le principal facteur que vous essayez de comprendre et de prévoir.

    Variables indépendantes (alias explicatif ou prédicteurs ) sont les facteurs qui peuvent influencer la variable dépendante.

    L'analyse de régression vous aide à comprendre comment la variable dépendante change lorsque l'une des variables indépendantes varie et permet de déterminer mathématiquement laquelle de ces variables a réellement un impact.

    Techniquement, un modèle d'analyse de régression est basé sur la somme des carrés L'objectif d'un modèle est d'obtenir la somme des carrés la plus petite possible et de tracer une ligne qui se rapproche le plus des données.

    En statistiques, ils font la différence entre une régression linéaire simple et multiple. Régression linéaire simple modélise la relation entre une variable dépendante et une variable indépendante à l'aide d'une fonction linéaire. Si vous utilisez deux ou plusieurs variables explicatives pour prédire la variable dépendante, vous avez affaire à régression linéaire multiple Si la variable dépendante est modélisée comme une fonction non linéaire parce que les relations entre les données ne suivent pas une ligne droite, utilisez régression non linéaire Ce tutoriel se concentrera sur une régression linéaire simple.

    Par exemple, prenons les chiffres de vente de parapluies pour les 24 derniers mois et déterminons la pluviosité mensuelle moyenne pour la même période. Inscrivez ces informations sur un graphique et la ligne de régression démontrera la relation entre la variable indépendante (la pluviosité) et la variable dépendante (les ventes de parapluies) :

    Équation de régression linéaire

    Mathématiquement, une régression linéaire est définie par cette équation :

    y = bx + a + ε

    Où :

    • x est une variable indépendante.
    • y est une variable dépendante.
    • a est le Intersection des Y qui est la valeur moyenne attendue de y lorsque tous les x sont égales à 0. Sur un graphique de régression, c'est le point où la ligne croise l'axe des ordonnées.
    • b est le pente d'une ligne de régression, qui est le taux de changement pour y comme x changements.
    • ε est le terme d'erreur aléatoire, qui est la différence entre la valeur réelle d'une variable dépendante et sa valeur prédite.

    L'équation de régression linéaire comporte toujours un terme d'erreur car, dans la vie réelle, les prédicteurs ne sont jamais parfaitement précis. Toutefois, certains programmes, dont Excel, effectuent le calcul du terme d'erreur en coulisse. Ainsi, dans Excel, vous effectuez une régression linéaire à l'aide de la fonction moindres carrés et rechercher des coefficients a et b de telle sorte que :

    y = bx + a

    Pour notre exemple, l'équation de régression linéaire prend la forme suivante :

    Parapluies vendus = b * précipitations + a

    Il existe une poignée de moyens différents pour trouver a et b Les trois principales méthodes pour effectuer une analyse de régression linéaire dans Excel sont les suivantes :

    • Outil de régression inclus dans Analysis ToolPak
    • Graphique en nuage de points avec une ligne de tendance
    • Formule de régression linéaire

    Vous trouverez ci-dessous les instructions détaillées sur l'utilisation de chaque méthode.

    Comment effectuer une régression linéaire dans Excel avec Analysis ToolPak ?

    Cet exemple montre comment exécuter une régression dans Excel en utilisant un outil spécial inclus dans le module complémentaire Analysis ToolPak.

    Activer le module complémentaire Analysis ToolPak

    Analysis ToolPak est disponible dans toutes les versions d'Excel 365 à 2003 mais n'est pas activé par défaut. Vous devez donc l'activer manuellement. Voici comment procéder :

    1. Dans votre Excel, cliquez sur Fichier > ; Options .
    2. Dans le Options Excel sélectionnez Compléments d'information dans la barre latérale gauche, assurez-vous que Compléments d'Excel est sélectionné dans le Gérer et cliquez sur Allez sur .
    3. Dans le Compléments d'information cochez la case Boîte à outils d'analyse et cliquez sur OK :

    Cela ajoutera le Analyse des données outils à la Données de votre ruban Excel.

    Exécuter une analyse de régression

    Dans cet exemple, nous allons effectuer une régression linéaire simple dans Excel. Nous avons une liste des précipitations mensuelles moyennes des 24 derniers mois dans la colonne B, qui est notre variable indépendante (prédicteur), et le nombre de parapluies vendus dans la colonne C, qui est la variable dépendante. Bien sûr, il existe de nombreux autres facteurs qui peuvent affecter les ventes, mais pour l'instant nous nous concentrons uniquement sur ces deux variables :

    Avec l'ajout de l'Analysis Toolpak, effectuez les étapes suivantes pour effectuer une analyse de régression dans Excel :

    1. Sur le Données dans l'onglet Analyse cliquez sur le bouton Analyse des données bouton.
    2. Sélectionnez Régression et cliquez sur OK .
    3. Dans le Régression configurez les paramètres suivants :
      • Sélectionnez le Plage d'entrée Y qui est votre variable dépendante Dans notre cas, il s'agit de la vente de parapluies (C1:C25).
      • Sélectionnez le Plage d'entrée X c'est-à-dire votre variable indépendante Dans cet exemple, il s'agit des précipitations mensuelles moyennes (B1:B25).

      Si vous construisez un modèle de régression multiple, sélectionnez deux colonnes adjacentes ou plus avec des variables indépendantes différentes.

      • Vérifiez le Boîte à étiquettes s'il y a des en-têtes en haut de vos plages X et Y.
      • Choisissez votre préférence Option de sortie, une nouvelle feuille de travail dans notre cas.
      • En option, sélectionnez le Résidus pour obtenir la différence entre les valeurs prédites et réelles.
    4. Cliquez sur OK et observez la sortie de l'analyse de régression créée par Excel.

    Interpréter les résultats de l'analyse de régression

    Comme vous venez de le voir, l'exécution d'une régression dans Excel est facile car tous les calculs sont effectués automatiquement. L'interprétation des résultats est un peu plus délicate car vous devez savoir ce qui se cache derrière chaque chiffre. Vous trouverez ci-dessous une décomposition des 4 parties principales du résultat de l'analyse de régression.

    Sortie de l'analyse de régression : Sortie du résumé

    Cette partie vous indique dans quelle mesure l'équation de régression linéaire calculée correspond à vos données sources.

    Voici ce que signifie chaque information :

    R multiple C'est le C Coefficient de corrélation qui mesure la force d'une relation linéaire entre deux variables. Le coefficient de corrélation peut avoir une valeur comprise entre -1 et 1, et sa valeur absolue indique la force de la relation. Plus la valeur absolue est grande, plus la relation est forte :

    • 1 signifie une relation positive forte
    • -1 signifie une relation négative forte
    • 0 signifie qu'il n'y a pas de relation du tout

    Carré R C'est le Coefficient de détermination La valeur R2 est calculée à partir de la somme totale des carrés, plus précisément, elle est la somme des écarts au carré des données originales par rapport à la moyenne.

    Dans notre exemple, R2 est de 0,91 (arrondi à 2 chiffres), ce qui est assez bon. Cela signifie que 91 % de nos valeurs correspondent au modèle d'analyse de régression. En d'autres termes, 91 % des variables dépendantes (valeurs y) sont expliquées par les variables indépendantes (valeurs x). En général, un R au carré de 95 % ou plus est considéré comme un bon ajustement.

    R carré ajusté C'est le Carré R ajusté pour le nombre de variables indépendantes dans le modèle. Vous voudrez utiliser cette valeur au lieu de Carré R pour l'analyse de régression multiple.

    Erreur standard Il s'agit d'une autre mesure d'adéquation qui indique la précision de votre analyse de régression - plus le chiffre est petit, plus vous pouvez être certain de votre équation de régression. Alors que le R2 représente le pourcentage de la variance des variables dépendantes qui est expliqué par le modèle, l'erreur standard est une mesure absolue qui indique la distance moyenne entre les points de données et la régression.ligne.

    Observations Il s'agit simplement du nombre d'observations dans votre modèle.

    Résultat de l'analyse de régression : ANOVA

    La deuxième partie du résultat est l'analyse de la variance (ANOVA) :

    Fondamentalement, il divise la somme des carrés en composantes individuelles qui donnent des informations sur les niveaux de variabilité dans votre modèle de régression :

    • df est le nombre de degrés de liberté associés aux sources de variance.
    • SS Plus la SS résiduelle est petite par rapport à la SS totale, mieux votre modèle s'adapte aux données.
    • MS est le carré moyen.
    • F est la statistique F, ou test F pour l'hypothèse nulle. Elle est utilisée pour tester la signification globale du modèle.
    • Signification F est la valeur P de F.

    La partie ANOVA est rarement utilisée pour une simple analyse de régression linéaire dans Excel, mais vous devez absolument jeter un coup d'œil au dernier composant. La partie ANOVA peut être utilisée pour l'analyse de régression linéaire. Signification F donne une idée de la fiabilité (statistiquement significative) de vos résultats. Si le F de signification est inférieur à 0,05 (5 %), votre modèle est correct. S'il est supérieur à 0,05, vous feriez probablement mieux de choisir une autre variable indépendante.

    Résultat de l'analyse de régression : coefficients

    Cette section fournit des informations spécifiques sur les composantes de votre analyse :

    Le composant le plus utile de cette section est Coefficients Il vous permet de construire une équation de régression linéaire dans Excel :

    y = bx + a

    Pour notre ensemble de données, où y est le nombre de parapluies vendus et x est la pluviométrie mensuelle moyenne, notre formule de régression linéaire est la suivante :

    Y = Coefficient de précipitation * x + Intercepte

    Muni des valeurs a et b arrondies à trois décimales, il se transforme en :

    Y=0,45*x-19,074

    Par exemple, avec une pluviométrie mensuelle moyenne égale à 82 mm, les ventes de parapluies seraient d'environ 17,8 :

    0.45*82-19.074=17.8

    De la même manière, vous pouvez découvrir combien de parapluies vont être vendus avec toute autre pluie mensuelle (variable x) que vous spécifiez.

    Résultat de l'analyse de régression : résidus

    Si vous comparez le nombre estimé et le nombre réel de parapluies vendus correspondant à la pluviométrie mensuelle de 82 mm, vous constaterez que ces chiffres sont légèrement différents :

    • Estimation : 17,8 (calculé ci-dessus)
    • Réel : 15 (ligne 2 des données sources)

    Pourquoi cette différence ? Parce que les variables indépendantes ne sont jamais des prédicteurs parfaits des variables dépendantes. Et les résidus peuvent vous aider à comprendre à quel point les valeurs réelles sont éloignées des valeurs prédites :

    Pour le premier point de données (précipitations de 82 mm), le résidu est d'environ -2,8. Nous ajoutons donc ce chiffre à la valeur prédite et obtenons la valeur réelle : 17,8 - 2,8 = 15.

    Comment réaliser un graphique de régression linéaire dans Excel ?

    Si vous devez visualiser rapidement la relation entre les deux variables, dessinez un graphique de régression linéaire. C'est très facile ! Voici comment :

    1. Sélectionnez les deux colonnes contenant vos données, y compris les en-têtes.
    2. Sur le Insertion dans l'onglet Chats cliquez sur le bouton Diagramme de dispersion et sélectionnez l'icône Diffuser vignette (la première) :

      Cela va insérer un nuage de points dans votre feuille de calcul, qui ressemblera à celui-ci :

    3. Maintenant, nous devons tracer la ligne de régression des moindres carrés. Pour ce faire, cliquez avec le bouton droit de la souris sur n'importe quel point et choisissez Ajouter une ligne de tendance... dans le menu contextuel.
    4. Dans le volet de droite, sélectionnez le Linéaire forme de la ligne de tendance et, éventuellement, vérifier Afficher l'équation sur le graphique pour obtenir votre formule de régression :

      Comme vous pouvez le remarquer, l'équation de régression qu'Excel a créée pour nous est la même que la formule de régression linéaire que nous avons construite sur la base de la sortie Coefficients.

    5. Passez à la Remplir & ; Ligne et personnalisez la ligne à votre convenance. Par exemple, vous pouvez choisir une couleur de ligne différente et utiliser une ligne pleine au lieu d'une ligne en pointillés (sélectionnez Ligne pleine dans l'onglet Type de tableau de bord boîte) :

    À ce stade, votre graphique ressemble déjà à un graphique de régression décent :

    Néanmoins, vous pourriez vouloir apporter quelques améliorations supplémentaires :

    • Faites glisser l'équation où bon vous semble.
    • Ajouter des titres d'axes ( Éléments du graphique bouton> ; Titres Axis ).
    • Si vos points de données commencent au milieu de l'axe horizontal et/ou vertical, comme dans cet exemple, vous voudrez peut-être vous débarrasser de l'espace blanc excessif. L'astuce suivante explique comment procéder : mettez à l'échelle les axes du graphique pour réduire l'espace blanc.

      Et voici à quoi ressemble notre graphique de régression amélioré :

      Remarque importante : dans le graphique de régression, la variable indépendante doit toujours se trouver sur l'axe des X et la variable dépendante sur l'axe des Y. Si votre graphique est tracé dans l'ordre inverse, intervertissez les colonnes dans votre feuille de travail, puis dessinez à nouveau le graphique. Si vous n'êtes pas autorisé à réorganiser les données sources, vous pouvez intervertir les axes X et Y directement dans un graphique.

    Comment faire une régression dans Excel en utilisant des formules

    Microsoft Excel dispose de quelques fonctions statistiques qui peuvent vous aider à effectuer une analyse de régression linéaire, telles que LINEST, SLOPE, INTERCEPT et CORREL.

    La fonction LINEST utilise la méthode de régression des moindres carrés pour calculer une ligne droite qui explique le mieux la relation entre vos variables et renvoie un tableau décrivant cette ligne. Vous pouvez trouver l'explication détaillée de la syntaxe de la fonction dans ce tutoriel. Pour l'instant, créons simplement une formule pour notre ensemble de données d'exemple :

    =LINEST(C2:C25, B2:B25)

    Comme la fonction LINEST renvoie un tableau de valeurs, vous devez la saisir sous forme de formule de tableau. Sélectionnez deux cellules adjacentes de la même ligne, E2:F2 dans notre cas, tapez la formule, puis appuyez sur Ctrl + Shift + Enter pour la compléter.

    La formule renvoie le b (E1) et le a constante (F1) pour l'équation de régression linéaire déjà connue :

    y = bx + a

    Si vous évitez d'utiliser des formules de tableaux dans vos feuilles de calcul, vous pouvez calculer a et b individuellement avec des formules régulières :

    Obtenez l'ordonnée à l'origine (a) :

    =INTERCEPT(C2:C25, B2:B25)

    Obtenez la pente (b) :

    =SLOPE(C2:C25, B2:B25)

    En outre, vous pouvez trouver le coefficient de corrélation ( R multiple dans le résumé de l'analyse de régression) qui indique la force de la relation entre les deux variables :

    =CORREL(B2:B25,C2:C25)

    La capture d'écran suivante montre toutes ces formules de régression Excel en action :

    Conseil : si vous souhaitez obtenir des statistiques supplémentaires pour votre analyse de régression, utilisez la fonction LINEST avec l'option s tats réglé sur VRAI comme indiqué dans cet exemple.

    C'est ainsi que l'on effectue une régression linéaire dans Excel. Cela dit, gardez à l'esprit que Microsoft Excel n'est pas un programme statistique. Si vous devez effectuer une analyse de régression à un niveau professionnel, vous pouvez utiliser un logiciel ciblé tel que XLSTAT, RegressIt, etc.

    Pour examiner de plus près nos formules de régression linéaire et les autres techniques abordées dans ce tutoriel, nous vous invitons à télécharger notre exemple de classeur ci-dessous. Merci de votre lecture !

    Cahier d'exercices

    Analyse de régression dans Excel - exemples (fichier .xlsx)

    Michael Brown est un passionné de technologie passionné par la simplification de processus complexes à l'aide d'outils logiciels. Avec plus d'une décennie d'expérience dans l'industrie de la technologie, il a perfectionné ses compétences dans Microsoft Excel et Outlook, ainsi que dans Google Sheets et Docs. Le blog de Michael est dédié au partage de ses connaissances et de son expertise avec les autres, en fournissant des conseils et des tutoriels faciles à suivre pour améliorer la productivité et l'efficacité. Que vous soyez un professionnel chevronné ou un débutant, le blog de Michael offre des informations précieuses et des conseils pratiques pour tirer le meilleur parti de ces outils logiciels essentiels.