Table des matières
Ce tutoriel explique la syntaxe de la fonction LINEST et montre comment l'utiliser pour effectuer une analyse de régression linéaire dans Excel.
Microsoft Excel n'est pas un programme statistique, mais il dispose d'un certain nombre de fonctions statistiques. L'une de ces fonctions est LINEST, qui est conçue pour effectuer une analyse de régression linéaire et renvoyer les statistiques correspondantes. Dans ce tutoriel pour débutants, nous n'aborderons que légèrement la théorie et les calculs sous-jacents. Nous nous attacherons principalement à vous fournir une formule qui fonctionne simplement et quipeut être facilement personnalisé pour vos données.
Fonction LINEST d'Excel - syntaxe et utilisations de base
La fonction LINEST calcule les statistiques d'une ligne droite qui explique la relation entre la variable indépendante et une ou plusieurs variables dépendantes, et renvoie un tableau décrivant la ligne. La fonction utilise la fonction moindres carrés L'équation de la ligne est la suivante.
Équation de régression linéaire simple :
y = bx + aÉquation de régression multiple :
y = b 1 x 1 + b 2 x 2 + ... + b n x n + aOù :
- y - la variable dépendante que vous essayez de prédire.
- x - la variable indépendante que vous utilisez pour prédire y .
- a - l'interception (indique où la ligne coupe l'axe des Y).
- b - la pente (indique l'inclinaison de la ligne de régression, c'est-à-dire le taux de variation de y en fonction de x).
Dans sa forme de base, la fonction LINEST renvoie l'ordonnée à l'origine (a) et la pente (b) de l'équation de régression. En option, elle peut également renvoyer des statistiques supplémentaires pour l'analyse de régression, comme le montre cet exemple.
Syntaxe des fonctions LINEST
La syntaxe de la fonction Excel LINEST est la suivante :
LINEST(known_y's, [known_x's], [const], [stats])Où :
- connu_y (requis) est une gamme de la dépendante y -Il s'agit généralement d'une seule colonne ou d'une seule ligne.
- connu_x (facultatif) est un intervalle de valeurs x indépendantes. S'il est omis, il est supposé être le tableau {1,2,3,...} de la même taille que connu_y .
- const (facultatif) - une valeur logique qui détermine comment l'intercept (constante a ) doivent être traitées :
- Si TRUE ou omis, la constante a est calculé normalement.
- Si FALSE, la constante a est forcée à 0 et la pente ( b ) est calculé pour ajuster y=bx.
- stats (facultatif) est une valeur logique qui détermine si des statistiques supplémentaires doivent être produites ou non :
- Si VRAI, la fonction LINEST renvoie un tableau contenant des statistiques de régression supplémentaires.
- Si FALSE ou omis, LINEST renvoie uniquement la constante d'interception et le(s) coefficient(s) de pente.
Remarque : comme LINEST renvoie un tableau de valeurs, il doit être saisi comme une formule de tableau en appuyant sur le raccourci Ctrl + Shift + Enter. S'il est saisi comme une formule normale, seul le premier coefficient de pente est renvoyé.
Statistiques supplémentaires retournées par LINEST
Le site stats défini comme VRAI, indique à la fonction LINEST de renvoyer les statistiques suivantes pour votre analyse de régression :
Statistiques | Description |
Coefficient de pente | b valeur dans y = bx + a |
Constante d'interception | une valeur dans y = bx + a |
Erreur standard de la pente | La ou les valeurs d'erreur standard pour le ou les coefficients b. |
Erreur standard de l'intercept | La valeur de l'erreur standard pour la constante a . |
Coefficient de détermination (R2) | Indique dans quelle mesure l'équation de régression explique la relation entre les variables. |
Erreur standard pour l'estimation de Y | Indique la précision de l'analyse de régression. |
la statistique F, ou la valeur F-observée | Il est utilisé pour effectuer le test F de l'hypothèse nulle afin de déterminer la qualité globale de l'ajustement du modèle. |
Degrés de liberté (df) | Le nombre de degrés de liberté. |
Somme des carrés de la régression | Indique la part de la variation de la variable dépendante qui est expliquée par le modèle. |
Somme résiduelle des carrés | Mesure la quantité de variance dans la variable dépendante qui n'est pas expliquée par votre modèle de régression. |
La carte ci-dessous montre l'ordre dans lequel LINEST retourne un tableau de statistiques :
Dans les trois dernières lignes, les erreurs #N/A apparaîtront dans la troisième colonne et les suivantes qui ne sont pas remplies de données. C'est le comportement par défaut de la fonction LINEST, mais si vous souhaitez masquer les notations d'erreur, enveloppez votre formule LINEST dans IFERROR comme indiqué dans cet exemple.
Comment utiliser LINEST dans Excel - exemples de formules
La fonction LINEST peut être délicate à utiliser, surtout pour les novices, car il faut non seulement construire une formule correctement, mais aussi interpréter correctement son résultat. Vous trouverez ci-dessous quelques exemples d'utilisation des formules LINEST dans Excel qui, nous l'espérons, vous aideront à faire entrer les connaissances théoriques :)
Régression linéaire simple : calculer la pente et l'intercept
Pour obtenir l'ordonnée à l'origine et la pente d'une ligne de régression, vous utilisez la fonction LINEST dans sa forme la plus simple : fournissez une plage de valeurs dépendantes pour la fonction de régression. connu_y et une plage de valeurs indépendantes pour l'argument connu_x Les deux derniers arguments peuvent être mis à VRAI ou omis.
Par exemple, avec y valeurs (chiffres de vente) en C2:C13 et les valeurs x (coût de la publicité) en B2:B13, notre formule de régression linéaire est aussi simple que :
=LINEST(C2:C13,B2:B13)
Pour la saisir correctement dans votre feuille de calcul, sélectionnez deux cellules adjacentes de la même ligne, E2:F2 dans cet exemple, tapez la formule, puis appuyez sur Ctrl + Shift + Enter pour la compléter.
La formule renvoie le coefficient de pente dans la première cellule (E2) et la constante d'interception dans la deuxième cellule (F2) :
Le site pente est d'environ 0,52 (arrondi à deux décimales). Cela signifie que lorsque x augmente de 1, y augmente de 0,52.
Le site Intersection des Y est négatif -4.99. C'est la valeur attendue de y lorsque x=0. Si elle est représentée sur un graphique, il s'agit de la valeur à laquelle la ligne de régression croise l'axe des ordonnées.
Introduisez les valeurs ci-dessus dans une équation de régression linéaire simple, et vous obtiendrez la formule suivante pour prédire le chiffre d'affaires en fonction du coût de la publicité :
y = 0,52*x - 4,99
Par exemple, si vous dépensez 50 dollars en publicité, vous êtes censé vendre 21 parapluies :
0.52*50 - 4.99 = 21.01
Les valeurs de pente et d'ordonnée à l'origine peuvent également être obtenues séparément en utilisant la fonction correspondante ou en imbriquant la formule LINEST dans INDEX :
Pente
=SLOPE(C2:C13,B2:B13)
=INDEX(LINEST(C2:C13,B2:B13),1)
Intercepter
=INTERCEPT(C2:C13,B2:B13)
=INDEX(LINEST(C2:C13,B2:B13),2)
Comme le montre la capture d'écran ci-dessous, les trois formules donnent les mêmes résultats :
Régression linéaire multiple : pente et ordonnée à l'origine
Si vous disposez de deux variables indépendantes ou plus, veillez à les saisir dans des colonnes adjacentes et à fournir l'ensemble de la plage à la fonction connu_x argument.
Par exemple, avec les numéros de vente ( y ) dans D2:D13, le coût de la publicité (un ensemble de valeurs x) dans B2:B13 et les précipitations mensuelles moyennes (un autre ensemble de valeurs x) dans B2:B13. x ) dans C2:C13, vous utilisez cette formule :
=LINEST(D2:D13,B2:C13)
Comme la formule va renvoyer un tableau de 3 valeurs (2 coefficients de pente et la constante d'interception), nous sélectionnons trois cellules contiguës dans la même ligne, saisissons la formule et appuyons sur le raccourci Ctrl + Shift + Enter.
Veuillez noter que la formule de régression multiple renvoie l'indice coefficients de pente dans le ordre inverse des variables indépendantes (de droite à gauche), c'est-à-dire b n , b n-1 , ..., b 2 , b 1 :
Pour prédire le nombre de ventes, nous fournissons les valeurs retournées par la formule LINEST à l'équation de régression multiple :
y = 0,3*x 2 + 0.19*x 1 - 10.74
Par exemple, avec 50 $ dépensés en publicité et une pluviométrie mensuelle moyenne de 100 mm, vous devriez vendre environ 23 parapluies :
0.3*50 + 0.19*100 - 10.74 = 23.26
Régression linéaire simple : prédire la variable dépendante
Outre le calcul de la a et b La fonction Excel LINEST peut également estimer la variable dépendante (y) sur la base de la variable indépendante connue (x). Pour cela, vous utilisez LINEST en combinaison avec la fonction SUM ou SUMPRODUCT.
Par exemple, voici comment calculer le nombre de ventes de parapluies pour le mois suivant, disons octobre, sur la base des ventes des mois précédents et du budget publicitaire de 50 dollars pour octobre :
=SUM(LINEST(C2:C10, B2:B10)*{50,1})
Au lieu de coder en dur le x Dans ce cas, vous devez également saisir la constante 1 dans une cellule car vous ne pouvez pas mélanger les références et les valeurs dans une constante de tableau.
Avec le x en E2 et la constante 1 en F2, l'une ou l'autre des formules ci-dessous fonctionnera à merveille :
Formule régulière (saisie en appuyant sur la touche Entrée ) :
=SUMPRODUCT(LINEST(C2:C10, B2:B10)*(E2:F2))
Formule de tableau (à saisir en appuyant sur Ctrl + Shift + Enter ) :
=SOMME(LINEST(C2:C10, B2:B10)*(E2:F2))
Pour vérifier le résultat, vous pouvez obtenir l'intercept et la pente pour les mêmes données, puis utiliser la formule de régression linéaire pour calculer y :
=E2*G2+F2
Où E2 est la pente, G2 est le x et F2 est l'intercept :
Régression multiple : prédire la variable dépendante
Dans le cas où vous avez affaire à plusieurs prédicteurs, c'est-à-dire à plusieurs ensembles différents de x Par exemple, avec un budget publicitaire de 50 $ (x 2 ) et une pluviométrie mensuelle moyenne de 100 mm (x 1 ), la formule est la suivante :
=SUM(LINEST(D2:D10, B2:C10)*{50,100,1})
Où D2:D10 sont les valeurs connues y et B2:C10 sont deux ensembles de valeurs de x valeurs :
Veuillez faire attention à l'ordre des x Comme nous l'avons souligné précédemment, lorsque la fonction Excel LINEST est utilisée pour effectuer une régression multiple, elle renvoie les coefficients de pente de droite à gauche. Dans notre exemple, la valeur Publicité est renvoyé en premier, puis le coefficient Pluie Pour calculer correctement le chiffre d'affaires prévisionnel, vous devez multiplier les coefficients par les coefficients correspondants. x Le dernier élément est 1, car la dernière valeur renvoyée par LINEST est l'intercept qui ne doit pas être modifié, donc vous le multipliez simplement par 1.
Au lieu d'utiliser une constante de tableau, vous pouvez saisir toutes les variables x dans certaines cellules, et faire référence à ces cellules dans votre formule, comme nous l'avons fait dans l'exemple précédent.
Formule normale :
=SUMPRODUCT(LINEST(D2:D10, B2:C10)*(F2:H2))
Formule du tableau :
=SOMME(LINEST(D2:D10, B2:C10)*(F2:H2))
Où F2 et G2 sont les x et H2 est égal à 1 :
Formule LINEST : statistiques de régression supplémentaires
Comme vous vous en souvenez peut-être, pour obtenir plus de statistiques pour votre analyse de régression, vous mettez TRUE dans le dernier argument de la fonction LINEST. Appliquée à notre échantillon de données, la formule prend la forme suivante :
=LINEST(D2:D13, B2:C13, TRUE, TRUE)
Comme nous avons 2 variables indépendantes dans les colonnes B et C, nous sélectionnons une rage composée de 3 lignes (deux valeurs x + intercept) et 5 colonnes, nous entrons la formule ci-dessus, nous appuyons sur Ctrl + Shift + Enter , et nous obtenons ce résultat :
Pour se débarrasser des erreurs #N/A, vous pouvez imbriquer LINEST dans IFERROR comme ceci :
=IFERROR(LINEST(D2:D13, B2:C13, TRUE, TRUE), "")
La capture d'écran ci-dessous montre le résultat et explique la signification de chaque chiffre :
Les coefficients de pente et l'ordonnée à l'origine ont été expliqués dans les exemples précédents, alors examinons rapidement les autres statistiques.
Coefficient de détermination (R2). La valeur de R2 est le résultat de la division de la somme des carrés de la régression par la somme totale des carrés. Elle vous indique le nombre d'erreurs de régression. y s'expliquent par x Il peut être n'importe quel nombre de 0 à 1, c'est-à-dire de 0 à 100 %. Dans cet exemple, le R2 est d'environ 0,97, ce qui signifie que 97 % de nos variables dépendantes (ventes de parapluies) sont expliquées par les variables indépendantes (publicité + précipitations mensuelles moyennes), ce qui est une excellente adéquation !
Erreurs standard En général, ces valeurs indiquent la précision de l'analyse de régression. Plus les chiffres sont petits, plus vous pouvez être certain de votre modèle de régression.
Statistique F Vous utilisez la statistique F pour confirmer ou rejeter l'hypothèse nulle. Il est recommandé d'utiliser la statistique F en combinaison avec la valeur P pour décider si les résultats globaux sont significatifs.
Degrés de liberté (La fonction LINEST d'Excel renvoie le résultat de l'analyse des données. degrés de liberté résiduels qui est le total df moins le df de régression Vous pouvez utiliser les degrés de liberté pour obtenir les valeurs F-critiques dans un tableau statistique, puis comparer les valeurs F-critiques à la statistique F pour déterminer un niveau de confiance pour votre modèle.
Somme des carrés de la régression (alias le somme des carrés expliquée ou somme des carrés du modèle Il s'agit de la somme des différences au carré entre les valeurs prédites de y et la moyenne de y, calculée à l'aide de la formule suivante : =∑(ŷ - ȳ)2. Elle indique la part de la variation de la variable dépendante que votre modèle de régression explique.
Somme résiduelle des carrés Il s'agit de la somme des carrés des différences entre les valeurs réelles des y et les valeurs prédites des y. Elle indique la part de la variation de la variable dépendante que votre modèle n'explique pas. Plus la somme des carrés résiduels est faible par rapport à la somme totale des carrés, mieux votre modèle de régression s'adapte à vos données.
5 choses que vous devez savoir sur la fonction LINEST
Pour utiliser efficacement les formules LINEST dans vos feuilles de calcul, vous devez en savoir un peu plus sur la "mécanique interne" de la fonction :
- Known_y's et connu_x Dans un modèle de régression linéaire simple avec un seul ensemble de variables x, connu_y et connu_x peuvent être des plages de n'importe quelle forme, tant qu'elles ont le même nombre de lignes et de colonnes. Si vous effectuez une analyse de régression multiple avec plus d'un ensemble de données indépendantes, vous pouvez utiliser les données de l'analyse de régression multiple. x variables, connu_y doit être un vecteur, c'est-à-dire une plage d'une ligne ou d'une colonne.
- Forcer la constante à zéro Lorsque le const est VRAI ou est omis, l'argument a constante (intercept) est calculée et incluse dans l'équation : y=bx + a. Si const est réglé sur FALSE, l'intercept est considéré comme égal à 0 et omis de l'équation de régression : y=bx.
En statistique, la question de savoir s'il est judicieux de forcer la constante d'interception à 0 ou non fait l'objet d'un débat depuis des décennies. De nombreux praticiens crédibles de l'analyse de régression pensent que si le fait de fixer l'interception à zéro (const=FALSE) semble utile, alors la régression linéaire elle-même est un mauvais modèle pour l'ensemble des données. D'autres supposent que la constante peut être forcée à zéro dans certaines situations, par exemple,En général, il est recommandé d'utiliser la valeur par défaut const=TRUE ou omise dans la plupart des cas.
- Précision La précision de l'équation de régression calculée par la fonction LINEST dépend de la dispersion de vos points de données. Plus les données sont linéaires, plus les résultats de la formule LINEST sont précis.
- Valeurs x redondantes Dans certaines situations, une ou plusieurs personnes indépendantes x peuvent n'avoir aucune valeur prédictive supplémentaire, et la suppression de ces variables du modèle de régression n'affecte pas la précision des valeurs y prédites. Ce phénomène est connu sous le nom de "colinéarité". La fonction LINEST d'Excel vérifie la colinéarité et supprime toute variable redondante. x Les variables omises sont celles qu'il identifie dans le modèle. x Les variables peuvent être reconnues par 0 coefficients et 0 valeurs d'erreur standard.
- LINEST vs. SLOPE et INTERCEPT L'algorithme sous-jacent de la fonction LINEST diffère de celui utilisé dans les fonctions SLOPE et INTERCEPT. Par conséquent, lorsque les données sources sont indéterminées ou colinéaires, ces fonctions peuvent donner des résultats différents.
La fonction LINEST d'Excel ne fonctionne pas
Si votre formule LINEST génère une erreur ou produit un résultat erroné, il y a de fortes chances que ce soit pour l'une des raisons suivantes :
- Si la fonction LINEST ne renvoie qu'un seul nombre (le coefficient de pente), il est fort probable que vous l'ayez saisie comme une formule normale, et non comme une formule de tableau. Assurez-vous d'appuyer sur Ctrl + Shift + Enter pour compléter la formule correctement. Lorsque vous faites cela, la formule est entourée des {couronnes} visibles dans la barre de formule.
- Erreur #REF ! se produit si l'option connu_x et connu_y Les gammes ont des dimensions différentes.
- #VALEUR ! erreur. Se produit si connu_x ou connu_y contient au moins une cellule vide, une valeur textuelle ou la représentation textuelle d'un nombre qu'Excel ne reconnaît pas comme une valeur numérique. De même, l'erreur #VALUE se produit si la cellule const ou stats ne peut pas être évalué à VRAI ou FAUX.
Voilà comment utiliser LINEST dans Excel pour une analyse de régression linéaire simple et multiple. Pour voir de plus près les formules présentées dans ce tutoriel, nous vous invitons à télécharger notre classeur type ci-dessous. Je vous remercie de votre lecture et j'espère vous voir sur notre blog la semaine prochaine !
Cahier d'exercices à télécharger
Exemples de fonctions Excel LINEST (fichier .xlsx)