Table des matières
Ce tutoriel explique les bases de la corrélation dans Excel, montre comment calculer un coefficient de corrélation, construire une matrice de corrélation et interpréter les résultats.
La corrélation est l'un des calculs statistiques les plus simples que vous pouvez effectuer dans Excel. Bien que simple, elle est très utile pour comprendre les relations entre deux ou plusieurs variables. Microsoft Excel fournit tous les outils nécessaires pour effectuer une analyse de corrélation, il suffit de savoir comment les utiliser.
Corrélation dans Excel - les bases
Corrélation est une mesure qui décrit la force et la direction d'une relation entre deux variables. Elle est couramment utilisée en statistiques, en économie et en sciences sociales pour les budgets, les plans d'affaires et autres.
La méthode utilisée pour étudier l'étroite relation entre les variables est appelée analyse de corrélation .
Voici quelques exemples de forte corrélation :
- Le nombre de calories que vous mangez et votre poids (corrélation positive)
- La température extérieure et vos factures de chauffage (corrélation négative)
Et voici les exemples de données qui ont une corrélation faible ou nulle :
- Le nom de votre chat et sa nourriture préférée
- La couleur de vos yeux et votre taille
Une chose essentielle à comprendre au sujet de la corrélation est qu'elle ne fait que montrer à quel point deux variables sont étroitement liées. La corrélation, cependant, n'implique pas la causalité. Le fait que les changements d'une variable soient associés aux changements de l'autre variable ne signifie pas qu'une variable cause réellement le changement de l'autre.
Si vous souhaitez connaître la causalité et faire des prédictions, faites un pas en avant et effectuez une analyse de régression linéaire.
Coefficient de corrélation dans Excel - interprétation de la corrélation
La mesure numérique du degré d'association entre deux variables continues est appelée la coefficient de corrélation (r).
La valeur du coefficient est toujours comprise entre -1 et 1 et elle mesure à la fois la force et la direction de la relation linéaire entre les variables.
Force
Plus la valeur absolue du coefficient est grande, plus la relation est forte :
- Les valeurs extrêmes de -1 et 1 indiquent une relation linéaire parfaite lorsque tous les points de données tombent sur une ligne. Dans la pratique, une corrélation parfaite, qu'elle soit positive ou négative, est rarement observée.
- Un coefficient de 0 indique qu'il n'y a pas de relation linéaire entre les variables. C'est ce que vous êtes susceptible d'obtenir avec deux séries de nombres aléatoires.
- Les valeurs comprises entre 0 et +1/-1 représentent une échelle de relations faibles, modérées et fortes. As r se rapproche de -1 ou de 1, la force de la relation augmente.
Direction
Le signe du coefficient (plus ou moins) indique le sens de la relation.
- Positif Les coefficients représentent une corrélation directe et produisent une pente ascendante sur un graphique - plus une variable augmente, plus l'autre augmente, et vice versa.
- Négatif Les coefficients représentent une corrélation inverse et produisent une pente descendante sur un graphique - plus une variable augmente, plus l'autre variable tend à diminuer.
Pour une meilleure compréhension, veuillez consulter les graphiques de corrélation suivants :
- Un coefficient de 1 signifie une relation positive parfaite - lorsqu'une variable augmente, l'autre augmente proportionnellement.
- Un coefficient de -1 signifie une relation négative parfaite - lorsqu'une variable augmente, l'autre diminue proportionnellement.
- Un coefficient de 0 signifie qu'il n'y a pas de relation entre deux variables - les points de données sont dispersés sur tout le graphique.
Corrélation de Pearson
En statistiques, on mesure plusieurs types de corrélation selon le type de données sur lesquelles on travaille. Dans ce tutoriel, nous nous concentrerons sur la corrélation la plus courante.
Corrélation de Pearson le nom complet est le Corrélation du moment produit de Pearson (PPMC), est utilisé pour évaluer linéaire En termes simples, la corrélation de Pearson répond à la question suivante : les données peuvent-elles être représentées sur une ligne ?
En statistique, c'est le type de corrélation le plus populaire, et si vous avez affaire à un "coefficient de corrélation" sans autre qualification, il s'agit très probablement du Pearson.
Voici la formule la plus couramment utilisée pour trouver le coefficient de corrélation de Pearson, également appelé R de Pearson :
Il peut arriver que vous rencontriez deux autres formules pour calculer la coefficient de corrélation des échantillons (r) et le coefficient de corrélation démographique (ρ).
Comment faire une corrélation de Pearson dans Excel
Calculer le coefficient de corrélation de Pearson à la main implique beaucoup de mathématiques. Heureusement, Microsoft Excel a rendu les choses très simples. En fonction de votre ensemble de données et de votre objectif, vous êtes libre d'utiliser l'une des techniques suivantes :
- Trouvez le coefficient de corrélation de Pearson à l'aide de la fonction CORREL.
- Réalisez une matrice de corrélation en effectuant une analyse de données.
- Trouver des coefficients de corrélation multiples à l'aide d'une formule.
- Tracez un graphique de corrélation pour obtenir une représentation visuelle de la relation entre les données.
Comment calculer le coefficient de corrélation dans Excel
Pour calculer un coefficient de corrélation à la main, vous devez utiliser cette longue formule. Pour trouver un coefficient de corrélation dans Excel, utilisez la fonction CORREL ou PEARSON et obtenez le résultat en une fraction de seconde.
Fonction CORREL d'Excel
La fonction CORREL renvoie le coefficient de corrélation de Pearson pour deux ensembles de valeurs. Sa syntaxe est très simple et directe :
CORREL(tableau1, tableau2)Où :
- Array1 est la première plage de valeurs.
- Array2 est la deuxième plage de valeurs.
Les deux tableaux doivent avoir la même longueur.
Supposons que nous ayons un ensemble de variables indépendantes ( x ) dans B2:B13 et les variables dépendantes (y) dans C2:C13, notre formule de coefficient de corrélation est la suivante :
=CORREL(B2:B13, C2:C13)
Ou bien, nous pourrions intervertir les plages et obtenir le même résultat :
=CORREL(C2:C13, B2:B13)
Quoi qu'il en soit, la formule montre une forte corrélation négative (environ -0,97) entre la température mensuelle moyenne et le nombre d'appareils de chauffage vendus :
3 choses à savoir sur la fonction CORREL dans Excel
Pour calculer avec succès le coefficient de corrélation dans Excel, gardez à l'esprit ces 3 faits simples :
- Si une ou plusieurs cellules d'un tableau contiennent du texte, des valeurs logiques ou des blancs, ces cellules sont ignorées ; les cellules dont la valeur est nulle sont calculées.
- Si les tableaux fournis sont de longueurs différentes, une erreur #N/A est renvoyée.
- Si l'un des tableaux est vide ou si l'écart-type de leurs valeurs est égal à zéro, une erreur #DIV/0 ! se produit.
Fonction PEARSON d'Excel
La fonction PEARSON d'Excel fait la même chose : elle calcule le coefficient de corrélation produit-moment de Pearson.
PEARSON(tableau1, tableau2)Où :
- Array1 est une gamme de valeurs indépendantes.
- Array2 est une gamme de valeurs dépendantes.
Comme PEARSON et CORREL calculent tous deux le coefficient de corrélation linéaire de Pearson, leurs résultats devraient concorder, ce qui est généralement le cas dans les versions récentes d'Excel 2007 à Excel 2019.
Dans Excel 2003 et les versions antérieures, cependant, la fonction PEARSON peut afficher certaines erreurs d'arrondi. Par conséquent, dans les versions plus anciennes, il est recommandé d'utiliser CORREL de préférence à PEARSON.
Sur notre échantillon de données, les deux fonctions présentent les mêmes résultats :
=CORREL(B2:B13, C2:C13)
=PEARSON(B2:B13, C2:C13)
Comment faire une matrice de corrélation dans Excel avec l'analyse des données
Lorsque vous devez tester les interrelations entre plus de deux variables, il est judicieux de construire une matrice de corrélation, qui est parfois appelée coefficient de corrélation multiple .
Le site matrice de corrélation est un tableau qui montre les coefficients de corrélation entre les variables à l'intersection des lignes et des colonnes correspondantes.
La matrice de corrélation dans Excel est construite à l'aide de la fonction Corrélation de l'outil ToolPak d'analyse Ce module complémentaire est disponible dans toutes les versions d'Excel 2003 à Excel 2019, mais n'est pas activé par défaut. Si vous ne l'avez pas encore activé, veuillez le faire maintenant en suivant les étapes décrites dans Comment activer le Data Analysis ToolPak dans Excel.
Avec les outils d'analyse de données ajoutés à votre ruban Excel, vous êtes prêt à effectuer une analyse de corrélation :
- Dans le coin supérieur droit de l'écran Données tab> ; Analyse cliquez sur le bouton Analyse des données bouton.
- Dans le Analyse des données sélectionnez Corrélation et cliquez sur OK.
- Dans le Corrélation configurez les paramètres de cette manière :
- Cliquez dans le Plage d'entrée et sélectionnez la plage contenant vos données source, y compris les en-têtes de colonne (B1:D13 dans notre cas).
- Dans le Regroupés par assurez-vous que le Colonnes est sélectionnée (étant donné que vos données sources sont groupées en colonnes).
- Sélectionnez le Étiquettes de la première ligne case à cocher si la plage sélectionnée contient des en-têtes de colonne.
- Choisissez l'option de sortie souhaitée. Pour avoir la matrice dans la même feuille, sélectionnez Gamme de sortie et spécifier la référence de la cellule la plus à gauche dans laquelle la matrice doit être sortie (A15 dans cet exemple).
Lorsque vous avez terminé, cliquez sur le bouton OK bouton :
Votre matrice de coefficients de corrélation est terminée et devrait ressembler à celle présentée dans la section suivante.
Interprétation des résultats de l'analyse de corrélation
Dans votre matrice de corrélation Excel, vous pouvez trouver les coefficients à l'intersection des lignes et des colonnes. Si les coordonnées de la colonne et de la ligne sont identiques, la valeur 1 est sortie.
Dans l'exemple ci-dessus, nous souhaitons connaître la corrélation entre la variable dépendante (nombre d'appareils de chauffage vendus) et deux variables indépendantes (température mensuelle moyenne et coûts de publicité). Nous examinons donc uniquement les chiffres situés à l'intersection de ces lignes et colonnes, qui sont mis en évidence dans la capture d'écran ci-dessous :
Le coefficient négatif de -0,97 (arrondi à 2 décimales) montre une forte corrélation inverse entre la température mensuelle et les ventes de chauffages - plus la température est élevée, moins les chauffages sont vendus.
Le coefficient positif de 0,97 (arrondi à 2 décimales) indique un lien direct fort entre le budget publicitaire et les ventes - plus vous dépensez d'argent en publicité, plus les ventes sont élevées.
Comment effectuer une analyse de corrélation multiple dans Excel avec des formules
Il est facile de construire la table de corrélation avec l'outil d'analyse des données. Cependant, cette matrice est statique, ce qui signifie que vous devrez refaire l'analyse de corrélation à chaque fois que les données sources changeront.
La bonne nouvelle, c'est que vous pouvez facilement construire vous-même une table de corrélation similaire, et que cette matrice se mettra automatiquement à jour à chaque modification des valeurs sources.
Pour le faire faire, utilisez cette formule générique :
CORREL(OFFSET( première_plage_variable , 0, ROWS($1:1)-1), OFFSET( première_plage_variable , 0, COLUMNS($A:A)-1))Remarque importante : pour que la formule fonctionne, vous devez verrouiller la première plage de variables en utilisant des références de cellules absolues.
Dans notre cas, la première plage de variables est $B$2:$B$13 (veuillez noter le signe $ qui verrouille la référence), et notre formule de corrélation prend cette forme :
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
La formule étant prête, construisons une matrice de corrélation :
- Dans la première ligne et la première colonne de la matrice, tapez les étiquettes des variables dans le même ordre que celui dans lequel elles apparaissent dans votre tableau source (voir la capture d'écran ci-dessous).
- Entrez la formule ci-dessus dans la cellule la plus à gauche (B16 dans notre cas).
- Faites glisser la formule vers le bas et vers la droite pour la copier sur autant de lignes et de colonnes que nécessaire (3 lignes et 3 colonnes dans notre exemple).
Nous avons obtenu la matrice suivante avec des coefficients de corrélation multiples. Veuillez noter que les coefficients renvoyés par notre formule sont exactement les mêmes que ceux produits par Excel dans l'exemple précédent (les coefficients pertinents sont mis en évidence) :
Comment fonctionne cette formule
Comme vous le savez déjà, la fonction CORREL d'Excel renvoie le coefficient de corrélation pour deux ensembles de variables que vous spécifiez. Le principal défi consiste à fournir les plages appropriées dans les cellules correspondantes de la matrice. Pour cela, vous ne saisissez que la première plage de variables dans la formule et utilisez les fonctions suivantes pour effectuer les ajustements nécessaires :
- OFFSET - renvoie une plage qui se trouve à un nombre donné de lignes et de colonnes d'une plage spécifiée.
- ROWS et COLUMNS - renvoient respectivement le nombre de lignes et de colonnes dans une plage. Dans notre formule de corrélation, les deux sont utilisés dans un seul but : obtenir le nombre de colonnes à décaler par rapport à la plage de départ. Et ceci est réalisé en utilisant intelligemment des références absolues et relatives.
Pour mieux comprendre la logique, voyons comment la formule calcule les coefficients mis en évidence dans la capture d'écran ci-dessus.
Tout d'abord, examinons la formule de B18, qui établit une corrélation entre la température mensuelle (B2:B13) et les chauffages vendus (D2:D13) :
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
Dans la première fonction OFFSET, ROWS($1:1) s'est transformée en ROWS($1:3) car la deuxième coordonnée est relative, elle change donc en fonction de la position relative de la ligne où la formule est copiée (2 lignes plus bas). Ainsi, ROWS() renvoie 3, duquel nous soustrayons 1, et nous obtenons une plage qui se trouve 2 colonnes à droite de la plage source, c'est-à-dire $D$2:$D$13 (ventes de chauffage).
Le second OFFSET ne modifie pas la plage spécifiée $B$2:$B$13 (température) car COLUMNS($A:A)-1 renvoie zéro.
En conséquence, notre longue formule se transforme en un simple CORREL($D$2:$D$13, $B$2:$B$13) et renvoie exactement le coefficient que nous voulons.
La formule en C18 qui calcule un coefficient de corrélation pour le coût de la publicité (C2:C13) et les ventes (D2:D13) fonctionne de manière similaire :
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))
La première fonction OFFSET est absolument identique à celle décrite ci-dessus, et renvoie la plage $D$2:$D$13 (ventes de chauffage).
Dans le deuxième OFFSET, COLUMNS($A:A)-1 devient COLUMNS($A:B)-1 car nous avons copié la formule d'une colonne vers la droite. Par conséquent, OFFSET obtient une plage qui se trouve à une colonne à droite de la plage source, c'est-à-dire $C$2:$C$13 (coût de la publicité).
Comment tracer un graphique de corrélation dans Excel
Lorsque vous effectuez une corrélation dans Excel, la meilleure façon d'obtenir une représentation visuelle des relations entre vos données est de dessiner un graphique en nuage de points avec un ligne de tendance Voici comment :
- Sélectionnez deux colonnes contenant des données numériques, y compris les en-têtes de colonne. L'ordre des colonnes est important : la colonne indépendant doit se trouver dans la colonne de gauche car cette colonne doit être représentée sur l'axe des x ; la variable dépendant doit être dans la colonne de droite car elle sera représentée sur l'axe des y.
- Sur le Insertion dans l'onglet Chats cliquez sur le bouton Diffuser Cette opération permet d'insérer immédiatement un diagramme de dispersion XY dans votre feuille de calcul.
- Faites un clic droit sur n'importe quel point de données dans le graphique et choisissez Ajouter une ligne de tendance... dans le menu contextuel.
Pour les instructions détaillées étape par étape, veuillez consulter :
- Comment créer un nuage de points dans Excel
- Comment ajouter une ligne de tendance à un graphique Excel
Pour notre ensemble de données d'échantillon, les graphiques de corrélation ressemblent à l'image ci-dessous. En outre, nous avons affiché la valeur R-carré, également appelée le Coefficient de détermination Cette valeur indique dans quelle mesure la ligne de tendance correspond aux données - plus R2 est proche de 1, plus l'ajustement est bon.
À partir de la valeur R2 affichée sur votre nuage de points, vous pouvez facilement calculer le coefficient de corrélation :
- Pour une meilleure précision, demandez à Excel d'afficher plus de chiffres dans la valeur R-carré que ce qu'il fait par défaut.
- Cliquez sur la valeur R2 sur le graphique, sélectionnez-la à l'aide de la souris et appuyez sur Ctrl + C pour la copier.
- Obtenez une racine carrée de R2 soit en utilisant la fonction SQRT, soit en élevant la valeur R2 copiée à la puissance 0,5.
Par exemple, la valeur R2 dans le deuxième graphique est de 0,9174339392. Vous pouvez donc trouver le coefficient de corrélation pour Publicité et Chauffages vendus avec l'une de ces formules :
=SQRT(0.9174339392)
=0.9174339392^0.5
Comme vous pouvez le constater, les coefficients calculés de cette manière sont parfaitement en ligne avec les coefficients de corrélation trouvés dans les exemples précédents, sauf le signe :
Problèmes potentiels de corrélation dans Excel
Le site Corrélation du moment produit de Pearson ne révèle qu'un linéaire En d'autres termes, vos variables peuvent être fortement liées d'une autre manière, curviligne, et avoir un coefficient de corrélation égal ou proche de zéro.
La corrélation de Pearson ne permet pas de distinguer dépendant et indépendant Par exemple, en utilisant la fonction CORREL pour trouver l'association entre une température mensuelle moyenne et le nombre d'appareils de chauffage vendus, nous avons obtenu un coefficient de -0,97, ce qui indique une forte corrélation négative. Cependant, vous pourriez intervertir les variables et obtenir le même résultat. Ainsi, quelqu'un pourrait conclure qu'une augmentation des ventes d'appareils de chauffage entraîne une baisse de la température, ce qui n'a évidemment aucun sens.Par conséquent, lorsque vous effectuez une analyse de corrélation dans Excel, tenez compte des données que vous fournissez.
En outre, la corrélation de Pearson est très sensible à aberrations Si un ou plusieurs points de données sont très différents du reste des données, vous risquez d'obtenir une image déformée de la relation entre les variables. Dans ce cas, il est préférable d'utiliser la corrélation de rang de Spearman.
Voilà comment faire une corrélation dans Excel. Pour voir de plus près les exemples présentés dans ce tutoriel, nous vous invitons à télécharger notre classeur type ci-dessous. Je vous remercie de votre lecture et j'espère vous voir sur notre blog la semaine prochaine !
Cahier d'exercices
Calculer la corrélation dans Excel (fichier .xlsx)