Korelācija programmā Excel: koeficients, matrica un grafiks

  • Dalīties Ar Šo
Michael Brown

Šajā pamācībā ir izskaidroti korelācijas pamati programmā Excel, parādīts, kā aprēķināt korelācijas koeficientu, izveidot korelācijas matricu un interpretēt rezultātus.

Viens no vienkāršākajiem statistiskajiem aprēķiniem, ko varat veikt programmā Excel, ir korelācija. Lai gan tas ir vienkāršs, tas ir ļoti noderīgs, lai izprastu attiecības starp diviem vai vairākiem mainīgajiem lielumiem. Microsoft Excel nodrošina visus nepieciešamos rīkus korelācijas analīzes veikšanai, jums tikai jāzina, kā tos izmantot.

    Korelācija programmā Excel - pamati

    Korelācija Tas ir rādītājs, kas raksturo divu mainīgo attiecību stiprumu un virzienu. To parasti izmanto statistikā, ekonomikā un sociālajās zinātnēs, veidojot budžetus, biznesa plānus un tamlīdzīgi.

    Metodi, ko izmanto, lai izpētītu, cik cieši mainīgie ir saistīti, sauc par korelācijas analīze .

    Lūk, daži spēcīgas korelācijas piemēri:

    • apēsto kaloriju skaits un svars (pozitīva korelācija).
    • āra temperatūra un jūsu apkures rēķini (negatīva korelācija).

    Un šeit ir piemēri datiem, kuriem ir vāja korelācija vai tās nav vispār:

    • Jūsu kaķa vārds un mīļākais ēdiens
    • Jūsu acu krāsa un augums

    Būtiski ir saprast, ka korelācija parāda tikai to, cik cieši saistīti ir divi mainīgie lielumi. Tomēr korelācija nenozīmē cēloņsakarību. Tas, ka viena mainīgā lieluma izmaiņas ir saistītas ar otra mainīgā lieluma izmaiņām, nenozīmē, ka viens mainīgais lielums faktiski izraisa otra mainīgā izmaiņas.

    Ja vēlaties uzzināt cēloņsakarību un veikt prognozes, speriet soli uz priekšu un veiciet lineāro regresijas analīzi.

    Korelācijas koeficients programmā Excel - korelācijas interpretācija

    Divu nepārtrauktu mainīgo savstarpējās saistības pakāpes skaitlisko mēru sauc par koeficientu. korelācijas koeficients (r).

    Koeficienta vērtība vienmēr ir robežās no -1 līdz 1, un tā mēra gan mainīgo lineārās sakarības stiprumu, gan virzienu.

    Spēks

    Jo lielāka ir koeficienta absolūtā vērtība, jo spēcīgāka ir sakarība:

    • Ekstrēmās vērtības -1 un 1 norāda uz perfektu lineāru sakarību, kad visi datu punkti atrodas uz līnijas. Praksē perfekta sakarība - pozitīva vai negatīva - ir novērojama reti.
    • Koeficients 0 norāda, ka starp mainīgajiem lielumiem nav lineāras sakarības. Šādu rezultātu, visticamāk, iegūsiet, izmantojot divus nejaušo skaitļu kopumus.
    • Vērtības no 0 līdz +1/-1 atbilst vāju, vidēji stipru un stipru attiecību skalai. kā r tuvojas -1 vai 1, pieaug sakarības stiprums.

    Virziens

    Koeficienta zīme (plus vai mīnus) norāda attiecības virzienu.

    • Pozitīvs koeficienti atspoguļo tiešo korelāciju un veido augšupejošu slīpumu grafikā - palielinoties vienam mainīgajam lielumam, palielinās arī otrs, un otrādi.
    • Negatīvs koeficienti atspoguļo apgriezto korelāciju un veido grafikā lejupvērstu slīpumu - vienam mainīgajam pieaugot, otram mainīgajam ir tendence samazināties.

    Labākai izpratnei aplūkojiet turpmāk sniegtos korelācijas grafikus:

    • Koeficients 1 nozīmē perfektu pozitīvu sakarību - palielinoties vienam mainīgajam lielumam, proporcionāli palielinās arī otrs mainīgais lielums.
    • Koeficients -1 nozīmē ideālu negatīvu sakarību - palielinoties vienam mainīgajam lielumam, otrs proporcionāli samazinās.
    • Koeficients 0 tas nozīmē, ka starp diviem mainīgajiem nav nekādas saistības - datu punkti ir izkaisīti pa visu grafiku.

    Pīrsona korelācija

    Statistikā mēra vairāku veidu korelāciju atkarībā no datu veida, ar kuriem strādājat. Šajā pamācībā mēs pievērsīsimies visbiežāk sastopamajai korelācijai.

    Pīrsona korelācija , pilns nosaukums ir Pīrsona produkta momenta korelācija (PPMC), izmanto, lai novērtētu lineārais sakarības starp datiem, kad viena mainīgā lieluma izmaiņas ir saistītas ar proporcionālām izmaiņām otrā mainīgajā lielumā. Vienkāršāk sakot, Pīrsona korelācija atbild uz jautājumu: Vai datus var attēlot uz līnijas?

    Statistikā tas ir vispopulārākais korelācijas veids, un, ja jums ir darīšana ar "korelācijas koeficientu" bez papildu precizējumiem, visticamāk, tas ir Pīrsona koeficients.

    Šeit ir visbiežāk izmantotā formula, lai atrastu Pīrsona korelācijas koeficientu, ko sauc arī par Pīrsona R :

    Dažkārt var sastapties ar divām citām formulām, lai aprēķinātu. izlases korelācijas koeficients (r) un iedzīvotāju korelācijas koeficients (ρ).

    Kā veikt Pīrsona korelāciju programmā Excel

    Pīrsona korelācijas koeficienta aprēķināšana ar rokām ir saistīta ar diezgan daudz matemātikas. Par laimi, Microsoft Excel ir ļoti vienkāršojis šo procesu. Atkarībā no jūsu datu kopas un mērķa varat izmantot kādu no turpmāk minētajām metodēm:

    • Atrodiet Pīrsona korelācijas koeficientu, izmantojot funkciju CORREL.
    • Izveidojiet korelācijas matricu, veicot datu analīzi.
    • Atrodiet daudzkārtējus korelācijas koeficientus, izmantojot formulu.
    • Uzzīmējiet korelācijas grafiku, lai vizuāli attēlotu datu attiecību.

    Kā aprēķināt korelācijas koeficientu programmā Excel

    Lai ar rokām aprēķinātu korelācijas koeficientu, ir jāizmanto šī garā formula. Lai atrastu korelācijas koeficientu programmā Excel, izmantojiet funkciju CORREL vai PEARSON un iegūstat rezultātu sekundes daļas laikā.

    Excel CORREL funkcija

    CORREL funkcija atgriež Pīrsona korelācijas koeficientu divām vērtību kopām. Tās sintakse ir ļoti vienkārša un vienkārša:

    CORREL(array1, array2)

    Kur:

    • Masīvs1 ir pirmais vērtību diapazons.
    • Masīvs2 ir otrais vērtību diapazons.

    Abiem masīviem jābūt vienāda garuma.

    Pieņemot, ka mums ir neatkarīgo mainīgo kopums ( x ) B2:B13 un atkarīgie mainīgie (y) C2:C13, mūsu korelācijas koeficienta formula ir šāda:

    =CORREL(B2:B13, C2:C13)

    Vai arī mēs varam apmainīt diapazonus un iegūt to pašu rezultātu:

    =CORREL(C2:C13, B2:B13)

    Jebkurā gadījumā formula rāda spēcīgu negatīvu korelāciju (aptuveni -0,97) starp mēneša vidējo temperatūru un pārdoto sildītāju skaitu:

    3 lietas, kas jāzina par funkciju CORREL programmā Excel

    Lai veiksmīgi aprēķinātu korelācijas koeficientu programmā Excel, ņemiet vērā šos 3 vienkāršos faktus:

    • Ja vienā vai vairākās masīva šūnās ir teksts, loģiskās vērtības vai tukšie lauki, šādas šūnas tiek ignorētas; šūnas ar nulles vērtībām tiek aprēķinātas.
    • Ja sniegtie masīvi ir dažāda garuma, tiek atgriezta #N/A kļūda.
    • Ja kāds no šiem masīviem ir tukšs vai ja to vērtību standartnovirze ir vienāda ar nulli, rodas #DIV/0! kļūda.

    Excel PEARSON funkcija

    To pašu dara arī Excel funkcija PEARSON - tā aprēķina Pīrsona produkta momenta korelācijas koeficientu (Pearson Product Moment Correlation coefficient).

    PEARSON(array1, array2)

    Kur:

    • Masīvs1 ir neatkarīgu vērtību diapazons.
    • Masīvs2 ir atkarīgo vērtību diapazons.

    Tā kā PEARSON un CORREL abi aprēķina Pīrsona lineārās korelācijas koeficientu, to rezultātiem vajadzētu būt vienādiem, un jaunākajās Excel 2007 līdz Excel 2019 versijās tie parasti ir vienādi.

    Tomēr programmā Excel 2003 un agrākajās versijās funkcija PEARSON var parādīt dažas noapaļošanas kļūdas. Tāpēc vecākajās versijās ir ieteicams izmantot CORREL, nevis PEARSON.

    Mūsu izlases datu kopai abas funkcijas uzrāda vienādus rezultātus:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Kā izveidot korelācijas matricu programmā Excel, izmantojot datu analīzi

    Ja nepieciešams pārbaudīt vairāk nekā divu mainīgo savstarpējās sakarības, ir lietderīgi izveidot korelācijas matricu, ko dažkārt sauc par korelācijas matricu. daudzkārtējas korelācijas koeficients .

    Portāls korelācijas matrica ir tabula, kurā parādīti korelācijas koeficienti starp mainīgajiem lielumiem attiecīgo rindu un kolonnu krustpunktā.

    Korelācijas matrica programmā Excel tiek veidota, izmantojot Korelācija rīks no Analīzes rīku komplekts Šis papildinājums ir pieejams visās Excel 2003 līdz Excel 2019 versijās, taču pēc noklusējuma tas nav aktivizēts. Ja tas vēl nav aktivizēts, lūdzu, izdariet to tagad, izpildot darbības, kas aprakstītas sadaļā Kā aktivizēt datu analīzes rīku paketi Excel programmā.

    Kad Excel lentē ir pievienoti datu analīzes rīki, varat veikt korelācijas analīzi:

    1. Augšējā labajā stūrī Dati cilne> Analīze grupa, noklikšķiniet uz Datu analīze pogu.
    2. In the Datu analīze dialoglodziņā izvēlieties Korelācija un noklikšķiniet uz Labi.
    3. In the Korelācija lodziņā konfigurējiet parametrus šādā veidā:
      • Noklikšķiniet uz Ieejas diapazons un atlasiet avota datu diapazonu, tostarp kolonnu galvenes (mūsu gadījumā B1:D13).
      • In the Grupēts pēc sadaļā pārliecinieties, vai Kolonnas ir atlasīts radio lodziņš (ņemot vērā, ka avota dati ir sagrupēti slejās).
      • Izvēlieties Etiķetes pirmajā rindā izvēles rūtiņu, ja atlasītajā diapazonā ir kolonnu virsraksti.
      • Izvēlieties vēlamo izvades opciju. Lai matrica būtu tajā pašā lapā, atlasiet Izvades diapazons un norādiet atsauci uz galējo kreiso šūnu, kurā matrica tiks izvadīta (šajā piemērā - A15).

    Kad tas ir izdarīts, noklikšķiniet uz LABI pogu:

    Korelācijas koeficientu matrica ir gatava, un tai vajadzētu izskatīties tā, kā parādīts nākamajā sadaļā.

    Korelācijas analīzes rezultātu interpretācija

    Excel korelācijas matricā var atrast koeficientus rindu un kolonnu krustpunktos. Ja kolonnas un rindas koordinātas ir vienādas, tiek iegūta vērtība 1.

    Iepriekš minētajā piemērā mūs interesē korelācija starp atkarīgo mainīgo lielumu (pārdoto sildītāju skaits) un diviem neatkarīgajiem mainīgajiem lielumiem (mēneša vidējā temperatūra un reklāmas izmaksas). Tāpēc mēs aplūkojam tikai skaitļus šo rindu un kolonnu krustpunktā, kas ir izcelti zemāk redzamajā ekrāna attēlā:

    Negatīvais koeficients -0,97 (noapaļots līdz 2 zīmēm aiz komata) liecina par spēcīgu apgriezto korelāciju starp mēneša temperatūru un sildītāju pārdošanu - temperatūrai paaugstinoties, tiek pārdots mazāk sildītāju.

    Pozitīvais koeficients 0,97 (noapaļots līdz 2 zīmēm aiz komata) norāda uz ciešu tiešu saikni starp reklāmas budžetu un pārdošanas apjomiem - jo vairāk naudas tiek tērēts reklāmai, jo lielāki ir pārdošanas apjomi.

    Kā veikt daudzkārtēju korelācijas analīzi programmā Excel, izmantojot formulas

    Korelācijas tabulas izveide, izmantojot datu analīzes rīku, ir vienkārša. Tomēr šī matrica ir statiska, kas nozīmē, ka katru reizi, kad mainās avota dati, korelācijas analīze būs jāveic no jauna.

    Labā ziņa ir tā, ka līdzīgu korelācijas tabulu var viegli izveidot pats, un šī matrica automātiski atjaunināsies pēc katras avota vērtību izmaiņas.

    Lai to izdarītu, izmantojiet šo vispārīgo formulu:

    CORREL(OFFSET( first_variable_range , 0, RINDAS($1:1)-1), NOBĪDE( first_variable_range , 0, KOLONNAS($A:A)-1))

    Svarīga piezīme! Lai formula darbotos, pirmais mainīgo diapazons ir jānofiksē, izmantojot absolūtās šūnu atsauces.

    Mūsu gadījumā pirmais mainīgo diapazons ir $B$2:$B$13 (lūdzu, ievērojiet $ zīmi, kas bloķē atsauci), un mūsu korelācijas formula ir šāda:

    =CORREL(OFFSET($B$2:$B$13, 0, RINDAS($1:1)-1), OFFSET($B$2:$B$13, 0, KOLONNAS($A:A)-1)))

    Kad formula ir gatava, izveidosim korelācijas matricu:

    1. Matricas pirmajā rindā un pirmajā slejā ierakstiet mainīgo apzīmējumus tādā pašā secībā, kādā tie parādās jūsu avota tabulā (skatiet ekrānšāviņu zemāk).
    2. Ievadiet iepriekš minēto formulu kreisajā šūnā (mūsu gadījumā B16).
    3. Velciet formulu uz leju un pa labi, lai to kopētu uz tik daudzām rindām un kolonnām, cik nepieciešams (mūsu piemērā 3 rindas un 3 kolonnas).

    Rezultātā mēs esam ieguvuši šādu matricu ar vairākiem korelācijas koeficientiem. Lūdzu, ievērojiet, ka mūsu formulas atgrieztie koeficienti ir tieši tādi paši, kādus Excel izvadīja iepriekšējā piemērā (attiecīgie koeficienti ir izcelti):

    Kā darbojas šī formula

    Kā jau zināt, Excel CORREL funkcija atgriež korelācijas koeficientu diviem norādīto mainīgo lielumu kopumiem. Galvenais uzdevums ir nodrošināt atbilstošus diapazonus attiecīgajās matricas šūnās. Šim nolūkam formulā ievadiet tikai pirmo mainīgo diapazonu un izmantojiet turpmāk minētās funkcijas, lai veiktu vajadzīgos pielāgojumus:

    • OFFSET - atgriež diapazonu, kas ir noteikts rindu un kolonnu skaits no norādītā diapazona.
    • ROWS un COLUMNS - atgriež attiecīgi rindu un kolonnu skaitu diapazonā. Mūsu korelācijas formulā abas tiek izmantotas ar vienu mērķi - iegūt kolonnu skaitu, kas jānovirza no sākuma diapazona. Tas tiek panākts, prasmīgi izmantojot absolūtās un relatīvās atsauces.

    Lai labāk izprastu loģiku, aplūkosim, kā formula aprēķina iepriekš attēlā izceltos koeficientus.

    Vispirms pārbaudīsim formulu B18, kurā atrodama korelācija starp mēneša temperatūru (B2:B13) un pārdotajiem sildītājiem (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, RINDAS($1:3)-1), OFFSET($B$2:$B$13, 0, KOLONNAS($A:A)-1)))

    Pirmajā OFFSET funkcijā ROWS($1:1) ir pārveidota uz ROWS($1:3), jo otrā koordināta ir relatīva, tāpēc tā mainās atkarībā no tās rindas relatīvās pozīcijas, kurā tiek kopēta formula (2 rindas uz leju). Tādējādi ROWS() atgriež 3, no kuras atņemam 1 un iegūstam diapazonu, kas ir 2 slejas pa labi no avota diapazona, t. i., $D$2:$D$13 (sildītāja pārdošanas).

    Otrais OFFSET nemaina norādīto diapazonu $B$2:$B$13 (temperatūra), jo COLUMNS($A:A)-1 atgriež nulli.

    Rezultātā mūsu garā formula kļūst par vienkāršu CORREL($D$2:$D$13, $B$2:$B$13) un atgriež tieši vajadzīgo koeficientu.

    Līdzīgi darbojas C18 formula, kas aprēķina korelācijas koeficientu reklāmas izmaksām (C2:C13) un pārdošanas apjomiem (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, RINDAS($1:3)-1), OFFSET($B$2:$B$13, 0, KOLONNAS($A:B)-1)))

    Pirmā OFFSET funkcija ir pilnīgi tāda pati, kā aprakstīts iepriekš, atgriežot diapazonu $D$2:$D$13 (sildītāja pārdošana).

    Otrajā OFFSET reizē COLUMNS($A:A)-1 mainās uz COLUMNS($A:B)-1, jo esam nokopējuši formulu par 1 kolonnu pa labi. Tādējādi OFFSET iegūst diapazonu, kas ir 1 kolonnu pa labi no avota diapazona, t. i., $C$2:$C$13 (reklāmas izmaksas).

    Kā uzzīmēt korelācijas diagrammu programmā Excel

    Veicot korelāciju programmā Excel, vislabākais veids, kā vizuāli attēlot attiecības starp datiem, ir uzzīmēt diagrammu. izkliedes laukums ar tendenču līnija . Lūk, kā:

    1. Izvēlieties divas kolonnas ar skaitliskajiem datiem, ieskaitot kolonnu galvenes. Svarīga ir kolonnu secība: kolonnu neatkarīga mainīgajam jāatrodas kreisajā slejā, jo šī sleja jāattēlo uz x ass; mainīgajam atkarīga mainīgajam jābūt labajā slejā, jo tas tiks attēlots uz y ass.
    2. Par Ievietotie cilnē Tērzēšanas grupa, noklikšķiniet uz Izkliedēt Tas nekavējoties ievietos XY izkliedes diagrammu darblapā.
    3. Ar peles labo pogu noklikšķiniet uz jebkura diagrammas datu punkta un izvēlieties Pievienot Trendline... no konteksta izvēlnes.

    Sīkāku soli-pa-solim detalizētu instrukciju skatiet šeit:

    • Kā izveidot izkliedes diagrammu programmā Excel
    • Kā pievienot tendenču līniju Excel diagrammai

    Mūsu parauga datu kopai korelācijas diagrammas izskatās, kā parādīts attēlā zemāk. Turklāt mēs parādījām R-kvadrāta vērtību, ko sauc arī par koeficientu Noteicošais koeficients Šī vērtība norāda, cik labi tendences līnija atbilst datiem - jo tuvāk R2 ir 1, jo labāka atbilstība.

    No R2 vērtības, kas parādīta izkliedes diagrammā, var viegli aprēķināt korelācijas koeficientu:

    1. Lai iegūtu lielāku precizitāti, pierunājiet programmu Excel, lai R-kvadrāta vērtībā tiktu parādīts vairāk ciparu nekā pēc noklusējuma.
    2. Noklikšķiniet uz R2 vērtības diagrammā, atlasiet to, izmantojot peli, un nospiediet Ctrl + C, lai to kopētu.
    3. Iegūstiet R2 kvadrātsakni, izmantojot funkciju SQRT vai palielinot nokopēto R2 vērtību līdz 0,5 lielumam.

    Piemēram, R2 vērtība otrajā grafikā ir 0,9174339392. Tātad jūs varat atrast korelācijas koeficientu attiecībā uz Reklāma un Pārdotie sildītāji ar kādu no šīm formulām:

    =SQRT(0,9174339392)

    =0.9174339392^0.5

    Kā varat pārliecināties, šādi aprēķinātie koeficienti pilnībā atbilst iepriekšējos piemēros atrastajiem korelācijas koeficientiem, izņemot zīmi :

    Iespējamās problēmas ar korelāciju programmā Excel

    Portāls Pīrsona produkta momenta korelācija atklāj tikai lineārais Tas nozīmē, ka jūsu mainīgie var būt cieši saistīti citā, līkumainā veidā, un to korelācijas koeficients joprojām var būt vienāds ar nulli vai tuvs nullei.

    Pīrsona korelācija nespēj atšķirt atkarīga un neatkarīga Piemēram, izmantojot CORREL funkciju, lai atrastu saistību starp mēneša vidējo temperatūru un pārdoto sildītāju skaitu, mēs ieguvām koeficientu -0,97, kas norāda uz augstu negatīvu korelāciju. Tomēr var apmainīt mainīgos lielumus un iegūt tādu pašu rezultātu. Tādējādi kāds var secināt, ka lielāks sildītāju pārdošanas apjoms izraisa temperatūras pazemināšanos, kas, protams, nav pareizi.Tāpēc, veicot korelācijas analīzi programmā Excel, ņemiet vērā, kādus datus sniedzat.

    Turklāt Pīrsona korelācija ir ļoti jutīga pret novirzes Ja ir viens vai vairāki datu punkti, kas ievērojami atšķiras no pārējiem datiem, var rasties izkropļots priekšstats par mainīgo attiecību. Šādā gadījumā būtu prātīgāk izmantot Spīrmena rangu korelāciju.

    Lūk, kā Excel programmā veikt korelāciju. Lai tuvāk aplūkotu šajā pamācībā aplūkotos piemērus, aicinām lejupielādēt mūsu parauga darbgrāmatu zemāk. Paldies, ka izlasījāt, un ceru, ka nākamnedēļ tiksimies mūsu emuārā!

    Prakses darba burtnīca

    Korelācijas aprēķināšana programmā Excel (.xlsx failā)

    Maikls Brauns ir īpašs tehnoloģiju entuziasts, kura aizraušanās ir sarežģītu procesu vienkāršošana, izmantojot programmatūras rīkus. Ar vairāk nekā desmit gadu pieredzi tehnoloģiju nozarē viņš ir pilnveidojis savas prasmes programmās Microsoft Excel un Outlook, kā arī Google izklājlapās un dokumentos. Maikla emuārs ir veltīts tam, lai dalītos savās zināšanās un pieredzē ar citiem, sniedzot viegli izpildāmus padomus un pamācības produktivitātes un efektivitātes uzlabošanai. Neatkarīgi no tā, vai esat pieredzējis profesionālis vai iesācējs, Maikla emuārs piedāvā vērtīgas atziņas un praktiskus padomus, kā maksimāli izmantot šos būtiskos programmatūras rīkus.