Корелација во Excel: коефициент, матрица и график

  • Споделете Го Ова
Michael Brown

Упатството ги објаснува основите на корелацијата во Excel, покажува како да се пресмета коефициентот на корелација, да се изгради матрица за корелација и да се интерпретираат резултатите.

Една од наједноставните статистички пресметки што можете да ги направите во Excel е корелацијата. Иако е едноставен, тој е многу корисен за разбирање на односите помеѓу две или повеќе променливи. Microsoft Excel ги обезбедува сите потребни алатки за да се изврши анализа на корелација, само треба да знаете како да ги користите.

    Корелација во Excel - основите

    Корелација е мерка која ја опишува силата и насоката на врската помеѓу две променливи. Најчесто се користи во статистиката, економијата и општествените науки за буџети, деловни планови и слично.

    Методот што се користи за проучување колку тесно се поврзани променливите се нарекува анализа на корелација .

    Еве неколку примери на силна корелација:

    • Бројот на калории што ги внесувате и вашата тежина (позитивна корелација)
    • Температурата надвор и вашите сметки за греење ( негативна корелација)

    И еве ги примерите на податоци кои имаат слаба или никаква корелација:

    • Името на вашата мачка и нејзината омилена храна
    • Бојата на твоите очи и твојата висина

    Основна работа што треба да се разбере за корелацијата е тоа што таа само покажува колку тесно се поврзани две променливи. Корелацијата, сепак, не имплицираод одреден опсег.

  • ROWS и COLUMNS - вратете го бројот на редови и колони во опсегот, соодветно. Во нашата формула за корелација, и двете се користат со една цел - да се добие бројот на колони за поместување од почетниот опсег. И ова се постигнува со паметно користење на апсолутни и релативни референци.
  • За подобро да ја разбереме логиката, да видиме како формулата ги пресметува коефициентите нагласени на сликата од екранот погоре.

    Прво, ајде да испитајте ја формулата во B18, која наоѓа корелација помеѓу месечната температура (B2:B13) и продадените греалки (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Во првата функција OFFSET, ROWS($1: 1) се трансформираше во ROWS($1:3), бидејќи втората координата е релативна, па се менува врз основа на релативната позиција на редот каде што е копирана формулата (2 реда надолу). Така, ROWS() враќа 3, од кои одземаме 1 и добиваме опсег кој е 2 колони десно од опсегот на изворот, т.е. $D$2:$D$13 (продажба на грејач).

    вториот OFFSET не го менува наведениот опсег $B$2:$B$13 (температура) бидејќи COLUMNS($A:A)-1 враќа нула.

    Како резултат, нашата долга формула се претвора во едноставна CORREL( $D$2:$D$13, $B$2:$B$13) и го враќа точно коефициентот што го сакаме.

    Формулата во C18 која пресметува коефициент на корелација за трошоците за рекламирање (C2:C13) и продажбата ( D2:D13) работи на сличен начин:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Првата функција OFFSET еапсолутно исто како што е опишано погоре, враќајќи го опсегот од $D$2:$D$13 (продажба на грејач).

    Во вториот OFFSET, COLUMNS($A:A)-1 се менува во COLUMNS($A: Б)-1 затоа што ја копиравме колоната со формула 1 десно. Следствено, OFFSET добива опсег што е 1 колона десно од опсегот на изворот, т.е. $C$2:$C$13 (трошок за рекламирање).

    Како да нацртате графикон за корелација во Excel

    Кога правите корелација во Excel, најдобриот начин да добиете визуелна претстава за односите помеѓу вашите податоци е да нацртате растежна шема со тренд линија . Еве како:

    1. Изберете две колони со нумерички податоци, вклучувајќи ги и заглавијата на колоните. Редоследот на колоните е важен: променливата независна треба да биде во левата колона бидејќи оваа колона треба да се нацрта на оската x; променливата зависна треба да биде во десната колона бидејќи ќе биде нацртана на оската y.
    2. На табулаторот Внеси , во Разговори група, кликнете на иконата на графиконот Scatter . Ова веднаш ќе вметне графикон за растурање XY во вашиот работен лист.
    3. Десен клик на која било податочна точка во табелата и изберете Додај линија на тренд... од контекстното мени.

    За деталните инструкции чекор-по-чекор, погледнете:

    • Како да креирате заплет на расфрлање во Excel
    • Како да додадете линија на тренд во графиконот на Excel

    За нашиот примерок сет на податоци, графиконите за корелација изгледаат како што е прикажано на сликата подолу.Дополнително, ја прикажавме вредноста на R-квадрат, наречена и Коефициент на определување . Оваа вредност покажува колку добро линијата на тренд кореспондира со податоците - колку е поблиску R2 до 1, толку подобро се вклопува.

    Од вредноста R2 прикажана на вашата растура, можете лесно да го пресметате коефициентот на корелација:

    <0 20>
  • За подобра прецизност, земете го Excel да прикажува повеќе цифри во вредноста на квадрат R отколку што е стандардно.
  • Кликнете на вредноста R2 на табелата, изберете ја со помош на глувчето и притиснете Ctrl + C за да го копирате.
  • Добијте квадратен корен од R2 или со користење на функцијата SQRT или со подигање на копираната вредност R2 на моќност од 0,5.
  • На пример, Вредноста на R2 во вториот графикон е 0,9174339392. Значи, можете да го најдете коефициентот на корелација за Рекламирање и Продадени греалки со една од овие формули:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Како што можете да бидете сигурни, коефициентите пресметани на овој начин се совршено во согласност со коефициентите на корелација пронајдени во претходните примери, освен знакот :

    Потенцијални проблеми со корелацијата во Excel

    Корелацијата на моментот на производ на Пирсон само открива линеарна врска помеѓу двете променливи. Што значи, вашите променливи може да се силно поврзани на друг, криволинеарен начин и сепак да имаат коефициент на корелација еднаков или близок до нула.

    Пирсоновата корелација не може даразликувајте ги променливите зависни и независни . На пример, кога се користи функцијата CORREL за да се најде поврзаноста помеѓу просечната месечна температура и бројот на продадени грејачи, добивме коефициент од -0,97, што укажува на висока негативна корелација. Сепак, можете да се префрлите околу променливите и да го добиете истиот резултат. Значи, некој може да заклучи дека поголемата продажба на греалки предизвикува пад на температурата, што очигледно нема смисла. Затоа, кога извршувате анализа на корелација во Excel, внимавајте на податоците што ги давате.

    Покрај тоа, корелацијата Пирсон е многу чувствителна на оддалечените . Ако имате една или повеќе точки на податоци кои во голема мера се разликуваат од останатите податоци, може да добиете искривена слика за односот помеѓу променливите. Во овој случај, би било мудро да ја користите корелацијата за рангирање на Спирман.

    Така се прави корелација во Excel. За да ги погледнете одблизу примерите дискутирани во ова упатство, добредојдени сте да ја преземете нашата примерок работна книга подолу. Ви благодарам што прочитавте и се надевам дека ќе се видиме на нашиот блог следната недела!

    Вежбајте работна книга

    Пресметај корелација во Excel (датотека .xlsx)

    причинско-последична врска. Фактот дека промените во едната променлива се поврзани со промените во другата променлива не значи дека едната променлива всушност предизвикува промена на другата.

    Ако сте заинтересирани да научите каузалност и да правите предвидувања, направете чекор напред и врши линеарна регресивна анализа.

    Коефициент на корелација во Excel - интерпретација на корелација

    Нумеричката мерка за степенот на поврзаност помеѓу две континуирани променливи се нарекува коефициент на корелација ( r).

    Вредноста на коефициентот е секогаш помеѓу -1 и 1 и ја мери и силата и насоката на линеарната врска помеѓу променливите.

    Сила

    Колку е поголема апсолутната вредност на коефициентот, толку е посилна врската:

    • Екстремните вредности на -1 и 1 укажуваат на совршена линеарна врска кога сите точки на податоци паѓаат на права. Во пракса, ретко се забележува совршена корелација, било позитивна или негативна.
    • Коефициентот 0 не покажува линеарна врска помеѓу променливите. Ова е она што веројатно ќе го добиете со две групи на случајни броеви.
    • Вредностите помеѓу 0 и +1/-1 претставуваат скала на слаби, умерени и силни врски. Како што r се приближува до -1 или 1, силата на врската се зголемува.

    Насока

    Знакот на коефициентот (плус или минус) го означува насока наоднос.

    • Позитивните коефициентите претставуваат директна корелација и произведуваат нагорен наклон на графиконот - како што една променлива се зголемува, така се зголемува и другата, и обратно.
    • Негативните коефициентите претставуваат инверзна корелација и создаваат надолна падина на графиконот - како што една променлива се зголемува, другата променлива има тенденција да се намалува.

    За подобро разбирање, ве молиме погледнете следните графикони на корелација:

    • Коефициентот 1 значи совршена позитивна врска - како што една променлива се зголемува, другата пропорционално се зголемува.
    • Коефициент од -1 значи совршена негативна врска - како што една променлива се зголемува, другата пропорционално се намалува.
    • Коефициентот 0 значи дека нема врска помеѓу две променливи - точките на податоци се расфрлани низ графиконот.

    Пирсон корелација

    Во статистиката, тие мерат неколку видови на корелација во зависност од видот на податоците со кои работите. Во ова упатство, ќе се фокусираме на најчестиот.

    Пирсон корелација , целосното име е Корекција на моментот на производот на Pearson (PPMC), се користи за процени линеарни односи помеѓу податоците кога промената во една променлива е поврзана со пропорционална промена во другата променлива. Во едноставни термини, корелацијата Пирсон одговара на прашањето: Дали податоците можат да бидат претставени на алинија?

    Во статистиката, тој е најпопуларниот тип на корелација, а ако се занимавате со „коефициент на корелација“ без дополнителни квалификации, најверојатно тоа е Пирсон.

    Еве го најчесто користената формула за наоѓање на коефициентот на корелација на Пирсон, исто така наречена Пирсонов R :

    Понекогаш може да наидете на две други формули за пресметување на коефициентот на корелација на примерок (r) и коефициентот на корелација на населението (ρ).

    Како да се направи корелација Пирсон во Excel

    Рачното пресметување на коефициентот на корелација на Пирсон вклучува доста математика . За среќа, Microsoft Excel ги направи работите многу едноставни. Во зависност од вашиот сет на податоци и вашата цел, можете слободно да користите една од следниве техники:

    • Најдете го коефициентот на корелација на Пирсон со функцијата CORREL.
    • Направете матрица за корелација со вршење на анализа на податоци.
    • Најдете повеќе коефициенти на корелација со формула.
    • Исцртувајте графикон за корелација за да добиете визуелна претстава за односот на податоците.

    Како да се пресмета коефициент на корелација во Excel

    За рачно да пресметате коефициент на корелација, треба да ја користите оваа долга формула. За да го пронајдете коефициентот на корелација во Excel, искористете ја функцијата CORREL или PEARSON и добијте го резултатот за дел од секундата.

    Excel CORREL функција

    Функцијата CORREL ја враќаПирсонов коефициент на корелација за две групи вредности. Неговата синтакса е многу лесна и јасна:

    CORREL(array1, array2)

    Каде:

    • Array1 е првиот опсег на вредности.
    • Array2 е вториот опсег на вредности.

    Двете низи треба да имаат еднаква должина.

    Претпоставувајќи дека имаме множество од независни променливи ( x ) во B2:B13 и зависните променливи (y) во C2:C13, нашата формула за коефициент на корелација оди на следниов начин:

    =CORREL(B2:B13, C2:C13)

    Или, би можеле да ги замениме опсезите и сепак добијте го истиот резултат:

    =CORREL(C2:C13, B2:B13)

    Во секој случај, формулата покажува силна негативна корелација (околу -0,97) помеѓу просечната месечна температура и бројот на продадени греалки:

    3 работи што треба да ги знаете за функцијата CORREL во Excel

    За успешно да го пресметате коефициентот на корелација во Excel, ве молиме имајте ги на ум овие 3 едноставни факти:

    • Ако една или повеќе ќелии во низа содржи текст, логички вредности или празни места, таквите ќелии се игнорираат; се пресметуваат ќелиите со нулта вредности.
    • Ако доставените низи се со различна должина, се враќа грешка #N/A.
    • Ако некоја од низите е празна или ако стандардното отстапување на нивните вредности се еднакви на нула, #DIV/0! се појавува грешка.

    Excel PEARSON функција

    Функцијата PEARSON во Excel го прави истото - го пресметува коефициентот на корелација на моментот на производот на Pearson.

    PEARSON(array1,низа2)

    Каде:

    • Array1 е опсег од независни вредности.
    • Array2 е опсег на зависни вредности.

    Бидејќи PEARSON и CORREL и двете го пресметуваат коефициентот на линеарна корелација на Пирсон, нивните резултати треба да се совпаѓаат, а тие обично се согласуваат во последните верзии на Excel 2007 до Excel 2019.

    Во Excel 2003 и претходните верзии, сепак, функцијата PEARSON може да прикаже некои грешки во заокружувањето. Затоа, во постарите верзии, се препорачува да се користи CORREL пред PEARSON.

    На нашиот примерок сет на податоци, двете функции ги покажуваат истите резултати:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Како да се направи корелација матрица во Excel со анализа на податоци

    Кога треба да ги тестирате меѓусебните односи помеѓу повеќе од две променливи, има смисла да се конструира матрица за корелација, која понекогаш се нарекува коефициент на повеќекратна корелација .

    матрицата за корелација е табела која ги прикажува коефициентите на корелација помеѓу променливите на пресекот на соодветните редови и колони.

    Матрицата за корелација во Excel е изградена со помош на алатката Correlation од додатокот Analysis ToolPak . Овој додаток е достапен во сите верзии на Excel 2003 до Excel 2019, но не е стандардно овозможен. Ако сè уште не сте го активирале, ве молиме направете го тоа сега следејќи ги чекорите опишани во Како да се овозможи Пакет со алатки за анализа на податоци во Excel.

    Соалатките за анализа на податоци додадени на вашата лента на Excel, подготвени сте да извршите анализа на корелација:

    1. На горниот десен агол на картичката Податоци > Анализа група, кликнете на копчето Анализа на податоци .
    2. Во полето за дијалог Анализа на податоци , изберете Корелација и кликнете OK.
    3. Во полето Корелација , конфигурирајте ги параметрите на овој начин:
      • Кликнете во полето Влезен опсег и изберете го опсегот со вашите изворни податоци, вклучувајќи ги и заглавијата на колоните (B1:D13 во нашиот случај).
      • Во делот Групирани по , проверете дали е избрано радио-кутијата Колони (дадено дека вашите изворни податоци се групирани во колони).
      • Изберете го полето за избор Етикети во првиот ред ако избраниот опсег содржи заглавија на колони.
      • Изберете ја саканата излезна опција. За да ја имате матрицата во истиот лист, изберете Излезен опсег и наведете ја референцата до најлевата ќелија во која матрицата треба да излезе (A15 во овој пример).

    Кога ќе завршите, кликнете на копчето OK :

    Вашата матрица на коефициенти на корелација е завршена и треба да изгледа нешто како што е прикажано во следниот дел.

    Толкување на резултатите од анализата на корелација

    Во вашата Excel матрица за корелација, можете да ги најдете коефициентите на пресекот на редовите и колоните. Ако координатите на колоната и редот се исти, се добива вредноста 1.

    Во горенаведенотона пример, ние сме заинтересирани да ја знаеме корелацијата помеѓу зависната променлива (број на продадени греалки) и две независни променливи (просечна месечна температура и трошоци за рекламирање). Значи, ги гледаме само броевите на пресекот на овие редови и колони, кои се означени на сликата подолу:

    Негативниот коефициент од -0,97 (заокружен на 2 децимали) покажува силна инверзна корелација помеѓу месечната температура и продажбата на греалката - како што температурата расте, се продаваат помалку греалки.

    Позитивниот коефициент од 0,97 (заокружено на 2 децимали) укажува на силна директна врска помеѓу буџетот за рекламирање и продажбата - толку повеќе парите што ги трошите за рекламирање, толку е поголема продажбата.

    Како да направите повеќекратна корелација во Excel со формули

    Да се ​​изгради корелација табела со алатката Data Analysis е лесно. Сепак, таа матрица е статична, што значи дека ќе треба повторно да извршите анализа на корелација секој пат кога ќе се променат изворните податоци.

    Добрата вест е што можете лесно сами да изградите слична табела за корелација и таа матрица автоматски ќе се ажурира со секоја промена на вредностите на изворот.

    За да го направите тоа, користете ја оваа генеричка формула:

    CORREL(OFFSET( прва_променлива_опсег , 0, ROWS($1:1)-1) , OFFSET( first_variable_range , 0, COLUMNS($A:A)-1))

    Важна забелешка! За формулата да работи, треба да заклучитепрвиот опсег на променлива со користење на апсолутни референци на ќелиите.

    Во нашиот случај, првиот опсег на променлива е $B$2:$B$13 (ве молиме забележете го знакот $ што ја заклучува референцата), а нашата формула за корелација го зема ова shape:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Со формулата подготвена, ајде да конструираме матрица за корелација:

    1. Во првиот ред и првата колона од матрицата, напишете ги променливите' етикетите по ист редослед како што се појавуваат во вашата изворна табела (ве молиме погледнете ја сликата од екранот подолу).
    2. Внесете ја горната формула во најлевата ќелија (B16 во нашиот случај).
    3. Повлечете ја формулата надолу и надесно за да го копирате во онолку редови и колони колку што е потребно (3 реда и 3 колони во нашиот пример).

    Како резултат, ја добивме следнава матрица со повеќекратна корелација коефициенти. Забележете дека коефициентите вратени со нашата формула се потполно исти како и дадените од Excel во претходниот пример (релевантните се означени):

    Како функционира оваа формула

    Како што веќе знаете, функцијата Excel CORREL го враќа коефициентот на корелација за две групи на променливи што ќе ги наведете. Главниот предизвик е да се обезбедат соодветни опсези во соодветните ќелии на матрицата. За ова, го внесувате само првиот опсег на променлива во формулата и ги користите следните функции за да ги направите потребните прилагодувања:

    • OFFSET - враќа опсег што е даден број на редови и колони

    Мајкл Браун е посветен технолошки ентузијаст со страст за поедноставување на сложените процеси користејќи софтверски алатки. Со повеќе од една деценија искуство во технолошката индустрија, тој ги усоврши своите вештини во Microsoft Excel и Outlook, како и Google Sheets и Docs. Блогот на Мајкл е посветен на споделување на своето знаење и експертиза со другите, обезбедувајќи лесни за следење совети и упатства за подобрување на продуктивноста и ефикасноста. Без разлика дали сте искусен професионалец или почетник, блогот на Мајкл нуди вредни сознанија и практични совети за да го извлечете максимумот од овие основни софтверски алатки.