Excel'de korelasyon: katsayı, matris ve grafik

  • Bunu Paylaş
Michael Brown

Bu eğitim Excel'de korelasyonun temellerini açıklar, korelasyon katsayısının nasıl hesaplanacağını, bir korelasyon matrisinin nasıl oluşturulacağını ve sonuçların nasıl yorumlanacağını gösterir.

Excel'de yapabileceğiniz en basit istatistiksel hesaplamalardan biri korelasyondur. Basit olmasına rağmen, iki veya daha fazla değişken arasındaki ilişkileri anlamak için çok yararlıdır. Microsoft Excel, korelasyon analizini çalıştırmak için gerekli tüm araçları sağlar, sadece bunları nasıl kullanacağınızı bilmeniz gerekir.

    Excel'de korelasyon - temel bilgiler

    Korelasyon İki değişken arasındaki ilişkinin gücünü ve yönünü tanımlayan bir ölçüdür. İstatistik, ekonomi ve sosyal bilimlerde bütçeler, iş planları ve benzerleri için yaygın olarak kullanılır.

    Değişkenlerin ne kadar yakından ilişkili olduğunu incelemek için kullanılan yönteme korelasyon analizi .

    İşte güçlü korelasyonun birkaç örneği:

    • Yediğiniz kalori miktarı ve kilonuz (pozitif korelasyon)
    • Dışarıdaki sıcaklık ve ısıtma faturalarınız (negatif korelasyon)

    Ve işte zayıf ya da hiç korelasyonu olmayan veri örnekleri:

    • Kedinizin adı ve en sevdiği yiyecek
    • Gözlerinizin rengi ve boyunuz

    Korelasyon hakkında anlaşılması gereken önemli bir husus, korelasyonun sadece iki değişkenin birbiriyle ne kadar yakından ilişkili olduğunu göstermesidir. Ancak korelasyon nedensellik anlamına gelmez. Bir değişkendeki değişikliklerin diğer değişkendeki değişikliklerle ilişkili olması, bir değişkenin aslında diğerinin değişmesine neden olduğu anlamına gelmez.

    Nedenselliği öğrenmek ve tahminlerde bulunmakla ilgileniyorsanız, bir adım ileri gidin ve doğrusal regresyon analizi yapın.

    Excel'de korelasyon katsayısı - korelasyonun yorumlanması

    İki sürekli değişken arasındaki ilişkinin derecesinin sayısal ölçüsüne korelasyon katsayısı (r).

    Katsayı değeri her zaman -1 ile 1 arasındadır ve değişkenler arasındaki doğrusal ilişkinin hem gücünü hem de yönünü ölçer.

    Güç

    Katsayının mutlak değeri ne kadar büyükse, ilişki o kadar güçlüdür:

    • Uç değerler olan -1 ve 1, tüm veri noktaları bir doğru üzerinde olduğunda mükemmel bir doğrusal ilişkiyi gösterir. Pratikte, pozitif veya negatif mükemmel bir korelasyon nadiren gözlemlenir.
    • Katsayının 0 olması değişkenler arasında doğrusal bir ilişki olmadığını gösterir. İki rastgele sayı kümesi ile elde etmeniz muhtemel olan şey budur.
    • 0 ile +1/-1 arasındaki değerler zayıf, orta ve güçlü ilişkiler ölçeğini temsil eder. r -1 ya da 1'e yaklaştıkça ilişkinin gücü artar.

    Yön

    Katsayı işareti (artı veya eksi) ilişkinin yönünü gösterir.

    • Pozitif katsayıları doğrudan korelasyonu temsil eder ve grafikte yukarı doğru bir eğim oluşturur - bir değişken arttıkça diğeri de artar ve bunun tersi de geçerlidir.
    • Negatif katsayıları ters korelasyonu temsil eder ve grafikte aşağı doğru bir eğim oluşturur - bir değişken arttıkça, diğer değişken azalma eğilimindedir.

    Daha iyi anlamak için lütfen aşağıdaki korelasyon grafiklerine bir göz atın:

    • Bir katsayı 1 mükemmel pozitif ilişki anlamına gelir - bir değişken arttıkça diğeri de orantılı olarak artar.
    • Bir katsayı -1 mükemmel bir negatif ilişki anlamına gelir - bir değişken arttıkça diğeri orantılı olarak azalır.
    • Bir katsayı 0 iki değişken arasında ilişki olmadığı anlamına gelir - veri noktaları grafiğin her tarafına dağılmıştır.

    Pearson korelasyon

    İstatistikte, çalıştığınız verinin türüne bağlı olarak çeşitli korelasyon türlerini ölçerler. Bu eğitimde, en yaygın olanına odaklanacağız.

    Pearson Korelasyon tam adı ise Pearson Momentler Çarpımı Korelasyonu (PPMC), değerlendirmek için kullanılır doğrusal Bir değişkendeki değişim diğer değişkendeki orantılı değişimle ilişkilendirildiğinde veriler arasındaki ilişkiler. Basit bir ifadeyle, Pearson Korelasyonu şu soruyu yanıtlar: Veriler bir doğru üzerinde temsil edilebilir mi?

    İstatistikte en popüler korelasyon türüdür ve daha fazla nitelendirme olmaksızın bir "korelasyon katsayısı" ile uğraşıyorsanız, bu büyük olasılıkla Pearson olacaktır.

    Pearson korelasyon katsayısını bulmak için en yaygın kullanılan formül şu şekildedir Pearson'ın R :

    Zaman zaman, aşağıdaki değerleri hesaplamak için iki farklı formülle daha karşılaşabilirsiniz örnek korelasyon katsayısı (r) ve nüfus korelasyon katsayısı (ρ).

    Excel'de Pearson korelasyonu nasıl yapılır

    Pearson korelasyon katsayısını elle hesaplamak oldukça fazla matematik gerektirir. Neyse ki Microsoft Excel işleri çok basit hale getirmiştir. Veri setinize ve hedefinize bağlı olarak, aşağıdaki tekniklerden birini kullanmakta özgürsünüz:

    • CORREL fonksiyonu ile Pearson korelasyon katsayısını bulun.
    • Veri Analizi gerçekleştirerek bir korelasyon matrisi oluşturun.
    • Bir formül ile çoklu korelasyon katsayılarını bulun.
    • Veri ilişkisinin görsel temsilini elde etmek için bir korelasyon grafiği çizin.

    Excel'de korelasyon katsayısı nasıl hesaplanır

    Korelasyon katsayısını elle hesaplamak için bu uzun formülü kullanmanız gerekir. Excel'de korelasyon katsayısını bulmak için CORREL veya PEARSON işlevinden yararlanın ve sonucu bir saniyeden kısa bir sürede alın.

    Excel CORREL işlevi

    CORREL fonksiyonu iki değer kümesi için Pearson korelasyon katsayısını döndürür. Sözdizimi çok kolay ve anlaşılırdır:

    CORREL(dizi1, dizi2)

    Nerede?

    • Array1 ilk değer aralığıdır.
    • Dizi2 ikinci değer aralığıdır.

    İki dizinin uzunluğu eşit olmalıdır.

    Bir dizi bağımsız değişkene sahip olduğumuzu varsayarsak ( x ) B2:B13'te ve bağımlı değişkenler (y) C2:C13'te yer aldığında, korelasyon katsayısı formülümüz aşağıdaki gibidir:

    =CORREL(B2:B13, C2:C13)

    Ya da aralıkları değiştirebilir ve yine aynı sonucu elde edebiliriz:

    =CORREL(C2:C13, B2:B13)

    Her iki durumda da formül, ortalama aylık sıcaklık ile satılan ısıtıcı sayısı arasında güçlü bir negatif korelasyon (yaklaşık -0,97) olduğunu göstermektedir:

    Excel'de CORREL işlevi hakkında bilmeniz gereken 3 şey

    Excel'de korelasyon katsayısını başarılı bir şekilde hesaplamak için lütfen şu 3 basit gerçeği aklınızda bulundurun:

    • Bir dizideki bir veya daha fazla hücre metin, mantıksal değerler veya boşluklar içeriyorsa, bu hücreler yok sayılır; sıfır değerli hücreler hesaplanır.
    • Sağlanan diziler farklı uzunluktaysa, #N/A hatası döndürülür.
    • Dizilerden biri boşsa veya değerlerinin standart sapması sıfıra eşitse, #DIV/0! hatası oluşur.

    Excel PEARSON işlevi

    Excel'deki PEARSON işlevi de aynı şeyi yapar - Pearson Momentler Çarpımı Korelasyon katsayısını hesaplar.

    PEARSON(dizi1, dizi2)

    Nerede?

    • Array1 bağımsız değerlerden oluşan bir aralıktır.
    • Dizi2 bağımlı değerler aralığıdır.

    PEARSON ve CORREL'in her ikisi de Pearson doğrusal korelasyon katsayısını hesapladığından, sonuçları uyumlu olmalıdır ve genellikle Excel 2007'den Excel 2019'a kadar olan son sürümlerde uyumludur.

    Ancak Excel 2003 ve önceki sürümlerde, PEARSON işlevi bazı yuvarlama hataları gösterebilir. Bu nedenle, eski sürümlerde PEARSON yerine CORREL kullanılması önerilir.

    Örnek veri setimizde, her iki fonksiyon da aynı sonuçları sergilemektedir:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Veri Analizi ile Excel'de korelasyon matrisi nasıl oluşturulur

    İkiden fazla değişken arasındaki karşılıklı ilişkileri test etmeniz gerektiğinde, bazen aşağıdaki gibi adlandırılan bir korelasyon matrisi oluşturmak mantıklıdır çoklu korelasyon katsayısı .

    Bu korelasyon matrisi ilgili satır ve sütunların kesişimindeki değişkenler arasındaki korelasyon katsayılarını gösteren bir tablodur.

    Excel'deki korelasyon matrisi, aşağıdakiler kullanılarak oluşturulur Korelasyon aracından Analiz Araç Paketi Bu eklenti Excel 2003'ten Excel 2019'a kadar tüm sürümlerde mevcuttur, ancak varsayılan olarak etkin değildir. Henüz etkinleştirmediyseniz, lütfen Excel'de Veri Analizi Araç Paketi nasıl etkinleştirilir bölümünde açıklanan adımları izleyerek bunu şimdi yapın.

    Excel şeridinize eklenen Veri Analizi araçları ile korelasyon analizi yapmaya hazırsınız:

    1. Ekranın sağ üst köşesinde Veri tab> Analiz grubuna girmek için Veri Analizi Düğme.
    2. İçinde Veri Analizi iletişim kutusunu seçin, ardından Korelasyon ve Tamam'a tıklayın.
    3. İçinde Korelasyon kutusunu seçin, parametreleri bu şekilde yapılandırın:
      • içinde tıklayın Giriş Aralığı kutusunu seçin ve sütun başlıkları da dahil olmak üzere kaynak verilerinizin bulunduğu aralığı seçin (bizim durumumuzda B1:D13).
      • İçinde Gruplandırılmış bölümüne girdiğinizden emin olun. Sütunlar radyo kutusu seçilidir (kaynak verilerinizin sütunlar halinde gruplandırıldığı göz önüne alındığında).
      • Seçiniz İlk satırdaki etiketler Seçilen aralık sütun başlıkları içeriyorsa onay kutusu.
      • İstediğiniz çıktı seçeneğini seçin. Matrisin aynı sayfada olması için Çıkış Aralığı ve matrisin çıktısının alınacağı en soldaki hücrenin referansını belirtin (bu örnekte A15).

    İşiniz bittiğinde TAMAM. Düğme:

    Korelasyon katsayıları matrisiniz tamamlanmıştır ve bir sonraki bölümde gösterildiği gibi görünmelidir.

    Korelasyon analizi sonuçlarının yorumlanması

    Excel korelasyon matrisinizde, satır ve sütunların kesişimindeki katsayıları bulabilirsiniz. Sütun ve satır koordinatları aynıysa, 1 değeri çıkar.

    Yukarıdaki örnekte, bağımlı değişken (satılan ısıtıcı sayısı) ile iki bağımsız değişken (ortalama aylık sıcaklık ve reklam maliyetleri) arasındaki korelasyonu bilmek istiyoruz. Bu nedenle, yalnızca aşağıdaki ekran görüntüsünde vurgulanan bu satır ve sütunların kesişimindeki sayılara bakıyoruz:

    Negatif -0,97 katsayısı (2 ondalık basamağa yuvarlanmıştır) aylık sıcaklık ile ısıtıcı satışları arasında güçlü bir ters korelasyon olduğunu göstermektedir - sıcaklık arttıkça daha az ısıtıcı satılmaktadır.

    Pozitif 0,97 katsayısı (2 ondalık basamağa yuvarlanmıştır), reklam bütçesi ile satışlar arasında güçlü bir doğrudan bağlantı olduğunu göstermektedir - reklama ne kadar çok para harcarsanız, satışlar o kadar yüksek olur.

    Excel'de formüllerle çoklu korelasyon analizi nasıl yapılır

    Veri Analizi aracıyla korelasyon tablosunu oluşturmak kolaydır. Ancak bu matris statiktir, yani kaynak veriler her değiştiğinde korelasyon analizini yeniden çalıştırmanız gerekecektir.

    İyi haber şu ki, benzer bir korelasyon tablosunu kendiniz de kolayca oluşturabilirsiniz ve bu matris kaynak değerlerdeki her değişiklikle otomatik olarak güncellenecektir.

    Bunu yaptırmak için bu genel formülü kullanın:

    CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1), OFFSET( first_variable_range , 0, SÜTUNLAR($A:A)-1))

    Önemli not! Formülün çalışması için, mutlak hücre referanslarını kullanarak ilk değişken aralığını kilitlemeniz gerekir.

    Bizim durumumuzda, ilk değişken aralığı $B$2:$B$13'tür (lütfen referansı kilitleyen $ işaretine dikkat edin) ve korelasyon formülümüz bu şekli alır:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Formül hazır olduğuna göre, bir korelasyon matrisi oluşturalım:

    1. Matrisin ilk satırına ve ilk sütununa, değişkenlerin etiketlerini kaynak tablonuzda göründükleri sırayla yazın (lütfen aşağıdaki ekran görüntüsüne bakın).
    2. Yukarıdaki formülü en soldaki hücreye girin (bizim durumumuzda B16).
    3. Formülü aşağı ve sağa sürükleyerek gerektiği kadar satır ve sütuna kopyalayın (örneğimizde 3 satır ve 3 sütun).

    Sonuç olarak, çoklu korelasyon katsayılarını içeren aşağıdaki matrisi elde ettik. Lütfen formülümüz tarafından döndürülen katsayıların önceki örnekte Excel tarafından verilen çıktılarla tamamen aynı olduğuna dikkat edin (ilgili olanlar vurgulanmıştır):

    Bu formül nasıl çalışır?

    Bildiğiniz gibi, Excel CORREL işlevi belirttiğiniz iki değişken kümesi için korelasyon katsayısını döndürür. Asıl zorluk, matrisin ilgili hücrelerinde uygun aralıkları sağlamaktır. Bunun için, formüle yalnızca ilk değişken aralığını girersiniz ve gerekli ayarlamaları yapmak için aşağıdaki işlevleri kullanırsınız:

    • OFFSET - belirtilen bir aralıktan belirli sayıda satır ve sütun olan bir aralık döndürür.
    • ROWS ve COLUMNS - sırasıyla bir aralıktaki satır ve sütun sayısını döndürür. Korelasyon formülümüzde, her ikisi de tek bir amaçla kullanılır - başlangıç aralığından kaydırılacak sütun sayısını elde etmek. Ve bu, mutlak ve göreli referansları akıllıca kullanarak elde edilir.

    Mantığı daha iyi anlamak için, formülün yukarıdaki ekran görüntüsünde vurgulanan katsayıları nasıl hesapladığını görelim.

    İlk olarak, aylık sıcaklık (B2:B13) ile satılan ısıtıcılar (D2:D13) arasında korelasyon bulan B18'deki formülü inceleyelim:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    İlk OFFSET işlevinde, ROWS($1:1), ROWS($1:3)'e dönüşmüştür çünkü ikinci koordinat görelidir, bu nedenle formülün kopyalandığı satırın göreli konumuna göre değişir (2 satır aşağı). Böylece, ROWS() 3 döndürür, bundan 1 çıkarırız ve kaynak aralığın 2 sütun sağında olan bir aralık elde ederiz, yani $D$2:$D$13 (ısıtıcı satışları).

    İkinci OFFSET belirtilen $B$2:$B$13 aralığını (sıcaklık) değiştirmez çünkü COLUMNS($A:A)-1 sıfır döndürür.

    Sonuç olarak, uzun formülümüz basit bir CORREL($D$2:$D$13, $B$2:$B$13) formülüne dönüşür ve tam olarak istediğimiz katsayıyı verir.

    Reklam maliyeti (C2:C13) ve satışlar (D2:D13) için bir korelasyon katsayısı hesaplayan C18'deki formül de benzer şekilde çalışır:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    İlk OFFSET işlevi yukarıda açıklananla tamamen aynıdır ve $D$2:$D$13 (ısıtıcı satışları) aralığını döndürür.

    İkinci OFFSET'te, COLUMNS($A:A)-1, COLUMNS($A:B)-1 olarak değişir çünkü formülü 1 sütun sağa kopyaladık. Sonuç olarak, OFFSET kaynak aralığın 1 sütun sağında olan bir aralık alır, yani $C$2:$C$13 (reklam maliyeti).

    Excel'de bir korelasyon grafiği nasıl çizilir

    Excel'de korelasyon yaparken, verileriniz arasındaki ilişkilerin görsel bir temsilini elde etmenin en iyi yolu bir dağılım grafiği ile trend çizgisi İşte böyle:

    1. Sütun başlıkları da dahil olmak üzere sayısal veriler içeren iki sütun seçin. Sütunların sırası önemlidir: bağımsız değişkeni sol sütunda olmalıdır, çünkü bu sütun x ekseninde çizilecektir bağımlı değişkeni y ekseninde çizileceği için sağ sütunda olmalıdır.
    2. Üzerinde Giriş sekmesinde Sohbetler grubuna girmek için Dağılım Bu, çalışma sayfanıza hemen bir XY dağılım grafiği ekleyecektir.
    3. Grafikteki herhangi bir veri noktasına sağ tıklayın ve Trend Çizgisi Ekle... bağlam menüsünden.

    Ayrıntılı adım adım talimatlar için lütfen bkz:

    • Excel'de dağılım grafiği nasıl oluşturulur
    • Excel grafiğine eğilim çizgisi nasıl eklenir

    Örnek veri setimiz için, korelasyon grafikleri aşağıdaki resimde gösterildiği gibi görünür. Ek olarak, R-kare değeri olarak da adlandırılan Belirleme Katsayısı Bu değer, eğilim çizgisinin verilere ne kadar iyi karşılık geldiğini gösterir - R2 1'e ne kadar yakınsa uyum o kadar iyidir.

    Dağılım grafiğinizde görüntülenen R2 değerinden korelasyon katsayısını kolayca hesaplayabilirsiniz:

    1. Daha iyi doğruluk için Excel'in R-kare değerinde varsayılandan daha fazla basamak göstermesini sağlayın.
    2. Grafikteki R2 değerine tıklayın, fareyi kullanarak seçin ve kopyalamak için Ctrl + C tuşlarına basın.
    3. SQRT işlevini kullanarak ya da kopyalanan R2 değerini 0,5'in kuvvetine yükselterek R2'nin karekökünü alın.

    Örneğin, ikinci grafikteki R2 değeri 0,9174339392'dir. Bu durumda, aşağıdakiler için korelasyon katsayısını bulabilirsiniz Reklamcılık ve Satılan ısıtıcılar Bu formüllerden biriyle:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Emin olabileceğiniz gibi, bu şekilde hesaplanan katsayılar, önceki örneklerde bulunan korelasyon katsayılarıyla mükemmel bir uyum içindedir, işaret hariç :

    Excel'de korelasyonla ilgili olası sorunlar

    Bu Pearson Momentler Çarpımı Korelasyonu sadece bir doğrusal Yani, değişkenleriniz başka bir eğrisel yolla güçlü bir şekilde ilişkili olabilir ve yine de korelasyon katsayısı sıfıra eşit veya yakın olabilir.

    Pearson korelasyonu aşağıdakileri ayırt edemez bağımlı ve bağımsız Örneğin, ortalama aylık sıcaklık ile satılan ısıtıcı sayısı arasındaki ilişkiyi bulmak için CORREL fonksiyonunu kullandığımızda, -0,97 katsayısı elde ettik, bu da yüksek bir negatif korelasyon olduğunu gösterir. Ancak, değişkenleri değiştirebilir ve aynı sonucu elde edebilirsiniz. Bu nedenle, birisi daha yüksek ısıtıcı satışlarının sıcaklığın düşmesine neden olduğu sonucuna varabilir, ki bu açıkçaBu nedenle, Excel'de korelasyon analizi çalıştırırken, sağladığınız verilerin farkında olun.

    Ayrıca, Pearson korelasyonu aşağıdakilere karşı çok hassastır aykırı değerler Verilerin geri kalanından büyük ölçüde farklılık gösteren bir veya daha fazla veri noktanız varsa, değişkenler arasındaki ilişkinin çarpık bir resmini elde edebilirsiniz. Bu durumda, bunun yerine Spearman sıra korelasyonunu kullanmanız akıllıca olacaktır.

    Bu eğitimde ele alınan örneklere daha yakından bakmak için aşağıdaki örnek çalışma kitabımızı indirebilirsiniz. Okuduğunuz için teşekkür ediyor ve gelecek hafta blogumuzda görüşmeyi umuyorum!

    Alıştırma çalışma kitabı

    Excel'de Korelasyon Hesaplama (.xlsx dosyası)

    Michael Brown, yazılım araçlarını kullanarak karmaşık süreçleri basitleştirme tutkusuna sahip, kendini adamış bir teknoloji meraklısıdır. Teknoloji endüstrisinde on yılı aşkın deneyimiyle Microsoft Excel ve Outlook'un yanı sıra Google E-Tablolar ve Dokümanlar'daki becerilerini geliştirdi. Michael'ın blogu, bilgisini ve uzmanlığını başkalarıyla paylaşmaya, üretkenliği ve verimliliği artırmaya yönelik takip etmesi kolay ipuçları ve eğitimler sağlamaya adamıştır. İster deneyimli bir profesyonel, ister yeni başlayan olun, Michael'ın blogu, bu temel yazılım araçlarından en iyi şekilde yararlanmak için değerli bilgiler ve pratik tavsiyeler sunar.