Korelasi di Excel: koefisien, matriks dan grafik

  • Bagikan Ini
Michael Brown

Tutorial ini menjelaskan dasar-dasar korelasi di Excel, menunjukkan cara menghitung koefisien korelasi, membangun matriks korelasi dan menafsirkan hasilnya.

Salah satu perhitungan statistik paling sederhana yang dapat Anda lakukan di Excel adalah korelasi. Meskipun sederhana, ini sangat berguna dalam memahami hubungan antara dua atau lebih variabel. Microsoft Excel menyediakan semua alat yang diperlukan untuk menjalankan analisis korelasi, Anda hanya perlu tahu cara menggunakannya.

    Korelasi di Excel - dasar-dasarnya

    Korelasi adalah ukuran yang menggambarkan kekuatan dan arah hubungan antara dua variabel. Ini biasanya digunakan dalam statistik, ekonomi dan ilmu sosial untuk anggaran, rencana bisnis dan sejenisnya.

    Metode yang digunakan untuk mempelajari seberapa dekat variabel-variabel terkait disebut analisis korelasi .

    Berikut ini beberapa contoh korelasi yang kuat:

    • Jumlah kalori yang Anda makan dan berat badan Anda (korelasi positif)
    • Suhu di luar dan tagihan pemanas Anda (korelasi negatif)

    Dan berikut ini contoh-contoh data yang memiliki korelasi lemah atau tidak ada korelasi:

    • Nama kucing Anda dan makanan favoritnya
    • Warna mata dan tinggi badan Anda

    Hal penting yang perlu dipahami tentang korelasi adalah bahwa korelasi hanya menunjukkan seberapa dekat hubungan dua variabel. Korelasi, bagaimanapun juga, tidak menyiratkan sebab-akibat. Fakta bahwa perubahan dalam satu variabel terkait dengan perubahan pada variabel lain tidak berarti bahwa satu variabel benar-benar menyebabkan variabel lain berubah.

    Jika Anda tertarik untuk mempelajari kausalitas dan membuat prediksi, ambil langkah maju dan lakukan analisis regresi linier.

    Koefisien korelasi di Excel - interpretasi korelasi

    Ukuran numerik dari derajat asosiasi antara dua variabel kontinu disebut dengan koefisien korelasi (r).

    Nilai koefisien selalu berada di antara -1 dan 1 dan mengukur kekuatan dan arah hubungan linier antara variabel.

    Kekuatan

    Semakin besar nilai absolut koefisien, semakin kuat hubungannya:

    • Nilai ekstrim -1 dan 1 mengindikasikan hubungan linier sempurna ketika semua titik data jatuh pada garis. Dalam prakteknya, korelasi sempurna, baik positif atau negatif, jarang sekali teramati.
    • Koefisien 0 menunjukkan tidak ada hubungan linear antara variabel-variabel. Inilah yang mungkin Anda dapatkan dengan dua set angka acak.
    • Nilai antara 0 dan +1/-1 mewakili skala hubungan yang lemah, sedang dan kuat. r semakin mendekati -1 atau 1, kekuatan hubungan meningkat.

    Arah

    Tanda koefisien (plus atau minus) menunjukkan arah hubungan.

    • Positif Koefisien mewakili korelasi langsung dan menghasilkan kemiringan ke atas pada grafik - karena satu variabel meningkat begitu juga variabel lainnya, dan sebaliknya.
    • Negatif Koefisien mewakili korelasi terbalik dan menghasilkan kemiringan ke bawah pada grafik - ketika satu variabel meningkat, variabel lainnya cenderung menurun.

    Untuk pemahaman yang lebih baik, silakan lihat grafik korelasi berikut ini:

    • Koefisien dari 1 berarti hubungan positif yang sempurna - ketika satu variabel meningkat, variabel lainnya meningkat secara proporsional.
    • Koefisien dari -1 berarti hubungan negatif yang sempurna - ketika satu variabel meningkat, variabel lainnya menurun secara proporsional.
    • Koefisien dari 0 berarti tidak ada hubungan antara dua variabel - titik-titik data tersebar di seluruh grafik.

    Korelasi Pearson

    Dalam statistik, mereka mengukur beberapa jenis korelasi tergantung pada jenis data yang Anda kerjakan. Dalam tutorial ini, kita akan fokus pada yang paling umum.

    Korelasi Pearson , nama lengkapnya adalah Korelasi Momen Produk Pearson (PPMC), digunakan untuk mengevaluasi linier Hubungan antara data ketika perubahan dalam satu variabel dikaitkan dengan perubahan proporsional dalam variabel lainnya. Secara sederhana, Pearson Correlation menjawab pertanyaan: Dapatkah data direpresentasikan pada sebuah garis?

    Dalam statistik, ini adalah jenis korelasi yang paling populer, dan jika Anda berurusan dengan "koefisien korelasi" tanpa kualifikasi lebih lanjut, kemungkinan besar itu adalah Pearson.

    Berikut adalah rumus yang paling umum digunakan untuk menemukan koefisien korelasi Pearson, juga disebut Pearson's R :

    Kadang-kadang, Anda mungkin menemukan dua rumus lain untuk menghitung koefisien korelasi sampel (r) dan koefisien korelasi populasi (ρ).

    Bagaimana melakukan korelasi Pearson di Excel

    Menghitung koefisien korelasi Pearson dengan tangan melibatkan cukup banyak matematika. Untungnya, Microsoft Excel telah membuat segalanya menjadi sangat sederhana. Tergantung pada kumpulan data dan tujuan Anda, Anda bebas menggunakan salah satu teknik berikut:

    • Temukan koefisien korelasi Pearson dengan fungsi CORREL.
    • Buatlah matriks korelasi dengan melakukan Analisis Data.
    • Temukan koefisien korelasi berganda dengan rumus.
    • Plot grafik korelasi untuk mendapatkan representasi visual dari hubungan data.

    Bagaimana cara menghitung koefisien korelasi di Excel

    Untuk menghitung koefisien korelasi dengan tangan, Anda harus menggunakan rumus panjang ini. Untuk menemukan koefisien korelasi di Excel, manfaatkan fungsi CORREL atau PEARSON dan dapatkan hasilnya dalam sepersekian detik.

    Fungsi Excel CORREL

    Fungsi CORREL mengembalikan koefisien korelasi Pearson untuk dua set nilai. Sintaksnya sangat mudah dan lugas:

    CORREL(array1, array2)

    Di mana:

    • Array1 adalah kisaran nilai pertama.
    • Array2 adalah kisaran nilai kedua.

    Kedua larik harus memiliki panjang yang sama.

    Dengan mengasumsikan kita memiliki sekumpulan variabel independen ( x ) di B2:B13 dan variabel dependen (y) di C2:C13, rumus koefisien korelasi kami adalah sebagai berikut:

    =CORREL(B2:B13, C2:C13)

    Atau, kita bisa menukar rentang dan masih mendapatkan hasil yang sama:

    =CORREL(C2:C13, B2:B13)

    Apa pun itu, rumus tersebut menunjukkan korelasi negatif yang kuat (sekitar -0,97) antara suhu bulanan rata-rata dan jumlah pemanas yang terjual:

    3 hal yang harus Anda ketahui tentang fungsi CORREL di Excel

    Untuk menghitung koefisien korelasi di Excel dengan sukses, harap diingat 3 fakta sederhana ini:

    • Jika satu atau lebih sel dalam larik berisi teks, nilai logika atau kosong, sel tersebut diabaikan; sel dengan nilai nol dihitung.
    • Jika array yang diberikan memiliki panjang yang berbeda, kesalahan #N/A akan dikembalikan.
    • Jika salah satu array kosong atau jika deviasi standar dari nilai mereka sama dengan nol, sebuah kesalahan #DIV/0! terjadi.

    Fungsi PEARSON Excel

    Fungsi PEARSON di Excel melakukan hal yang sama - menghitung koefisien Korelasi Pearson Product Moment.

    PEARSON(larik1, larik2)

    Di mana:

    • Array1 adalah kisaran nilai independen.
    • Array2 adalah kisaran nilai dependen.

    Karena PEARSON dan CORREL keduanya menghitung koefisien korelasi linier Pearson, hasilnya harus setuju, dan umumnya mereka melakukannya dalam versi terbaru Excel 2007 hingga Excel 2019.

    Namun, di Excel 2003 dan versi sebelumnya, fungsi PEARSON mungkin menampilkan beberapa kesalahan pembulatan. Oleh karena itu, dalam versi yang lebih lama, disarankan untuk menggunakan CORREL sebagai preferensi untuk PEARSON.

    Pada set data sampel kami, kedua fungsi menunjukkan hasil yang sama:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Cara membuat matriks korelasi di Excel dengan Analisis Data

    Ketika anda perlu menguji keterkaitan antara lebih dari dua variabel, maka masuk akal untuk membuat matriks korelasi, yang kadang-kadang disebut koefisien korelasi berganda .

    The matriks korelasi adalah tabel yang menunjukkan koefisien korelasi antara variabel-variabel pada perpotongan baris dan kolom yang sesuai.

    Matriks korelasi di Excel dibangun dengan menggunakan Korelasi alat dari Analisis ToolPak Add-in ini tersedia di semua versi Excel 2003 hingga Excel 2019, tetapi tidak diaktifkan secara default. Jika Anda belum mengaktifkannya, lakukan sekarang dengan mengikuti langkah-langkah yang dijelaskan di Cara mengaktifkan Data Analysis ToolPak di Excel.

    Dengan alat Analisis Data yang ditambahkan ke pita Excel Anda, Anda siap untuk menjalankan analisis korelasi:

    1. Di sudut kanan atas Data tab> Analisis kelompok, klik tombol Analisis Data tombol.
    2. Dalam Analisis Data kotak dialog, pilih Korelasi dan klik OK.
    3. Dalam Korelasi kotak, konfigurasikan parameter dengan cara ini:
      • Klik di Rentang Input kotak dan pilih rentang dengan data sumber Anda, termasuk tajuk kolom (B1: D13 dalam kasus kami).
      • Dalam Dikelompokkan berdasarkan bagian, pastikan Kolom kotak radio dipilih (mengingat bahwa data sumber Anda dikelompokkan ke dalam kolom).
      • Pilih Label di baris pertama kotak centang jika rentang yang dipilih berisi tajuk kolom.
      • Pilih opsi output yang diinginkan. Untuk memiliki matriks dalam lembar yang sama, pilih Rentang Output dan tentukan referensi ke sel paling kiri yang akan menjadi output matriks (A15 dalam contoh ini).

    Setelah selesai, klik tombol OK tombol:

    Matriks koefisien korelasi Anda sudah selesai dan akan terlihat seperti yang ditunjukkan pada bagian berikutnya.

    Menginterpretasikan hasil analisis korelasi

    Dalam matriks korelasi Excel Anda, Anda dapat menemukan koefisien di persimpangan baris dan kolom. Jika koordinat kolom dan baris sama, nilai 1 adalah output.

    Dalam contoh di atas, kita tertarik untuk mengetahui korelasi antara variabel dependen (jumlah pemanas yang terjual) dan dua variabel independen (suhu bulanan rata-rata dan biaya iklan). Jadi, kita hanya melihat angka-angka di persimpangan baris dan kolom ini, yang disorot pada tangkapan layar di bawah ini:

    Koefisien negatif -0,97 (dibulatkan menjadi 2 tempat desimal) menunjukkan korelasi terbalik yang kuat antara suhu bulanan dan penjualan pemanas - karena suhu semakin tinggi, semakin sedikit pemanas yang terjual.

    Koefisien positif 0,97 (dibulatkan ke 2 tempat desimal) menunjukkan hubungan langsung yang kuat antara anggaran iklan dan penjualan - semakin banyak uang yang Anda keluarkan untuk iklan, semakin tinggi penjualan.

    Bagaimana melakukan analisis korelasi berganda di Excel dengan rumus

    Membangun tabel korelasi dengan alat Analisis Data itu mudah. Namun, matriks itu statis, yang berarti Anda harus menjalankan analisis korelasi lagi setiap kali data sumber berubah.

    Kabar baiknya adalah, Anda bisa dengan mudah membuat sendiri tabel korelasi yang serupa, dan matriks itu akan diperbarui secara otomatis dengan setiap perubahan dalam nilai sumber.

    Untuk menyelesaikannya, gunakan rumus umum ini:

    CORREL(OFFSET( first_variable_range , 0, BARIS($1:1)-1), OFFSET( first_variable_range , 0, KOLOM($A:A)-1))

    Catatan penting! Agar rumus berfungsi, Anda harus mengunci rentang variabel pertama dengan menggunakan referensi sel absolut.

    Dalam kasus kami, rentang variabel pertama adalah $ B $ 2: $ B $ 13 (harap perhatikan tanda $ yang mengunci referensi), dan rumus korelasi kami mengambil bentuk ini:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Dengan rumus yang sudah siap, mari kita buat matriks korelasi:

    1. Pada baris pertama dan kolom pertama matriks, ketik label variabel dalam urutan yang sama seperti yang muncul dalam tabel sumber Anda (lihat gambar di bawah).
    2. Masukkan rumus di atas di cell paling kiri (B16 dalam kasus kita).
    3. Seret rumus ke bawah dan ke kanan untuk menyalinnya ke baris dan kolom sebanyak yang diperlukan (3 baris dan 3 kolom dalam contoh kita).

    Sebagai hasilnya, kita mendapatkan matriks berikut dengan koefisien korelasi berganda. Harap perhatikan bahwa koefisien yang dikembalikan oleh rumus kami persis sama dengan output oleh Excel pada contoh sebelumnya (yang relevan disorot):

    Bagaimana formula ini bekerja

    Seperti yang sudah Anda ketahui, fungsi Excel CORREL mengembalikan koefisien korelasi untuk dua set variabel yang Anda tentukan. Tantangan utamanya adalah menyediakan rentang yang sesuai di sel matriks yang sesuai. Untuk ini, Anda hanya memasukkan rentang variabel pertama dalam rumus dan menggunakan fungsi berikut untuk membuat penyesuaian yang diperlukan:

    • OFFSET - mengembalikan rentang yang merupakan jumlah baris dan kolom tertentu dari rentang yang ditentukan.
    • ROWS dan COLUMNS - masing-masing mengembalikan jumlah baris dan kolom dalam suatu rentang. Dalam rumus korelasi kita, keduanya digunakan dengan satu tujuan - dapatkan jumlah kolom untuk diimbangi dari rentang awal. Dan ini dicapai dengan menggunakan referensi absolut dan relatif secara cerdik.

    Untuk lebih memahami logikanya, mari kita lihat bagaimana rumus menghitung koefisien yang disorot dalam tangkapan layar di atas.

    Pertama, mari kita periksa rumus dalam B18, yang menemukan korelasi antara suhu bulanan (B2:B13) dan pemanas yang terjual (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Dalam fungsi OFFSET pertama, ROWS ($ 1: 1) telah berubah menjadi ROWS ($ 1: 3) karena koordinat kedua bersifat relatif, sehingga berubah berdasarkan posisi relatif baris tempat rumus disalin (2 baris ke bawah). Dengan demikian, ROWS () mengembalikan 3, dari mana kita mengurangi 1, dan mendapatkan rentang yang berada 2 kolom di sebelah kanan rentang sumber, yaitu $ D $ 2: $ D $ 13 (penjualan pemanas).

    OFFSET kedua tidak merubah kisaran yang ditentukan $B$2:$B$13 (temperatur) karena COLUMNS($A:A)-1 mengembalikan nol.

    Hasilnya, rumus panjang kita berubah menjadi CORREL sederhana ($ D $ 2: $ D $ 13, $ B $ 2: $ B $ 13) dan mengembalikan koefisien yang kita inginkan.

    Rumus dalam C18 yang menghitung koefisien korelasi untuk biaya iklan (C2:C13) dan penjualan (D2:D13) bekerja dengan cara yang sama:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Fungsi OFFSET pertama benar-benar sama seperti yang dijelaskan di atas, mengembalikan kisaran $ D $ 2: $ D $ 13 (penjualan pemanas).

    Pada OFFSET kedua, COLUMNS($A:A)-1 berubah menjadi COLUMNS($A:B)-1 karena kita telah menyalin rumus 1 kolom ke kanan. Akibatnya, OFFSET mendapatkan rentang yang berada 1 kolom di sebelah kanan rentang sumber, yaitu $C$2:$C$13 (biaya iklan).

    Cara memplot grafik korelasi di Excel

    Ketika melakukan korelasi di Excel, cara terbaik untuk mendapatkan representasi visual dari hubungan antara data Anda adalah dengan menggambar plot sebaran dengan garis tren Begini caranya:

    1. Pilih dua kolom dengan data numerik, termasuk tajuk kolom. Urutan kolom adalah penting: kolom independen harus berada di kolom kiri karena kolom ini akan diplot pada sumbu x; variabel tergantung harus berada di kolom kanan karena akan diplot pada sumbu y.
    2. Pada Inset tab, di tab Obrolan kelompok, klik tombol Menyebar Ini akan segera memasukkan bagan sebar XY di lembar kerja Anda.
    3. Klik kanan titik data mana pun dalam bagan dan pilih Tambahkan Trendline... dari menu konteks.

    Untuk petunjuk langkah-demi-langkah yang terperinci, silakan lihat:

    • Cara membuat plot pencar di Excel
    • Bagaimana cara menambahkan garis tren ke bagan Excel

    Untuk set data sampel kami, grafik korelasi terlihat seperti yang ditunjukkan pada gambar di bawah ini. Selain itu, kami menampilkan nilai R-kuadrat, yang juga disebut dengan Koefisien Determinasi Nilai ini mengindikasikan seberapa baik garis tren sesuai dengan data - semakin dekat R2 ke 1, semakin baik kecocokannya.

    Dari nilai R2 yang ditampilkan pada scatterplot Anda, Anda dapat dengan mudah menghitung koefisien korelasi:

    1. Untuk akurasi yang lebih baik, minta Excel untuk menampilkan lebih banyak digit dalam nilai R-squared daripada yang dilakukan secara default.
    2. Klik nilai R2 pada grafik, pilih menggunakan mouse, dan tekan Ctrl + C untuk menyalinnya.
    3. Dapatkan akar kuadrat R2 baik dengan menggunakan fungsi SQRT atau dengan menaikkan nilai R2 yang disalin ke pangkat 0,5.

    Misalnya, nilai R2 pada grafik kedua adalah 0.9174339392. Jadi, Anda bisa menemukan koefisien korelasi untuk Periklanan dan Pemanas yang dijual dengan salah satu dari rumus-rumus ini:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Seperti yang bisa Anda pastikan, koefisien yang dihitung dengan cara ini sangat sesuai dengan koefisien korelasi yang ditemukan dalam contoh-contoh sebelumnya, kecuali tanda :

    Masalah potensial dengan korelasi di Excel

    The Korelasi Momen Produk Pearson hanya mengungkapkan linier Artinya, variabel-variabel Anda mungkin sangat terkait dengan cara lain, lengkung, dan masih memiliki koefisien korelasi yang sama atau mendekati nol.

    Korelasi Pearson tidak mampu membedakan tergantung dan independen Misalnya, ketika menggunakan fungsi CORREL untuk menemukan hubungan antara suhu bulanan rata-rata dan jumlah pemanas yang terjual, kami mendapatkan koefisien -0,97, yang menunjukkan korelasi negatif yang tinggi. Namun, Anda dapat mengganti variabel dan mendapatkan hasil yang sama. Jadi, seseorang dapat menyimpulkan bahwa penjualan pemanas yang lebih tinggi menyebabkan suhu turun, yang jelas tidak ada hasilnya.Oleh karena itu, ketika menjalankan analisis korelasi di Excel, waspadalah terhadap data yang Anda berikan.

    Selain itu, korelasi Pearson sangat sensitif terhadap pencilan Jika Anda memiliki satu atau lebih titik data yang sangat berbeda dari data lainnya, Anda mungkin mendapatkan gambaran yang terdistorsi dari hubungan antara variabel. Dalam hal ini, Anda akan bijaksana untuk menggunakan korelasi peringkat Spearman sebagai gantinya.

    Untuk melihat lebih dekat contoh-contoh yang dibahas dalam tutorial ini, Anda dipersilakan untuk mengunduh buku kerja sampel kami di bawah ini. Saya berterima kasih telah membaca dan berharap dapat melihat Anda di blog kami minggu depan!

    Buku kerja praktik

    Hitung Korelasi di Excel (file .xlsx)

    Michael Brown adalah penggemar teknologi berdedikasi dengan hasrat untuk menyederhanakan proses kompleks menggunakan perangkat lunak. Dengan pengalaman lebih dari satu dekade di industri teknologi, dia telah mengasah keahliannya di Microsoft Excel dan Outlook, serta Google Spreadsheet dan Dokumen. Blog Michael didedikasikan untuk berbagi pengetahuan dan keahliannya dengan orang lain, memberikan tip dan tutorial yang mudah diikuti untuk meningkatkan produktivitas dan efisiensi. Apakah Anda seorang profesional berpengalaman atau pemula, blog Michael menawarkan wawasan berharga dan saran praktis untuk mendapatkan hasil maksimal dari perangkat lunak penting ini.