Analisis regresi linier di Excel

  • Bagikan Ini
Michael Brown

Tutorial ini menjelaskan dasar-dasar analisis regresi dan menunjukkan beberapa cara berbeda untuk melakukan regresi linier di Excel.

Bayangkan ini: Anda diberikan banyak sekali data yang berbeda dan diminta untuk memprediksi angka penjualan tahun depan untuk perusahaan Anda. Anda telah menemukan lusinan, bahkan mungkin ratusan, faktor yang mungkin dapat mempengaruhi angka-angka tersebut. Tetapi bagaimana Anda tahu mana yang benar-benar penting? Jalankan analisis regresi di Excel. Ini akan memberi Anda jawaban untuk ini dan banyak pertanyaan lainnya: Faktor mana yangSeberapa dekatkah faktor-faktor ini terkait satu sama lain? Dan seberapa yakinkah Anda tentang prediksi-prediksi tersebut?

    Analisis regresi di Excel - dasar-dasarnya

    Dalam pemodelan statistik, analisis regresi digunakan untuk mengestimasi hubungan antara dua atau lebih variabel:

    Variabel dependen (alias kriteria variabel) adalah faktor utama yang Anda coba pahami dan prediksi.

    Variabel independen (alias penjelasan variabel, atau prediktor ) adalah faktor-faktor yang mungkin mempengaruhi variabel dependen.

    Analisis regresi membantu Anda memahami bagaimana variabel dependen berubah ketika salah satu variabel independen bervariasi dan memungkinkan untuk menentukan secara matematis variabel mana yang benar-benar berdampak.

    Secara teknis, model analisis regresi didasarkan pada jumlah kuadrat Tujuan dari sebuah model adalah untuk mendapatkan jumlah kuadrat terkecil yang mungkin dan menarik garis yang paling mendekati data.

    Dalam statistika, mereka membedakan antara regresi linier sederhana dan berganda. Regresi linier sederhana memodelkan hubungan antara variabel dependen dan satu variabel independen dengan menggunakan fungsi linear. Jika Anda menggunakan dua atau lebih variabel penjelas untuk memprediksi variabel dependen, Anda berurusan dengan regresi linier berganda Jika variabel dependen dimodelkan sebagai fungsi non-linear karena hubungan data tidak mengikuti garis lurus, gunakan regresi nonlinier Fokus dari tutorial ini adalah pada regresi linier sederhana.

    Sebagai contoh, mari kita ambil angka penjualan payung selama 24 bulan terakhir dan cari tahu rata-rata curah hujan bulanan untuk periode yang sama. Plot informasi ini pada grafik, dan garis regresi akan menunjukkan hubungan antara variabel independen (curah hujan) dan variabel dependen (penjualan payung):

    Persamaan regresi linier

    Secara matematis, regresi linier didefinisikan oleh persamaan ini:

    y = bx + a + ε

    Di mana:

    • x adalah variabel independen.
    • y adalah variabel terikat.
    • a adalah Y-intercept yang merupakan nilai rata-rata yang diharapkan dari y ketika semua x variabel sama dengan 0. Pada grafik regresi, itu adalah titik di mana garis melintasi sumbu Y.
    • b adalah lereng dari garis regresi, yang merupakan tingkat perubahan untuk y sebagai x perubahan.
    • ε adalah istilah kesalahan acak, yang merupakan perbedaan antara nilai aktual variabel dependen dan nilai prediksinya.

    Persamaan regresi linier selalu memiliki error term karena, dalam kehidupan nyata, prediktor tidak pernah benar-benar tepat. Namun, beberapa program, termasuk Excel, melakukan perhitungan error term di belakang layar. Jadi, di Excel, Anda melakukan regresi linier menggunakan perintah kuadrat terkecil metode dan mencari koefisien a dan b sedemikian rupa sehingga:

    y = bx + a

    Untuk contoh kita, persamaan regresi linier mengambil bentuk berikut ini:

    Payung yang terjual = b * curah hujan + a

    Ada beberapa cara berbeda untuk menemukan a dan b Tiga metode utama untuk melakukan analisis regresi linier di Excel adalah:

    • Alat regresi yang disertakan dengan Analysis ToolPak
    • Bagan sebar dengan garis tren
    • Rumus regresi linier

    Di bawah ini, Anda akan menemukan petunjuk terperinci mengenai penggunaan masing-masing metode.

    Bagaimana melakukan regresi linier di Excel dengan Analysis ToolPak

    Contoh ini menunjukkan bagaimana menjalankan regresi di Excel dengan menggunakan alat khusus yang disertakan dengan add-in Analysis ToolPak.

    Mengaktifkan add-in Analysis ToolPak

    Analysis ToolPak tersedia di semua versi Excel 365 hingga 2003 tetapi tidak diaktifkan secara default. Jadi, Anda perlu mengaktifkannya secara manual. Berikut caranya:

    1. Di Excel Anda, klik Berkas > Opsi .
    2. Dalam Opsi Excel kotak dialog, pilih Add-in di bilah sisi kiri, pastikan Add-in Excel dipilih dalam Kelola kotak, dan klik Pergi .
    3. Dalam Add-in kotak dialog, centang Alat Analisis , dan klik OK :

    Ini akan menambahkan Analisis Data alat untuk Data tab pita Excel Anda.

    Menjalankan analisis regresi

    Dalam contoh ini, kita akan melakukan regresi linier sederhana di Excel. Apa yang kita miliki adalah daftar curah hujan bulanan rata-rata selama 24 bulan terakhir di kolom B, yang merupakan variabel independen (prediktor) kita, dan jumlah payung yang terjual di kolom C, yang merupakan variabel dependen. Tentu saja, ada banyak faktor lain yang dapat mempengaruhi penjualan, tetapi untuk saat ini kita hanya fokus pada dua variabel ini:

    Dengan tambahan Analysis Toolpak yang diaktifkan, lakukan langkah-langkah ini untuk melakukan analisis regresi di Excel:

    1. Pada Data tab, di tab Analisis kelompok, klik tombol Analisis Data tombol.
    2. Pilih Regresi dan klik OK .
    3. Dalam Regresi kotak dialog, konfigurasikan pengaturan berikut ini:
      • Pilih Masukan Rentang Y yang merupakan variabel dependen Dalam kasus kami, ini adalah penjualan payung (C1:C25).
      • Pilih Input X Range , yaitu Anda variabel independen Dalam contoh ini, ini adalah rata-rata curah hujan bulanan (B1:B25).

      Jika Anda membangun model regresi berganda, pilih dua atau lebih kolom yang berdekatan dengan variabel independen yang berbeda.

      • Periksa Kotak label jika ada header di bagian atas rentang X dan Y Anda.
      • Pilih pilihan Anda Opsi output, lembar kerja baru dalam kasus kami.
      • Secara opsional, pilih Sisa kotak centang untuk mendapatkan perbedaan antara nilai prediksi dan aktual.
    4. Klik OK dan mengamati output analisis regresi yang dibuat oleh Excel.

    Menginterpretasikan output analisis regresi

    Seperti yang baru saja Anda lihat, menjalankan regresi di Excel itu mudah karena semua perhitungan dilakukan secara otomatis. Interpretasi hasilnya sedikit lebih rumit karena Anda perlu tahu apa yang ada di balik setiap angka. Di bawah ini Anda akan menemukan rincian 4 bagian utama dari output analisis regresi.

    Output analisis regresi: Output Ringkasan

    Bagian ini memberi tahu Anda seberapa baik persamaan regresi linier yang dihitung cocok dengan data sumber Anda.

    Berikut ini, apa arti setiap bagian informasi:

    Beberapa R Ini adalah C koefisien korelasi Koefisien korelasi dapat berupa nilai antara -1 dan 1, dan nilai absolutnya menunjukkan kekuatan hubungan. Semakin besar nilai absolutnya, semakin kuat hubungannya:

    • 1 berarti hubungan positif yang kuat
    • -1 berarti hubungan negatif yang kuat
    • 0 berarti tidak ada hubungan sama sekali

    R Square Ini adalah Koefisien Determinasi Nilai R2 dihitung dari jumlah total kuadrat, lebih tepatnya, merupakan jumlah kuadrat deviasi data asli dari mean.

    Dalam contoh kami, R2 adalah 0,91 (dibulatkan menjadi 2 digit), yang cukup baik. Ini berarti bahwa 91% dari nilai kami sesuai dengan model analisis regresi. Dengan kata lain, 91% dari variabel dependen (nilai y) dijelaskan oleh variabel independen (nilai x). Umumnya, R Squared 95% atau lebih dianggap sebagai fit yang baik.

    R Square yang Disesuaikan Ini adalah R square disesuaikan dengan jumlah variabel independen dalam model. Anda akan ingin menggunakan nilai ini sebagai ganti dari R square untuk analisis regresi berganda.

    Kesalahan Standar Ini adalah ukuran goodness-of-fit lain yang menunjukkan ketepatan analisis regresi Anda - semakin kecil angkanya, semakin yakin Anda tentang persamaan regresi Anda. Sementara R2 mewakili persentase varians variabel dependen yang dijelaskan oleh model, Standard Error adalah ukuran absolut yang menunjukkan jarak rata-rata bahwa titik data jatuh dari regresi.garis.

    Pengamatan Ini hanyalah jumlah pengamatan dalam model Anda.

    Keluaran analisis regresi: ANOVA

    Bagian kedua dari output adalah Analisis Varians (ANOVA):

    Pada dasarnya, ini membagi jumlah kuadrat menjadi komponen-komponen individual yang memberikan informasi tentang tingkat variabilitas dalam model regresi Anda:

    • df adalah jumlah derajat kebebasan yang terkait dengan sumber varians.
    • SS Semakin kecil SS Residual dibandingkan dengan SS Total, semakin baik model Anda cocok dengan data.
    • MS adalah kuadrat rata-rata.
    • F adalah statistik F, atau uji F untuk hipotesis nol. Ini digunakan untuk menguji signifikansi keseluruhan model.
    • Signifikansi F adalah nilai P-value dari F.

    Bagian ANOVA jarang digunakan untuk analisis regresi linier sederhana di Excel, tetapi Anda pasti harus melihat lebih dekat pada komponen terakhir. Signifikansi F Jika Signifikansi F kurang dari 0,05 (5%), model Anda OK. Jika lebih besar dari 0,05, Anda mungkin lebih baik memilih variabel independen lain.

    Output analisis regresi: koefisien

    Bagian ini memberikan informasi spesifik mengenai komponen analisis Anda:

    Komponen yang paling berguna dalam bagian ini adalah Koefisien Ini memungkinkan Anda untuk membangun persamaan regresi linier di Excel:

    y = bx + a

    Untuk kumpulan data kami, di mana y adalah jumlah payung yang terjual dan x adalah rata-rata curah hujan bulanan, rumus regresi linier kami adalah sebagai berikut:

    Y = Koefisien Curah Hujan * x + Intercept

    Dilengkapi dengan nilai a dan b yang dibulatkan ke tiga tempat desimal, maka menjadi:

    Y = 0.45*x-19.074

    Misalnya, dengan curah hujan bulanan rata-rata sama dengan 82 mm, penjualan payung akan menjadi sekitar 17,8:

    0.45*82-19.074=17.8

    Dengan cara yang sama, Anda bisa mengetahui berapa banyak payung yang akan terjual dengan curah hujan bulanan lainnya (variabel x) yang Anda tentukan.

    Output analisis regresi: residual

    Jika Anda membandingkan perkiraan dan jumlah aktual payung yang terjual sesuai dengan curah hujan bulanan 82 mm, Anda akan melihat bahwa angka-angka ini sedikit berbeda:

    • Diperkirakan: 17,8 (dihitung di atas)
    • Aktual: 15 (baris 2 dari sumber data)

    Karena variabel independen tidak pernah menjadi prediktor sempurna dari variabel dependen. Dan residual dapat membantu Anda memahami seberapa jauh nilai aktual dari nilai yang diprediksi:

    Untuk titik data pertama (curah hujan 82 mm), residualnya kira-kira -2.8. Jadi, kita tambahkan angka ini ke nilai prediksi, dan mendapatkan nilai aktual: 17.8 - 2.8 = 15.

    Cara membuat grafik regresi linier di Excel

    Jika Anda perlu memvisualisasikan hubungan antara dua variabel dengan cepat, gambarlah grafik regresi linier. Itu sangat mudah! Begini caranya:

    1. Pilih dua kolom dengan data Anda, termasuk header.
    2. Pada Inset tab, di tab Obrolan kelompok, klik tombol Bagan sebar ikon, dan pilih ikon Menyebar thumbnail (yang pertama):

      Ini akan menyisipkan plot sebar di lembar kerja Anda, yang akan menyerupai yang ini:

    3. Sekarang, kita perlu menggambar garis regresi kuadrat terkecil. Untuk melakukannya, klik kanan pada titik mana pun dan pilih Tambahkan Trendline... dari menu konteks.
    4. Pada panel kanan, pilih Linear bentuk garis tren dan, secara opsional, periksa Menampilkan Persamaan pada Bagan untuk mendapatkan rumus regresi Anda:

      Seperti yang mungkin Anda perhatikan, persamaan regresi yang dibuat Excel untuk kita sama dengan rumus regresi linier yang kita buat berdasarkan output Coefficients.

    5. Beralih ke Isi &; Garis dan sesuaikan garis sesuai keinginan Anda. Misalnya, Anda dapat memilih warna garis yang berbeda dan menggunakan garis solid, bukan garis putus-putus (pilih Solid line di tab Jenis dasbor kotak):

    Pada titik ini, grafik Anda sudah terlihat seperti grafik regresi yang layak:

    Namun demikian, Anda mungkin ingin melakukan beberapa perbaikan lagi:

    • Seret persamaan ke mana pun Anda inginkan.
    • Tambahkan judul sumbu ( Elemen Bagan tombol> Judul-judul Axis ).
    • Jika titik data Anda dimulai di tengah-tengah sumbu horizontal dan/atau vertikal seperti dalam contoh ini, Anda mungkin ingin menyingkirkan ruang putih yang berlebihan. Tip berikut ini menjelaskan cara melakukannya: Skala sumbu bagan untuk mengurangi ruang putih.

      Dan seperti inilah tampilan grafik regresi kita yang sudah diperbaiki:

      Catatan penting! Dalam grafik regresi, variabel independen harus selalu berada pada sumbu X dan variabel dependen pada sumbu Y. Jika grafik Anda diplot dalam urutan terbalik, tukarlah kolom-kolom dalam lembar kerja Anda, lalu gambarlah grafiknya lagi. Jika Anda tidak diizinkan untuk mengatur ulang sumber data, maka Anda dapat mengganti sumbu X dan Y secara langsung dalam grafik.

    Bagaimana melakukan regresi di Excel menggunakan rumus

    Microsoft Excel memiliki beberapa fungsi statistik yang dapat membantu Anda untuk melakukan analisis regresi linier seperti LINEST, SLOPE, INTERCEPT, dan CORREL.

    Fungsi LINEST menggunakan metode regresi kuadrat terkecil untuk menghitung garis lurus yang paling baik menjelaskan hubungan antara variabel Anda dan mengembalikan larik yang menggambarkan garis itu. Anda dapat menemukan penjelasan rinci tentang sintaks fungsi dalam tutorial ini. Untuk saat ini, mari kita buat rumus untuk kumpulan data sampel kita:

    =LINEST(C2:C25, B2:B25)

    Karena fungsi LINEST mengembalikan larik nilai, Anda harus memasukkannya sebagai rumus larik. Pilih dua sel yang berdekatan di baris yang sama, E2: F2 dalam kasus kami, ketikkan rumusnya, dan tekan Ctrl + Shift + Enter untuk menyelesaikannya.

    Rumus mengembalikan b koefisien (E1) dan a konstanta (F1) untuk persamaan regresi linier yang sudah dikenal:

    y = bx + a

    Jika Anda menghindari penggunaan rumus larik dalam lembar kerja Anda, Anda bisa menghitung a dan b secara individual dengan rumus biasa:

    Dapatkan intersep Y (a):

    =INTERCEPT(C2:C25, B2:B25)

    Dapatkan kemiringan (b):

    =SLOPE(C2:C25, B2:B25)

    Selain itu, Anda bisa menemukan koefisien korelasi ( Beberapa R dalam output ringkasan analisis regresi) yang mengindikasikan seberapa kuat kedua variabel tersebut berhubungan satu sama lain:

    =CORREL(B2:B25,C2:C25)

    Tangkapan layar berikut ini menunjukkan semua rumus regresi Excel ini beraksi:

    Tip. Jika Anda ingin mendapatkan statistik tambahan untuk analisis regresi Anda, gunakan fungsi LINEST dengan s tato diatur ke TRUE seperti yang ditunjukkan dalam contoh ini.

    Begitulah cara Anda melakukan regresi linier di Excel. Meskipun demikian, perlu diingat bahwa Microsoft Excel bukanlah program statistik. Jika Anda perlu melakukan analisis regresi pada tingkat profesional, Anda mungkin ingin menggunakan perangkat lunak yang ditargetkan seperti XLSTAT, RegressIt, dll.

    Untuk melihat lebih dekat rumus regresi linier dan teknik-teknik lain yang dibahas dalam tutorial ini, Anda dipersilakan untuk mengunduh buku kerja sampel kami di bawah ini. Terima kasih telah membaca!

    Buku kerja praktik

    Analisis Regresi di Excel - contoh-contoh (file .xlsx)

    Michael Brown adalah penggemar teknologi berdedikasi dengan hasrat untuk menyederhanakan proses kompleks menggunakan perangkat lunak. Dengan pengalaman lebih dari satu dekade di industri teknologi, dia telah mengasah keahliannya di Microsoft Excel dan Outlook, serta Google Spreadsheet dan Dokumen. Blog Michael didedikasikan untuk berbagi pengetahuan dan keahliannya dengan orang lain, memberikan tip dan tutorial yang mudah diikuti untuk meningkatkan produktivitas dan efisiensi. Apakah Anda seorang profesional berpengalaman atau pemula, blog Michael menawarkan wawasan berharga dan saran praktis untuk mendapatkan hasil maksimal dari perangkat lunak penting ini.