Mục lục
Hướng dẫn giải thích những điều cơ bản về phân tích hồi quy và chỉ ra một số cách khác nhau để thực hiện hồi quy tuyến tính trong Excel.
Hãy tưởng tượng điều này: bạn được cung cấp rất nhiều dữ liệu khác nhau và được yêu cầu dự đoán số lượng bán hàng trong năm tới cho công ty của bạn. Bạn đã phát hiện ra hàng chục, thậm chí hàng trăm yếu tố có thể ảnh hưởng đến các con số. Nhưng làm thế nào để bạn biết cái nào thực sự quan trọng? Chạy phân tích hồi quy trong Excel. Nó sẽ cho bạn câu trả lời cho câu hỏi này và nhiều câu hỏi khác: Yếu tố nào quan trọng và yếu tố nào có thể bỏ qua? Các yếu tố này liên quan chặt chẽ với nhau như thế nào? Và bạn có thể chắc chắn đến mức nào về các dự đoán?
Phân tích hồi quy trong Excel - kiến thức cơ bản
Trong mô hình thống kê, phân tích hồi quy được sử dụng để ước tính mối quan hệ giữa hai hoặc nhiều biến:
Biến phụ thuộc (hay còn gọi là biến tiêu chí ) là yếu tố chính mà bạn đang cố gắng hiểu và dự đoán.
Các biến độc lập (hay còn gọi là biến giải thích hoặc biến dự đoán ) là những yếu tố có thể ảnh hưởng đến biến phụ thuộc.
Phân tích hồi quy giúp bạn hiểu biến phụ thuộc thay đổi như thế nào khi một trong các biến độc lập thay đổi và cho phép xác định một cách toán học biến nào trong số các biến đó thực sự có tác động.
Về mặt kỹ thuật, mô hình phân tích hồi quy dựa trên tổng của
Tại thời điểm này, biểu đồ của bạn đã trông giống như một biểu đồ hồi quy tốt:
Tuy nhiên, bạn có thể muốn thực hiện thêm một số cải tiến:
- Kéo phương trình đến bất cứ nơi nào bạn thấy phù hợp.
- Thêm tiêu đề trục (nút Thành phần biểu đồ > Tiêu đề trục ).
- Nếu bạn điểm dữ liệu bắt đầu ở giữa trục ngang và/hoặc trục dọc như trong ví dụ này, bạn có thể muốn loại bỏ khoảng trắng thừa. Mẹo sau đây giải thích cách thực hiện việc này: Chia tỷ lệ các trục của biểu đồ để giảm khoảng trắng.
Và đây là biểu đồ hồi quy cải tiến của chúng ta trông như thế nào:
Lưu ý quan trọng! Trong biểu đồ hồi quy, biến độc lập phải luôn nằm trên trục X và biến phụ thuộc trên trục Y. Nếu biểu đồ của bạn được vẽ theo thứ tự ngược lại, hãy hoán đổi các cột trong trang tính của bạn, rồi vẽ lại biểu đồ. Nếu bạn không được phép sắp xếp lại dữ liệu nguồn thì bạn có thể chuyển đổi trục X và Y trực tiếp trong biểu đồ.
Cách thực hiện hồi quy trong Excel bằng công thức
Microsoft Excel có một vài hàm thống kê có thể giúp bạn thực hiện phân tích hồi quy tuyến tính, chẳng hạn như LINEST, SLOPE, INTERCEPT và CORREL.
Hàm LINEST sử dụng phương pháp hồi quy bình phương nhỏ nhất để tính một đường thẳng dòng giải thích rõ nhất mối quan hệ giữa các biến của bạn và trả về một mảng mô tả dòng đó. Bạn có thể tìm thấy lời giải thích chi tiết củacú pháp của hàm trong hướng dẫn này. Hiện tại, chúng ta hãy tạo một công thức cho tập dữ liệu mẫu của chúng ta:
=LINEST(C2:C25, B2:B25)
Vì hàm LINEST trả về một mảng các giá trị nên bạn phải nhập nó dưới dạng một công thức mảng. Chọn hai ô liền kề trong cùng một hàng, trong trường hợp của chúng tôi là E2:F2, nhập công thức và nhấn Ctrl + Shift + Enter để hoàn thành.
Công thức trả về hệ số b ( E1) và hằng số a (F1) cho phương trình hồi quy tuyến tính đã quen thuộc:
y = bx + a
Nếu bạn tránh sử dụng công thức mảng trong trang tính của mình, bạn có thể tính toán a và b riêng lẻ với các công thức thông thường:
Nhận tung độ gốc Y (a):
=INTERCEPT(C2:C25, B2:B25)
Nhận độ dốc (b):
=SLOPE(C2:C25, B2:B25)
Ngoài ra, bạn có thể tìm thấy hệ số tương quan ( Bội số R trong kết quả tóm tắt phân tích hồi quy) cho biết cách hai biến có liên quan chặt chẽ với nhau:
=CORREL(B2:B25,C2:C25)
Ảnh chụp màn hình sau đây hiển thị tất cả các công thức hồi quy Excel này đang hoạt động:
Mẹo. Nếu bạn muốn nhận số liệu thống kê bổ sung cho phân tích hồi quy của mình, hãy sử dụng hàm LINEST với tham số s tats được đặt thành TRUE như minh họa trong ví dụ này.
Đó là cách bạn thực hiện hồi quy tuyến tính trong Excel. Điều đó nói rằng, xin lưu ý rằng Microsoft Excel không phải là một chương trình thống kê. Nếu bạn cần thực hiện phân tích hồi quy ở cấp độ chuyên nghiệp, bạn có thể muốn sử dụng mục tiêuchẳng hạn như XLSTAT, RegressIt, v.v.
Để xem kỹ hơn các công thức hồi quy tuyến tính của chúng tôi và các kỹ thuật khác được thảo luận trong hướng dẫn này, bạn có thể tải xuống sổ làm việc mẫu của chúng tôi bên dưới. Cảm ơn bạn đã đọc!
Sách bài tập thực hành
Phân tích hồi quy trong Excel - ví dụ (tệp .xlsx)
squares, đây là một cách toán học để tìm sự phân tán của các điểm dữ liệu. Mục tiêu của mô hình là thu được tổng bình phương nhỏ nhất có thể và vẽ một đường thẳng gần với dữ liệu nhất.Trong thống kê, chúng phân biệt giữa hồi quy tuyến tính đơn giản và hồi quy tuyến tính bội. Hồi quy tuyến tính đơn giản mô hình hóa mối quan hệ giữa một biến phụ thuộc và một biến độc lập bằng hàm tuyến tính. Nếu bạn sử dụng hai hoặc nhiều biến giải thích để dự đoán biến phụ thuộc, bạn sẽ xử lý hồi quy tuyến tính bội . Nếu biến phụ thuộc được mô hình hóa dưới dạng hàm phi tuyến tính vì mối quan hệ dữ liệu không theo một đường thẳng, thay vào đó hãy sử dụng hồi quy phi tuyến tính . Trọng tâm của hướng dẫn này sẽ là hồi quy tuyến tính đơn giản.
Ví dụ: hãy lấy số lượng bán ô dù trong 24 tháng qua và tìm ra lượng mưa trung bình hàng tháng trong cùng thời kỳ. Vẽ thông tin này trên biểu đồ và đường hồi quy sẽ thể hiện mối quan hệ giữa biến độc lập (lượng mưa) và biến phụ thuộc (số lượng ô bán):
Phương trình hồi quy tuyến tính
Về mặt toán học, hồi quy tuyến tính được xác định bởi phương trình sau:
y = bx + a + εTrong đó:
- x là một biến độc lập.
- y là biến phụ thuộc.
- a là Giá trị chặn của Y , là giá trị trung bình dự kiến của y khi tất cả các biến x đều bằng 0. Trên biểu đồ hồi quy, đó là điểm tại đó đường thẳng cắt trục Y.
- b là độ dốc của đường hồi quy, là tốc độ thay đổi của y khi x thay đổi.
- ε là sai số ngẫu nhiên thuật ngữ, là sự khác biệt giữa giá trị thực tế của một biến phụ thuộc và giá trị dự đoán của nó.
Phương trình hồi quy tuyến tính luôn có một thuật ngữ lỗi bởi vì trong thực tế, các yếu tố dự báo không bao giờ chính xác tuyệt đối. Tuy nhiên, một số chương trình, bao gồm cả Excel, thực hiện tính toán thuật ngữ lỗi ở hậu trường. Vì vậy, trong Excel, bạn thực hiện hồi quy tuyến tính bằng phương pháp bình phương nhỏ nhất và tìm các hệ số a và b sao cho:
y = bx + aVí dụ của chúng ta, phương trình hồi quy tuyến tính có dạng như sau:
Umbrellas sold = b * rainfall + a
Có một số cách khác nhau để tìm a và b . Ba phương pháp chính để thực hiện phân tích hồi quy tuyến tính trong Excel là:
- Công cụ hồi quy đi kèm với Analysis ToolPak
- Biểu đồ phân tán có đường xu hướng
- Công thức hồi quy tuyến tính
Dưới đây, bạn sẽ tìm thấy hướng dẫn chi tiết về cách sử dụng từng phương pháp.
Cách thực hiện hồi quy tuyến tính trong Excel bằng Analysis ToolPak
Ví dụ này cho thấy cách chạy hồi quy trong Excel bằng cách sử dụng một công cụ đặc biệt đi kèm với phần bổ trợ Analysis ToolPak.
Bật phần bổ trợ Analysis ToolPak-trong
Analysis ToolPak có sẵn trong tất cả các phiên bản Excel 365 đến 2003 nhưng không được bật theo mặc định. Vì vậy, bạn cần phải bật nó theo cách thủ công. Đây là cách thực hiện:
- Trong Excel của bạn, nhấp vào Tệp > Tùy chọn .
- Trong Tùy chọn Excel hộp thoại, chọn Phần bổ trợ trên thanh bên trái, đảm bảo rằng Phần bổ trợ Excel được chọn trong hộp Quản lý và nhấp vào Đi .
- Trong hộp thoại Phần bổ trợ , đánh dấu chọn Bộ công cụ phân tích và nhấp vào OK :
Thao tác này sẽ thêm các công cụ Phân tích dữ liệu vào tab Dữ liệu trên dải băng Excel của bạn.
Chạy phân tích hồi quy
Trong Trong ví dụ này, chúng ta sẽ thực hiện hồi quy tuyến tính đơn giản trong Excel. Những gì chúng ta có là danh sách lượng mưa trung bình hàng tháng trong 24 tháng qua ở cột B, là biến độc lập (công cụ dự đoán) và số lượng ô bán được ở cột C, là biến phụ thuộc. Tất nhiên, có nhiều yếu tố khác có thể ảnh hưởng đến doanh số, nhưng hiện tại chúng tôi chỉ tập trung vào hai biến số sau:
Khi bật Toolpak phân tích, hãy thực hiện các bước sau để thực hiện phân tích hồi quy trong Excel:
- Trên tab Dữ liệu , trong nhóm Phân tích , hãy nhấp vào nút Phân tích dữ liệu .
- Chọn Hồi quy và nhấp vào OK .
- Trong hộp thoại Regression , định cấu hình các cài đặt sau:
- Chọn Đầu vàoPhạm vi Y , là biến phụ thuộc của bạn . Trong trường hợp của chúng tôi, đó là doanh số bán ô dù (C1:C25).
- Chọn Dải ô X đầu vào , tức là biến độc lập của bạn. Trong ví dụ này, đó là lượng mưa trung bình hàng tháng (B1:B25).
Nếu bạn đang xây dựng mô hình hồi quy bội, hãy chọn hai hoặc nhiều cột liền kề với các biến độc lập khác nhau.
- Chọn hộp Nhãn nếu có các tiêu đề ở đầu phạm vi X và Y của bạn.
- Chọn tùy chọn đầu ra ưa thích của bạn, một trang tính mới trong trường hợp.
- Tùy chọn, chọn hộp kiểm Dư để nhận chênh lệch giữa giá trị dự đoán và giá trị thực tế.
- Nhấp vào OK và quan sát kết quả phân tích hồi quy do Excel tạo.
Diễn giải kết quả phân tích hồi quy
Như bạn vừa thấy, việc chạy hồi quy trong Excel thật dễ dàng vì tất cả các tính toán đều được tạo sẵn tự động. Việc giải thích kết quả phức tạp hơn một chút vì bạn cần biết những gì đằng sau mỗi con số. Dưới đây, bạn sẽ tìm thấy bảng phân tích 4 phần chính của kết quả phân tích hồi quy.
Kết quả phân tích hồi quy: Kết quả tóm tắt
Phần này cho bạn biết mức độ phù hợp của phương trình hồi quy tuyến tính được tính toán với dữ liệu nguồn của bạn.
Dưới đây là ý nghĩa của từng phần thông tin:
Bội số R . Đó là Hệ số tương quan C đo lường sức mạnh củamột mối quan hệ tuyến tính giữa hai biến. Hệ số tương quan có thể là bất kỳ giá trị nào trong khoảng từ -1 đến 1 và giá trị tuyệt đối của nó biểu thị cường độ của mối quan hệ. Giá trị tuyệt đối càng lớn thì mối quan hệ càng chặt chẽ:
- 1 có nghĩa là mối quan hệ tích cực mạnh mẽ
- -1 có nghĩa là mối quan hệ tiêu cực mạnh mẽ
- 0 có nghĩa là không có mối quan hệ nào tất cả
Hình vuông R . Đó là Hệ số xác định , được sử dụng như một chỉ báo về mức độ phù hợp. Nó cho biết có bao nhiêu điểm nằm trên đường hồi quy. Giá trị R2 được tính từ tổng bình phương, chính xác hơn, nó là tổng bình phương độ lệch của dữ liệu gốc so với giá trị trung bình.
Trong ví dụ của chúng tôi, R2 là 0,91 (làm tròn thành 2 chữ số) , đó là cổ tích tốt. Điều đó có nghĩa là 91% giá trị của chúng tôi phù hợp với mô hình phân tích hồi quy. Nói cách khác, 91% các biến phụ thuộc (giá trị y) được giải thích bởi các biến độc lập (giá trị x). Nói chung, R Squared từ 95% trở lên được coi là phù hợp.
R Squares đã điều chỉnh . Đó là R square được điều chỉnh theo số lượng biến độc lập trong mô hình. Bạn sẽ muốn sử dụng giá trị này thay vì R square để phân tích hồi quy bội.
Lỗi chuẩn . Đó là một phép đo mức độ phù hợp khác cho thấy độ chính xác của phân tích hồi quy của bạn - số càng nhỏ, bạn càng chắc chắn vềphương trình hồi quy của bạn. Trong khi R2 đại diện cho tỷ lệ phần trăm của phương sai biến phụ thuộc được mô hình giải thích, thì Sai số chuẩn là thước đo tuyệt đối cho biết khoảng cách trung bình mà các điểm dữ liệu rơi ra khỏi đường hồi quy.
Các quan sát . Nó chỉ đơn giản là số lượng quan sát trong mô hình của bạn.
Kết quả phân tích hồi quy: ANOVA
Phần thứ hai của kết quả là Phân tích phương sai (ANOVA):
Về cơ bản, nó chia tổng bình phương thành các thành phần riêng lẻ cung cấp thông tin về mức độ biến thiên trong mô hình hồi quy của bạn:
- df là số bậc tự do liên kết với các nguồn phương sai.
- SS là tổng bình phương. SS dư càng nhỏ so với Tổng SS thì mô hình của bạn càng phù hợp với dữ liệu.
- MS là bình phương trung bình.
- F là thống kê F, hoặc F-test cho giả thuyết không. Nó được sử dụng để kiểm tra ý nghĩa tổng thể của mô hình.
- Ý nghĩa F là giá trị P của F.
Phần ANOVA hiếm khi được sử dụng cho phân tích hồi quy tuyến tính đơn giản trong Excel, nhưng bạn chắc chắn nên xem kỹ thành phần cuối cùng. Giá trị Ý nghĩa F cho biết mức độ tin cậy (có ý nghĩa thống kê) của kết quả của bạn. Nếu Ý nghĩa F nhỏ hơn 0,05 (5%), mô hình của bạn là OK. Nếu nó lớn hơn 0,05, bạn sẽcó lẽ tốt hơn nên chọn một biến độc lập khác.
Đầu ra của phân tích hồi quy: các hệ số
Phần này cung cấp thông tin cụ thể về các thành phần trong phân tích của bạn:
Thành phần hữu ích nhất trong phần này là Các hệ số . Nó cho phép bạn xây dựng phương trình hồi quy tuyến tính trong Excel:
y = bx + aĐối với tập dữ liệu của chúng tôi, trong đó y là số lượng ô đã bán và x là lượng mưa trung bình hàng tháng, công thức hồi quy tuyến tính của chúng tôi diễn ra như sau:
Y = Rainfall Coefficient * x + Intercept
Được trang bị các giá trị a và b được làm tròn đến ba chữ số thập phân, nó biến thành:
Y=0.45*x-19.074
Ví dụ: với lượng mưa trung bình hàng tháng là 82 mm, doanh số bán ô sẽ xấp xỉ 17,8:
0.45*82-19.074=17.8
Theo cách tương tự, bạn có thể biết sẽ có bao nhiêu ô được bán với bất kỳ lượng mưa hàng tháng nào khác (biến x) mà bạn chỉ định.
Đầu ra phân tích hồi quy: số dư
Nếu bạn so sánh số lượng ô bán được ước tính và thực tế tương ứng với lượng mưa hàng tháng là 82 mm, bạn sẽ thấy những con số này hơi khác một chút:
- Ước tính: 17,8 (đã tính ở trên)
- Thực tế: 15 (hàng 2 của dữ liệu nguồn)
Tại sao có sự khác biệt? Bởi vì các biến độc lập không bao giờ là yếu tố dự đoán hoàn hảo của các biến phụ thuộc. Và phần dư có thể giúp bạn hiểu khoảng cách giữa giá trị thực và giá trị dự đoán:
Đối vớiđiểm dữ liệu đầu tiên (lượng mưa 82 mm), lượng dư xấp xỉ -2,8. Vì vậy, chúng tôi thêm số này vào giá trị dự đoán và nhận được giá trị thực tế: 17,8 - 2,8 = 15.
Cách tạo biểu đồ hồi quy tuyến tính trong Excel
Nếu bạn cần hình dung nhanh mối quan hệ giữa hai biến, vẽ biểu đồ hồi quy tuyến tính. Điều đó rất dễ dàng! Dưới đây là cách thực hiện:
- Chọn hai cột có dữ liệu của bạn, bao gồm cả tiêu đề.
- Trên tab Inset , trong nhóm Trò chuyện , nhấp vào biểu tượng Biểu đồ phân tán và chọn hình thu nhỏ Scatter (hình đầu tiên):
Thao tác này sẽ chèn một biểu đồ phân tán vào trang tính của bạn, biểu đồ này sẽ giống như thế này một:
- Bây giờ, chúng ta cần vẽ đường hồi quy bình phương nhỏ nhất. Để hoàn thành, nhấp chuột phải vào bất kỳ điểm nào và chọn Thêm đường xu hướng… từ menu ngữ cảnh.
- Trên ngăn bên phải, chọn hình dạng đường xu hướng Tuyến tính và tùy chọn, kiểm tra Phương trình hiển thị trên Biểu đồ để nhận công thức hồi quy của bạn:
Như bạn có thể nhận thấy, phương trình hồi quy mà Excel đã tạo cho chúng ta giống với công thức hồi quy tuyến tính mà chúng ta đã xây dựng dựa trên đầu ra Hệ số.
- Chuyển sang Điền & Line và tùy chỉnh dòng theo ý thích của bạn. Ví dụ: bạn có thể chọn màu đường kẻ khác và sử dụng đường liền nét thay vì đường đứt nét (chọn Đường liền nét trong hộp Loại gạch ngang ):