Mục lục
Hướng dẫn giải thích những kiến thức cơ bản về tương quan trong Excel, cho biết cách tính hệ số tương quan, xây dựng ma trận tương quan và diễn giải kết quả.
Một trong những phép tính thống kê đơn giản nhất mà bạn có thể thực hiện trong Excel là tính tương quan. Mặc dù đơn giản nhưng nó rất hữu ích trong việc hiểu mối quan hệ giữa hai hoặc nhiều biến. Microsoft Excel cung cấp tất cả các công cụ cần thiết để chạy phân tích tương quan, bạn chỉ cần biết cách sử dụng chúng.
Tương quan trong Excel - kiến thức cơ bản
Mối tương quan là thước đo mô tả cường độ và hướng của mối quan hệ giữa hai biến. Nó thường được sử dụng trong thống kê, kinh tế và khoa học xã hội cho ngân sách, kế hoạch kinh doanh và những thứ tương tự.
Phương pháp được sử dụng để nghiên cứu mức độ liên quan chặt chẽ của các biến được gọi là phân tích tương quan .
Dưới đây là một số ví dụ về mối tương quan chặt chẽ:
- Số lượng calo bạn ăn và cân nặng của bạn (tương quan thuận)
- Nhiệt độ bên ngoài và hóa đơn sưởi ấm của bạn ( tương quan âm)
Và đây là ví dụ về dữ liệu có mối tương quan yếu hoặc không có tương quan:
- Tên con mèo của bạn và thức ăn yêu thích của chúng
- Màu sắc của mắt và chiều cao của bạn
Một điều cần thiết để hiểu về mối tương quan là nó chỉ cho thấy mức độ liên quan chặt chẽ của hai biến số. Tuy nhiên, sự tương quan không có nghĩa làtừ một phạm vi đã chỉ định.
Để hiểu rõ hơn về logic, hãy xem cách công thức tính toán các hệ số được đánh dấu trong ảnh chụp màn hình ở trên.
Trước tiên, hãy cùng tìm hiểu kiểm tra công thức trong B18 để tìm mối tương quan giữa nhiệt độ hàng tháng (B2:B13) và máy sưởi bán ra (D2:D13):
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
Trong hàm OFFSET đầu tiên, ROWS($1: 1) đã chuyển đổi thành ROWS($1:3) vì tọa độ thứ hai là tương đối, do đó, tọa độ này thay đổi dựa trên vị trí tương đối của hàng nơi công thức được sao chép (2 hàng trở xuống). Do đó, ROWS() trả về 3, từ đó chúng tôi trừ đi 1 và nhận được một phạm vi cách 2 cột ở bên phải của phạm vi nguồn, tức là $D$2:$D$13 (doanh số máy sưởi).
The OFFSET thứ hai không thay đổi phạm vi đã chỉ định $B$2:$B$13 (nhiệt độ) vì COLUMNS($A:A)-1 trả về 0.
Kết quả là, công thức dài của chúng ta trở thành CORREL( $D$2:$D$13, $B$2:$B$13) và trả về chính xác hệ số chúng tôi muốn.
Công thức trong C18 tính toán hệ số tương quan cho chi phí quảng cáo (C2:C13) và doanh thu ( D2:D13) hoạt động theo cách tương tự:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))
Hàm OFFSET đầu tiên làhoàn toàn giống như mô tả ở trên, trả về phạm vi $D$2:$D$13 (doanh số máy sưởi).
Trong OFFSET thứ hai, COLUMNS($A:A)-1 thay đổi thành COLUMNS($A: B)-1 vì chúng tôi đã sao chép cột công thức 1 sang bên phải. Do đó, OFFSET nhận được một phạm vi cách 1 cột ở bên phải của phạm vi nguồn, tức là $C$2:$C$13 (chi phí quảng cáo).
Cách vẽ biểu đồ tương quan trong Excel
Khi thực hiện tương quan trong Excel, cách tốt nhất để có biểu diễn trực quan về mối quan hệ giữa dữ liệu của bạn là vẽ biểu đồ phân tán với đường xu hướng . Dưới đây là cách thực hiện:
- Chọn hai cột có dữ liệu số, bao gồm cả tiêu đề cột. Thứ tự của các cột rất quan trọng: biến độc lập phải ở cột bên trái vì cột này sẽ được vẽ trên trục x; biến phụ thuộc phải ở cột bên phải vì nó sẽ được vẽ trên trục y.
- Trên tab Inset , trong Trò chuyện nhóm, hãy nhấp vào biểu tượng biểu đồ Phân tán . Thao tác này sẽ ngay lập tức chèn biểu đồ phân tán XY vào trang tính của bạn.
- Nhấp chuột phải vào bất kỳ điểm dữ liệu nào trong biểu đồ và chọn Thêm Đường xu hướng… từ menu ngữ cảnh.
Để biết hướng dẫn chi tiết từng bước, vui lòng xem:
- Cách tạo biểu đồ phân tán trong Excel
- Cách thêm đường xu hướng vào biểu đồ Excel
Đối với tập dữ liệu mẫu của chúng tôi, các biểu đồ tương quan trông giống như trong hình bên dưới.Ngoài ra, chúng tôi đã hiển thị giá trị bình phương R, còn được gọi là Hệ số xác định . Giá trị này cho biết mức độ tương ứng của đường xu hướng với dữ liệu - R2 càng gần 1 thì càng phù hợp.
Từ giá trị R2 hiển thị trên biểu đồ phân tán, bạn có thể dễ dàng tính toán hệ số tương quan:
- Để có độ chính xác cao hơn, hãy yêu cầu Excel hiển thị nhiều chữ số hơn trong giá trị bình phương R so với mặc định.
- Nhấp vào giá trị R2 trên biểu đồ, chọn giá trị đó bằng chuột và nhấn Ctrl + C để sao chép nó.
- Nhận căn bậc hai của R2 bằng cách sử dụng hàm SQRT hoặc bằng cách nâng giá trị R2 đã sao chép lên lũy thừa 0,5.
Ví dụ: Giá trị R2 trong biểu đồ thứ hai là 0,9174339392. Vì vậy, bạn có thể tìm hệ số tương quan cho Quảng cáo và Máy sưởi đã bán bằng một trong các công thức sau:
=SQRT(0.9174339392)
=0.9174339392^0.5
Như bạn có thể chắc chắn, các hệ số được tính toán theo cách này hoàn toàn phù hợp với các hệ số tương quan được tìm thấy trong các ví dụ trước, ngoại trừ dấu hiệu :
Các vấn đề tiềm ẩn với hệ số tương quan trong Excel
Tương quan thời điểm sản phẩm Pearson chỉ cho thấy mối quan hệ tuyến tính giữa hai biến. Có nghĩa là các biến của bạn có thể có mối liên hệ chặt chẽ theo một cách khác, theo đường cong và vẫn có hệ số tương quan bằng hoặc gần bằng 0.
Tương quan Pearson không thểphân biệt các biến phụ thuộc và độc lập . Ví dụ: khi sử dụng hàm CORREL để tìm mối liên hệ giữa nhiệt độ trung bình hàng tháng và số lượng máy sưởi được bán, chúng tôi nhận được hệ số -0,97, cho biết mối tương quan âm cao. Tuy nhiên, bạn có thể chuyển đổi giữa các biến và nhận được kết quả tương tự. Vì vậy, ai đó có thể kết luận rằng doanh số bán lò sưởi cao hơn khiến nhiệt độ giảm xuống, điều này rõ ràng là vô nghĩa. Do đó, khi chạy phân tích tương quan trong Excel, hãy lưu ý đến dữ liệu bạn đang cung cấp.
Bên cạnh đó, tương quan Pearson rất nhạy cảm với giá trị ngoại lệ . Nếu bạn có một hoặc nhiều điểm dữ liệu khác biệt lớn so với phần còn lại của dữ liệu, bạn có thể nhận được một bức tranh méo mó về mối quan hệ giữa các biến. Trong trường hợp này, bạn nên sử dụng tương quan xếp hạng Spearman để thay thế.
Đó là cách thực hiện tương quan trong Excel. Để xem kỹ hơn các ví dụ được thảo luận trong hướng dẫn này, bạn có thể tải xuống sổ làm việc mẫu của chúng tôi bên dưới. Tôi cảm ơn bạn đã đọc và hy vọng sẽ gặp bạn trên blog của chúng tôi vào tuần tới!
Sách bài tập thực hành
Tính toán tương quan trong Excel (tệp .xlsx)
nhân quả. Thực tế là những thay đổi của một biến có liên quan đến những thay đổi của biến kia không có nghĩa là một biến thực sự khiến biến kia thay đổi.Nếu bạn muốn tìm hiểu quan hệ nhân quả và đưa ra dự đoán, hãy tiến lên một bước và thực hiện phân tích hồi quy tuyến tính.
Hệ số tương quan trong Excel - diễn giải tương quan
Đo lường bằng số về mức độ liên kết giữa hai biến liên tục được gọi là hệ số tương quan ( r).
Giá trị hệ số luôn nằm trong khoảng từ -1 đến 1 và nó đo lường cả độ mạnh và hướng của mối quan hệ tuyến tính giữa các biến.
Cường độ
Càng lớn giá trị tuyệt đối của hệ số thì mối quan hệ càng chặt chẽ:
- Các giá trị cực trị của -1 và 1 biểu thị mối quan hệ tuyến tính hoàn hảo khi tất cả các điểm dữ liệu nằm trên một đường thẳng. Trong thực tế, hiếm khi quan sát thấy mối tương quan hoàn hảo, tích cực hoặc tiêu cực.
- Hệ số 0 cho biết không có mối quan hệ tuyến tính giữa các biến. Đây là những gì bạn có thể nhận được với hai bộ số ngẫu nhiên.
- Các giá trị từ 0 đến +1/-1 thể hiện thang mối quan hệ yếu, trung bình và mạnh. Khi r càng tiến gần đến -1 hoặc 1, độ mạnh của mối quan hệ càng tăng.
Hướng
Dấu hệ số (cộng hoặc trừ) cho biết hướng củamối quan hệ.
- Hệ số dương biểu thị mối tương quan trực tiếp và tạo ra độ dốc đi lên trên biểu đồ - khi một biến tăng thì biến kia tăng và ngược lại.
- Các hệ số âm biểu thị mối tương quan nghịch đảo và tạo ra độ dốc đi xuống trên đồ thị - khi một biến tăng, biến kia có xu hướng giảm.
Để hiểu rõ hơn, vui lòng xem tại các biểu đồ tương quan sau:
- Hệ số 1 có nghĩa là mối quan hệ tích cực hoàn hảo - khi một biến tăng thì biến kia tăng theo tỷ lệ thuận.
- Hệ số -1 có nghĩa là mối quan hệ tiêu cực hoàn hảo - khi một biến tăng lên, biến kia giảm theo tỷ lệ thuận.
- Hệ số 0 có nghĩa là không có mối quan hệ nào giữa hai biến - các điểm dữ liệu là nằm rải rác trên biểu đồ.
Tương quan Pearson
Trong thống kê, chúng đo lường một số loại tương quan tùy thuộc vào loại dữ liệu bạn đang làm việc. Trong hướng dẫn này, chúng tôi sẽ tập trung vào một điểm phổ biến nhất.
Tương quan Pearson , tên đầy đủ là Tương quan thời điểm sản phẩm Pearson (PPMC), được sử dụng để đánh giá các mối quan hệ tuyến tính giữa các dữ liệu khi một thay đổi trong một biến có liên quan đến thay đổi theo tỷ lệ trong biến kia. Nói một cách đơn giản, Tương quan Pearson trả lời câu hỏi: Liệu dữ liệu có thể được biểu diễn trên mộtdòng?
Trong thống kê, đây là loại tương quan phổ biến nhất và nếu bạn đang xử lý một "hệ số tương quan" mà không cần xác định thêm, thì đó rất có thể là Pearson.
Đây là công thức được sử dụng phổ biến nhất để tìm hệ số tương quan Pearson, còn được gọi là Pearson's R :
Đôi khi, bạn có thể bắt gặp hai công thức khác để tính hệ số tương quan mẫu (r) và hệ số tương quan tổng thể (ρ).
Cách thực hiện tương quan Pearson trong Excel
Tính toán hệ số tương quan Pearson bằng tay đòi hỏi khá nhiều phép toán . May mắn thay, Microsoft Excel đã làm mọi thứ trở nên rất đơn giản. Tùy thuộc vào tập dữ liệu và mục tiêu của bạn, bạn có thể thoải mái sử dụng một trong các kỹ thuật sau:
- Tìm hệ số tương quan Pearson bằng hàm CORREL.
- Tạo ma trận tương quan bằng cách thực hiện Phân tích dữ liệu.
- Tìm nhiều hệ số tương quan bằng một công thức.
- Viết biểu đồ tương quan để có biểu diễn trực quan về mối quan hệ dữ liệu.
Cách tính toán hệ số tương quan trong Excel
Để tính toán hệ số tương quan bằng tay, bạn phải sử dụng công thức dài dòng này. Để tìm hệ số tương quan trong Excel, hãy sử dụng hàm CORREL hoặc PEARSON và nhận kết quả trong tích tắc.
Hàm CORREL của Excel
Hàm CORREL trả về giá trị tương quanHệ số tương quan Pearson cho hai bộ giá trị. Cú pháp của nó rất dễ dàng và đơn giản:
CORREL(array1, array2)Trong đó:
- Array1 là phạm vi giá trị đầu tiên.
- Array2 là phạm vi giá trị thứ hai.
Hai mảng phải có độ dài bằng nhau.
Giả sử chúng ta có một tập hợp các biến độc lập ( x ) trong B2:B13 và các biến phụ thuộc (y) trong C2:C13, công thức hệ số tương quan của chúng ta như sau:
=CORREL(B2:B13, C2:C13)
Hoặc, chúng ta có thể hoán đổi các phạm vi mà vẫn nhận được kết quả tương tự:
=CORREL(C2:C13, B2:B13)
Dù bằng cách nào thì công thức cũng cho thấy mối tương quan nghịch rất chặt chẽ (khoảng -0,97) giữa nhiệt độ trung bình hàng tháng và số lượng máy sưởi bán ra:
3 điều bạn nên biết về hàm CORREL trong Excel
Để tính hệ số tương quan trong Excel thành công, hãy ghi nhớ 3 điều đơn giản sau:
- Nếu một hoặc nhiều ô trong một mảng chứa văn bản, giá trị logic hoặc khoảng trống, các ô đó sẽ bị bỏ qua; các ô có giá trị bằng 0 được tính toán.
- Nếu các mảng được cung cấp có độ dài khác nhau, lỗi #N/A sẽ được trả về.
- Nếu một trong hai mảng trống hoặc nếu độ lệch chuẩn của giá trị của chúng bằng 0, #DIV/0! xảy ra lỗi.
Hàm PEARSON trong Excel
Hàm PEARSON trong Excel thực hiện công việc tương tự - tính toán hệ số Tương quan Thời điểm Sản phẩm Pearson.
PEARSON(array1,array2)Trong đó:
- Mảng1 là dải giá trị độc lập.
- Mảng2 là dải giá trị phụ thuộc.
Vì PEARSON và CORREL đều tính toán hệ số tương quan tuyến tính Pearson nên kết quả của chúng phải phù hợp và chúng thường tính toán trong các phiên bản gần đây của Excel 2007 đến Excel 2019.
Trong Excel 2003 và Tuy nhiên, các phiên bản cũ hơn, hàm PEARSON có thể hiển thị một số lỗi làm tròn số. Do đó, trong các phiên bản cũ hơn, bạn nên sử dụng CORREL thay vì PEARSON.
Trên tập dữ liệu mẫu của chúng tôi, cả hai hàm đều cho kết quả giống nhau:
=CORREL(B2:B13, C2:C13)
=PEARSON(B2:B13, C2:C13)
Cách tạo ma trận tương quan trong Excel bằng Phân tích dữ liệu
Khi bạn cần kiểm tra mối tương quan giữa nhiều hơn hai biến, bạn nên xây dựng ma trận tương quan, đôi khi được gọi là nhiều hệ số tương quan .
Ma trận tương quan là một bảng hiển thị các hệ số tương quan giữa các biến tại giao điểm của các hàng và cột tương ứng.
Ma trận tương quan trong Excel được xây dựng bằng cách sử dụng công cụ Correlation từ phần bổ trợ Analysis ToolPak . Phần bổ trợ này sẵn dùng trong tất cả các phiên bản Excel 2003 đến Excel 2019 nhưng không được bật theo mặc định. Nếu bạn chưa kích hoạt nó, vui lòng thực hiện việc này ngay bây giờ bằng cách làm theo các bước được mô tả trong Cách bật Data Analysis ToolPak trong Excel.
Vớicông cụ Phân tích dữ liệu được thêm vào dải băng Excel của bạn, bạn đã sẵn sàng chạy phân tích tương quan:
- Ở góc trên cùng bên phải của tab Dữ liệu > Phân tích nhóm, nhấp vào nút Phân tích dữ liệu .
- Trong hộp thoại Phân tích dữ liệu , chọn Tương quan và nhấp vào OK.
- Trong hộp Tương quan , định cấu hình các tham số theo cách này:
- Nhấp vào hộp Phạm vi đầu vào và chọn phạm vi có dữ liệu nguồn của bạn, bao gồm các tiêu đề cột (trong trường hợp của chúng tôi là B1:D13).
- Trong phần Được nhóm theo , hãy đảm bảo rằng hộp radio Cột được chọn (được cung cấp rằng dữ liệu nguồn của bạn được nhóm thành các cột).
- Chọn hộp kiểm Nhãn ở hàng đầu tiên nếu phạm vi đã chọn chứa tiêu đề cột.
- Chọn tùy chọn đầu ra mong muốn. Để có ma trận trong cùng một trang tính, hãy chọn Phạm vi đầu ra và chỉ định tham chiếu đến ô ngoài cùng bên trái mà ma trận sẽ được xuất ra (A15 trong ví dụ này).
Khi hoàn tất, hãy nhấp vào nút OK :
Ma trận hệ số tương quan của bạn đã hoàn tất và sẽ trông giống như được hiển thị trong phần tiếp theo.
Diễn giải kết quả phân tích tương quan
Trong ma trận tương quan Excel, bạn có thể tìm thấy các hệ số tại giao điểm của hàng và cột. Nếu tọa độ cột và hàng giống nhau, giá trị 1 sẽ được xuất ra.
Ở trênVí dụ, chúng tôi muốn biết mối tương quan giữa biến phụ thuộc (số lượng máy sưởi bán ra) và hai biến độc lập (nhiệt độ trung bình hàng tháng và chi phí quảng cáo). Vì vậy, chúng tôi chỉ xem xét các số tại giao điểm của các hàng và cột này, được đánh dấu trong ảnh chụp màn hình bên dưới:
Hệ số âm -0,97 (làm tròn đến 2 chữ số thập phân) cho thấy mối tương quan nghịch đảo mạnh mẽ giữa doanh số bán máy sưởi và nhiệt độ hàng tháng - khi nhiệt độ tăng cao hơn, số lượng máy sưởi bán ra ít hơn.
Hệ số dương 0,97 (làm tròn đến 2 chữ số thập phân) cho biết mối liên hệ trực tiếp mạnh mẽ giữa ngân sách quảng cáo và doanh số bán hàng - càng nhiều số tiền bạn chi cho quảng cáo, doanh số bán hàng càng cao.
Cách thực hiện phân tích đa tương quan trong Excel bằng các công thức
Dễ dàng xây dựng bảng tương quan bằng công cụ Phân tích dữ liệu. Tuy nhiên, ma trận đó là tĩnh, nghĩa là bạn sẽ cần chạy lại phân tích tương quan mỗi khi dữ liệu nguồn thay đổi.
Tin vui là bạn có thể dễ dàng tự tạo một bảng tương quan và ma trận đó sẽ tự động cập nhật với mỗi thay đổi trong giá trị nguồn.
Để hoàn thành, hãy sử dụng công thức chung sau:
CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1) , OFFSET( first_variable_range , 0, COLUMNS($A:A)-1))Lưu ý quan trọng! Để công thức hoạt động, bạn nên khóaphạm vi biến đầu tiên bằng cách sử dụng tham chiếu ô tuyệt đối.
Trong trường hợp của chúng tôi, phạm vi biến đầu tiên là $B$2:$B$13 (vui lòng lưu ý dấu $ khóa tham chiếu) và công thức tương quan của chúng tôi thực hiện điều này shape:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
Với công thức đã sẵn sàng, hãy xây dựng một ma trận tương quan:
- Trong hàng đầu tiên và cột đầu tiên của ma trận, hãy nhập các biến ' các nhãn theo thứ tự như chúng xuất hiện trong bảng nguồn của bạn (vui lòng xem ảnh chụp màn hình bên dưới).
- Nhập công thức trên vào ô ngoài cùng bên trái (trong trường hợp của chúng tôi là B16).
- Kéo công thức xuống dưới và sang phải để sao chép nó vào bao nhiêu hàng và cột nếu cần (trong ví dụ của chúng tôi là 3 hàng và 3 cột).
Kết quả là chúng ta có ma trận sau với nhiều tương quan hệ số. Xin lưu ý rằng các hệ số được công thức của chúng ta trả về hoàn toàn giống với kết quả của Excel trong ví dụ trước (các hệ số có liên quan được đánh dấu):
Cách thức hoạt động của công thức này
Như bạn đã biết, hàm CORREL trong Excel trả về hệ số tương quan cho hai bộ biến mà bạn chỉ định. Thách thức chính là cung cấp các phạm vi thích hợp trong các ô tương ứng của ma trận. Đối với điều này, bạn chỉ nhập phạm vi biến đầu tiên trong công thức và sử dụng các hàm sau để thực hiện các điều chỉnh cần thiết:
- OFFSET - trả về một phạm vi có số lượng hàng và cột nhất định