Excel의 상관 관계: 계수, 행렬 및 그래프

  • 이 공유
Michael Brown

이 자습서에서는 Excel의 상관 관계에 대한 기본 사항을 설명하고 상관 계수를 계산하고 상관 관계 매트릭스를 구축하고 결과를 해석하는 방법을 보여줍니다.

Excel에서 할 수 있는 가장 간단한 통계 계산 중 하나는 상관 관계입니다. 간단하지만 둘 이상의 변수 간의 관계를 이해하는 데 매우 유용합니다. Microsoft Excel은 상관 관계 분석을 실행하는 데 필요한 모든 도구를 제공하므로 사용 방법만 알면 됩니다.

    Excel의 상관 관계 - 기본 사항

    상관 관계 는 두 변수 간의 관계의 강도와 방향성을 설명하는 척도이다. 통계, 경제, 사회과학 분야에서 예산, 사업 계획 등을 위해 일반적으로 사용됩니다.

    변수가 얼마나 밀접하게 관련되어 있는지 연구하는 데 사용되는 방법을 상관 분석 이라고 합니다.

    다음은 강력한 상관관계의 몇 가지 예입니다.

    • 섭취하는 칼로리와 체중(양의 상관관계)
    • 외부 온도와 난방비( 음의 상관관계)

    약하거나 상관관계가 없는 데이터의 예는 다음과 같습니다.

    • 고양이 이름과 좋아하는 음식
    • 색깔 당신의 눈과 당신의 키

    상관 관계를 이해하는 데 필수적인 것은 두 변수가 얼마나 밀접하게 관련되어 있는지를 보여줄 뿐이라는 것입니다. 그러나 상관 관계는 다음을 의미하지 않습니다.지정된 범위에서.

  • ROWS 및 COLUMNS - 각각 범위의 행 및 열 수를 반환합니다. 상관 관계 수식에서 둘 다 하나의 목적으로 사용됩니다. 즉, 시작 범위에서 오프셋할 열 수를 가져옵니다. 이는 절대 참조와 상대 참조를 교묘하게 사용하여 달성할 수 있습니다.
  • 논리를 더 잘 이해하기 위해 수식이 위 스크린샷에 강조표시된 계수를 계산하는 방법을 살펴보겠습니다.

    먼저 월별 온도(B2:B13)와 판매된 히터(D2:D13) 사이의 상관관계를 찾는 B18의 공식을 검토하십시오.

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    첫 번째 OFFSET 함수에서 ROWS($1: 1) 두 번째 좌표가 상대적이므로 ROWS($1:3)로 변환되었으므로 수식이 복사되는 행(2행 아래)의 상대적 위치에 따라 변경됩니다. 따라서 ROWS()는 3을 반환하고 여기에서 1을 빼고 소스 범위의 오른쪽으로 2열인 범위를 얻습니다. 즉, $D$2:$D$13(히터 판매)입니다.

    The 두 번째 OFFSET은 COLUMNS($A:A)-1이 0을 반환하기 때문에 지정된 범위 $B$2:$B$13(온도)를 변경하지 않습니다.

    결과적으로 긴 공식은 간단한 CORREL( $D$2:$D$13, $B$2:$B$13) 우리가 원하는 계수를 정확하게 반환합니다.

    광고 비용(C2:C13)과 매출( D2:D13)은 유사한 방식으로 작동합니다.

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    첫 번째 OFFSET 기능은$D$2:$D$13(히터 판매)의 범위를 반환하는 위에서 설명한 것과 완전히 동일합니다.

    두 번째 OFFSET에서 COLUMNS($A:A)-1은 COLUMNS($A:로 변경됩니다. B)-1은 수식 1 열을 오른쪽에 복사했기 때문입니다. 결과적으로 OFFSET은 소스 범위에서 오른쪽으로 1열인 범위, 즉 $C$2:$C$13(광고 비용)을 가져옵니다.

    Excel

    <0에서 상관 관계 그래프를 그리는 방법

    Excel에서 상관관계를 분석할 때 데이터 간의 관계를 시각적으로 표현하는 가장 좋은 방법은 추세선 이 포함된 산포도 를 그리는 것입니다. 방법은 다음과 같습니다.

    1. 열 머리글을 포함하여 숫자 데이터가 있는 두 개의 열을 선택합니다. 열의 순서는 중요합니다. independent 변수는 이 열이 x축에 그려지므로 왼쪽 열에 있어야 합니다. 종속 변수는 y축에 표시되므로 오른쪽 열에 있어야 합니다.
    2. 삽입 탭의 채팅 그룹에서 분산형 차트 아이콘을 클릭합니다. 이렇게 하면 워크시트에 XY 분산형 차트가 즉시 삽입됩니다.
    3. 차트의 데이터 포인트를 마우스 오른쪽 버튼으로 클릭하고 컨텍스트 메뉴에서 추세선 추가... 를 선택합니다.

    자세한 단계별 지침은 다음을 참조하십시오.

    • Excel에서 산점도를 만드는 방법
    • Excel 차트에 추세선을 추가하는 방법

    샘플 데이터 세트의 경우 상관 관계 그래프는 아래 이미지와 같습니다.또한 결정 계수 라고도 하는 R-제곱 값을 표시했습니다. 이 값은 추세선이 데이터와 얼마나 잘 일치하는지 나타냅니다. R2가 1에 가까울수록 더 적합합니다.

    산점도에 표시된 R2 값에서 상관 계수를 쉽게 계산할 수 있습니다.

    1. 정확도를 높이려면 Excel에서 기본보다 R-제곱 값에 더 많은 자릿수를 표시하도록 하세요.
    2. 차트에서 R2 값을 클릭하고 마우스로 선택한 다음 Ctrl 키를 누릅니다. + C로 복사합니다.
    3. SQRT 함수를 사용하거나 복사된 R2 값을 0.5의 거듭제곱으로 올려 R2의 제곱근을 구합니다.

    예를 들어, 두 번째 그래프의 R2 값은 0.9174339392입니다. 따라서 다음 공식 중 하나를 사용하여 광고 히터 판매 에 대한 상관 계수를 찾을 수 있습니다.

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    확인할 수 있듯이 이러한 방식으로 계산된 계수는 부호 를 제외하고 이전 예제에서 발견된 상관 계수와 완벽하게 일치합니다.

    Excel에서 상관 관계의 잠재적인 문제

    Pearson Product Moment Correlation 은 두 변수 간의 선형 관계만 나타냅니다. 즉, 귀하의 변수는 다른 곡선 방식으로 강하게 관련될 수 있으며 여전히 상관 계수가 0과 같거나 0에 가깝습니다.

    Pearson 상관 관계는 종속 변수와 독립 변수를 구분합니다. 예를 들어 CORREL 함수를 사용하여 월 평균 기온과 판매된 히터 수 사이의 연관성을 찾으면 계수가 -0.97로 높은 음의 상관 관계를 나타냅니다. 그러나 변수를 전환하여 동일한 결과를 얻을 수 있습니다. 따라서 누군가는 난방기 판매 증가로 인해 온도가 낮아진다고 결론을 내릴 수 있습니다. 이는 명백히 말이 되지 않습니다. 따라서 Excel에서 상관관계 분석을 실행할 때 제공하는 데이터에 유의해야 합니다.

    게다가 Pearson 상관관계는 이상값 에 매우 민감합니다. 나머지 데이터와 크게 다른 데이터 요소가 하나 이상 있는 경우 변수 간의 관계에 대한 왜곡된 그림을 얻을 수 있습니다. 이 경우 Spearman 순위 상관 관계를 대신 사용하는 것이 좋습니다.

    Excel에서 상관 관계를 수행하는 방법입니다. 이 자습서에서 설명하는 예제를 자세히 살펴보려면 아래에서 샘플 통합 문서를 다운로드하십시오. 읽어 주셔서 감사합니다. 다음 주 블로그에서 뵙기를 바랍니다!

    워크북 연습

    Excel에서 상관 관계 계산(.xlsx 파일)

    원인. 한 변수의 변화가 다른 변수의 변화와 연관되어 있다는 사실이 실제로 한 변수가 다른 변수의 변화를 유발한다는 의미는 아닙니다.

    인과 관계를 배우고 예측하는 데 관심이 있다면 한 걸음 더 나아가십시오. 선형 회귀 분석을 수행합니다.

    Excel의 상관 계수 - 상관 관계 해석

    두 연속 변수 간의 연관 정도를 수치로 측정한 값을 상관 계수 ( r).

    계수 값은 항상 -1과 1 사이이며 변수 간의 선형 관계의 강도와 방향을 모두 측정합니다.

    강도

    더 클수록 계수의 절대값일수록 관계가 더 강해집니다.

    • -1과 1의 극단값은 모든 데이터 포인트가 한 줄에 있을 때 완벽한 선형 관계를 나타냅니다. 실제로 양수든 음수든 완벽한 상관관계는 거의 관찰되지 않습니다.
    • 계수 0은 변수 사이에 선형 관계가 없음을 나타냅니다. 이것이 두 세트의 난수로 얻을 수 있는 것입니다.
    • 0과 +1/-1 사이의 값은 약함, 보통, 강함 관계의 척도를 나타냅니다. r 가 -1 또는 1에 가까워질수록 관계의 강도가 높아집니다.

    방향

    계수 부호(플러스 또는 마이너스)는 의 방향관계.

    • 양의 계수는 직접적인 상관 관계를 나타내며 그래프에서 상향 기울기를 생성합니다. 한 변수가 증가하면 다른 변수도 증가하고 그 반대도 마찬가지입니다.
    • 음의 계수는 역의 상관관계를 나타내며 그래프에서 하향 기울기를 생성합니다. 한 변수가 증가하면 다른 변수는 감소하는 경향이 있습니다.

    더 나은 이해를 위해 다음을 참조하십시오. 다음 상관 관계 그래프:

    • 계수 1 는 완벽한 양의 관계를 의미합니다. 한 변수가 증가하면 다른 변수도 그에 비례하여 증가합니다.
    • 계수 -1 는 완벽한 음의 관계를 의미합니다. 한 변수가 증가함에 따라 다른 변수는 그에 비례하여 감소합니다.
    • 계수 0 는 두 변수 간에 관계가 없음을 의미합니다. 데이터 포인트는 그래프 전체에 흩어져 있습니다.

    피어슨 상관관계

    통계에서는 작업 중인 데이터 유형에 따라 여러 유형의 상관관계를 측정합니다. 이 튜토리얼에서는 가장 일반적인 것에 초점을 맞출 것입니다.

    Pearson Correlation , 전체 이름은 Pearson Product Moment Correlation (PPMC)이며 다음을 위해 사용됩니다. 한 변수의 변화가 다른 변수의 비례 변화와 연관될 때 데이터 간의 선형 관계를 평가합니다. 간단히 말해서 Pearson Correlation은 다음 질문에 대한 답을 제공합니다.line?

    통계에서 가장 많이 사용되는 상관관계 유형이며, 더 이상의 한정 없이 "상관관계 계수"를 다룬다면 피어슨일 가능성이 가장 높습니다.

    다음은 Pearson의 R 라고도 하는 Pearson 상관 계수를 찾는 데 가장 일반적으로 사용되는 공식:

    때때로 샘플 상관 계수 를 계산하기 위한 두 가지 다른 공식을 접할 수 있습니다. (r) 및 모집단 상관 계수 (ρ).

    Excel에서 피어슨 상관 관계를 수행하는 방법

    수동으로 피어슨 상관 계수를 계산하려면 상당히 많은 수학이 필요합니다. . 운 좋게도 Microsoft Excel은 작업을 매우 간단하게 만들었습니다. 데이터 세트와 목표에 따라 다음 기술 중 하나를 자유롭게 사용할 수 있습니다.

    • CORREL 함수로 Pearson 상관 계수를 찾습니다.
    • 다음을 통해 상관 행렬을 만듭니다. 데이터 분석을 수행합니다.
    • 공식으로 여러 상관 계수를 찾습니다.
    • 데이터 관계를 시각적으로 표현하기 위해 상관 관계 그래프를 그립니다.

    계산 방법 Excel의 상관 계수

    상관 계수를 직접 계산하려면 이 긴 공식을 사용해야 합니다. Excel에서 상관 계수를 찾으려면 CORREL 또는 PEARSON 함수를 활용하고 순식간에 결과를 얻으십시오.

    Excel CORREL 함수

    CORREL 함수는 다음을 반환합니다.두 세트의 값에 대한 Pearson 상관 계수. 구문은 매우 쉽고 간단합니다.

    CORREL(array1, array2)

    여기서:

    • Array1 은 값의 첫 번째 범위입니다.
    • 배열2 는 값의 두 번째 범위입니다.

    두 배열의 길이는 같아야 합니다.

    독립 변수 세트( x ), B2:B13의 종속 변수(y) 및 C2:C13의 종속 변수(y)에서 상관 계수 공식은 다음과 같습니다.

    =CORREL(B2:B13, C2:C13)

    또는 범위를 바꾸고 여전히 같은 결과를 얻습니다:

    =CORREL(C2:C13, B2:B13)

    어느 쪽이든 공식은 월 평균 기온과 판매된 히터 수 사이에 강한 음의 상관관계(약 -0.97)를 나타냅니다.

    Excel의 CORREL 함수에 대해 알아야 할 3가지 사항

    Excel에서 상관 계수를 성공적으로 계산하려면 다음 3가지 간단한 사실을 명심하십시오.

    • 하나 이상의 셀이 배열에 텍스트, 논리값 또는 공백이 포함되어 있으면 이러한 셀은 무시됩니다. 값이 0인 셀이 계산됩니다.
    • 제공된 배열의 길이가 다른 경우 #N/A 오류가 반환됩니다.
    • 배열 중 하나가 비어 있거나 표준 편차가 그들의 값은 0, #DIV/0! 오류가 발생합니다.

    Excel PEARSON 함수

    Excel의 PEARSON 함수는 동일한 작업을 수행합니다. 즉, Pearson Product Moment Correlation 계수를 계산합니다.

    PEARSON(array1,array2)

    여기서:

    • Array1 은 독립 값의 범위입니다.
    • Array2 는 종속 값의 범위입니다.

    PEARSON과 CORREL은 모두 Pearson 선형 상관 계수를 계산하기 때문에 결과가 일치해야 하며 일반적으로 최신 버전의 Excel 2007에서 Excel 2019까지 일치합니다.

    Excel 2003 및 그러나 이전 버전에서는 PEARSON 함수가 일부 반올림 오류를 표시할 수 있습니다. 따라서 이전 버전에서는 PEARSON보다 CORREL을 사용하는 것이 좋습니다.

    샘플 데이터 세트에서 두 함수 모두 동일한 결과를 나타냅니다.

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    데이터 분석으로 엑셀에서 상관행렬 만드는 방법

    두 개 이상의 변수 사이의 상관관계를 테스트해야 할 때 상관행렬을 구성하는 것이 타당합니다>다중 상관 계수 .

    상관 행렬 은 해당 행과 열의 교차점에서 변수 간의 상관 계수를 나타내는 표입니다.

    Excel의 상관 관계 매트릭스는 Analysis ToolPak 추가 기능의 Correlation 도구를 사용하여 작성됩니다. 이 추가 기능은 Excel 2003부터 Excel 2019까지의 모든 버전에서 사용할 수 있지만 기본적으로 활성화되어 있지는 않습니다. 아직 활성화하지 않은 경우 Excel에서 Data Analysis ToolPak을 활성화하는 방법에 설명된 단계에 따라 지금 활성화하십시오.

    Excel 리본에 추가된 데이터 분석 도구를 사용하여 상관 관계 분석을 실행할 준비가 된 것입니다.

    1. 데이터 탭의 오른쪽 상단 모서리에 있는 > 분석 그룹에서 데이터 분석 버튼을 클릭합니다.
    2. 데이터 분석 대화 상자에서 상관관계 를 선택하고 확인을 클릭합니다.
    3. Correlation 상자에서 매개변수를 다음과 같이 구성합니다.
      • Input Range 상자를 클릭하고 범위를 선택합니다. 열 머리글을 포함한 소스 데이터(이 경우 B1:D13).
      • 그룹화 기준 섹션에서 라디오 상자가 선택되었는지 확인합니다(주어진 소스 데이터가 열로 그룹화됨).
      • 선택한 범위에 열 머리글이 포함된 경우 첫 행의 레이블 확인란을 선택합니다.
      • 원하는 출력 옵션을 선택합니다. 동일한 시트에 매트릭스를 포함하려면 출력 범위 를 선택하고 매트릭스가 출력될 맨 왼쪽 셀에 대한 참조를 지정합니다(이 예에서는 A15).

    완료되면 확인 버튼을 클릭합니다.

    상관 계수 행렬이 완료되었으며 다음 섹션에 표시된 것과 같아야 합니다.

    상관 분석 결과 해석

    Excel 상관 관계 매트릭스에서 행과 열의 교차점에서 계수를 찾을 수 있습니다. 열과 행 좌표가 같으면 값 1이 출력된다.

    위에서예를 들어 종속 변수(판매된 히터 수)와 두 개의 독립 변수(월 평균 온도 및 광고 비용) 간의 상관 관계를 알고 싶습니다. 따라서 아래 스크린샷에 강조 표시된 이러한 행과 열의 교차점에 있는 숫자만 살펴봅니다.

    음의 계수 -0.97(소수점 둘째 자리로 반올림)은 월별 온도 및 히터 판매 - 온도가 높아질수록 판매되는 히터의 수가 줄어듭니다.

    양의 계수 0.97(소수점 둘째 자리에서 반올림)은 광고 예산과 판매 간의 직접적인 연관성이 강함을 나타냅니다. 광고에 쓰는 돈, 더 높은 매출.

    수식을 사용하여 Excel에서 다중 상관 분석을 수행하는 방법

    데이터 분석 도구를 사용하여 상관 관계 테이블을 작성하는 것은 쉽습니다. 그러나 이 매트릭스는 정적이므로 소스 데이터가 변경될 때마다 상관관계 분석을 새로 실행해야 합니다.

    좋은 소식은 유사한 상관관계 테이블을 직접 쉽게 구축할 수 있으며 해당 매트릭스가 자동으로 업데이트된다는 것입니다. 소스 값이 변경될 때마다.

    완료하려면 다음 일반 공식을 사용하십시오.

    CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1) , OFFSET( first_variable_range , 0, COLUMNS($A:A)-1))

    중요 참고 사항! 수식이 작동하려면 다음을 잠가야 합니다.절대 셀 참조를 사용하여 첫 번째 변수 범위.

    이 경우 첫 번째 변수 범위는 $B$2:$B$13(참조를 잠그는 $ 기호에 유의하십시오)이며 상관 수식은 다음을 사용합니다. shape:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    공식이 준비되면 상관관계 행렬을 구성해 보겠습니다.

    1. 행렬의 첫 번째 행과 첫 번째 열에 변수' 소스 테이블에 표시되는 것과 동일한 순서로 레이블을 지정합니다(아래 스크린샷 참조).
    2. 가장 왼쪽 셀(여기서는 B16)에 위 수식을 입력합니다.
    3. 수식을 드래그합니다. 필요한 만큼의 행과 열에 복사할 수 있습니다(예제에서는 3행 3열).

    결과적으로 다중 상관관계가 있는 다음과 같은 행렬을 얻었습니다. 계수. 수식에서 반환된 계수는 이전 예에서 Excel의 출력과 정확히 동일합니다(관련 계수는 강조 표시됨):

    이 공식 작동 방식

    이미 알고 있듯이, Excel CORREL 함수는 지정한 두 변수 집합에 대한 상관 계수를 반환합니다. 주요 과제는 매트릭스의 해당 셀에 적절한 범위를 제공하는 것입니다. 이를 위해 수식에 첫 번째 변수 범위만 입력하고 다음 기능을 사용하여 필요한 조정을 수행합니다.

    • OFFSET - 지정된 행 및 열 수인 범위를 반환합니다.

    Michael Brown은 소프트웨어 도구를 사용하여 복잡한 프로세스를 단순화하려는 열정을 가진 열성적인 기술 애호가입니다. 기술 산업에서 10년 이상의 경험을 쌓은 그는 Microsoft Excel 및 Outlook은 물론 Google 스프레드시트 및 문서 도구에 대한 기술을 연마했습니다. Michael의 블로그는 자신의 지식과 전문 지식을 다른 사람과 공유하는 데 전념하며 따라하기 쉬운 팁과 생산성 및 효율성 향상을 위한 자습서를 제공합니다. 노련한 전문가이든 초보자이든 Michael의 블로그는 이러한 필수 소프트웨어 도구를 최대한 활용하기 위한 귀중한 통찰력과 실용적인 조언을 제공합니다.