Excel의 선형 회귀 분석

  • 이 공유
Michael Brown

이 자습서에서는 회귀 분석의 기본 사항을 설명하고 Excel에서 선형 회귀를 수행하는 몇 가지 다른 방법을 보여줍니다.

이것을 상상해 보십시오. 귀사의 내년 매출 수치를 예측하라는 요청을 받았습니다. 수치에 영향을 미칠 수 있는 수십, 어쩌면 수백 가지의 요인을 발견했습니다. 그러나 어떤 것이 정말로 중요한지 어떻게 알 수 있습니까? Excel에서 회귀 분석을 실행합니다. 이것은 당신에게 이것과 더 많은 질문에 대한 답을 줄 것입니다: 어떤 요소가 중요하고 어떤 요소가 무시될 수 있습니까? 이 요소들은 서로 얼마나 밀접하게 관련되어 있습니까? 그리고 예측에 대해 얼마나 확신할 수 있습니까?

    Excel의 회귀 분석 - 기본 사항

    통계 모델링에서 회귀 분석 은 다음을 수행하는 데 사용됩니다. 두 개 이상의 변수 사이의 관계 추정:

    종속 변수 (일명 기준 변수)는 이해하고 예측하려는 주요 요인입니다.

    독립 변수 (일명 설명 변수 또는 예측 변수 )는 종속 변수에 영향을 줄 수 있는 요인입니다.

    회귀 분석은 독립 변수 중 하나가 변할 때 종속 변수가 어떻게 변하는지 이해하고 어떤 변수가 실제로 영향을 미치는지 수학적으로 결정할 수 있습니다.

    기술적으로 회귀 분석 모델은 의 합계를 기반으로 합니다.

    이 시점에서 차트는 이미 적절한 회귀 그래프처럼 보입니다.

    그래도 몇 가지 더 개선해야 할 수 있습니다.

    • 적합하다고 생각되는 곳으로 방정식을 드래그합니다.
    • 축 제목을 추가합니다( 차트 요소 버튼 > 축 제목 ).
    • 만약 데이터 포인트가 이 예와 같이 가로 및/또는 세로 축의 중간에서 시작하므로 과도한 공백을 제거할 수 있습니다. 다음 팁에서는 이를 수행하는 방법을 설명합니다. 공백을 줄이기 위해 차트 축의 크기를 조정합니다.

      향상된 회귀 그래프는 다음과 같습니다.

      중요 참고 사항! 회귀 그래프에서 독립변수는 항상 X축에 종속변수는 Y축에 있어야 합니다. 그래프가 역순으로 그려진 경우 워크시트의 열을 바꾼 다음 차트를 새로 그립니다. 원본 데이터를 재정렬할 수 없는 경우 차트에서 X축과 Y축을 직접 전환할 수 있습니다.

    수식을 사용하여 Excel에서 회귀하는 방법

    Microsoft Excel에는 LINEST, SLOPE, INTERCEPT 및 CORREL과 같은 선형 회귀 분석을 수행하는 데 도움이 되는 몇 가지 통계 함수가 있습니다.

    LINEST 함수는 최소 제곱 회귀 방법을 사용하여 직선을 계산합니다. 변수 사이의 관계를 가장 잘 설명하고 해당 라인을 설명하는 배열을 반환하는 라인. 대한 자세한 설명을 확인할 수 있습니다.이 튜토리얼의 함수 구문. 지금은 샘플 데이터세트에 대한 수식을 만들어 보겠습니다.

    =LINEST(C2:C25, B2:B25)

    LINEST 함수는 값의 배열을 반환하므로 배열 수식으로 입력해야 합니다. 같은 행에서 인접한 두 셀(이 경우 E2:F2)을 선택하고 수식을 입력한 다음 Ctrl + Shift + Enter를 눌러 완료합니다.

    수식은 b 계수( E1) 및 이미 친숙한 선형 회귀 방정식을 위한 a 상수(F1):

    y = bx + a

    워크시트에서 배열 수식을 사용하지 않는 경우 a b 를 정규 공식으로 개별적으로:

    Y절편(a) 구하기:

    =INTERCEPT(C2:C25, B2:B25)

    기울기 구하기 (b):

    =SLOPE(C2:C25, B2:B25)

    또한 상관 계수 (회귀 분석 요약 출력의 다중 R )를 찾을 수 있습니다. 강력하게 두 변수는 서로 관련되어 있습니다.

    =CORREL(B2:B25,C2:C25)

    다음 스크린샷은 이러한 모든 Excel 회귀 수식을 보여줍니다.

    팁. 회귀 분석에 대한 추가 통계를 얻으려면 이 예와 같이 s tats 매개변수를 TRUE로 설정한 LINEST 함수를 사용하십시오.

    이것이 선형 회귀를 수행하는 방법입니다. 엑셀에서. 즉, Microsoft Excel은 통계 프로그램이 아님을 명심하십시오. 전문가 수준에서 회귀 분석을 수행해야 하는 경우 대상 지정을 사용할 수 있습니다.XLSTAT, RegressIt 등과 같은 소프트웨어입니다.

    이 자습서에서 설명하는 선형 회귀 공식 및 기타 기술을 자세히 살펴보려면 아래에서 샘플 통합 문서를 다운로드하세요. 읽어주셔서 감사합니다!

    실습 워크북

    Excel의 회귀 분석 - 예제(.xlsx 파일)

    squares는 데이터 포인트의 분산을 찾는 수학적 방법입니다. 모델의 목표는 가능한 최소 제곱합을 구하고 데이터에 가장 가까운 선을 그리는 것입니다.

    통계에서는 단순 선형 회귀와 다중 선형 회귀를 구분합니다. 단순 선형 회귀 선형 함수를 사용하여 종속 변수와 하나의 독립 변수 간의 관계를 모델링합니다. 두 개 이상의 설명변수를 사용하여 종속변수를 예측하는 경우 다중선형회귀 를 처리하게 됩니다. 데이터 관계가 직선을 따르지 않기 때문에 종속 변수가 비선형 함수로 모델링되는 경우 대신 비선형 회귀 를 사용하십시오. 이 자습서의 초점은 간단한 선형 회귀에 있습니다.

    예를 들어 지난 24개월 동안의 우산 판매량을 보고 같은 기간 동안의 월 평균 강수량을 알아봅시다. 이 정보를 차트에 그리면 회귀선이 독립 변수(강우량)와 종속 변수(우산 판매) 간의 관계를 보여줍니다.

    선형 회귀 방정식

    수학적으로 선형 회귀 이 방정식으로 정의됩니다.

    y = bx + a + ε

    여기서:

    • x 는 독립 변수입니다.
    • y 는 종속 변수입니다.
    • a Y 절편 이며, 이는모든 x 변수가 0일 때 y . 회귀 그래프에서 선이 Y축과 교차하는 지점입니다.
    • b는 x 가 변할 때 y 에 대한 변화율인 회귀선의 기울기 .
    • ε 는 랜덤 오차입니다. 항은 종속 변수의 실제 값과 예측 값 간의 차이입니다.

    선형 회귀 방정식에는 항상 오류 항이 있습니다. 왜냐하면 실제 예측 변수는 완벽하게 정확하지 않기 때문입니다. 그러나 Excel을 비롯한 일부 프로그램은 배후에서 오류 용어 계산을 수행합니다. 따라서 Excel에서는 최소 제곱 방법을 사용하여 선형 회귀를 수행하고 다음과 같은 a b 계수를 찾습니다.

    y = bx + a

    이 예에서 선형 회귀 방정식은 다음 모양을 취합니다.

    Umbrellas sold = b * rainfall + a

    a b<를 찾는 몇 가지 방법이 있습니다. 2>. Excel에서 선형 회귀 분석을 수행하는 세 가지 주요 방법은 다음과 같습니다.

    • Analysis ToolPak에 포함된 회귀 도구
    • 추세선이 있는 분산형 차트
    • 선형 회귀 수식

    아래에서 각 방법에 대한 자세한 지침을 확인할 수 있습니다.

    Analysis ToolPak을 사용하여 Excel에서 선형 회귀를 수행하는 방법

    이 예는 Excel에서 회귀를 실행하는 방법을 보여줍니다. Analysis ToolPak 추가 기능에 포함된 특수 도구를 사용합니다.

    Analysis ToolPak 추가 기능을 활성화합니다.in

    Analysis ToolPak은 Excel 365에서 2003까지의 모든 버전에서 사용할 수 있지만 기본적으로 활성화되어 있지는 않습니다. 따라서 수동으로 켜야 합니다. 방법은 다음과 같습니다.

    1. Excel에서 파일 > 옵션 을 클릭합니다.
    2. Excel 옵션 에서 대화 상자에서 왼쪽 사이드바에서 추가 기능 을 선택하고 관리 상자에서 Excel 추가 기능 이 선택되어 있는지 확인하고 이동<을 클릭합니다. 2>.
    3. 추가 기능 대화 상자에서 Analysis Toolpak 을 선택하고 확인 을 클릭합니다:

    이렇게 하면 데이터 분석 도구가 Excel 리본의 데이터 탭에 추가됩니다.

    회귀 분석 실행

    에서 이 예에서는 Excel에서 간단한 선형 회귀를 수행할 것입니다. 우리가 가지고 있는 것은 독립 변수(예측 변수)인 B 열에 지난 24개월 동안의 평균 월 강우량 목록이고 종속 변수인 C 열에 판매된 우산의 수입니다. 물론 판매에 영향을 미칠 수 있는 다른 많은 요소가 있지만 지금은 이 두 가지 변수에만 집중합니다.

    Analysis Toolpak이 추가된 상태에서 다음 단계를 수행하여 Excel에서 회귀 분석을 수행합니다.

    1. 데이터 탭의 분석 그룹에서 데이터 분석 버튼을 클릭합니다.
    2. 회귀 를 선택하고 확인 을 클릭합니다.
    3. 회귀 대화 상자에서 다음 설정을 구성합니다.
      • 입력을 선택합니다.Y Range 종속 변수 입니다. 우리의 경우에는 우산 판매(C1:C25)입니다.
      • 입력 X 범위 , 즉 독립 변수 를 선택합니다. 이 예에서는 월 평균 강수량(B1:B25)입니다.

      다중 ​​회귀 모델을 구축하는 경우 독립 변수가 다른 두 개 이상의 인접한 열을 선택합니다.

      • X 및 Y 범위 상단에 헤더가 있는 경우 라벨 상자 를 선택하십시오.
      • 원하는 출력 옵션을 선택하십시오. 경우.
      • 선택적으로 잔차 확인란을 선택하여 예측 값과 실제 값 간의 차이를 가져옵니다.
    4. 확인 을 클릭하고 Excel에서 생성된 회귀 분석 결과를 관찰합니다.

    회귀 분석 결과 해석

    방금 본 것처럼 모든 계산이 자동으로 수행되기 때문에 Excel에서 회귀를 실행하는 것이 쉽습니다. 각 숫자 뒤에 무엇이 있는지 알아야 하기 때문에 결과 해석이 조금 까다롭습니다. 아래에서 회귀 분석 출력의 4개 주요 부분에 대한 분석을 찾을 수 있습니다.

    회귀 분석 출력: 요약 출력

    이 부분은 계산된 선형 회귀 방정식이 소스 데이터에 얼마나 잘 맞는지 알려줍니다.

    각 정보의 의미는 다음과 같습니다.

    여러 R . 강도를 측정하는 것은 C 상관 계수 입니다.두 변수 사이의 선형 관계. 상관 계수는 -1과 1 사이의 값이 될 수 있으며 절대 값은 관계 강도를 나타냅니다. 절대값이 클수록 관계가 강합니다.

    • 1은 강한 긍정적 관계를 의미합니다.
    • -1은 강한 부정적 관계를 의미합니다.
    • 0은 전혀 관계가 없음을 의미합니다. 모두

    알스퀘어 . 적합도의 지표로 사용되는 결정계수 이다. 회귀선에 몇 개의 점이 있는지 보여줍니다. R2 값은 총 제곱합에서 계산되며, 보다 정확하게는 평균에서 원래 데이터의 제곱 편차의 합입니다.

    이 예에서 R2는 0.91(2자리로 반올림)입니다. , 좋은 요정입니다. 이는 우리 값의 91%가 회귀 분석 모델에 적합함을 의미합니다. 즉, 종속변수(y값)의 91%가 독립변수(x값)에 의해 설명됩니다. 일반적으로 95% 이상의 R 제곱이 적합하다고 간주됩니다.

    조정된 R 제곱 . 모형에서 독립변수의 개수만큼 조정된 R제곱 이다. 다중 회귀 분석을 위해 R square 대신 이 값을 사용하는 것이 좋습니다.

    표준 오차 . 회귀 분석의 정확도를 보여주는 또 다른 적합도 측정값입니다. 숫자가 작을수록 더 확실할 수 있습니다.당신의 회귀 방정식. R2는 모델에 의해 설명되는 종속 변수 분산의 백분율을 나타내는 반면 표준 오차는 데이터 포인트가 회귀선에서 떨어지는 평균 거리를 나타내는 절대 측정입니다.

    관찰 . 단순히 모델의 관찰 수입니다.

    회귀 분석 출력: ANOVA

    출력의 두 번째 부분은 분산 분석(ANOVA)입니다.

    기본적으로, 제곱합을 회귀 모델 내의 가변성 수준에 대한 정보를 제공하는 개별 구성 요소로 분할합니다.

    • df 는 소스와 관련된 자유도의 수입니다. 분산.
    • SS 는 제곱합입니다. 총 SS에 비해 잔여 SS가 작을수록 모델이 데이터에 더 적합합니다.
    • MS 는 평균 제곱입니다.
    • F F 통계 또는 귀무 가설에 대한 F-검정입니다. 모델의 전반적인 유의성을 테스트하는 데 사용됩니다.
    • 유의성 F 는 F의 P-값입니다.

    ANOVA 부분은 거의 사용되지 않습니다. Excel의 간단한 선형 회귀 분석이지만 마지막 구성 요소를 자세히 살펴봐야 합니다. 유의성 F 값은 결과가 얼마나 신뢰할 수 있는지(통계적으로 유의미한지)에 대한 아이디어를 제공합니다. 유의도 F가 0.05(5%) 미만이면 모델이 정상입니다. 0.05보다 크면다른 독립 변수를 선택하는 것이 좋습니다.

    회귀 분석 출력: 계수

    이 섹션에서는 분석 구성 요소에 대한 구체적인 정보를 제공합니다.

    이 섹션에서 가장 유용한 구성 요소는 다음과 같습니다. 계수 . 이를 통해 Excel에서 선형 회귀 방정식을 작성할 수 있습니다.

    y = bx + a

    데이터 세트의 경우 y 는 판매된 우산의 수이고 x는 평균 월 강수량입니다. 선형 회귀 공식은 다음과 같습니다.

    Y = Rainfall Coefficient * x + Intercept

    소수점 세 자리로 반올림된 a 및 b 값을 사용하면 다음과 같이 됩니다.

    Y=0.45*x-19.074

    예를 들어 월 평균 강우량이 82mm인 경우 우산 판매량은 약 17.8개입니다. 지정한 다른 월 강수량(x 변수)과 함께 판매됩니다.

    회귀 분석 출력: 잔차

    월 강우량 82mm에 해당하는 예상 판매 우산 수와 실제 판매 수를 비교하면, 이 숫자는 약간 다릅니다.

    • 예상: 17.8(위에서 계산)
    • 실제: 15(소스 데이터의 행 2)

    왜 다른가요? 독립 변수는 종속 변수의 완벽한 예측 변수가 아니기 때문입니다. 잔차는 실제 값이 예측 값에서 얼마나 멀리 떨어져 있는지 이해하는 데 도움이 될 수 있습니다.

    For첫 번째 데이터 점(강우량 82mm)의 잔차는 약 -2.8입니다. 따라서 이 숫자를 예측값에 더하고 실제 값을 얻습니다: 17.8 - 2.8 = 15.

    Excel에서 선형 회귀 그래프를 만드는 방법

    빠르게 시각화해야 하는 경우 두 변수 사이의 관계, 선형 회귀 차트를 그립니다. 그것은 매우 쉽습니다! 방법은 다음과 같습니다.

    1. 헤더를 포함하여 데이터가 있는 두 개의 열을 선택합니다.
    2. 삽입 탭의 채팅 그룹에서 , 분산형 차트 아이콘을 클릭하고 분산형 축소판(첫 번째)을 선택합니다.

      이렇게 하면 워크시트에 다음과 같은 산점도가 삽입됩니다. one:

    3. 이제 최소 제곱 회귀선을 그려야 합니다. 완료하려면 아무 지점이나 마우스 오른쪽 버튼으로 클릭하고 상황에 맞는 메뉴에서 추세선 추가… 를 선택합니다.
    4. 오른쪽 창에서 선형 추세선 모양을 선택하고 선택적으로 차트에 방정식 표시 를 선택하여 회귀 수식을 가져옵니다.

      보시다시피 Excel에서 만든 회귀 방정식은 Coefficients 출력을 기반으로 만든 선형 회귀 공식과 동일합니다.

    5. 채우기 & Line 탭을 클릭하고 원하는 대로 라인을 사용자 지정합니다. 예를 들어 다른 선 색상을 선택하고 파선 대신 실선을 사용할 수 있습니다( 대시 유형 상자에서 실선 선택).

    Michael Brown은 소프트웨어 도구를 사용하여 복잡한 프로세스를 단순화하려는 열정을 가진 열성적인 기술 애호가입니다. 기술 산업에서 10년 이상의 경험을 쌓은 그는 Microsoft Excel 및 Outlook은 물론 Google 스프레드시트 및 문서 도구에 대한 기술을 연마했습니다. Michael의 블로그는 자신의 지식과 전문 지식을 다른 사람과 공유하는 데 전념하며 따라하기 쉬운 팁과 생산성 및 효율성 향상을 위한 자습서를 제공합니다. 노련한 전문가이든 초보자이든 Michael의 블로그는 이러한 필수 소프트웨어 도구를 최대한 활용하기 위한 귀중한 통찰력과 실용적인 조언을 제공합니다.