목차
이 자습서에서는 LINEST 함수의 구문을 설명하고 Excel에서 선형 회귀 분석을 수행하는 방법을 보여줍니다.
Microsoft Excel은 통계 프로그램이 아니지만 다양한 통계 기능을 가지고 있습니다. 이러한 함수 중 하나는 선형 회귀 분석을 수행하고 관련 통계를 반환하도록 설계된 LINEST입니다. 초보자를 위한 이 자습서에서는 이론과 기본 계산에 대해서만 가볍게 다룰 것입니다. 우리의 주요 초점은 간단하게 작동하고 데이터에 맞게 쉽게 사용자 정의할 수 있는 수식을 제공하는 것입니다.
Excel LINEST 함수 - 구문 및 기본 사용
LINEST 함수는 독립 변수와 하나 이상의 종속 변수 간의 관계를 설명하는 직선에 대한 통계를 계산하고 해당 직선을 설명하는 배열을 반환합니다. 이 함수는 최소 제곱 방법을 사용하여 데이터에 가장 적합한 것을 찾습니다. 선에 대한 방정식은 다음과 같습니다.
단순 선형 회귀 방정식:
y = bx + a다중 회귀 방정식:
y = b 1x 1+ b 2x 2+ … + b nx n+ a여기서:
- y - 예측하려는 종속 변수.
- x - 예측에 사용하는 독립 변수 y .
- a - 절편(선이 Y축과 교차하는 위치를 나타냄).
- b - 기울기중요.
자유도 (df). Excel의 LINEST 함수는 총 df 에서 회귀 df 를 뺀 값인 잔여 자유도 를 반환합니다. 자유도를 사용하여 통계표에서 F-임계 값을 얻은 다음 F-임계 값을 F 통계와 비교하여 모델의 신뢰 수준을 결정할 수 있습니다.
회귀 합계 제곱 (일명 설명 제곱합 또는 모델 제곱합 ). 예측된 y 값과 y의 평균 사이의 차이 제곱의 합이며 다음 공식으로 계산됩니다. =∑(ŷ - ȳ)2. 회귀 모델이 설명하는 종속 변수의 변동 정도를 나타냅니다.
잔차 제곱합 . 실제 y 값과 예측 y 값 사이의 차이 제곱의 합입니다. 모델이 설명하지 않는 종속 변수의 변동 정도를 나타냅니다. 총 제곱합에 비해 잔차 제곱합이 작을수록 회귀 모델이 데이터에 더 적합합니다.
LINEST 함수에 대해 알아야 할 5가지
에서 LINEST 수식을 효율적으로 사용하려면 워크시트에서
- Known_y's 및 known_x's 함수의 "내부 역학"에 대해 좀 더 알고 싶을 수 있습니다. 하나의 x 변수 세트만 있는 단순 선형 회귀 모델에서 known_y's 및 known_x's 는 행과 열의 수가 같기만 하면 모든 형태의 범위가 될 수 있습니다. 둘 이상의 독립 x 변수 세트로 다중 회귀 분석을 수행하는 경우 known_y's 는 벡터여야 합니다. 즉, 한 행 또는 한 열의 범위입니다.
- 상수를 0으로 강제 . const 인수가 TRUE이거나 생략되면 a 상수(절편)가 계산되어 방정식에 포함됩니다. y=bx + a. const 가 FALSE로 설정되면 절편은 0으로 간주되고 회귀 방정식에서 생략됩니다: y=bx.
통계에서는 절편 상수를 0으로 강제 설정하는 것이 타당한지 수십 년 동안 논쟁을 벌였습니다. 신뢰할 수 있는 많은 회귀 분석 실무자는 절편을 0(const=FALSE)으로 설정하는 것이 유용할 경우 선형 회귀 자체가 데이터 세트에 대해 잘못된 모델이라고 생각합니다. 다른 사람들은 회귀 불연속 설계와 같은 특정 상황에서 상수가 강제로 0이 될 수 있다고 가정합니다. 일반적으로 기본값인 const=TRUE를 사용하거나 대부분의 경우 생략하는 것이 좋습니다.
- 정확도 . LINEST 함수로 계산된 회귀 방정식의 정확도는 데이터 포인트의 분산에 따라 다릅니다. 데이터가 선형적일수록 LINEST 공식의 결과가 더 정확합니다.
- 중복 x 값 . 어떤 상황에서는하나 이상의 독립 x 변수에는 추가 예측 값이 없을 수 있으며 회귀 모델에서 이러한 변수를 제거해도 예측 y 값의 정확도에는 영향을 미치지 않습니다. 이 현상을 "공선성"이라고 합니다. Excel LINEST 함수는 공선성을 확인하고 모델에서 식별하는 중복 x 변수를 생략합니다. 생략된 x 변수는 0개의 계수와 0개의 표준 오차 값으로 인식할 수 있습니다.
- LINEST 대 SLOPE 및 INTERCEPT . LINEST 함수의 기본 알고리즘은 SLOPE 및 INTERCEPT 함수에서 사용되는 알고리즘과 다릅니다. 따라서 소스 데이터가 결정되지 않았거나 동일선상에 있을 때 이러한 함수는 다른 결과를 반환할 수 있습니다.
Excel LINEST 함수가 작동하지 않음
LINEST 수식이 오류를 발생시키거나 잘못된 출력을 생성하는 경우 , 다음 이유 중 하나 때문일 가능성이 있습니다.
- LINEST 함수가 하나의 숫자(기울기 계수)만 반환하는 경우 배열 수식이 아닌 일반 수식으로 입력했을 가능성이 큽니다. 수식을 올바르게 완성하려면 Ctrl + Shift + Enter를 누르십시오. 이렇게 하면 수식이 수식 입력줄에 표시되는 {중괄호}로 묶입니다.
- #REF! 오류. known_x's 및 known_y's 범위의 차원이 다른 경우 발생합니다.
- #VALUE! 오류. known_x's 또는 known_y's 에는 Excel에서 숫자 값으로 인식하지 못하는 빈 셀, 텍스트 값 또는 숫자의 텍스트 표현이 하나 이상 포함되어 있습니다. 또한 const 또는 stats 인수를 TRUE 또는 FALSE로 평가할 수 없는 경우 #VALUE 오류가 발생합니다.
이렇게 Excel에서 LINEST를 사용하여 단순하고 다중 선형 회귀 분석. 이 자습서에서 설명하는 수식을 자세히 살펴보려면 아래에서 샘플 통합 문서를 다운로드하세요. 읽어 주셔서 감사합니다. 다음 주 블로그에서 뵙기를 바랍니다!
다운로드용 실습 워크북
Excel LINEST 함수 예제(.xlsx 파일)
(회귀선의 가파른 정도, 즉 x가 변할 때 y의 변화율을 나타냅니다.)
기본 형식에서 LINEST 함수는 절편(a)과 기울기(b)를 반환합니다. 회귀 방정식을 위해. 선택적으로 이 예제와 같이 회귀 분석에 대한 추가 통계를 반환할 수도 있습니다.
LINEST 함수 구문
Excel LINEST 함수의 구문은 다음과 같습니다.
LINEST(known_y's , [known_x's], [const], [stats])여기서:
- known_y's (필수)는 종속 y 의 범위입니다. -회귀 방정식의 값. 일반적으로 단일 열 또는 단일 행입니다.
- known_x's (선택 사항)는 독립적인 x 값의 범위입니다. 생략하면 known_y's .
- const 와 같은 크기의 {1,2,3,...} 배열로 간주됩니다(선택 사항). - 절편(상수 a )을 처리하는 방법을 결정하는 논리 값:
- TRUE이거나 생략하면 상수 a 가 정상적으로 계산됩니다.
- FALSE인 경우 상수 a 는 0으로 설정되고 기울기( b 계수)는 y=bx에 맞게 계산됩니다.
- stats (선택 사항)는 추가 통계를 출력할지 여부를 결정하는 논리 값입니다.
- TRUE인 경우 LINEST 함수는 추가 회귀 통계가 포함된 배열을 반환합니다.
- FALSE이거나 생략된 경우 LINEST는 절편 상수와 기울기만 반환합니다.계수(들).
참고. LINEST는 값의 배열을 반환하므로 Ctrl + Shift + Enter 단축키를 눌러 배열 수식으로 입력해야 합니다. 정규식으로 입력하면 첫 번째 기울기 계수만 반환된다.
LINEST
에 의해 반환되는 추가 통계TRUE로 설정된 stats 인수는 회귀 분석을 위해 다음 통계를 반환하도록 LINEST 함수에 지시합니다.
통계 | 설명 |
기울기 계수 | y의 b 값 = bx + a |
절편 상수 | y의 값 = bx + a |
기울기의 표준 오차 | 에 대한 표준 오차 값(들) b 계수(들). |
절편의 표준 오차 | 상수 a 의 표준 오차 값. |
결정 계수(R2) | 회귀 방정식이 변수 간의 관계를 얼마나 잘 설명하는지 나타냅니다. |
Y 추정에 대한 표준 오차 | 회귀 분석의 정밀도를 나타냅니다. |
F 통계 또는 F-관측 값 | 에 대한 F-테스트를 수행하는 데 사용됩니다. 모델의 전반적인 적합도를 결정하기 위한 귀무 가설. |
fr의 정도 eedom (df) | 자유도 수. |
회귀 제곱합 | 종속 변수는 모델에 의해 설명됩니다. |
잔차 제곱합 | 회귀 모델에 의해 설명되지 않는 종속 변수의 변동량을 측정합니다. |
아래 맵은 LINEST가 통계 배열을 반환하는 순서를 보여줍니다.
마지막 세 행에서 데이터가 채워지지 않은 세 번째 및 후속 열에 #N/A 오류가 나타납니다. LINEST 함수의 기본 동작이지만 오류 표기를 숨기려면 이 예와 같이 LINEST 수식을 IFERROR로 래핑하십시오.
Excel에서 LINEST를 사용하는 방법 - 수식 예
LINEST 함수는 수식을 올바르게 작성해야 할 뿐만 아니라 출력을 올바르게 해석해야 하기 때문에 특히 초보자에게는 사용하기 까다로울 수 있습니다. 아래에는 Excel에서 LINEST 수식을 사용하는 몇 가지 예가 나와 있습니다. :)
단순 선형 회귀: 기울기와 절편 계산
절편을 얻으려면 및 회귀선의 기울기, 가장 간단한 형식으로 LINEST 함수를 사용합니다. known_y's 인수에 대한 종속 값 범위와 known_x's<2에 대한 독립 값 범위를 제공합니다> 인수. 마지막 두 인수는 TRUE로 설정하거나 생략할 수 있습니다.
예를 들어 C2:C13의 y 값(판매 번호) 및 x 값(광고 비용) B2:B13에서 선형 회귀 수식은 다음과 같이 간단합니다.
=LINEST(C2:C13,B2:B13)
워크시트에 올바르게 입력하려면 동일한 행 E2에서 인접한 두 셀을 선택합니다. 이 예에서는 F2에 수식을 입력하고 Ctrl + Shift + Enter를 눌러 완료합니다.
수식은 첫 번째 셀(E2)에 기울기 계수를 반환하고 두 번째 셀(F2)에 절편 상수를 반환합니다. ):
기울기 는 약 0.52입니다(소수점 둘째 자리에서 반올림). 이는 x 가 1 증가할 때 y 가 0.52 증가함을 의미한다.
Y-절편 은 -4.99이다. x=0일 때 y 의 예상 값입니다. 그래프로 그리면 회귀선이 y축과 교차하는 값이다.
위의 값을 간단한 선형회귀식에 대입하면 다음과 같은 식으로 판매량을 예측할 수 있다. 광고비 기준:
y = 0.52*x - 4.99
예를 들어, 광고비로 $50를 지출하면 우산 21개를 판매할 것으로 예상됩니다.
0.52*50 - 4.99 = 21.01
기울기와 절편 값은 해당 함수를 사용하거나 LINEST 공식을 INDEX:
Slope
=SLOPE(C2:C13,B2:B13)
에 중첩하여 별도로 얻을 수도 있습니다. =INDEX(LINEST(C2:C13,B2:B13),1)
Intercept
=INTERCEPT(C2:C13,B2:B13)
=INDEX(LINEST(C2:C13,B2:B13),2)
아래 스크린샷과 같이 세 수식 모두 동일한 결과를 나타냅니다.
다중 선형 회귀: 기울기와 절편
다음과 같은 경우독립변수가 2개 이상인 경우 인접한 열에 입력해야 하며 전체 범위를 known_x의 인수에 제공해야 합니다.
예를 들어 판매 번호( y 값), D2:D13의 광고 비용(x 값의 한 세트), B2:B13의 광고 비용 및 C2:C13의 월 평균 강우량( x 값의 다른 세트), 다음 공식을 사용합니다.
=LINEST(D2:D13,B2:C13)
수식은 3개의 값(기울기 계수 2개 및 절편 상수)의 배열을 반환하므로 동일한 행에서 연속된 3개의 셀을 선택하고 수식을 입력한 다음 Ctrl + Shift + Enter 단축키.
다중 회귀 공식은 기울기 계수 를 독립 변수의 역순 (오른쪽에서 왼쪽으로)으로 반환한다는 점에 유의하십시오. b n , b n-1 , …, b 2 , b 1 :
판매량을 예측하기 위해 LINEST 공식에서 반환된 값을 다중 회귀 방정식에 제공합니다.
y = 0.3*x 2 + 0.19*x 1 - 10.74
예를 들면 광고에 50달러를 지출하고 월 평균 강우량이 100mm인 경우 약 23개의 우산을 판매할 것으로 예상됩니다.
0.3*50 + 0.19*100 - 10.74 = 23.26
단순 선형 회귀: 예측 종속 변수
회귀 방정식에 대한 a 및 b 값을 계산하는 것 외에도 Excel LINEST 함수는 알려진 독립 변수를 기반으로 종속 변수(y)를 추정할 수도 있습니다.변수(x). 이를 위해 SUM 또는 SUMPRODUCT 함수와 함께 LINEST를 사용합니다.
예를 들어 이전 달의 판매를 기준으로 다음 달인 10월의 우산 판매 수를 계산하는 방법은 다음과 같습니다. 10월 광고 예산 $50:
=SUM(LINEST(C2:C10, B2:B10)*{50,1})
수식에서 x 값을 하드코딩하는 대신 다음과 같이 제공할 수 있습니다. 셀 참조. 이 경우에도 배열 상수에 참조와 값을 혼합할 수 없기 때문에 일부 셀에도 1 상수를 입력해야 합니다.
E2에 x 값을, 상수 1을 E2에 F2, 아래 수식 중 하나를 사용할 수 있습니다.
일반 수식(Enter 키를 눌러 입력):
=SUMPRODUCT(LINEST(C2:C10, B2:B10)*(E2:F2))
배열 수식(Ctrl + Shift +를 눌러 입력) Enter ):
=SUM(LINEST(C2:C10, B2:B10)*(E2:F2))
결과를 확인하려면 동일한 데이터에 대한 절편과 기울기를 구한 다음 선형 회귀 공식을 사용하여 다음을 수행할 수 있습니다. 계산 y :
=E2*G2+F2
여기서 E2는 기울기, G2는 x 값, F2는 절편입니다.
다중 회귀: 종속 변수 예측
여러 예측 변수, 즉 x 값의 몇 가지 다른 집합을 다루는 경우 모든 예측 변수를 포함합니다. 배열 상수의 예측자. 예를 들어 광고 예산이 $50(x 2 )이고 월 평균 강우량이 100mm(x 1 )인 경우 공식은 다음과 같습니다.다음:
=SUM(LINEST(D2:D10, B2:C10)*{50,100,1})
여기서 D2:D10은 알려진 y 값이고 B2:C10은 x 값의 두 세트입니다.
배열 상수에서 x 값의 순서에 주의하십시오. 앞에서 지적했듯이 Excel LINEST 함수를 사용하여 다중 회귀를 수행하면 기울기 계수가 오른쪽에서 왼쪽으로 반환됩니다. 이 예에서는 Advertising 계수가 먼저 반환된 다음 Rainfall 계수가 반환됩니다. 예측 판매 수를 올바르게 계산하려면 계수에 해당하는 x 값을 곱해야 하므로 배열 상수의 요소를 {50,100,1} 순서로 배치합니다. 마지막 원소는 1인데, LINEST가 돌려주는 마지막 값이 변경하면 안되는 절편이기 때문에 간단히 1을 곱하면 됩니다.
배열 상수를 사용하는 대신 x 변수를 모두 일부 셀에서 이전 예에서와 같이 수식에서 해당 셀을 참조합니다.
일반 수식:
=SUMPRODUCT(LINEST(D2:D10, B2:C10)*(F2:H2))
배열 수식:
=SUM(LINEST(D2:D10, B2:C10)*(F2:H2))
여기서 F2 및 G2는 x 값이고 H2는 1:
LINEST 수식: 추가 회귀 통계
회귀 분석에 대한 더 많은 통계를 얻으려면 LINEST 함수의 마지막 인수에 TRUE를 입력해야 합니다. 샘플 데이터에 적용된 수식은 다음과 같은 형태를 취합니다.
=LINEST(D2:D13, B2:C13, TRUE, TRUE)
2개의 독립B열과 C열의 변수에 대해 3개의 행(2개의 x 값 + 절편)과 5개의 열로 구성된 범위를 선택하고 위의 수식을 입력하고 Ctrl + Shift + Enter를 누르면 다음과 같은 결과가 나타납니다.
#N/A 오류를 제거하려면 다음과 같이 LINEST를 IFERROR에 중첩할 수 있습니다.
=IFERROR(LINEST(D2:D13, B2:C13, TRUE, TRUE), "")
아래 스크린샷은 결과를 보여주고 무엇을 설명합니다. 각 숫자는 다음을 의미합니다.
기울기 계수와 Y 절편은 이전 예제에서 설명했으므로 다른 통계를 간단히 살펴보겠습니다.
결정 계수 (R2). R2 값은 회귀 제곱합을 총 제곱합으로 나눈 결과입니다. x 변수로 설명되는 y 값의 수를 알려줍니다. 0에서 1 사이의 숫자, 즉 0%에서 100%가 될 수 있습니다. 이 예에서 R2는 약 0.97입니다. 즉, 종속 변수(우산 판매)의 97%가 독립 변수(광고 + 월 평균 강수량)로 설명되며, 이는 매우 적합합니다!
표준 오류 . 일반적으로 이러한 값은 회귀 분석의 정밀도를 나타냅니다. 숫자가 작을수록 회귀 모델에 대해 더 확신할 수 있습니다.
F 통계 . F 통계를 사용하여 귀무 가설을 지지하거나 기각합니다. 전체 결과가 다음과 같은지 결정할 때 P 값과 함께 F 통계를 사용하는 것이 좋습니다.