2022. 12. 15. 20:14ㆍ통계/회귀분석
ㅇ 회귀분석은 인과관계를 파악할 수 있는 방법임. 따라서 변수가 등비-등비 관계일 때만 가능
ㅇ 회귀분석은 가정이 충족될 때 분석을 진행하는데 이러한 가정을 BLUE (Best Linear Unbiased Estimator)라고 함
ㅇ 경영학 분야에서는 BLUE 조건을 까다롭게 지키지는 않음.
ㅇ BLUE 조건
- 회귀분석을 하기에 앞서 인과관계를 파악하기 위해서는 산점도와 상관분석을 통해 인과관계 분석을 돌려도 괜찮은지 유무를 파악해야됨
- 또한 다중회귀분석의 경우 VIF 및 Tolerance 분석을 통해 변수간의 상관성을 측정 후 회귀분석을 진행해야됨
- Cook distance 기법 등을 활용하여 아웃라이어 여부를 진단.
- 잔차의 정규성(KS-test, Shapiro-Wilk test 등 활용), 등분산성(히스토그램 활용), 독립성(Durbin-Watson 활용. 2에 가까이 있으면 좋음)이 만족돼야함 -> 잔차간에 자기상관이 있는지 확인. 규칙성이 없고 평평하게 퍼져있으면 좋은 것.
ㅇ 모델의 적합한지와 독립변수와 종속변수간의 관계 파악, 예측도 할 수 있음
ㅇ 종속변수가 범주형이면 로지스틱 회귀분석
ㅇ 횟수로 측정된 종속변수의 경우는 포아송 회귀분석
ㅇ 종속변수가 정규분포를 따르지 않는 이러한 케이스들을 GLM이라고 함
ㅇ 회귀모델의 적합성을 위해 파악하는것들
> 잔차(관측값과 예측값의 차이)의 분포는 정규분포를 따라야함
> 회귀계수 추청치 및 유의성 검정을 통해 회귀계수가 0이라는 귀무가설을 기각해야한다
> 잔차 표준오차(RSE)는 모델에 의해 설명되지 않는 데이터의 패턴으로 작을 수록 좋다
> R2(R제곱)은 회귀모델의 설명력. 단순히 변수가 증가할 경우 R2은 증가하는 형질을 지님
> 수정된 R2은 과적합의 위험을 고려하여 예측변수의 개수가 많을 경우 특정 변수들을 넣고 빼는 등 페널티를 부여함으로써 보수적인 설명력을 산출. 나쁜 변수가 들어오면 설명력이 떨어지게 나옴.
> 회귀식의 유의성 검정 : F값을 통해 검정하며, 회귀계수가 0이라는 귀무가설을 기각해야한다
(회귀식은 유의한데 회귀계수가 높을때는 변수간의 상관관계 즉, vif가 높기 때문. 이럴 경우 유의하지 않음)
> 단순히 회귀계수의 크기만 보고 변수의 예측력이 더 큰지 비교할 수 없음. 독립변수와 종속변수를 표준점수로 변환하여 얻은 표준화계수(Beta)를 가지고는 판단 가능
ㅇ OLS회귀분석 사용 조건 (최소자승법)
> 최소자승 회귀분석은 잔차제곱합(SSE)을 최소화하는 직선을 구하는 기법. 잔차제곱합 대신 잔차제곱의 평균(MSE)를 가지고 풀 수도 있지만 어차피 MSE는 SSE를 자유도로 나눈 값이기 때문에 SSE로 풀면 됨
> 선형성 : 종속변수와 독립변수의 관계는 선형이여야 함 -> 잔차와 예측값 간에는 어떠한 패턴도 존재하면 안됨
> 정규성 : 종속변수값들의 분포는 정규분포여야함
> 등분산성 : 종속변수값들의 분포는 동일한 분산이여야함
> 독립성 : 모든 관측값은 서로 독립이여야함
> 이러한 것들은 회귀모델 진단도표를 통해 확인 가능
ㅇ 회귀분석의 가정을 위배할 경우는 변수를 추가/제거하거나 변수의 람다값을 추정하여 변수를 변환함
ㅇ 회귀분석과 ANOVA, T-test 차이
'통계 > 회귀분석' 카테고리의 다른 글
회귀 모델 특징에 따른 분류 도식화 (0) | 2022.10.19 |
---|