[Stat] 회귀분석 가정과 잔차분석

확률론적 선형회귀 가정 & 잔차 분석

1. 확률론적 선형회귀 가정

  • 확률론적 선형회귀: 데이터가 확률변수로부터 생성된 표본으로 가정(MLE 사용)
  • 결정론적 선형회귀: 표본 데이터에 따라 값이 달라짐(OLS 사용: RSS 최소화)
  • MLE/OLS 해는 같으나, MLE를 사용하면 가중치 추정값의 오차 구할 수 있음

    요약

  • 선형 정규 분포
  • 오차항 정규분포
  • 오차항 기댓값0
  • 독립변수와 오차항 상관관계X
  • 오차항 등분산
  • 오차항 자기상관X
  • 독립변수간 상관관계X

1) 선형 정규 분포 가정(-> 오차항 정규성과 연결)

  • 의미: $y \sim \mathcal{N}(w^Tx, \sigma^2)$
    • 종속변수y는, 독립변수 x의 선형조합으로 이루어진 기댓값 & 고정된 분산을 가지는 가우시안 정규분포
    • 중요: y는 x 조건부 정규 분포 (아닐 경우 일반화 선형회귀GLS 사용); x, y 무조건부 정규분포 필요없음
  • 비선형일 때 option
    • 변수 추가
    • 변수 변환(log, exp, sqrt): 비추. 해석에 어려움 생길 가능성
    • 해당 변수 제거
    • 모델 만든 후 변수 선택(선호)
  • 질문: x1은 비선형이지만, 전체 모델 coef는 유의한 이유는?
    • x_1과 y는 비선형이지만, 다른 x_n들의 영향을 제거한 partial regression은 선형관계일 수 있음

2) 오차항 기댓값0 & 독립변수와 오차항 간 상관관계 없음

  • 외생성 가정(Exogeneity): 오차항 기댓값은 독립변수에 상관 없이 0 -> 무조건부 기댓값 0

3) 오차항 등분산

  • 문제 원인: 잔차의 조건부 이분산성(오차항의 분산과 독립변수가 일정한 상관관계) eg. y_hat에 따라 잔차 분산 증가
  • 영향
    • 회귀계수의 표준오차 신뢰문제: 회귀계수coef 분산잔차의 분산 으로 추정
    • 표준오차 과소 계산 -> t 통계량 과대평가 -> 귀무가설 기각 -> $coef \neq 0​$
      • cf. 표준오차: 모평균과 표본평균 사이에 평균적으로 얼마나 오차 발생하는가
      • 모집단의 표준편차 high & 표본 many ->표준오차 low
  • 해결: WLS, 종속변수 변환(log, exp, …), white corrected std error

4) 오차항 자기 상관성X

  • 실제로는, 시계열 자료가 아닌 횡단면 자료에 대해서는 실시하지 않음
  • 영향: 자기상관 존재하면,
    • coef 표준오차 신뢰도 하락
  • 검사
    • plotting: 지그재그, +/-반복, …
    • Ljung box

5) 독립변수간 상관관계X

  • 문제: 다중공선성 발생
  • 영향
    • coef의 p-value 높음
    • 조건수 condition 증가- 표준오차 증가(coef값이 불안정해짐. 즉, data가 바뀌면 값이 전혀 달라질 수 있음.)
  • 해결: PCA, 변수제거

2. 잔차 분석

  • normality, homoscadicity, independence
  • 얻고자 하는 정보
    • 설명변수 - 종속변수는 선형관계?
      • 아니라면, 오차항이 다항함수 모양 -> 다항회귀 필요
    • 오차 분산은 설명 변수 값에 따라 변하는가? 등분산성
    • 오차항은 서로 독립? 자기상관
    • 이상치나 영향치 존재?
    • 오차항은 정규분포 따르는가
    • 다른 설명 변수는 없는가?
      • 오차항이 함수형태를 띠면 다른 독립변수 필요

reference:

< !-- add by yurixu 替换Google的jquery并且添加判断逻辑 -->