[ML] 차원의 저주 (Curse of Dimensionality)

차원의 저주 Curse of Dimensionality

1) 의미: 차원이 커서 분석에 어려움을 겪음

2) 문제:

A. Computational Problem

B. Sparse Matrices

  • 데이터 간의 거리 증가
    • eg. n차원 상의 점 $p(p_1, \cdots, p_n), q(q_1, \cdots, q_n)$ 의 거리
  • 데이터 간 평균 거리(avg distance, euclidean distance) 유지하려면, 기하급수적으로 많은 데이터 필요($\text{dim}^n$)

  • Poor Prediction

    • hard to find pattern $\rightarrow$ cannot train similar features
    • lots of Params, but almost useless $\rightarrow$ likely to overtif to noise

2) 해결책

  • Feature Selection
  • PCA(주성분, 잠재변수latent variable)
    • 데이터 분포에서 variance가 큰 방향의 벡터에 데이터를 정사영
< !-- add by yurixu 替换Google的jquery并且添加判断逻辑 -->