1. Overfitting의 정의
overfitting은 모델이 학습데이터에 대해 과도하게 맞춰져, 새로운 데이터에 대해 일반화 능력이 떨어지는 현상이다. 이는 모델이 데이터의 본질적인 특성보다 복잡할때 발생한다.
2. 가중치(W)와 모델 복잡성의 관계
가중치는 모델의 각 특성이 예측에 미치는 영향력을 나타낸다. 가중치의 절대값이 크면 해당 특성이 예측에 강한 영향을 미친다.
데이터의 본질적인 특성에 비해 모델의 각 특성(feature) 수가 증가하면 모델이 고려해야 할 정보와 관계가 늘어나 모델이 복잡해진다. 모델이 복잡해지면 데이터를 표현할 수 있는 방법이 더 다양해진다는 의미로, 학습 데이터의 작은 변화에도 민감하게 반응을 하는 등 학습 데이터에 과도하게 맞춰질 가능성이 높아 모델의 variance가 커진다.
이상적인 모델은 낮은 bias와 낮은 variance를 가진다. 낮은 bias를 가진다는 것은 모델이 데이터의 중요한 패턴을 잘 포착한다는 것을 의미하며, 낮은 variance를 가진다는 것은 학습데이터에 과도하게 의존하지 않아 새로운 다른 데이터셋으로 학습했을 때에도 비교적 안정적으로 학습할 수 있음을 의미한다.
w, 즉 모델을 학습시킬때 업데이트할 수 있는 파라미터 값들의 크기가 작아진다는 것은 모델의 feature 수를 줄인다는 것과 비슷하게 해석을 하면 된다. 크기를 굉장히 작게 만들어 0이 된 w값이 있다고 가정했을때 그 feature는 더이상 고려하지 않겠다는 것과 비슷한 의미가 된다. 이를 feature selection 효과라고 한다. 지난 수업시간(24-3회차)에 언급했던 L1 Regularization이 이렇게 w를 0으로 만들어버리기에 효과가 있다.
하지만 이와 달리 모든 w의 크기를 비슷비슷하게 작은 크기로 만들어버리는 L2 Regularization은 조금 다른 효과를 가진다. 모델의 복잡성을 전반적으로 줄여서 모델이 특정 feature에 과도하게 의존하는 것을 방지한다. L2 Regularization은 모든 가중치를 작게 만들지만 정확히 0으로 만들지는 않다. balance있게 조절하는 것이 목적일때 사용하며 크기가 큰 변수를 우선적으로 줄이는 특징이 있다.
3. 가중치 축소가 Overfitting을 방지하는 이유
작은 가중치는 모델을 단순화하여 과도한 학습을 방지한다. 단순한 모델은 학습 데이터의 노이즈보다 일반적인 패턴에 집중하므로 일반화 능력이 향상될 수 있고, 데이터의 작은 변화에도 덜 민감하여 안정성있는 모델을 생성할 수 있다.
댓글