Pseudo Labeliing (수도 라벨링) (Semi-Supervised Learning)

2021. 6. 12. 03:00데이터 사이언스/데이터 라벨링

준 지도학습의 경우 데이터의 수가 부족하거나 Labeled data만으로는 도달 할 수 있는 성능에 한계가 있을 때, Unlabelled data를 사용하여 전반적인 성능을 더 높이기 위해쓴다. 성능을 더 높이는 이유는

  • Unlabeled Data를 사용하면서 학습을 하면, 경계를 그을 때, 더 많은 Case들을 고려하면서 정교하게 경계를 긋기 시작
  • 이는 자연스럽게, 나중에 모델이 Test set을 만났을 때, 혹은 처음보는 다른 Data를 만났을 때도, ‘당황하지 않고 대응할 수 있는’ 힘을 가지게 해준다고 이해할 수도 있다. 그래서 두 번째 장점에서 말하고 있는 모델의 Robustness(견고함)는 이를 뜻한다. 우리가 잘 알고 있는 Overfitting도 이 Robustness의 정도가 낮아서 발생하는 것이라고 볼 수 있다.

 

Pseudo Labeling 과정

(라벨이 있는 데이터를 학습을 통해 unlabeled data 예측 -> 예측된 데이터를 기존에 라벨이 있는 데이터와 합하여 학습 -> 라벨 증가)