Hello COCOBALL!

[DL] 데이터셋 구성 본문

Deep Learning

[DL] 데이터셋 구성

coco_ball 2024. 6. 25. 19:36

데이터셋의 구성

  1. 학습 데이터셋(Training Dataset)
    • 모델을 학습시키는 데 사용된다. 모델이 입력과 출력 간의 관계를 학습하여 예측을 할 수 있도록 한다. 전체 데이터셋의 대부분을 차지하며, 다양한 패턴과 예시를 포함하고 있다.
  2. 검증 데이터셋(Validation Dataset)
    • 모델의 성능을 평가하고, 과대적합/과소적합 방지, 하이퍼파라미터 튜닝 및 모델 선택에 사용된다. 학습 과정 중에 모델이 얼마나 잘 일반화되고 있는지 평가하기 위해 사용된다.
  3. 테스트 데이터셋(Test Dataset)
    • 목적: 최종 모델의 성능을 평가하는 데 사용된다. 모델의 일반화 성능을 평가하여 실제 상황에서 얼마나 잘 작동할지를 판단한다. 학습과 검증 데이터와 독립적이며, 모델 학습 및 튜닝 과정에서는 사용되지 않는다.

데이터셋의 분할

일반적으로 데이터셋은 다음 비율로 분할된다.

  • 학습 데이터셋: 전체 데이터의 60-80%
  • 검증 데이터셋: 전체 데이터의 10-20%
  • 테스트 데이터셋: 전체 데이터의 10-20%

 

훈련 데이터 단위

  1. 배치(Batch) 방식
    • 훈련 데이터셋을 한꺼번에 입력하는 방식을 의미한다. 훈련 데이터셋의 크기가 작으면 배치 방식의 사용이 가능하지만 신경망은 다른 알고리즘보다 더 많은 학습 데이터를 필요로 하기 때문에 훈련 데이터셋의 크기가 크고, 배치 방식으로 학습할 경우 메모리 용량을 쉽게 초과한다는 문제가 있다.
  2. 미니 배치(Mini Batch) 방식
    • 배치 방식의 한계를 극복하기 위해 전체 훈련 데이터셋을 작은 크기의 배치로 나누어서 훈련하는 방식을 의미한다. 일반적으로 신경망은 미니 배치 방식으로 훈련을 진행한다. 각 미니 배치는 여러 샘플들을 포함하고 있으며, 보통 크기는 32, 64, 128 등의 값을 가진다. 메모리 사용량과 계산 시간을 균형 있게 조절하는 것이 가능하지만 미니 배치의 크기에 따라 학습 속도와 성능이 달라질 수도 있다.
    • 미니 배치의 크기를 1로 하면 확률적 방식이 되고, 훈련 데이터셋의 크기로 하면 배치 방식이 되기 때문에 미디 배치 방식이 가장 융통성 있는 방식이다.
    • 신경망을 미니 배치 방식으로 훈련할 경우 배치 방식보다 학습 속도가 빨라지고 확률적 성질을 갖게 되어 더 좋은 최적해를 찾을 수 있다.
  3. 확률적(Stochastic) 방식
    • 데이터를 샘플 단위로 훈련하는 방식을 의미한다.