본문 바로가기
부스트캠프 AI Tech/KLUE

[KLUE] 04. 한국어 BERT 언어 모델 학습

by Angie 2022. 3. 23.

1. BERT 학습하기

1.1 BERT 모델 학습 단계

  1. tokenizer 만들기
  2. 데이터셋 확보
    • bert, 대용량의 corpus 필요.
    • model size가 크기때문에 모델에 있는 parameter들이 하나로 수렴하기 위해
  3. Next sentence prediction (NSP)
  4. Masking

why pre-training?

  • 도메인 특화 task의 경우, 도메인 특화 된 학습 데이터만 사용하는 것이 성능이 더 좋음
    • 기존 bert fine tuning 보다 성능 good

학습을 위한 데이터 만들기

  • 도메인에 특화된 data
    • 해당 domain에 관련된 corpus를 가지고 학습해야 좋은 성능
  • data를 dataset으로 만들어야 함.
    • dataset: 모델이 학습하기 위한 재료(밥)
      • corpus를 밥의 형태로 만듦
      • ber에서 input_ids, segment A B, position embedding, next sentence prediction..
    • dataloader: 모델에게 어떻게 밥을 먹여주느냐?
      • masking

댓글