부스트캠프 AI Tech/KLUE
[KLUE] 04. 한국어 BERT 언어 모델 학습
Angie
2022. 3. 23. 14:06
1. BERT 학습하기
1.1 BERT 모델 학습 단계
- tokenizer 만들기
- 데이터셋 확보
- bert, 대용량의 corpus 필요.
- model size가 크기때문에 모델에 있는 parameter들이 하나로 수렴하기 위해
- Next sentence prediction (NSP)
- Masking
why pre-training?
- 도메인 특화 task의 경우, 도메인 특화 된 학습 데이터만 사용하는 것이 성능이 더 좋음
- 기존 bert fine tuning 보다 성능 good
학습을 위한 데이터 만들기
- 도메인에 특화된 data
- 해당 domain에 관련된 corpus를 가지고 학습해야 좋은 성능
- data를 dataset으로 만들어야 함.
- dataset: 모델이 학습하기 위한 재료(밥)
- corpus를 밥의 형태로 만듦
- ber에서 input_ids, segment A B, position embedding, next sentence prediction..
- dataloader: 모델에게 어떻게 밥을 먹여주느냐?
- masking
- dataset: 모델이 학습하기 위한 재료(밥)