본문 바로가기

부스트캠프 AI Tech/KLUE

[KLUE] 04. 한국어 BERT 언어 모델 학습

by Angie 2022. 3. 23.

1. BERT 학습하기

1.1 BERT 모델 학습 단계

tokenizer 만들기
데이터셋 확보
- bert, 대용량의 corpus 필요.
- model size가 크기때문에 모델에 있는 parameter들이 하나로 수렴하기 위해
Next sentence prediction (NSP)
Masking

why pre-training?

도메인 특화 task의 경우, 도메인 특화 된 학습 데이터만 사용하는 것이 성능이 더 좋음
- 기존 bert fine tuning 보다 성능 good

학습을 위한 데이터 만들기

도메인에 특화된 data
- 해당 domain에 관련된 corpus를 가지고 학습해야 좋은 성능
data를 dataset으로 만들어야 함.
- dataset: 모델이 학습하기 위한 재료(밥)
  - corpus를 밥의 형태로 만듦
  - ber에서 input_ids, segment A B, position embedding, next sentence prediction..
- dataloader: 모델에게 어떻게 밥을 먹여주느냐?
  - masking

'부스트캠프 AI Tech > KLUE' 카테고리의 다른 글

[KLUE] 05. BERT 기반 단일 문장 분류 모델 학습 (0)	2022.03.23
[KLUE] 03. BERT 언어모델 소개 (1)	2022.03.23
[KLUE] 02. 자연어 전처리 (0)	2022.03.23
[KLUE] 01. 인공지능과 자연어 처리 (0)	2022.03.22

댓글

티스토리툴바