데이터 제작 task 시작

강의

데이터 형식 정해주기
주석 유형
- 클래스 라벨(단일, 다중)/ 단어(구문)라벨/ 텍스트 라벨/ 단어(구문)라벨링 및 두 단어 사이의 관계
데이터 구축 및 가공
- 최소수량 10000개 (문장 30000개)
- 파일럿: 100 ~ 1000-2000개
  - 이전에 guideline을 작성하는 단계에서 최소 100개의 sample 작업
  - 가이드라인 보완 및 개정
텍스트 text/ 말뭉치 corpus, plural corpora/ 데이터 data/ 주석 tag, label, annotation
형태소 분석기~~(형태소 주석기)~~ POS(part of speech) tagger
- segmentation 형태소 단위로 문장 분할
- tagging
기본 단위
- 조사 -> 띄어쓰기 단위와 단어의 단위가 일치X
- 어미는 하나의 품사로 인정X (용언과 붙어 나옴), 형태 단위이므로 독립된 단어가 아님
토큰 token 언어를 다루는 가장 작은 기본 단위
- 단어 word, 형태소 morpheme, 서브워드 subword
N-gram
표상 representation
- 사전학습모델(PLM, pretrained language model), word2vec
국립국어원, 21세기 세종 계획/ ETRI,엑소브레인/ 국립국어원, 모두의말뭉치/ NIA, AI HUB
upstage, KLUE/ KorQuAD / KorNLU
질의응답 SQuAD
기계번역 WMT
요약 CNN/Daily Mail
- 추출요약 extract
- 추상요약 abstract: 문장 생성
대화 DSTC, Wizard-of-Oz, UDC(Ubuntu Dialogue Corpus)