회고&TIL

Apr 11, 2022

Angie 2022. 4. 11. 22:49

데이터 제작 task 시작

강의

  • 데이터 형식 정해주기

  • 주석 유형

    • 클래스 라벨(단일, 다중)/ 단어(구문)라벨/ 텍스트 라벨/ 단어(구문)라벨링 및 두 단어 사이의 관계
  • 데이터 구축 및 가공

    • 최소수량 10000개 (문장 30000개)
    • 파일럿: 100 ~ 1000-2000개
      • 이전에 guideline을 작성하는 단계에서 최소 100개의 sample 작업
      • 가이드라인 보완 및 개정
  • 텍스트 text/ 말뭉치 corpus, plural corpora/ 데이터 data/ 주석 tag, label, annotation

  • 형태소 분석기(형태소 주석기) POS(part of speech) tagger

    • segmentation 형태소 단위로 문장 분할
    • tagging
  • 기본 단위

    • 조사 -> 띄어쓰기 단위와 단어의 단위가 일치X
    • 어미는 하나의 품사로 인정X (용언과 붙어 나옴), 형태 단위이므로 독립된 단어가 아님
  • 토큰 token 언어를 다루는 가장 작은 기본 단위

    • 단어 word, 형태소 morpheme, 서브워드 subword
  • N-gram

  • 표상 representation

    • 사전학습모델(PLM, pretrained language model), word2vec
  • 국립국어원, 21세기 세종 계획/ ETRI,엑소브레인/ 국립국어원, 모두의말뭉치/ NIA, AI HUB

  • upstage, KLUE/ KorQuAD / KorNLU

  • 질의응답 SQuAD

  • 기계번역 WMT

  • 요약 CNN/Daily Mail

    • 추출요약 extract
    • 추상요약 abstract: 문장 생성
  • 대화 DSTC, Wizard-of-Oz, UDC(Ubuntu Dialogue Corpus)

피어세션

  • dataset: 베이징_동계올림픽
  • subject, object type + relation 규칙 간보기