본문 바로가기
회고&TIL

Apr 12, 2022

by Angie 2022. 4. 13.

데이터 제작 강의

  • 원시 데이터 수집
    • 문어, 구어, 웹
    • 저작권
      • CC BY-SA: 동일조건 변경허락
      • CC BY-ND: 변경금지
      • CC BY-NC-SA: 비영리+동일조건 변경허락
  • 주석 도구
    • 구글 스프레드 시트, 구글 폼, Brat, Doccano, Tagtog
  • 데이터 구축 프로세스: 도표화 -> traking 굿
  • 데이터 주석 유형
    • 분류
    • 특정 범위(span)주석 - NER, 형태 분석
    • 대상 간 관계 주석 - 개체명 연결, 구문 분석
      • 평가지표: UAS, LAS
    • 텍스트 생성 - 번역
    • 복합 유형: 질의 응답(SQUAD), 슬롯필링 대화
  • 데이터 검수
    • 모델 성능: 높은 성능을 달성해야만 좋은 데이터x, 데이터 자체는 그 자체로 완결성이 있어야 함.
  • 데이터 평가
    • 작업자 간 일치도: Cohen's k, Fleiss' k
    • 모델 평가: 정확도, 정밀도, 재현율, F1, BLUE score,,,
  • 데이터 구축 가이드라인 작성 방법 및 예시
  • 개체명 인식 과제 NER Named Entity Recognition
    • 개체명: 인명, 지명, 기관명 등과 같은 고유명사나 명사구를 의미. 개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고, 각 개체명에 해당하는 태그를 주석.
    • 두개 이상의 태그로 주석될 수 있는 개체명: 맥락에 기반한 주석(organization or location, 작업자마자 일치도가 떨어질 가능성,)
      • MUC-7, CoNLL 2003, TTA 표준
  • 관계 추출 과제 RE Relation Extract
    • 개체명 쌍은 관계의 주체와 대상으로 구성
      • TAC KBP 2016, TAC RED
  • 개체명 연결 EL Entity Liking
  • NER, RE, EL: 비구조화된 텍스트에서 정보를 추출하여 구조화하려는 것이 목적
    • 검색 시스템: entity를 wiki knowledgebase와 연동, HR 챗봇, 구글 핀포인트

데이터 제작 대회

  • subject entity를 작게 잡기
  • relation 먼저 고려하기
  • 우리 주제 dataset에 특이성을 갖는 relation 중심으로 찾기
  • 모델에서 유의미한지 고려
  • 접속사를 붙였을 때 한 문장으로 볼 수 있으면 여러 문장 사용 가능

회고

같은 nlp 분들과 지난 대회 전반한 솔루션이나 일상에 관한 이야기 나누는 시간 즐거웠다.
확실히 이전 세션에 비해 주어진 task가 쉬워서 스트레스를 덜 받고 있다.
다시 재충전하고 큰 도약을 준비할 시간..!


TIL,,이렇게 쓰는거 맞나,,
그래도 이 시간에 이거 쓰는 나, 제법 멋져!

'회고&TIL' 카테고리의 다른 글

Apr 14, 2022  (2) 2022.04.15
Apr 13, 2022  (2) 2022.04.14
Apr 11, 2022  (0) 2022.04.11
Apr 04, 2022  (2) 2022.04.05
Mar 26, 2022  (0) 2022.03.27

댓글