데이터 제작 강의
- 원시 데이터 수집
- 문어, 구어, 웹
- 저작권
- CC BY-SA: 동일조건 변경허락
- CC BY-ND: 변경금지
- CC BY-NC-SA: 비영리+동일조건 변경허락
- 주석 도구
- 구글 스프레드 시트, 구글 폼, Brat, Doccano, Tagtog
- 데이터 구축 프로세스: 도표화 -> traking 굿
- 데이터 주석 유형
- 분류
- 특정 범위(span)주석 - NER, 형태 분석
- 대상 간 관계 주석 - 개체명 연결, 구문 분석
- 평가지표: UAS, LAS
- 텍스트 생성 - 번역
- 복합 유형: 질의 응답(SQUAD), 슬롯필링 대화
- 데이터 검수
- 모델 성능: 높은 성능을 달성해야만 좋은 데이터x, 데이터 자체는 그 자체로 완결성이 있어야 함.
- 데이터 평가
- 작업자 간 일치도: Cohen's k, Fleiss' k
- 모델 평가: 정확도, 정밀도, 재현율, F1, BLUE score,,,
- 데이터 구축 가이드라인 작성 방법 및 예시
- 개체명 인식 과제 NER Named Entity Recognition
- 개체명: 인명, 지명, 기관명 등과 같은 고유명사나 명사구를 의미. 개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고, 각 개체명에 해당하는 태그를 주석.
- 두개 이상의 태그로 주석될 수 있는 개체명: 맥락에 기반한 주석(organization or location, 작업자마자 일치도가 떨어질 가능성,)
- MUC-7, CoNLL 2003, TTA 표준
- 관계 추출 과제 RE Relation Extract
- 개체명 쌍은 관계의 주체와 대상으로 구성
- TAC KBP 2016, TAC RED
- 개체명 쌍은 관계의 주체와 대상으로 구성
- 개체명 연결 EL Entity Liking
- NER, RE, EL: 비구조화된 텍스트에서 정보를 추출하여 구조화하려는 것이 목적
- 검색 시스템: entity를 wiki knowledgebase와 연동, HR 챗봇, 구글 핀포인트
데이터 제작 대회
- subject entity를 작게 잡기
- relation 먼저 고려하기
- 우리 주제 dataset에 특이성을 갖는 relation 중심으로 찾기
- 모델에서 유의미한지 고려
- 접속사를 붙였을 때 한 문장으로 볼 수 있으면 여러 문장 사용 가능
회고
같은 nlp 분들과 지난 대회 전반한 솔루션이나 일상에 관한 이야기 나누는 시간 즐거웠다.
확실히 이전 세션에 비해 주어진 task가 쉬워서 스트레스를 덜 받고 있다.
다시 재충전하고 큰 도약을 준비할 시간..!
TIL,,이렇게 쓰는거 맞나,,그래도 이 시간에 이거 쓰는 나, 제법 멋져!
'회고&TIL' 카테고리의 다른 글
Apr 14, 2022 (2) | 2022.04.15 |
---|---|
Apr 13, 2022 (2) | 2022.04.14 |
Apr 11, 2022 (0) | 2022.04.11 |
Apr 04, 2022 (2) | 2022.04.05 |
Mar 26, 2022 (0) | 2022.03.27 |
댓글