본문 바로가기

부스트캠프 AI Tech/KLUE5

[KLUE] 05. BERT 기반 단일 문장 분류 모델 학습 1. KLUE 데이터셋 소개 1.1 KLUE 데이터셋 한국어 자연어 이해 벤치마크 (Korean Language Understanding Evaluation) : 거의 모든 자연어 task 유형 가짐. 단일 문장 분류 task 문장 분류 관계 추출 문장 임베딩 벡터의 유사도: cls 토큰 통해 cosin sim구하기 문장 유사도 두 문장 관계 분류 task 자연어 추론 문장 토큰 분류 tasl 개체명 인식: pos 태깅 품사 태깅 질의 응답: KoQuAD,, 본문에서 정답 찾기 목적형 대화 의존 구문 분석 1.2 의존구문분석 단어들 사이의 관계를 분석하는 task 지배소: 의미의 중심이 되는 요소 의존소: 지배소가 갖는 의미를 보완(수식) 분류 규칙 지배소는 후위언어. 지배소는 항상 의존소보다 뒤에 위치.. 2022. 3. 23.
[KLUE] 04. 한국어 BERT 언어 모델 학습 1. BERT 학습하기 1.1 BERT 모델 학습 단계 tokenizer 만들기 데이터셋 확보 bert, 대용량의 corpus 필요. model size가 크기때문에 모델에 있는 parameter들이 하나로 수렴하기 위해 Next sentence prediction (NSP) Masking why pre-training? 도메인 특화 task의 경우, 도메인 특화 된 학습 데이터만 사용하는 것이 성능이 더 좋음 기존 bert fine tuning 보다 성능 good 학습을 위한 데이터 만들기 도메인에 특화된 data 해당 domain에 관련된 corpus를 가지고 학습해야 좋은 성능 data를 dataset으로 만들어야 함. dataset: 모델이 학습하기 위한 재료(밥) corpus를 밥의 형태로 만듦.. 2022. 3. 23.
[KLUE] 03. BERT 언어모델 소개 1. BERT 언어모델 1.1 BERT 모델 소개 입력된 정보를 다시 입력된 정보를 representation하는 것을 목적 masked 기술 사용: 원본 복원 어려워짐 BERT : 마스크된 자연어를 원본 자연어로 복원 GPT-2 : 원본 이미지를 특정 sequence를 가지고 자름. 모델은 그 next를 예측 모델 구조 input layer CLS(class label): sentence 1과 sentence 2의 상관관계 SEP(seperator) Transformer layer 12개. all-to-all 연결 → cls 토큰의 출력 vector가 sentence 1과 sentence 2를 포괄하고 있는 어떤 벡터로 녹아든다고 가정: cls 토큰이 sentence 1과 sentence 2를 잘 표현.. 2022. 3. 23.
[KLUE] 02. 자연어 전처리 1. 자연어 전처리 원시 데이터(raw data)를 기계 학습 모델이 학습하는데 적합하게 만드는 프로세스 학습에 사용될 데이터를 수집&가공하는 모든 프로세스 Task의 성능을 가장 확실하게 올릴 수 있는 방법 1.1 자연어처리의 단계 Task 설계 필요 데이터 수집 통계학적 분석 token 개수 → 아웃라이어 제거 빈도 확인 → 사전(dictionary) 정의 전처리 개행문자, 특수문자, 공백, 중복 표현, 이메일, 링크, 불용어, 조사, 맞춤법,,, Tagging Tokenizing 자연어를 어떤 단위로 살펴볼 것인가? 어절, 형태소, 음절, 자모 모델 설계 모델 구현 성능 평가 완료 1.2 Python string 관련 함수 2. 자연어 토크나이징 자연어를 어떤 단위로 관찰? 2.1 한국어 토큰화 한.. 2022. 3. 23.