본문 바로가기

부스트캠프 AI Tech6

[DL Basic] 07. Sequential Models - RNN summaryRNN은 short term dependency는 좋지만 long term dependency 나쁨 → LSTM이 등장GRU은 게이트 2개→parameter개수 줄어듦, LSTM보다 성능 good LSTM은 게이트 3개 Sequential 모델이 뭐야? Sequential Model 일상생활의 대부분 data 어려움 얻고싶은 건 하나의 라벨일 때가 많음 길이가 언제 끝날 지 모름 → 입력의 차원을 알 수 없음 Naive sequence model 입력이 들어왔을 때 다음번 예측 고려해야하는 vector의 수 점점 늘어남 Autoregressive model fix the timespan 과거에 볼 것 개수 고정 Markon model (first-order autoregressive mode.. 2022. 4. 25.
[KLUE] 05. BERT 기반 단일 문장 분류 모델 학습 1. KLUE 데이터셋 소개 1.1 KLUE 데이터셋 한국어 자연어 이해 벤치마크 (Korean Language Understanding Evaluation) : 거의 모든 자연어 task 유형 가짐. 단일 문장 분류 task 문장 분류 관계 추출 문장 임베딩 벡터의 유사도: cls 토큰 통해 cosin sim구하기 문장 유사도 두 문장 관계 분류 task 자연어 추론 문장 토큰 분류 tasl 개체명 인식: pos 태깅 품사 태깅 질의 응답: KoQuAD,, 본문에서 정답 찾기 목적형 대화 의존 구문 분석 1.2 의존구문분석 단어들 사이의 관계를 분석하는 task 지배소: 의미의 중심이 되는 요소 의존소: 지배소가 갖는 의미를 보완(수식) 분류 규칙 지배소는 후위언어. 지배소는 항상 의존소보다 뒤에 위치.. 2022. 3. 23.
[KLUE] 04. 한국어 BERT 언어 모델 학습 1. BERT 학습하기 1.1 BERT 모델 학습 단계 tokenizer 만들기 데이터셋 확보 bert, 대용량의 corpus 필요. model size가 크기때문에 모델에 있는 parameter들이 하나로 수렴하기 위해 Next sentence prediction (NSP) Masking why pre-training? 도메인 특화 task의 경우, 도메인 특화 된 학습 데이터만 사용하는 것이 성능이 더 좋음 기존 bert fine tuning 보다 성능 good 학습을 위한 데이터 만들기 도메인에 특화된 data 해당 domain에 관련된 corpus를 가지고 학습해야 좋은 성능 data를 dataset으로 만들어야 함. dataset: 모델이 학습하기 위한 재료(밥) corpus를 밥의 형태로 만듦.. 2022. 3. 23.
[KLUE] 03. BERT 언어모델 소개 1. BERT 언어모델 1.1 BERT 모델 소개 입력된 정보를 다시 입력된 정보를 representation하는 것을 목적 masked 기술 사용: 원본 복원 어려워짐 BERT : 마스크된 자연어를 원본 자연어로 복원 GPT-2 : 원본 이미지를 특정 sequence를 가지고 자름. 모델은 그 next를 예측 모델 구조 input layer CLS(class label): sentence 1과 sentence 2의 상관관계 SEP(seperator) Transformer layer 12개. all-to-all 연결 → cls 토큰의 출력 vector가 sentence 1과 sentence 2를 포괄하고 있는 어떤 벡터로 녹아든다고 가정: cls 토큰이 sentence 1과 sentence 2를 잘 표현.. 2022. 3. 23.