[KLUE] 02. 자연어 전처리
1. 자연어 전처리 원시 데이터(raw data)를 기계 학습 모델이 학습하는데 적합하게 만드는 프로세스 학습에 사용될 데이터를 수집&가공하는 모든 프로세스 Task의 성능을 가장 확실하게 올릴 수 있는 방법 1.1 자연어처리의 단계 Task 설계 필요 데이터 수집 통계학적 분석 token 개수 → 아웃라이어 제거 빈도 확인 → 사전(dictionary) 정의 전처리 개행문자, 특수문자, 공백, 중복 표현, 이메일, 링크, 불용어, 조사, 맞춤법,,, Tagging Tokenizing 자연어를 어떤 단위로 살펴볼 것인가? 어절, 형태소, 음절, 자모 모델 설계 모델 구현 성능 평가 완료 1.2 Python string 관련 함수 2. 자연어 토크나이징 자연어를 어떤 단위로 관찰? 2.1 한국어 토큰화 한..
2022. 3. 23.