논문1 [리뷰] Distributed Representations of Words and Phrases and their Compositionality: negative sampling과 subsampling 중심 Intro word2vec 비효율적 메모리 관리 학습 속도 느림 weight layer 큼 word2vec의 파라메터 W(V x N), W’(N x V) 보통 말뭉치의 단어 수 : 10만개 N(임베딩 차원 수)가 100차원이라면 구해야 하는 숫자는 2000만개(2x10만x100)로 폭증 negative sampling 기존의 방식은 너무 sparse하다. embedding이 된 단어는 30010000의 행렬이고 여기에 넣는 인풋은 100001의 행렬 input, 우리가 원하는 하난의 단어에서만 1, 나머지 9999는 0인 원 핫 벡터 이 둘의 곱으로 나온 행렬은 300*1의 행렬 → 임베딩행렬에서 input에 해당하는 column을 선택하는 것과 같음 300*1의 행렬을 얻으려고 300000개의 값 29.. 2022. 4. 14. 이전 1 다음