들어가기 전에
이전 강의에서는 Word Embedding 기법 중 하나인 Word2Vec에 대해서 배웠습니다. 이번 시간에는 Glove라는 또다른 Word Embedding 기법에 대해 알아볼 차례입니다. 두 기법 사이에는 어떤 차이점이 있고, 장단점이 있는지를 생각하며 들어보세요!
학습 목표
또 다른 Word Embedding 기법인 Glove 에 대해서 배우고, Word2Vec과의 차이점을 이해합니다.
핵심 단어
- Word Embedding
- Word Representation
- Glove(Global Vectors for Word Representation)
강의 듣기
Glove : Global Vectors for Word Representation
- Glove는 Word2Vec과 다르게 사전에 미리 각 단어들의 동시 등장 빈도수를 계산하며,
단어간의 내적값과 사전에 계산된 값의 차이를 줄여가는 형태로 학습합니다.
- Word2Vec는 모든 연산을 반복하지만, Glove는 사전에 계산된 Ground Truth를 사용해 반복계산을 줄일 수 있습니다.
- 따라서 Word2Vec보다 더 빠르게 동작하며, 더 적은 데이터에서도 잘 동작합니다.
사전 학습된 Glove 모델
- 사전에 이미 대규모 데이터로 학습된 모델이 오픈소스로 공개되어 있습니다. 해당 모델은 위키피디아 데이터를 기반으로 하여 6B token만큼 학습 되었으며, 중복 제거 시에도 단어의 개수가 무려 40만개(400k)에 달합니다.
- 학습된 모델을 나타낼 때 뒤에 붙는 "uncased"는 대문자 소문자를 구분하지 않는다는 의미이며, 반대로 "cased"는 대소문자를 구분한다는 의미입니다. 예를 들어 Cat과 cat이 uncased에서는 같은 토큰으로 취급되지만, cased에서는 다른 토큰으로 취급됩니다.
- Glove 깃헙 주소 : https://github.com/stanfordnlp/GloVe (기존에 학습된 워드 임베딩도 다운로드 받아 사용할 수 있습니다.)
생각해보기
1) Word2vec 과 Glove는 어떤 차이점을 가지고 있는지 생각해봅시다.
참고자료
comment