로그인 바로가기 하위 메뉴 바로가기 본문 바로가기
난이도
기본

딥러닝을 이용한 자연어 처리

임시 이미지 조경현 교수
http://www.boostcourse.org/ai331/forum/139092
좋아요 776 수강생 7827

단어 임베딩에서 다의어(polysemy) 문제는 어떻게 해결하나요?

궁금한게 그...아까 토큰을 한 다음에 뭐 디인클라디언스 스페이스로 인베딩을 해서 이제 그걸 가지고 컴퓨테이션을 하는거 같은데...근데 제가 궁금한거는 제가 어떤 단어를 딕셔너리에서 룩업을 하면은 그 단어의 의미가 되게 컨텍스트에 따라서 뭐 작게는 2개, 많게는 10개, 막 20개도 될수가 있는데 지금 보면은 그냥 워터플레이컬 스페이스에 원포인트로 그냥 인베딩을 시켜버리거든요...그러면 ploysemy 프라블럼을 어떻게 해결이 될 수 있는지 잘 모르겠어서...

(아래 내용은 조경현 교수님 답변입니다.)

그 이제 프로이세미 프라블럼 그러니까 이제 단어 하나하나가 절대 뜻이 하나만 있지는 않잖아요. 대부분 단어들이 뜻이 여러개가 있고 그러면 우리는 어떻게 그걸 디센뷰게이트하냐 하면은 컨텍스트를 보면은 사실 대부분 디센뷰게이션이 되는 것이죠.
월디센뷰게이션도 들어가고 하는데...이제 두가지를 생각을 해봐야하는데요...앞으로 가서...
여기서 보면은 벡터들이 각각 벡터들이 굉장히 하이다이멘셜 스페이스예요. 그것은 뭐냐 그 단어들 두개 세개씩 여러개가 있는 상황에서 그 단어들간의 관계가 굉장히 여러개가 들어갈수가 있어요. 그래서 원다이멘셜 스페이스에서는 예를 들어서 점들을 쭉 뽑아놨따 하면은 한점이 네이버가 딱 두개가 나올 수가 있겠죠 비슷한 애가. 투 다이멘셜 스페이스에서는 네이버들이 한 네가 이렇게 나올 수 있고요. 쓰리 다이멘셜 스페이스는 더 많고.
계속 커지는데 한 쓰리 헌드레드 다이멘셜 스페이스가 되면은 네이버들이 엄청나게 많을 수가 있는거죠. 그러다 보니까 의미가 서로 다른것들이 있어도 서로 다른 의미에 대한 네이버후드를 다 인베딩을 할수가 있는거죠. 그정도 하이다이멘셜 스페이스가 되면은. 그니까 이런 토큰 레프리젠테이션이 스페이스는 하나지만 어차피 의미라는거는 랠러티브하게 다른 단어들과 어떻게 관계기 때문에 한 이정도 하이다이멘셜 스페이스 여러문제 그 의미를 다 인코드할수가 있구요.
그러면 그 중에 뭐를 고르느냐가 큰 문제가 될텐데 그부분이 이제 사실 센텐스 레프리젠테이션에 들어가게 되는거죠.
그래서 예를 들어서 뭐 컨볼루션 뉴럴넷 이걸 생각을 해보면은 이 가운데 토큰 이 토큰의 레프리젠테이션이 뭔지를 생각을 해보면은 이 레프리젠테이션을 구하는 방법이 이 현재의 토큰 레프리젠테이션과 앞에 그리고 뒤에 레프리젠테이션을 보는거죠.
어떻게 보자면 센텐스 레프리젠테이션을 뽑아내는거 자체가 토큰 레프리젠테이션들을 어떻게 합치느냐 합칠때 컨텍스트 그러니까 주위 단어에 어떤 영향을 받느냐를 하는거기때문에 문제..이 문제를 푸는데 필요하면은 그게 사실 가장 중요한거죠. 이제 타스크 오리엔티드인데. 문제를 푸는데 필요하면은 알아서 이 센텐스 레프리젠테이션 익스트렉션 레벨에서 폴리세미는 디세민이 되는거죠.