Attention 모델에서 전체 문장을 보지 않고 고정된 윈도우 사이즈를 정해서 하면 어떤가요?
어텐션 관련해서요...이제 어텐션을 할때 시퀀스 전체에 대해서 이제 어텐션을 하는게 아니고 예를 들어서 윈도우를 잡아서 할 수 있을거...예를 들어서 시퀀스의 반을 잡는다든지, 1/4을 잡는다든지 뭐 이런식으로 할 수 있을거 같은데 이게 현업에서의 어느 정도의 길이를 잡으면 잘되더라 이런 롤어브덤스나 이런게 혹시 있나요?
(조경현 교수님 답변입니다)
그렇죠 그..이제..사실 이것도 그..내일 얘기할것중에 하나였는데 랭스가 길어지고 예를 들어서 뭐 토큰을 렛캐릭터를 쓴다 하면 사실 길이가 많이 길어지니까요. 속도문제가 많이 있어서 얘를 어떻게 줄이느냐가 사실 큰 이슈거든요.
지금 보통 사람들이 하는게 뭐 제가 했던 연구같은 경우는 컨퍼넷을 써서 로컬 스트럭처 패턴을 캡처를 하고 그 뒤에 풀링을 해서 줄인다든지.
아니면 최근에 구글 엔엘피랑 브레인팀에서 나온것들은 그냥 이제 윈도우 뭐 어떤 레이셜을 딱 주는거죠 나는 1/4로 줄...1/4로 줄이겠어 하면은 토큰 네개씩 딱 잡은다음에 각각을 그냥 하나의 벡터로 바꾼다든지 근데 그게 어떤게 정답이냐가 어려운게...이렇게 줄이려는 이유가 두가지가 있어서 그렇죠.
하나는 이제 성능이 더 좋아지지 않을까가 있고,
두번째는 이제 컨피테이션 리퓨시언스의 문제가 있으니까요.
이게 트레이드오프를 찾는거라서 뭔가 아 이렇게 하는게 정답하는거는 어떤거에 더 초점을 두느냐에 따라서 다른거 같습니다.
근데 내일 제가 캐릭터 레벨 트랜스레이션을 하는거 얘기를 할때 어떤...어떤식으로 디자인 초이스를 해야되는지는 얘기를 해보께요.
comment