딥러닝을 이용한 자연어 처리

Ben 2026.01.30

Attention 모델에서 전체 문장을 보지 않고 고정된 윈도우 사이즈를 정해서 하면 어떤가요?

어텐션 관련해서요...이제 어텐션을 할때 시퀀스 전체에 대해서 이제 어텐션을 하는게 아니고 예를 들어서 윈도우를 잡아서 할 수 있을거...예를 들어서 시퀀스의 반을 잡는다든지, 1/4을 잡는다든지 뭐 이런식으로 할 수 있을거 같은데 이게 현업에서의 어느 정도의 길이를 잡으면 잘되더라 이런 롤어브덤스나 이런게 혹시 있나요?

(조경현 교수님 답변입니다)

그렇죠 그..이제..사실 이것도 그..내일 얘기할것중에 하나였는데 랭스가 길어지고 예를 들어서 뭐 토큰을 렛캐릭터를 쓴다 하면 사실 길이가 많이 길어지니까요. 속도문제가 많이 있어서 얘를 어떻게 줄이느냐가 사실 큰 이슈거든요.
지금 보통 사람들이 하는게 뭐 제가 했던 연구같은 경우는 컨퍼넷을 써서 로컬 스트럭처 패턴을 캡처를 하고 그 뒤에 풀링을 해서 줄인다든지.
아니면 최근에 구글 엔엘피랑 브레인팀에서 나온것들은 그냥 이제 윈도우 뭐 어떤 레이셜을 딱 주는거죠 나는 1/4로 줄...1/4로 줄이겠어 하면은 토큰 네개씩 딱 잡은다음에 각각을 그냥 하나의 벡터로 바꾼다든지 근데 그게 어떤게 정답이냐가 어려운게...이렇게 줄이려는 이유가 두가지가 있어서 그렇죠.
하나는 이제 성능이 더 좋아지지 않을까가 있고,
두번째는 이제 컨피테이션 리퓨시언스의 문제가 있으니까요.
이게 트레이드오프를 찾는거라서 뭔가 아 이렇게 하는게 정답하는거는 어떤거에 더 초점을 두느냐에 따라서 다른거 같습니다.
근데 내일 제가 캐릭터 레벨 트랜스레이션을 하는거 얘기를 할때 어떤...어떤식으로 디자인 초이스를 해야되는지는 얘기를 해보께요.

딥러닝을 이용한 자연어 처리

comment