딥러닝을 이용한 자연어 처리

Ben 2026.01.30

Self attention은 어떻게 최적화 되나요?

네 저도 앞에 관련된 어텐션 관련해서 질문을 드릴건데요.
셀프 어텐션에서 어텐션을 어떻게 거는지에 대해서는 말씀해주셨는데, 어떻게 학습하는지...옵티마이제이션을 어떻게 해서 어텐션을 제대로 걸 수 있는지에 대해서는 안나온거 같아서..

(조경현 교수님 답변입니다)

아..어...옵티마이제이션을 어떻게 해야 제대로 되는지...그니까 사실...지금 보면은 그냥 일반적인 옵티마이제이션 알고리즘을 쓸수가 있죠.
그랬을때 문제가 어떤 문제를 푸느냐에 따라서 이제 어텐션 이게 달라질건데요.
그..일반적으로 쓰는 뭐 백프로파게이션에서 그라디언 계산하는것도 다 적용이 되구요. 뭐 다 디프렌시어블하고 컨퓨 못할건 없고, 그다음에 이제 에스시디 쓰는것도 되는데 물론 이게 옵티마이제이션이 살짝 어려운 면이 없잖아 있죠.
왜냐하면 이건 사실은 설명을 안하고 넘어가기는 했는데 이제 빽프로파게이션 아까 말씀드렸던 그라디언 디센트라는게 컨피덴셜 그래프를 생각을 해보면은 프로세스가 그래딧 어사인먼트 프로세스거든요.
그러니까 이제 로스펑션을 보고 이제 각 노드들이 쭉 있잖아요.
로스펑션을 계산할때 쓰이는...그리고 파라미터들이 있으면 각 노드마다 아 이 로스펑션이 이런 값이 된대는 너가 이런식으로 컨트리븃을 했어 하는걸 쭉 전파를 시켜주는거거든요.
그리고 전파된 양을 보고 내가 컨트리븃을 퍼지티브하게 많이 해다 그러면은 값을 많이 올리거구요 파라미터를.
어떤 파라미터는 아 나는 아주 네거티브하게 컨트리븃을 했다 하면은 값을 줄일거구요.
이제 그게 빽프로파게이션과 에스지시디가 하는건데 이 어텐션 메커니즘을 보면은 초반에 트레이닝 할 초반에는 어텐션 이 웨잇이...웨이팅 펙터가 사실 제대로 안되있겠죠 아직 트레이닝이 안돼있으니까.
그럼 그런 상황에서 굉장히 플랫하게 나올거란말이죠 왜냐하면 파라미터들이 다 작으니까.
이 상황에서 크레딧 어사인먼트를 할수가 있느냐 하는 문제가 생기거든요.
이..크레..크레딧 어사인먼..어 여기서 이제 크레딧 어사인먼트를 할때 이 써메이션 텀에 와서 각각의 이제 아 궁극적으로 이제 로스펑션이 어떻게 바뀌었는데 어떤 여기에 있는 어떤 텀들이 중요한 뭐 컨트리뷰션을 했냐를 정해야되는데 만약에 웨이팅 펑션이 플랫하게 다 똑같이 값을 주고 있었다 하면 누가 중요했는지를 알수가 없는거죠. 그러면 러닝이 진행이 잘안되는데요.
그것때문에 이제 파라미터 이니셜라이제이션을 어떻게 하느냐가 또 아주 까다롭고요 셀프어텐션 타입에서.
근데 최근에 어...어느 그룹에서 나왔지..체...체코에서...나온...체..첵이었나...
하여튼 그 이런 셀프어텐션을 이용한 머신트렌세이션 시스템을 만들때 어떤 하이퍼 파라미터들이 중요한지에 대해서 테크니컬 리포트가 하나가 나온게 있는데 그거를 좀 보시면은 어떤식으로 했을때 크레딧 어썸이 빨리되서 이니셜 컨버젼스가 좋고 웨이팅 펙퍼들이 플랫하지 않게 빨리되느냐 그거 아마 보실 수 있을겁니다.

딥러닝을 이용한 자연어 처리

comment