딥러닝을 이용한 자연어 처리

Ben 2026.01.30

문장 길이가 길어질 수록 점수가 낮아질 것 같은데 어떻게 해결하나요? 일반적인 문장표현은 어떻게 찾을 수 있나요?

두가지 질문이 있는데요, 첫번째는 센텐스 스코어링 할때 길이가 길어지면 확률이 일단 절대적으로 비교를 하면 작아질 수밖에 없는데...뭐 예를 들어 에버러징 같은걸 한다 하더라도 뭐 예를 들면 반복되는 그런 문장에 대해서 점수가 높아질거 같은데 이런걸 해결하기 위한 방법이나 이런게 있는지 궁금하고,
두번째 질문은 아까 센텐스 리프리젠테이션 하실때 테스크 디펜던트하게 이제 그 센텐스 리프리젠테이션을 학습하는 방법을 설명해 주셨는데 이제 일반적인 제너럴한 센텐스 리프리젠테이션을 하고 싶은 경우에는 뭐...어떻게 하는게 좋은지 또는 뭐...그럴려면 그거에 적합한 테스크는 뭐라고 생각하시는가 궁금합니다.

(조경현 교수님 답변입니다)
네 그..첫번째거부터 하자면은 원칙적으로는 오럴 리그레시브 모델링한다고 하면은 요게 딱 맞죠. 맞지만 말씀하신거처럼 저희가 이제 에스티메이션을 계속 하는거죠.
이게 진짜 이제 언더라익 슈프라버빌리티를 하는게 아니라 맥스머라이크 에스티메이션을 하다보면은 랭스투 디스트리뷰션이 또 달라지거든요.
그리고 이제 에스티테이트한 것들이...에스티메이션이 완벽하지 않다보니까 짧은 문장들에 대해서 보통 이제 오버 에스티메이션을 하게 되고 긴 문자들은 언더 에스티메이션하는 경향이 있어서 일반적으로 실제로 이제 어..이런 앤그램 프라버블리티를 다 에스티메이트해서 사용을 할때 엔엘엠에도 있고 그냥 뉴럴랭귀지 모델 뭐 내일 얘기할때도 있고 할때는 보통 저희가 그..앤그램 프라버블리티 다 계산을 한다음에 걔네를 어떻게 컴바인...아 이..뭐 썸을 하거나 에버리지를 할때 그냥 썸이나 에버리지가 아니라 그 웨이팅을 좀 줍니다.
랭스에 따라서. 더 긴 애들은 더 업에스를 한다든지 짧은 애들은 다운에이스를 한다든지 그런 랭스패널티를 주기 마련이구요.
근데 그거는 쫌 어떤거에 쓰이느냐에 따라서 조금씩 계속 달라지는거 같애요.
두번째 이제 센텐스 레프리젠테이션 지네릭하게 이렇게 다 사용할 수 있는 센텐스 레프리젠테이션은 어떻게 찾냔데.
그게 이제 그 센텐스 레프리젠테이션 리서치하는 사람들에게 홀리 그레이그 같은거죠.
저도 이제 2016년에 나클이라는 학회에서 필릭스엘이랑 다른 컬레버레이터랑 이제 다양하게 뭐 디노이징 오리앤커랑 여러 오브젝트를 세봤더니 그 당시 결과는 센텐스 레프리젠테이션을 가지고 무엇을 하고싶냐에 따라서 최적인 오브젝티브가 다 다르다 이런식으로 결론이 나왔구요.
그걸 가지고 엔와이유 제 오피스 옆에 앉아 있는 샘보만 교수가 사실 그쪽 센텐스 레프리젠테이션 관련해서는 여러가지 일을 하고 있습니다.
그래서 새로 글루라고 이봘루에이션 플랫폼도 만들어놔서 누군가 센텐스 레프리젠테이션을 업로드를 하면은 자동으로 수많은 테스트 내에서 자동으로 이봘루에이션해주고 하는게 있구요.
그걸 하다보면은 궁극적으로는 찾을 수 있을지 아니면은 그런 제너럴한 센텐스 레프리젠테이션이 원래 존재하지 않는지는 잘 모르겠어요. 저는 살짝 없는거 같긴해요.

딥러닝을 이용한 자연어 처리

comment