딥러닝을 이용한 자연어 처리

Ben 2026.01.30

재미있는 문장은 어떻게 해야 훈련해야 할까요?

네 안녕하세요. 강의 잘 들었습니다.
랭귀지 모델링으로 어플리케이션 같은걸 만들어서 재밌는 문장을 만들고 싶을때는 굉장히 컴플리틱한...컴플리팅하는 두가지 꼴을 만족시켜야 되는데요. 그럴듯한 문장이면서 사람들이 많이 쓰지 않는 재밌는 문장이 만들어져야 되는거잖아요. 그니까 뻔한 문장이 아니고. 그래서 이게 랭귀지 모델링 세팅 자체에서는 풀기 어려운 문제라서 일부러 학습을 푸어하게 시키거나 좀 잘 안시키거나 이런식으로 풀기는 하는데, 되게 아름다운 방식은 아닌거 같아서 혹시 뭔가 아이디어나 어떤 그런 연구가 있으시면 좀 조언을 해주시면 감사하겠습니다.

(조경현 교수님 답변입니다)
그렇죠 그게 사실 굉장히 그..이제..그게 이상하게도 랭귀지 모델의 이슈라기 보다는요 그러니까 그 익스포레이션 익스포리테이션 이런쪽으로 가는거거든요.
어떻게 보자면은 계속 러닝을 하기 위해서는 뭔가 새로운 데이터를 구해야 되고, 어떤게 새로운 데이터..어떤때 새로운 데이터를 구해야 되고 어떨때는 알고 있는걸 그냥 써야되고.
근데 이게 새로운 데이터가 의미가 있고, 내가 써야된다 말아야 된다 라는거는 이게 얼마나 서프라이징하냐 이런건데 이제 그래서 서프라이즈가 뭔지를 디파인을 좀 해야되는데요.
사람들이 많이 디파인을 해놨죠. 어떻게 보자면 랭귀지 모델이라는거 자체가 서프라이즈를 디텍트 하기 위한 용도라고 보시면 되거든요.
뭔가 계속 텍스트 스트림 들어오는거를 랭귀지 모델로 계속 계산을 해보면은 어느순간에 어! 프라버블리가 확 낮은데 뭔가 일어났다하면은 그게 서프라이즈니까요.
근데 이제 그걸 그러면 일부러 서프라이즈랑 서프라이즈 아닌거랑 레이셜 어떻게 맞추는 방법이 있느냐한건데.
그게 사실은 쉽지는 않구요. 왜냐하면 프리스팔한 메소드가 있을수가 없는게 그 두개의 트레이드 어프를 했을때의 어떤 트레이드 토크가 좋은지 그 스코어링하는 펑션이 디파인이 안되어있기 때문에 어려운거 같습니다.
다만 하자면은 씬텍스에서 서프라이즈가 있으면은 보통 알아들을 수가 없게되구요 구조가 틀리니까.
근데 이제 그러면 씨멘틱스에서 서프라이즈 있는게 저희가 재밌다 이상하다 하는거겠죠.
그렇게 보면은 예를 들어서 간단하게 파오브스피치 테깅이나 파싱을 한 다음에 써프라이즈를 인트로듀스 하고 싶은 부분은 그런 펑셔날...아, 아, 아..그오픈 월..오픈 클래스 월드 뭐 애지브티브나 뭐 벌브나 나운 같은거 일거고.
펑셔널 월드에서는 사실 서프라이즈 넣는게 사실 이상하겠죠.
그러니까 그런식으로 뭔가를 만들어서 궁극적으로 스코어링을 할수가 있냐 그걸 디파인을 먼저 하는게 급선무인거 같습니다.
그러면은 이제 내일 같은 시간에 또 뵙도록 하죠.

딥러닝을 이용한 자연어 처리

comment