딥러닝을 이용한 자연어 처리

Ben 2026.01.30

Mutlilingual Translation를 훈련하기 위해서 얼마나 많은 데이터가 필요하나요?

교수님, 좋은 강의 잘 들었습니다. 자연어 처리 같은걸 하다보니까 데이터량이 작아놓으면은 학습이 오버피팅이 많이 되는데 이런 캐릭터 레벨에다가 이제 다국어까지 하게 되면은 데이터량이 엄청나게 많이 필요할거 같은데 대충 얼마정도의 센텐스로..그니까 트레이닝에서 얼마정도 궁금합니다.

(조경현 교수님 답변)

그 오히려 멀티링궐 트레이닝을 하고..하기때문에 각 랭귀지 페어마다의 데이타는 더 적게 필요하죠. 왜냐하면 데이터들을 다 모아서 뉴럴넷 하나를 트레이닝하는거니가 뉴럴넷 입장에서는 그 모은 모든 데이터가 하나의 데이터가 되는거니까요.
오히려 멀티링궐 모델링이라든지 멀티타스킹 러닝이 데이타가 적은 애들한테 더 도움이 됩니다.
이게 트레이닝 커브인데요, 와이엑시스가 이제 밸리데이션 셋에 대해서 블루 스코어가 어떻게 되는지...이걸 이용해서 얼리스탑핑을 하는거죠 저희가 하기 위해서 기록을 하는데 이게 트레닝을 하고 있고 저희가 피니쉬 투 잉글리쉬 그게 아까 말씀드렸던 4개 언어중에서 가장 리소스가 작은앱니다.
만약 멀티링궐 트레이닝을 안하면은 바로 오버피팅을 해버리는거죠. 데이터가 워낙 작으니까. 이제 멀티링궐 트레이닝을 하면은 뉴럴넷을 트레이닝을 할때 쓰는게 피니쉬투잉글리쉬만이 아니라 훨씬더 양이 많은 뭐 저먼투 잉글리쉬도 쓰고, 챕투잉글리쉬 같은걸 같이 쓰다보니까 계속 성능이 올라가죠.
오히려 이게 더 로우리소스 랭귀지에 도움이 됩니다.

딥러닝을 이용한 자연어 처리

comment