딥러닝을 이용한 자연어 처리

Ben 2026.01.30

Character token embedding 에서 숫자를 어떻게 처리하나요?

지금까지 문자와 관련해서 토큰나이저를 해주셨는데요, 만약 그 사이에 아라비아 숫자 같은게 적혀있으면 이런 숫자들은 어떤 식으로 토큰나이저를 하시나요? 그리고 만약에 만원을 번역한다 했을때요 만약 10000원으로도 번역될수가 있고 ten thousand으로도 번역이 될수 있는데 이 두가지의 가중치가 똑같다고 생각될때 어떤 식으로 나오는게 더 합리적이라고 생각하시는지요?

(조경현 교수님 답변)

그...거는 사실 답이 없는거죠. 컨텍스트 따라 갈텐데요. 숫자라던지 아니면 뭐 연도, 사람이름 뭐 지역이름 같은 경우 프로덕션 시스템만들때는 대부분 클래씽이라고 해서 뭐 숫자들은 숫자토큰으로 바꿔놓고 나중에 이제 트랜스레이트 된거 보고서 바꿔치기 한다든지 아니면 뭐 사람이름 같은것도 사람이름1, 사람이름2 이런식으로 해서 트렌스레이트 된거 보고서는 따로 트랜스리털레이션 엔진을 써서 이렇게 바꿔놓는다든지 그러하게 많이 씁니다. 지금여기 이제 트랜스에이션 제가 시스템 만드는거를 말씀을 드렸는데 이거는 굉장히 리썰쳐들이 쓸만한 그거구요.
프로덕션 시스템에 넣는다고 하면 해결해야되는 것들이 많이 있죠.
실수로 이런 트렌스레이션 시스템이 실수를 할건데 실수를 할때 페이털한 실수들이 있을수있으니까요.
얼마전에 페이스북 트랜스레잇 때문에 이스라엘, 팔레스타인 그쪽에서 컨플릭도 있었죠.
그런 문제들이 있어서 그런거를 해결해주는 겉에 이제 프리 프로세스싱, 포스트 프로세싱 뭐 클린업 이런것들이 코드가 어마어마하게 들어야되겠죠.
그런거는 거는 저는 맞는 사람이 아니구요 설명하기에는.
근데 실제로 그런거 이제는 암타 뭐 어소시에이션 머신 트랜스에이션 인 어메리카나 이런 그런대서 학회를 매년합니다. 그런 학회에서 프로덕션 시스템에서 이슈가 뭔지 많이 나오니까 그쪽의 논문들을 읽으면 좀 도움이 되죠.

딥러닝을 이용한 자연어 처리

comment