기계번역의 평가는 어떻게 하나요? 사람들이 RNN을 안쓰고 어떤 다른 방법으로 가고 있습니까? 훈련데이터를 필터링해서 크기를 줄일 수 있는 방법은 어떤 것이 있나요?
질문이 세가지가 있는데요, 첫번째는 머신 트랜스레이션을 할때 잘된다 안된다를 어떻게 판단하는지가 궁금하구요. 한국말 같은 경우도 이제 아이러브유를 번역하게 되면 나는 너를 사랑한다 내지는 좀 더 좋은 번역이라고 하는게 존재하잖아요. 저는 당신을 사랑합니다 이런거 처럼요. 이런것들도 평가할 수 있는 지표가 있는지가 궁금한게 첫번째구요.
두번째는 말씀하실때 머신 트랜스레이션에서 알엔엔을 떠난다라는 말씀을 하셨었는데 떠나서 어디로 가셨는지가 궁금하구요.
제일 궁금한거는...그 데이터를 모아서 모델을 돌렸을때 시간이 오래걸리잖아요. 그니까 데이터를 미리 데이터만 모아놓은채로 이 데이터가 좋은 데이터다 안좋은 데이터다 이렇게 그 판단할 수 있는 방법같은게 궁금합니다.
(조경현 교수님 답변입니다)
제가 어디로 가는지...저는 떠나지 않습니다...
첫번째거 이제 그렇죠...이발루에이션 얘기를 안했는데요 그거는 머신트랜스레이션에 딱 국한된 얘기라서 제가 안했는데...앞쪽에 좀 가서..여기 보면 이제 와아 엑시스가 이게 이제 블루 스코어라는 겁니다.
블루 스코어가 지금 가장 스탠다드하게 쓰이고 있구요. 오토매틱 메전데 이 블루스코어를 계산을 하기 위해서는 문장이 하나 주어져있고 이 문장의 레퍼런스 트랜스레이션 몇개가 주어져 있어야 되요 한개이상. 한개일수도 있는데 한개쓰면 사실 정확하지는 않구요.
한 다섯개정도에서 열개정도가 주어졌다고 했을때 이 레퍼런스 트랜스레이션 사람이 한거죠 사람이 만든 트랜스레이션에 있는 앤그램들을 다 볼거예요.
앤그램은 이제 토큰하나씩만 보는거 토큰두개보는거 세개보는거 보통 네개까지 보구요.
그 네개들이 쭉 리스트업을 한다음에 트랜스데이션 시스메스 중 트랜세이션이 있을거잖아요.
그 트랜레이션에 있는 모든 앤그램을 또 봅니다. 그것도 하나둘셋넷 네개까지 보구요. 이제 이 앤그램들 중에서 이제 프레시젼 계산을 하는거죠.
과연 트랜스레잇 된 트랜스레이션 시스템들이 만들 앤그램중에서 실제 사람이 썼을법한 사람이 쓴 앤그램이 몇갠가 그 갯수를계산을 하구요.
그 갯수를 계산을 한 후에 그거를 스코어로 쓰려고 했는데 문제가 있죠. 프레시젼을 높이는 방법은 아무것도 얘기를 안하면은 프레시젼이 헌드레드 퍼센트가 되니까 그거를 이제 랭스가 얼마나 이 레퍼런스와 비슷하냐를 가지고 페럴티를 줍니다.
랭스가 더 길다 레퍼런스보다 길다하면은 그냥 그 앤그램 프레시젼을 쓰구요.
짧으면은 그 앤그램 프레시젼을 계속 디스카운딩을 하는거죠.
그 블루스코어가 2001년에 논문으로 나온건데요.
그게 올해 나크인가...하여튼 그 앤엘피 컨퍼런스에서 테스트 어브 타임 어월드라고 해서 10년 넘은 페이퍼중에서 가장 임팩트 컸던게 뭐냐해서 머신트랜스레이션 분야에서 선정이 되서 상을 받았습니다. 그래서 이제 저는 그 학회는 안가고 그냥 뭐 사람들이 라이프투리딩하는걸 봤는데 봤더니 얘기를 하는게 이렇게 오래쓰일지 몰랐다고 했는데 아직까지 그것보다 더 휴면 저지먼트랑 콜레이션이 더 좋은 오토매틱 메져가 아직 없구요.
실제로도 블루스코어가 높은 시스템들이 더 잘됩니다. 휴먼 발루에이션해봐도 일반적으로는. 그래서 그걸 계속 쓰고 있죠. 근데 궁극적으로는 휴먼이발레이션이 제일 좋구요.
그리고 이제 세번째거에서...이제..아 두번째거 알엔엔을 떠나서 사람들이 어디로 가냐...저도 뭐 조금씩 가고는 있는데요...가고있는게...가고있는게 이제 이런 모델들이죠.
(12쪽 In Practice, 장표를 보면서 설명)
근데 이제 이런 모델들이 왜 하게됐느냐...하면은 재밌는게 성능을 확 높이겠다라고 처음에 시작을 했던건 아니구요.
사람들이 하는게 리카리넌넷 큰 단점중의 하나가 모든 컨피테이션 시퀀셜합니다. 그래서 토큰하나에 대한 레퍼런제이테이션을 구하기 위해서는 그 전 토큰들을 하나씩 하나씩 읽어야만 레퍼리젠테이션이 나오는거죠.
그러다 보니까 이제 테스트 타임에는 상관이 없는데요 별로 상관이 없는데 트레이닝 타임때 시간이 올래걸리죠 왜냐하면 디스트릿븃을 할수가 없으니가 토큰 레벨로 레프리젠테이션 찾는거를 그거를 극복하기 위해서 뭐 컨볼루션같은 경우는 테스트 타임을 동시에 디스트리븃해서 패럴 패그레싱할수있고, 트랜스포머도 이 셀프 어텐션도 머리만 잘쓰면은 동시에 다 레퍼리젠테이션을 익스트렉트를 할수가 있어서 이쪽으로들 많이들 가고 있죠.
근데 궁극적으로 제가 보기에 사람뇌랑도 비슷한거 같은데 어떤 한개의 알고리즘이 모든걸 다 풀수는 없구요.
어떤 문제냐에 따라서 서로다른 알고리즘들이 섞여서 동작을 하게 되는게 아닐까 그렇게 생각을 하고 있죠. 근데 또 가봐야될거 같습니다. 나중에 갔을때 틀릴수도 있구요.
마지막 질문이 트레이닝 셋을 만들었는데 점점 커지니까 이걸 어떻게 인피시언트하게 필터링해서 사이즈를 줄일수있냐 이 문제잖아요.
그거는 이제 그거 자체가 하나의 큰 리서치 토픽입니다. 왜냐하면 이제 이렇게 볼 수있죠. 랭귀지 모델이 뭐였냐면 센텐스가 주어졌을때 이게 얼마나 말이 되는 스코어인지를 찾는거였죠. 만약 랭귀지 모델을 저희가 완벽하게 풀수있다 하면은 트레이닝셋을 보고서는 이게 노이지한 애들을 필터링할수있겠죠.
근데 랭귀지 모델을 제대로 트레이닝을 하기 위해서는 트레이닝셋에 노이즈가 없으면 없을수록 좋겠죠. 이게 사실은 두개가 같이 섞여 있는 문제라서 이제 다양한 휴리스틱들이 있죠.
딱 봤을때 어..다른 센텐스와 어떤 센텐스 하나 주어졌을때 얘네가 얼마나 비슷한지 같은 그런 스탠...그 통계적인 방식으로 걸러내는 방식들이 몇개있는데 거 굉장히 프라블럼 이스피시픽합니다.
머신트랜세이션할때 데이타 클리닝하는 악셀 워드라는 사람이 많이 그쪽 연구를 했었는데요 그런 알고리즘들이 있고, 만약 이미지 레코그네이션할때는 또 이미지에서 노이즈한 애들을 퓨릿하려는 알고리즘들이 따로 있고. 그렇게 때문에 어떤 문제를 푸느냐에 따라서 계속 적합한 방법을 찾아야겠죠.
comment