단어에 “성별” 의미가 없는 언어에서 내포된 언어로 번역할때 발생하는 문제점은 어떻게 해결 하나요?
어떤 특정 언어에서는 예를 들어 영어에서는 he나 she 같이 성별에 따른 주어를 확연히 구분해서 사용하지만 특정언어에서는 성별에 따른 주어를 전혀 사용하지 않는 언어도 있다고 들었거든요. 그걸 경우에 성별에 대한 스테레오 타입 이런거 까지 번역에 반영이 되서 그게 좀 문제가 된다라는 얘기를 들었는데 그거에 대한 뭐 해결안이나 수정 노력같은것도 있나요?
(조경현 교수님 답변)
예 질문해주신게 데이터셋...젠더가 들어가 있는 뭐 프로나운에 젠더가 들어가 있기도 하고 아니면 진짜 단어하나하나에 젠더가 되어 있는 언어들이 많이 있죠. 그런걸 할때 젠더가 없는 언어에서 젠더가 있는 언어로 트랜스레이션할때 보면은 예를 들어서 프레지던트다 하면은 다 미스터 프레지던트로만 나오고 이런일들이 꼭 있죠 보면은.
그거를 제가 보기엔 해결하...는게 두가지 방법이 있는거 같거든요. 한 세가지 정도인데...두가지 방법이 있는데
첫번째거는 그런일이 많이 생기는 이유중에 하나가 데이터셋 바이아스도 있지만 그거말고 지금 저희가 만드는 트렌스세이션 시스템들이 너무 문장만 봅니다. 컨텍스트가 없기때문에 예를 들어서 젠더가 없는 랭귀지에서 우리말이 이제 젠더가 없죠.
그냥 뭐 대통령 대통령이 뭘 했다라고 했는데 그걸 이제 뭐 불어같은걸로 트랜스레잇할때는 이게 마담 프레지던트냐 아니면 뭐 무쉬 프레지던트냐 그걸 정해줘야 되거든요.
근데 만약 컨텍스트 없이 그 문장만 딱 주어지면은 뉴럴넷이 그냥 알아서 정해야 되는거예요. 정보가 없는거죠 사실 정답이 없는 상황이죠. 근데 이걸 해결할 수 있는 한가지 방법은 컨텍스트를 더 주는거죠. 센텐스만 주는게 아니라 앞센텐스 뒷센텐스 아니면 전체 다큐먼트 아니면 이거를 말한 사람이 누군지 아니면 이거를 듣는 사람은 누군지 이런 정보를 주면줄수록 점점 그 젠더라든지 그냥 문장만 봤을때 알수없는 정보들을 뉴럴넷이 활용을 해가지고 그걸 더 리절브를 더 할수있겠죠. 그게 한가지가 있구요.
두번째는 그럼에도 불구하고 그렇게 컨텍스트를 많이 줘도 이 데이터셋 바이어스가 있기는 있기 때문에 디스트리뷰션 러닝을 하면은 이 데이터셋에서 얼마나 어떤 젠더라든지 어떤 특정 프로나운이 더 프리퍼 됐냐에 따라서 그쪽으로 그 디코딩하는 알고리즘이 완벽하지가 않아가지고 제대로된거를 찾지 못하고 뭔가 더 익스트림하게 바이어스된 버전이 나오는경우가 많이 있습니다.
그거는 이제 그거를해결하기 위해서 어떻게 해결해야할지 답은 제가보기에는 아직 모르는거 같은데요 저희가.
뭐 두가지가 있다면 하나는 이제 익스프릿하게 데이터셋 자체에서 필터링이나 클리닝하는 방식을 해서 밸런스를 맞추는게 있을거구요. 그게 한가지 힘든 이유는 그거를 익스플리스트하게 할 수있으면서 분명히 제가 보기에는 모델도 익스플리스트하게 저희가 만들수있을거 같거든요. 근데 그걸 못한다는 거는 이 필터링하는것도 완벽하게 하기 힘들거 같구요. 그래서 그쪽 연구가 많이 필요하고.
두번째 방법은 어째면 모델이 러닝을 이미 잘 하고 있는데 저희가 디코딩을 못하는거 일수도 있어요. 그게 이제 마지막주제로 제가 얘기를 할거 였는데 오토그레시브 모델을 만들고 나면은 저희가 스코어링을 하는거는 완벽하게 할수있는데 이 센텐스...센텐스 모든 가능한 트랜스레이션 중에서 실제로 스코어를 제일 많이 받는애가 누구냐는 저희가 아직 푸는 방법을 모릅니다 정확하게.
그러다보니까 혹시 문제를 잘 풀면은 데이터셋에 있는 그대로 나오지 않나 뭐 근데 그것도 둘중에 뭐가 맞는지 둘다 할수는 있는건지 여러 그 리설치 토픽이죠 진짜. 좀 에포트를 많이 써야되는 부분인거 같습니다.
comment