문장 생성 모델 훈련시, 토픽을 감안한 효율적인 훈련 방법은 있나요? 역으로 문장이 주어졌을 때, 해당 문장을 어떤 토픽으로 분류할 수 있나요?
아 그..문장 제너레이션 관련해서 질문이 있는데요. 예를 들어 전체 모든 기사들 뭐 그런거로 학습을 시키면 정상 다음에 회담이 올 수도 있을거고, 정상 다음에 등반이 나올 수도 있을건데 그 두개가 확률이...전체 프로세스는 똑같다 치더라도 뭐...북미정상회담 관련된거에서는 정상 다음에 회담이 당연히 더 높게 나올거고, 그런 이제 뭐..에베레스트 관련된거면은 정상 다음에 등반이 더 나오게 될텐데...주제 뭐 토픽에 관련되서 제너레이션 하는게 달라질거 같은데 그런거를 아예 학습단계에서 감안시켜서 학습을 할 수 있는게...좀 효율적할 수 있는게 있을까 그런게 한가지 궁금한 점이구요.
만약 그게 된다면 역으로 해서 어...그런...어떤 특정 문서셋에 대해서 그런식의 관계가 있으면 그걸 가지고 이게 뭐...정상회담에 대한 문서다 뭐 이런식으로 추정할 수도 있을거 같은데 혹시 그런거에 대해서 좀...어..
(조경현 교수님 답변입니다)
그렇죠 예..그..일단 첫번째 질문은 사실 그..롱텀디펜던시를 캡쳐를 할 수 있냐 없냐를 어떻게 보자면 질문을 하신건데요.
앤그램 랭귀지 모델같은 경우에서 앤이 굉장히 작다...그래서 정상이라는 단어를 보고 그 뒤에 회담이 나오는지 등반이 나오는지를 보고싶은데 그 앞을 많이 못보면은 사실 구분을 할 수가 없겠죠.
그러니까 제너레이터할때 뭐 어떤걸 둘다 라이클리하다보니까 뭐 둘중에 아무거나 나올수 있지만 만약 컨텍스트를 길게 볼수있다 앤이 진짜 크다하면은 바로 여기서는 북미가 있었으니까 이건 회담이다 등반일리가 없다. 그다음에 에레베스트가 저기 앞에 있어으니까 여기는 당연히 등반이겠지 하는걸 알수있으니까요.
그게 이제 롱텀 디펜던시의 문제인거구요.
두번째 같은경우는 스코어링이 재밌는 이유가 스코어링을 할 수 있다는 거는 제너레이션만 할수 있는 것만이 아니라 그걸 가지고 클래시피케이션도 할수있다는 겁니다.
예를 들어서 랭귀지 모델 스코어링할 수 있는 것을 데이터셋을 뉴스아티클만 가지고 랭귀지 모델 딱 만드는거죠.
그 다음에 클래시피케이션 하고 싶은거는 이 문장이나 아티클이 뉴스인지 아니면 트윗인지를 알고 싶은거예요.
그러면은 여러 데이터를 구해가지고 바이너리 클래시파이를 할수있겠지만 그게 아니라 뉴스아티클이 충분히 많고 내가 랭귀지 모델 스코어링을 진짜 잘할 자신이 있다 하면은 뉴스아티클에다 랭귀지 모델 에스티메이션해서 새로운 데이터가 들어왔을때 스코어링을 해보고 그 스코어가 어떤 쓰레쉬 월드 보다 높으면은 뉴스아티클이고 낮으면은 그 트윗이고 그런식으로 할 수 있는거죠. 그러니까 말씀하신거처럼 랭귀지 모델을 가지고 스코어가 있으면은 스코어를 노멀라이즈함으로써 클래시피케이션 할 수 있죠.
comment