베르누이분포에서 시그모이드 함수와 소프트맥스 함수를 쓰는게 어떤 차이가 있나요?
아까 베르누이 분포 바이너리 관련해서 어떻게 보면 카테고리컬이 이제 넘버가 2인 것에 속한다고 볼수가 있잖아요. 그러면은 그러면 바이너리 테스크를 진행할 때 시그모이드를 사용하는 방식이나 아니면은 소프트맥스 아이 갯수를 2로 해서 하는 방식이 어떤 차이점...결과에 있어서 차이점이 있나요? 혹시?
(조경현 교수님 답변)
잠깐 앞으로 가보죠. 그래서 이제 카테고리컬 디스트리뷰션을 보면은 클래스가 뭐 많이 있을 수 있고, 이제 바이너리 버누넬을 써서 하는 경우에는 클래스가 딱 두개가 있는건데 사실 카테고리컬 디스트리뷰션에서 이제 씨를 이로 세팅함으로써 바이너리 클래시피케이션을 할수도 있죠.
사실 동일하구요. 동일하다고 해도 옵티마이제이션한 입장에서는 동일할 필요는 없는거죠.
어떻게 보자면은 이 버뉴얼리 디스트리뷰선이 가장 미니멀하게 레프리젠트를 할수 있는거구요. 카테고리칼 디스트리뷰션 같은 경우 리던던시가 있는데 사실 리던던시가 파라미터 갯수 안에서는 리던던시가 있는거죠 두개로 하니까.
하지만 컨스트레이션 옵티마이제이션인거죠. 디그리 어프리덤은 하나만 있는거예요. 왜냐하면 썸을 썸으로 나눠주니까.
근데 그렇게 했을때 궁극적으로 아웃풋같은건 동일하지만 실제 옵티마이제이션 그라디언 계산해보면 그게 동일할리는 없죠.
왜냐하면 이게...그걸 얘기를 하려면은 이제 피셜 인포메이션스 메이트릭스를 얘기를 해야되는데 왜냐하면 그라디언트를 저희가 계산을 하는게 그냥 아웃풋이 어떻게 바뀌는지만 보는거지 이 펑션이 어떻게 바뀌는지 펑션 스페이스에서 하지 않거든요. 펑션 스페이스를 보면은 얘나 앞에...앞에나...동일하지만 이 그냥 뉴럴넷의 파라미터 스페이스에서 보면은 두개가 사실은 동일하지 않아요.
comment