gyunggyung / KoGPT2-FineTuning

🔥 Korean GPT-2, KoGPT2 FineTuning cased. 한국어 가사 데이터 학습 🔥

Home Page:https://hipgyung.tistory.com/110

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

토큰 생성시 오류

Yngie-C opened this issue · comments

얼마 전에 메일로 연락드렸던 자연어처리 공부하는 학생입니다.
처음에는 아래 그림처럼 Text_size = 100 에 맞추어 잘 생성이 되었는데요.

ok

일정 시점 이후로는 토큰이 10개 미만으로 생성되며 제대로 생성이 되지 않고 있습니다. 동일한 현상이 있으셨거나 해결법이 있다면 해결법을 알고 싶습니다. 데이터셋의 형태를 바꿔보기도 하고 sample_sequence 함수를 잘못 건드린게 있나 싶어 코드를 새로 클론 받았는데도 같은 현상이 일어나고 있습니다. 문제가 발생한 이후로는 아래 그림처럼 생성이 됩니다.

not-ok

Sentencepiece를 0.1.91에서 0.1.90으로 낮추었더니 훈련 과정에서 생기는 sample은 정상적으로 생성됩니다.
허나 로컬환경에서 같은 함수를 실행하면 여전히 같은 문제가 발생하고 있습니다.

안녕하세요 :)

Overfitting 문제로 보입니다! 3가지 방법이 있을 거 같은데, 하나는 temperature를 늘리는 것이고 다른 하나는 data의 input size를 늘리는 것입니다. 마지막 방법은 어느정도 학습이 되면 학습을 중지 시키는 것입니다. 꼭 학습이 많이 된다고 해서 좋은게 아니니까요.

안녕하세요, 저도 같은 문제로 검색을 하다가 찾게 되어 글을 남깁니다.
Jupyter_main의 main 함수로 학습시에는 글이 잘 생성되는 것을 확인하였습니다.
Jupiter_generator의 main 함수를 이용해 학습으로 생성된 모델을 가지고 새로운 input으로 문장 생성 시에는 말이 되지 않는 문장이 생성이 됩니다.
"신뢰를 바탕으로" 라는 input으로,
"신뢰를 바탕으로 "함은 서도된다." 는 걸세 라가 로스 티티티브를 씀에 에따라처치해 봤다하다시킨.이래 뵈어든 게인 들과의 .에버랜더식, 스페니고 ,등을의 류의바비어로드에만서 든듯!등도 ."'함부리'-에너피가!-"음산함"
이런식으로 추출이 됩니다..
어떤 부분을 손 봐야할지 감이 오질 않아 조언을 구하고 싶습니다.

가장 큰 문제는 데이터의 문제인 거 같습니다. 좀 더 좋은 데이터셋으로 오래 학습을 시킨다면 해결될 걸로 보입니다 :)

더 이상 피드백이 없어서 이슈를 종료하겠습니다 :)