Roberta Tokenizer 관련 문의

Question

Roberta Tokenizer 관련 문의

diffunity opened this issue 3 years ago · comments

Roberta Tokenizer 구현 관련해서 질문있습니다.

위 이슈에서도 언급이 되었지만 Fairseq의 구현 방식으로 인해서 huggingface도 roberta tokenizer의 max_positional_embedding을 514로 뒀습니다. 현재 KLUE에서 공개된 모델은 512로 되어있어 사실상 tokenizer max length는 510이 되는건데, 혹시 이렇게 진행하게 된 이유가 있는지 궁금합니다!

논문에서 언급된 "All models take sequences of at most 512 tokens long each"랑 상충되는 부분이어서 여쭵보니다. 감사합니다.

Jihyung Moon · Answer 1 · Sat Jul 31 2021 16:52:02 GMT+0800 (China Standard Time)

@diffunity

해당 질문은 이 문서를 참고해주시면 좋을 것 같습니다.
논문의 해당 부분도 수정될 예정입니다.
감사합니다

Jihyung Moon · Answer 2 · Wed Sep 01 2021 11:19:27 GMT+0800 (China Standard Time)

@diffunity 안녕하세요, 해당 부분 이슈가 fairseq 에서 발생한 것이 아닌 fairseq-> huggingface converting 과정에서 발생한 것으로 재확인되어 현재는 max_length 512 로 사용하실 수 있습니다!