nlpai-lab / KULLM

☁️ 구름(KULLM): 고려대학교에서 개발한, 한국어에 특화된 LLM

Home Page:http://nlp.korea.ac.kr/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

[질문] merge_tokenizer.py 에서 사용하는 llama2_kor.model 파일은 어디에서 찾을 수 있을까요?

idjung96 opened this issue · comments

tokenizer 관련 코드를 찾던 중, KULLM tokenizer를 발견하고 기쁘게 공부하려고 합니다.

llama2 tokenizer에 /data/joon/kopora/lmdata/llama2_kor.model 을 추가해서 사용하는 것이죠?

sentencepiece model을 제가 만들어서 사용해야 하는지, 프로젝트 파일이 덜 공개된 것인지 궁금합니다.

merge_tokenizer.py의 마지막 4줄의 결과가 궁금하여, 질문 드립니다.