纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Geek Repo:Geek Repo
Github PK Tool:Github PK Tool
Zhiwei35 opened this issue 6 months ago · comments
as title, thx.
有好几个tokenizer,源码在Transformers那个库里面,具体位置记不太清了.. 得翻翻