求问glm-10b-chinese推理所需最低配置

Question

求问glm-10b-chinese推理所需最低配置

TianYangCai opened this issue a year ago · comments

本地环境为16核32G + 4 V100。按如下运行后直接显示Killed。
求问glm-10b-chinese推理所需最低配置，是否有量化或者其他解决方案允许在上述硬件环境下成功运行(暂无fineturn需求，仅仅想要体验一下效果)。

`
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("BAAI/glm-10b-chinese", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("BAAI/glm-10b-chinese", trust_remote_code=True)
model = model.half().cuda()

inputs = tokenizer("凯旋门位于意大利米兰市古城堡旁。1807年为纪念[MASK]而建，门高25米，顶上矗立两武士青铜古兵车铸像。", return_tensors="pt")
inputs = tokenizer.build_inputs_for_generation(inputs, max_gen_length=512)
inputs = {key: value.cuda() for key, value in inputs.items()}
outputs = model.generate(**inputs, max_length=512, eos_token_id=tokenizer.eop_token_id)
print(tokenizer.decode(outputs[0].tolist()))
`