[Bug] 模型推理中止

Question

[Bug] 模型推理中止

Patrick-Ni opened this issue 4 months ago · comments

nixuanfan commented 4 months ago

Describe the bug

我使用InternLM2-chat-7b 对以下文本进行推理时候，模型没有任何报错，只是显示一个Aborted，然后就结束了。
文本：
请阅读以下法律文本，并回答相关问题：

中华人民共和国刑事诉讼法

1979年7月1日第五届全国人民代表大会第二次会议通过

1996年3月17日第八届全国人民代表大会第四次会议《关于修改〈中华人民共和国刑事诉讼法〉的决定》第一次修正

2012年3月14日第十一届全国人民代表大会第五次会议《关于修改〈中华人民共和国刑事诉讼法〉的决定》第二次修正

2018年10月26日第十三届全国人
...
、被害人及其法定代理人、近亲属对强制医疗决定不服的，可以向上一级人民法院申请复议。

第三百零六条强制医疗机构应当定期对被强制医疗的人进行诊断评估。对于已不具有人身危险性，不需要继续强制医疗的，应当及时提出解除意见，报决定强制医疗的人民法院批准。

被强制医疗的人及其近亲属有权申请解除强制医疗。

第三百零七条人民检察院对强制医疗的决定和执行实行监督。

问题：这部法律中总共有多少条法律条目？

文本是中华人民共和国刑事诉讼法+一个问题，我的代码如下：
加载模型：

推理：

包版本：

Environment

accelerate
datasets
evaluate
torch>=2
transformers>=4.35.0
tqdm
einops
sentencepiece
protobuf==3.19.6
scikit-learn
matplotlib
pandas
numpy
urllib3==1.26.6
lmdeploy==0.2.1
lmdeploy==0.2.1
torch=2.0.0
cuda=11.7

Other information

No response

Wenwei Zhang · Answer 1 · Mon Jan 29 2024 14:04:07 GMT+0800 (China Standard Time)

请问有见到终端有任何别的输出么？

nixuanfan · Answer 2 · Mon Jan 29 2024 14:36:41 GMT+0800 (China Standard Time)

并没有，只有Aborted (core dumped)
以及方便问一下如何在代码里设置，可以多卡推理internlm-chat-20b呢？我在代码里设置tp=2，cache_max_entry_count=0.1，似乎都不起作用？

x54-729 · Answer 3 · Mon Jan 29 2024 15:06:18 GMT+0800 (China Standard Time)

多卡的话可以使用torchrun启动，如果设置了tp=2，那么可以用 torch --nporc_per_node=2 xxx.py 进行多卡推理

nixuanfan · Answer 4 · Mon Jan 29 2024 16:48:05 GMT+0800 (China Standard Time)

感谢，多卡问题算是解决了，现在还是aborted (dump)这个问题，我换了20b，还是在这个地方挂掉

Lyu Han · Answer 5 · Tue Jan 30 2024 23:23:43 GMT+0800 (China Standard Time)

并没有，只有Aborted (core dumped)
以及方便问一下如何在代码里设置，可以多卡推理internlm-chat-20b呢？我在代码里设置tp=2，cache_max_entry_count=0.1，似乎都不起作用？

用的是internlm-chat-20b，还是internlm2-chat-20b。请问目标设备是什么型号显卡？

nixuanfan · Answer 6 · Thu Feb 01 2024 21:22:05 GMT+0800 (China Standard Time)

internlm2-chat-20b, a100 40g

Lyu Han · Answer 7 · Fri Feb 02 2024 12:48:56 GMT+0800 (China Standard Time)

已在微信群里沟通，repetition-penalty kernel 在 lmdeploy v0.2.1 版本中有问题，支持不了很长的文本。
在 lmdeploy v0.2.2 中解决了。