InternLM / InternLM

Official release of InternLM2 7B and 20B base and chat models. 200K context support

Home Page:https://internlm.intern-ai.org.cn/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

[Bug] 模型推理中止

Patrick-Ni opened this issue · comments

Describe the bug

我使用InternLM2-chat-7b 对以下文本进行推理时候,模型没有任何报错,只是显示一个Aborted,然后就结束了。
文本:
请阅读以下法律文本,并回答相关问题:

中华人民共和国刑事诉讼法

1979年7月1日 第五届全国人民代表大会第二次会议通过

1996年3月17日 第八届全国人民代表大会第四次会议《关于修改〈中华人民共和国刑事诉讼法〉的决定》第一次修正

2012年3月14日 第十一届全国人民代表大会第五次会议《关于修改〈中华人民共和国刑事诉讼法〉的决定》第二次修正

2018年10月26日 第十三届全国人
...
、被害人及其法定代理人、近亲属对强制医疗决定不服的,可以向上一级人民法院申请复议。

第三百零六条 强制医疗机构应当定期对被强制医疗的人进行诊断评估。对于已不具有人身危险性,不需要继续强制医疗的,应当及时提出解除意见,报决定强制医疗的人民法院批准。

被强制医疗的人及其近亲属有权申请解除强制医疗。

第三百零七条 人民检察院对强制医疗的决定和执行实行监督。

问题:这部法律中总共有多少条法律条目?

文本是中华人民共和国刑事诉讼法+一个问题,我的代码如下:
加载模型:
image

推理:
image

包版本:

Environment

accelerate
datasets
evaluate
torch>=2
transformers>=4.35.0
tqdm
einops
sentencepiece
protobuf==3.19.6
scikit-learn
matplotlib
pandas
numpy
urllib3==1.26.6
lmdeploy==0.2.1
lmdeploy==0.2.1
torch=2.0.0
cuda=11.7

Other information

No response

请问有见到终端有任何别的输出么?

并没有,只有Aborted (core dumped)
以及方便问一下如何在代码里设置,可以多卡推理internlm-chat-20b呢?我在代码里设置tp=2,cache_max_entry_count=0.1,似乎都不起作用?

多卡的话可以使用torchrun启动,如果设置了tp=2,那么可以用 torch --nporc_per_node=2 xxx.py 进行多卡推理

感谢,多卡问题算是解决了,现在还是aborted (dump)这个问题,我换了20b,还是在这个地方挂掉

并没有,只有Aborted (core dumped)
以及方便问一下如何在代码里设置,可以多卡推理internlm-chat-20b呢?我在代码里设置tp=2,cache_max_entry_count=0.1,似乎都不起作用?

用的是internlm-chat-20b,还是internlm2-chat-20b。请问目标设备是什么型号显卡?

internlm2-chat-20b, a100 40g

已在微信群里沟通,repetition-penalty kernel 在 lmdeploy v0.2.1 版本中有问题,支持不了很长的文本。
在 lmdeploy v0.2.2 中解决了。