deepseek-ai / DeepSeek-V2

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

如何能达到论文里说的吞吐量50000多tokens

ly19970621 opened this issue · comments

硬件:H800 PCIE * 8
我使用vllm推理最多只能达到1500tokens/s,batch_size为1024,请问怎样才能达到论文里说的50000多tokens?

你好,vllm是否能够跑起来呢? 是否有做量化呢? 另外PCIE的带宽比较低,做tensor parallel的话,可能会比较慢; 论文里面的H100多半是nvlink连接的8卡主机

硬件:H800 PCIE * 8 我使用vllm推理最多只能达到1500tokens/s,batch_size为1024,请问怎样才能达到论文里说的50000多tokens?

你好,vllm是否能够跑起来呢? 是否有做量化呢? 另外PCIE的带宽比较低,做tensor parallel的话,可能会比较慢; 论文里面的H100多半是nvlink连接的8卡主机

硬件:H800 PCIE * 8 我使用vllm推理最多只能达到1500tokens/s,batch_size为1024,请问怎样才能达到论文里说的50000多tokens?
就是使用vllm跑的,还要专门做量化嘛?
如果需要量化的话,可以开源量化后的模型嘛?或者提供一下量化方式,是AWQ还是GPTQ?
对于并行方式,推理是选择张量并行还是流水线并行?
另外我在8卡SXM(nvlink)的A800跑也是1500tokens/s,一样用得vllm,每个卡之间的网络带宽是400GB。

In order to efficiently deploy DeepSeek-V2 for service, we first convert its parameters into the precision of FP8. In addition, we also perform KV cache quantization (Hooper et al., 2024; Zhao et al., 2023) for DeepSeek-V2 to further compress each element in its KV cache into 6 bits on average.