Python Binding之后，如何只使用cpu进行推理呢？

Question

Python Binding之后，如何只使用cpu进行推理呢？

zzzcccxx opened this issue 9 months ago · comments

我使用了如下代码

from qwen_cpp import Pipeline                 
pipeline = Pipeline("../qwen.cpp/qwen1-8b-ggml.bin", "../qwen_1_8b/qwen.tiktoken")

result2 = pipeline.chat(["Hello"],stream=True)
for item in result2:
  print(item)

但输出是在所有gpu上一起跑，请问如何只在cpu上跑呢？