QwenLM / qwen.cpp

C++ implementation of Qwen-LM

QwenLM/qwen.cpp Issues

如何在x86架构上进行交叉编译到ARM64架构？
Updated 20 days ago
[BUG] Qwen-1.8-Chat，用llama.cpp量化为f16，然后推理回答错乱，请问1.8在llama.cpp还不支持吗？
Updated 24 days ago5
对qwen1.5模型进行lora微调，怎么加载微调的参数，怎么将微调后的模型进行转换
Closed a month ago
'QWenConfig' object has no attribute 'intermediate_size'
Updated a month ago1
qwen2 support
Updated 3 months ago1
[BUG] 多轮对话的 prompt 应该如何构建？
Updated 4 months ago
pip install -U qwen-cpp 报错
Updated 5 months ago3
qwen1.5 support?
Updated 6 months ago2
如何将gradio架构构建的前端和qwen-cpp推理代码连接？
Updated 6 months ago2
Does it support Qwen1.5 Model?
Updated 7 months ago8
使用qwen.cpp对原模型进行转化为什么文件反而增大了？
Updated 7 months ago
Python Binding之后，如何只使用cpu进行推理呢？
Closed 7 months ago
Support `--gpu-layers`
Closed 9 months ago7
Python Binding 报错
Updated 8 months ago3
python binding无法正常安装
Updated 8 months ago2
在MacOS，用python调用qwen_cpp载入模型进行推理，只能启动CPU，无法使用GPU。
Updated 8 months ago1
python-bind报错 ERROR: Could not build wheels for qwen-cpp, which is required to install pyproject.toml-based projects
Updated 8 months ago2
qwen_cpp可以提供api接口实现web服务么
Updated 8 months ago1
Qwen-7B-Chat WSL GPU Error: ankerl::unordered_dense::map::at(): key not found
Updated 8 months ago2
why missing "assistant" here
Updated 8 months ago
crash if compliing in debug mode, everything is ok if in release mode
Updated 8 months ago
如何下载tiktoken_cpp
Updated 8 months ago
添加tokens生成速度
Updated 8 months ago
请问用qwen.cpp量化后的模型如何使用optimum-benchmark进行性能基准测试,现在参照readme中所述只得到一个build文件夹，不清楚如何进行下一步的测试
Updated 8 months ago
Why does `TextStreamer` hold on punctuation?
Updated 9 months ago
windows 下使用qwen.cpp 问题
Updated 9 months ago
希望团队能继续支持qwen.cpp
Updated 9 months ago3
多轮会话
Updated 9 months ago
💡 [REQUEST] - CPU 的 qwen-cpp 如何封装为一个 http 服务？
Updated 9 months ago4
💡 [Question] - QwenCPP Python Binding 如何支持 BLAS CPU 加速
Updated 9 months ago2
💡 [Question] - <title>qwen-cpp 只使用 cpu 和启用 cpu BLAS 加速, 在都不使用GPU的情况下，速度有多大差别？我测试没有差别
Updated 9 months ago
💡 [Question] - 您好，请教个问题，qwen-cpp BaseStreamer 如何通过std::string 构造一个　BaseStreamer？Ｃ＋＋代码少一个构造方式
Updated 9 months ago
您好，请教个问题，qwen-cpp BaseStreamer 如何通过std::string 构造一个　BaseStreamer？Ｃ＋＋代码少一个构造方式
Updated 9 months ago
为啥qwen.cpp在A100和A10性能差距很大
Updated 9 months ago1
Python Binding 如何支持BLAS CPU 加速
Updated 9 months ago
Python Binding在windows下无法编译
Updated 10 months ago1
CUDA error 2 at /home/qwen.cpp/third_party/ggml/src/ggml-cuda.cu:7196: out of memory
Updated 10 months ago
72B模型量化需要多大内存，192G的内存都会被kill掉
Updated 10 months ago9
请问7b的模型量化需要多大的内存，我这一直显示out of memory
Updated 10 months ago
qwen.cpp合并到llama.cpp中之后，对于<|im_start|>、<|im_end|>似乎没有正确处理
Updated 10 months ago
代码ctx_w_size
Updated 10 months ago
Support for AMD‘s ROCm
Updated 10 months ago5
很容易出现 UnicodeDecodeError: 'utf-8' codec can't decode bytes
Updated 10 months ago6
GGML_ASSERT when using a long prompt
Updated 10 months ago2
Qwen-7B-Q4_0 works well on Mac M1, but Qwen-7B-Q8_0 cannot work with a ggml-metal error.
Updated 10 months ago1
Does the Owen.cpp support macOS metal build?
Updated a year ago1
64位linux系统pip安装qwen_cpp报错，不支持？
Updated a year ago
pip 安装 qwen-cpp 需要X86-32位的系统吗？能否支持X86-64位的系统
Updated a year ago
Inferential capability of qwen.cpp for Qwen-14b-chat is different compared with Qwen-14b-chat of CUDA
Updated a year ago
Can you add an additional function to let convert.py support Qwen/Qwen-7B-Chat-Int4?
Updated a year ago