ollama-0.5.4-ipex-llm A770 16G Deepseek-R1:14b Deepseek-R1:32b 配置问题
XL-Qing opened this issue · comments
标题: 关于Intel GPU运行Ollama-ipex-llm的性能表现与功能咨询
问题背景
基于开发组发布的 ollama-0.5.4-ipex-llm(20250222 版本),用户通过 Intel GPU(如 A770 16G)在 Windows 11 下实现了免安装部署 DeepSeek 本地大模型。该方案降低了I卡用户在win11下部署DeepSeek本地大模型的门槛,对小白来说十分友好(尤其在 B 站引发广泛关注)。这也使得I卡中A770 16G大显存的优势在蒸馏版DeepSeek本地大模型部署上得到体现。
环境描述
硬件配置:
- CPU: AMD Ryzen 5 5600G (超频)
- GPU:
- 主显卡: Intel Arc A770 16GB (Driver 6460)
- 副显卡: NVIDIA P106-100 6GB (未启用)
- 内存: 48GB DDR4 3200MHz (16+8+16+8 非对称双通道超频)
软件版本:
- 使用编译版本: ollama-0.5.4-ipex-llm (20250222)
- 操作系统: Windows 11
当前配置方案
:: start-ollama.bat 参数设置
@echo off
setlocal
set OLLAMA_NUM_GPU=999 :: GPU层数调控(A770总层数显示65)
set no_proxy=localhost,127.0.0.1 :: 本地部署
set IPEX_LLM_NUM_CTX=16384 :: 扩展上下文长度
set ZES_ENABLE_SYSMAN=1 :: GPU资源调用
set SYCL_CACHE_PERSISTENT=1 :: 持久化代码缓存
@REM set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1 ::?
set OLLAMA_KEEP_ALIVE=-1 :: 避免模型重复加载
set ONEAPI_DEVICE_SELECTOR=level_zero:0 :: 指定GPU0
cd /d %~dp0
start "" ollama.exe serve
cmd /k性能测试数据
| 模型/参数 | GPU层数 | Prompt速率(t/s) | Eval速率(t/s) | CPU占用 | GPU占用 | 内存占用 |
|---|---|---|---|---|---|---|
| DeepSeek-14b(Q4_KM) | 999 | 232.24 | 10.34 | 30% | 85% | 22% |
| DeepSeek-32b(Q4_KM) | 999 | 8.19 | 1.99 | 18% | 100% | 39% |
| DeepSeek-14b(Q4_KM) | 26 | 6.24 | 5.98 | 85% | 30% | 37% |
| DeepSeek-32b(Q4_KM) | 26 | 48.62 | 2.75 | 80% | 17% | 54% |
| DeepSeek-14b(Q4_KM) | 0 | 11.95 | 4.16 | 100% | 1% | 48% |
| DeepSeek-32b(Q4_KM) | 0 | 5.12 | 1.92 | 100% | 1% | 72% |
注:空闲状态资源占用为CPU 15%/GPU 1%/内存 16%
观察总结
- 当GPU显存充足时(A770 16G运行14b模型),推理效率显著提升(eval速率10.34t/s)
- 显存不足时(32b模型),系统自动降级为CPU+内存混合计算,此时性能大幅下降
功能咨询
-
文档完善请求
能否提供更详细的参数调优指南?特别是关于:OLLAMA_NUM_GPU与显存占用的量化关系SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS的实际作用- 内存/显存分配策略的配置方法等
-
多GPU支持
如果配置双A770 16G显卡:- 是否支持显存叠加运行32b模型?
- 能否通过SLI/NVLink类技术实现算力聚合?
- 多卡环境下
ONEAPI_DEVICE_SELECTOR的正确配置方式
-
硬件兼容性
- 当前版本是否限定仅支持Intel GPU?未来是否计划支持:
- AMD GPU (通过ROCm)
- NVIDIA GPU (通过CUDA)
- 异构显卡(P106+A770)的协同计算可能性
- 当前版本是否限定仅支持Intel GPU?未来是否计划支持:
-
资源监控疑问
当设置OLLAMA_NUM_GPU=0时:ollama ps显示GPU占用19%,但Intel驱动面板无活动- 是否存在监控指标错位?19%是否实际为共享显存占用?
- 能否强制禁用内存回退,保持纯CPU+GPU计算模式?
-
硬件路线图
据传Intel将推出B770 24GB型号,请问:- 该产品是否在官方路线图中?
- 预计何时上市?
- 现有架构是否预留了对此新硬件的支持?
-
单卡性能优化方案咨询
除调整 GPU 层数外,是否还有其他方式可提升 A770 16G 单卡的推理能力:- 例如?
Hi @XL-Qing,
Thank you for your detailed feedback!
For problem 1 & 2 (文档完善请求 & 多GPU支持), we will update our documentation soon for detailed information :)
For problem 3 (硬件兼容性), Ollama with IPEX-LLM optimizations is designed for Intel GPU.
For problem 4 (资源监控疑问), ollama ps is not yet supported in Ollama with IPEX-LLM package.
For problem 5 (硬件路线图), you could follow the new product information update from Intel website.
For the final problem (单卡性能优化方案咨询), we are keep working for the optimization.
软件版本:
- 使用编译版本: ollama-0.5.4-ipex-llm (20250222)
- 操作系统: Windows 11
- GPU驱动版本: 6078(驱动由6460变为6078后14B模型推理效果提升显著)
性能测试数据
| 模型/参数 | GPU层数 | Prompt速率(t/s) | Eval速率(t/s) | CPU占用 | GPU占用 | 内存占用 |
|---|---|---|---|---|---|---|
| DeepSeek-14b(Q4_KM) | 999 | 0.85 | 27.35 | 18% | 90% | 22% |
| DeepSeek-32b(Q4_KM) | 999 | 0.00 | 0.00 | % | % | % |
| DeepSeek-14b(Q4_KM) | 40 | 9.28 | 11.34 | 100% | 38% | 26% |
| DeepSeek-32b(Q4_KM) | 40 | 4.28 | 4.12 | 100% | 18% | 43% |
| DeepSeek-14b(Q4_KM) | 26 | 3.28 | 7.14 | 100% | 15% | 35% |
软件版本:
- 使用编译版本: ollama-0.5.4-ipex-llm2.2.0b (20250226)
- 操作系统: Windows 11
- GPU驱动版本: 6078
性能测试数据
| 模型/参数 | GPU层数 | Prompt速率(t/s) | Eval速率(t/s) | CPU占用 | GPU占用 | 内存占用 |
|---|---|---|---|---|---|---|
| DeepSeek-14b(Q4_KM) | 999 | 1.08 | 27.22 | 16% | 90% | 18% |
| DeepSeek-14b(Q4_KM) | 40 | 7.07 | 11.17 | 100% | 37% | 26% |
| DeepSeek-32b(Q4_KM) | 40 | 4.38 | 4.05 | 100% | 18% | 40% |
Hi @XL-Qing,
Thank you for your detailed feedback!
For problem 1 & 2 (文档完善请求 & 多GPU支持), we will update our documentation soon for detailed information :)
For problem 3 (硬件兼容性), Ollama with IPEX-LLM optimizations is designed for Intel GPU.
For problem 4 (资源监控疑问),
ollama psis not yet supported in Ollama with IPEX-LLM package.For problem 5 (硬件路线图), you could follow the new product information update from Intel website.
For the final problem (单卡性能优化方案咨询), we are keep working for the optimization.
关于“> For problem 3 (硬件兼容性), Ollama with IPEX-LLM optimizations is designed for Intel GPU.”。当前GPU市场已进入存量竞争阶段,多数用户已完成硬件升级。在AI应用领域,英特尔锐炫A770 16G显卡凭借其16GB大显存和极具竞争力的价格,已成为AI部署的性价比之选。值得注意的是,在本地化大模型部署场景中,开发人员普遍面临显存资源受限的挑战。若能通过技术优化实现跨平台显存资源调度,这对已有显卡但又受限显存不足的用户来说,通过购买A770 16G实现显存容量扩展是优先选择之一,这也有利于贵司同步推动产品市场渗透率与生态体系构建。期待贵司能把握这一战略机遇,通过技术创新将硬件优势转化为实际生产力工具,这既符合英特尔"开发者优先"的技术理念,也将为AI普惠化部署提供强有力的基础设施支撑。😄
软件版本:
- 使用编译版本: ollama-ipex-llm-2.2.0b 20250313-win
- 操作系统: Windows 11
- GPU驱动版本: 6647
性能测试数据
| 模型/参数 | GPU层数 | Prompt速率(t/s) | Eval速率(t/s) | CPU占用 | GPU占用 | 内存占用 |
|---|---|---|---|---|---|---|
| DeepSeek-14b(Q4_KM) | 999 | 1.82 | 27.76 | 18% | 89% | 18% |
| DeepSeek-14b(Q4_KM) | 40 | 1.86 | 11.67 | 80% | 36% | 25% |
| DeepSeek-32b(Q4_KM) | 40 | 5.90 | 4.16 | 76% | 20% | 40% |
| qwq:latest(Q4_KM) | 40 | 6.50 | 4.00 | 70% | 21% | 37% |