intel / ipex-llm

Accelerate local LLM inference and finetuning (LLaMA, Mistral, ChatGLM, Qwen, DeepSeek, Mixtral, Gemma, Phi, MiniCPM, Qwen-VL, MiniCPM-V, etc.) on Intel XPU (e.g., local PC with iGPU and NPU, discrete GPU such as Arc, Flex and Max); seamlessly integrate with llama.cpp, Ollama, HuggingFace, LangChain, LlamaIndex, vLLM, DeepSpeed, Axolotl, etc.

Repository from Github https://github.comintel/ipex-llmRepository from Github https://github.comintel/ipex-llm

ollama-0.5.4-ipex-llm A770 16G Deepseek-R1:14b Deepseek-R1:32b 配置问题

XL-Qing opened this issue · comments

标题: 关于Intel GPU运行Ollama-ipex-llm的性能表现与功能咨询

问题背景

基于开发组发布的 ollama-0.5.4-ipex-llm(20250222 版本),用户通过 Intel GPU(如 A770 16G)在 Windows 11 下实现了免安装部署 DeepSeek 本地大模型。该方案降低了I卡用户在win11下部署DeepSeek本地大模型的门槛,对小白来说十分友好(尤其在 B 站引发广泛关注)。这也使得I卡中A770 16G大显存的优势在蒸馏版DeepSeek本地大模型部署上得到体现。

环境描述

硬件配置

  • CPU: AMD Ryzen 5 5600G (超频)
  • GPU:
    • 主显卡: Intel Arc A770 16GB (Driver 6460)
    • 副显卡: NVIDIA P106-100 6GB (未启用)
  • 内存: 48GB DDR4 3200MHz (16+8+16+8 非对称双通道超频)

软件版本

  • 使用编译版本: ollama-0.5.4-ipex-llm (20250222)
  • 操作系统: Windows 11

当前配置方案

:: start-ollama.bat 参数设置
@echo off
setlocal
set OLLAMA_NUM_GPU=999      :: GPU层数调控(A770总层数显示65)
set no_proxy=localhost,127.0.0.1  :: 本地部署
set IPEX_LLM_NUM_CTX=16384  :: 扩展上下文长度
set ZES_ENABLE_SYSMAN=1     :: GPU资源调用
set SYCL_CACHE_PERSISTENT=1 :: 持久化代码缓存
@REM set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1 ::?
set OLLAMA_KEEP_ALIVE=-1    :: 避免模型重复加载
set ONEAPI_DEVICE_SELECTOR=level_zero:0 :: 指定GPU0
cd /d %~dp0
start "" ollama.exe serve
cmd /k

性能测试数据

模型/参数 GPU层数 Prompt速率(t/s) Eval速率(t/s) CPU占用 GPU占用 内存占用
DeepSeek-14b(Q4_KM) 999 232.24 10.34 30% 85% 22%
DeepSeek-32b(Q4_KM) 999 8.19 1.99 18% 100% 39%
DeepSeek-14b(Q4_KM) 26 6.24 5.98 85% 30% 37%
DeepSeek-32b(Q4_KM) 26 48.62 2.75 80% 17% 54%
DeepSeek-14b(Q4_KM) 0 11.95 4.16 100% 1% 48%
DeepSeek-32b(Q4_KM) 0 5.12 1.92 100% 1% 72%

注:空闲状态资源占用为CPU 15%/GPU 1%/内存 16%

观察总结

  1. 当GPU显存充足时(A770 16G运行14b模型),推理效率显著提升(eval速率10.34t/s)
  2. 显存不足时(32b模型),系统自动降级为CPU+内存混合计算,此时性能大幅下降

功能咨询

  1. 文档完善请求
    能否提供更详细的参数调优指南?特别是关于:

    • OLLAMA_NUM_GPU 与显存占用的量化关系
    • SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS 的实际作用
    • 内存/显存分配策略的配置方法等
  2. 多GPU支持
    如果配置双A770 16G显卡:

    • 是否支持显存叠加运行32b模型?
    • 能否通过SLI/NVLink类技术实现算力聚合?
    • 多卡环境下ONEAPI_DEVICE_SELECTOR的正确配置方式
  3. 硬件兼容性

    • 当前版本是否限定仅支持Intel GPU?未来是否计划支持:
      • AMD GPU (通过ROCm)
      • NVIDIA GPU (通过CUDA)
    • 异构显卡(P106+A770)的协同计算可能性
  4. 资源监控疑问
    当设置OLLAMA_NUM_GPU=0时:

    • ollama ps显示GPU占用19%,但Intel驱动面板无活动
    • 是否存在监控指标错位?19%是否实际为共享显存占用?
    • 能否强制禁用内存回退,保持纯CPU+GPU计算模式?
  5. 硬件路线图
    据传Intel将推出B770 24GB型号,请问:

    • 该产品是否在官方路线图中?
    • 预计何时上市?
    • 现有架构是否预留了对此新硬件的支持?
  6. 单卡性能优化方案咨询
    除调整 GPU 层数外,是否还有其他方式可提升 A770 16G 单卡的推理能力:

    • 例如?

Hi @XL-Qing,

Thank you for your detailed feedback!

For problem 1 & 2 (文档完善请求 & 多GPU支持), we will update our documentation soon for detailed information :)

For problem 3 (硬件兼容性), Ollama with IPEX-LLM optimizations is designed for Intel GPU.

For problem 4 (资源监控疑问), ollama ps is not yet supported in Ollama with IPEX-LLM package.

For problem 5 (硬件路线图), you could follow the new product information update from Intel website.

For the final problem (单卡性能优化方案咨询), we are keep working for the optimization.

软件版本

  • 使用编译版本: ollama-0.5.4-ipex-llm (20250222)
  • 操作系统: Windows 11
  • GPU驱动版本: 6078(驱动由6460变为6078后14B模型推理效果提升显著)

性能测试数据

模型/参数 GPU层数 Prompt速率(t/s) Eval速率(t/s) CPU占用 GPU占用 内存占用
DeepSeek-14b(Q4_KM) 999 0.85 27.35 18% 90% 22%
DeepSeek-32b(Q4_KM) 999 0.00 0.00 % % %
DeepSeek-14b(Q4_KM) 40 9.28 11.34 100% 38% 26%
DeepSeek-32b(Q4_KM) 40 4.28 4.12 100% 18% 43%
DeepSeek-14b(Q4_KM) 26 3.28 7.14 100% 15% 35%

软件版本

  • 使用编译版本: ollama-0.5.4-ipex-llm2.2.0b (20250226)
  • 操作系统: Windows 11
  • GPU驱动版本: 6078

性能测试数据

模型/参数 GPU层数 Prompt速率(t/s) Eval速率(t/s) CPU占用 GPU占用 内存占用
DeepSeek-14b(Q4_KM) 999 1.08 27.22 16% 90% 18%
DeepSeek-14b(Q4_KM) 40 7.07 11.17 100% 37% 26%
DeepSeek-32b(Q4_KM) 40 4.38 4.05 100% 18% 40%

Hi @XL-Qing,

Thank you for your detailed feedback!

For problem 1 & 2 (文档完善请求 & 多GPU支持), we will update our documentation soon for detailed information :)

For problem 3 (硬件兼容性), Ollama with IPEX-LLM optimizations is designed for Intel GPU.

For problem 4 (资源监控疑问), ollama ps is not yet supported in Ollama with IPEX-LLM package.

For problem 5 (硬件路线图), you could follow the new product information update from Intel website.

For the final problem (单卡性能优化方案咨询), we are keep working for the optimization.

关于“> For problem 3 (硬件兼容性), Ollama with IPEX-LLM optimizations is designed for Intel GPU.”。当前GPU市场已进入存量竞争阶段,多数用户已完成硬件升级。在AI应用领域,英特尔锐炫A770 16G显卡凭借其16GB大显存和极具竞争力的价格,已成为AI部署的性价比之选。值得注意的是,在本地化大模型部署场景中,开发人员普遍面临显存资源受限的挑战。若能通过技术优化实现跨平台显存资源调度,这对已有显卡但又受限显存不足的用户来说,通过购买A770 16G实现显存容量扩展是优先选择之一,这也有利于贵司同步推动产品市场渗透率与生态体系构建。期待贵司能把握这一战略机遇,通过技术创新将硬件优势转化为实际生产力工具,这既符合英特尔"开发者优先"的技术理念,也将为AI普惠化部署提供强有力的基础设施支撑。😄

软件版本

  • 使用编译版本: ollama-ipex-llm-2.2.0b 20250313-win
  • 操作系统: Windows 11
  • GPU驱动版本: 6647

性能测试数据

模型/参数 GPU层数 Prompt速率(t/s) Eval速率(t/s) CPU占用 GPU占用 内存占用
DeepSeek-14b(Q4_KM) 999 1.82 27.76 18% 89% 18%
DeepSeek-14b(Q4_KM) 40 1.86 11.67 80% 36% 25%
DeepSeek-32b(Q4_KM) 40 5.90 4.16 76% 20% 40%
qwq:latest(Q4_KM) 40 6.50 4.00 70% 21% 37%