li-plus / chatglm.cpp

C++ implementation of ChatGLM-6B & ChatGLM2-6B & ChatGLM3 & GLM4

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

在启用 cuBLAS 之后,等权重数据加载到显存后,最好能释放内存里的权重数据

dogvane opened this issue · comments

看了以下代码,是 Pipeline 类里的 std::unique_ptr mapped_file; 设置到成员变量后,会一直持有模型权重文件。
在CPU模式下,这样做没啥问题,但用gpu做后台运行的,还是很希望能把这部分资源给释放了。

感谢提醒,这部分确实可以优化下