ziwang-com / zero-lora

zero零训练llm调参

Home Page:http://www.m-f.vip

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

lora 例程,适用于高瘦matmul- 高达 15 倍的加速比

ziwang-com opened this issue · comments

ggerganov/llama.cpp#996
将暂时停止这里的调查。应用 LoRA 所需的时间对于这些更改是可以忍受的.

我们离最佳状态还很远;例如,我在高 K (K=10000) 的矩阵上看到 250KFLOPs/us。

LoRA 应用程序非正式基准测试:

K=16
AVX2 - 5141.57 ms
AVX - 9831.28 ms
default - 22611.96 ms

不,又高又瘦的样子:

__
| | ___________
| | X |__________|
|__|
矩阵到向量是


| | | |
| | X | |
| __________| ||