lora 例程,适用于高瘦matmul- 高达 15 倍的加速比
ziwang-com opened this issue · comments
ggerganov/llama.cpp#996
将暂时停止这里的调查。应用 LoRA 所需的时间对于这些更改是可以忍受的.
我们离最佳状态还很远;例如,我在高 K (K=10000) 的矩阵上看到 250KFLOPs/us。
LoRA 应用程序非正式基准测试:
K=16
AVX2 - 5141.57 ms
AVX - 9831.28 ms
default - 22611.96 ms
不,又高又瘦的样子:
__
| | ___________
| | X |__________|
|__|
矩阵到向量是
| | | |
| | X | |
| __________| ||