lora 例程，适用于高瘦matmul- 高达 15 倍的加速比

Question

ziwang-com opened this issue a year ago · comments

ggerganov/llama.cpp#996
将暂时停止这里的调查。应用 LoRA 所需的时间对于这些更改是可以忍受的.

我们离最佳状态还很远;例如，我在高 K （K=10000）的矩阵上看到 250KFLOPs/us。

LoRA 应用程序非正式基准测试：

K=16
AVX2 - 5141.57 ms
AVX - 9831.28 ms
default - 22611.96 ms

不，又高又瘦的样子：

__
| | ___________
| | X |__________|
|__|
矩阵到向量是

| | | |
| | X | |
| __________| ||