ysh329 / OpenCL-101

Learn OpenCL step by step.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

how to optimize opencl gemm

liao0028 opened this issue · comments

commented

根据您这个issues,#55,我实现了一版opencl代码在手机端的gpu上运行,并将尝试将m_tile和n_tile调整成4和8,比之前的m_tiles=8,n_tiles=4得到了优化,想问一下,还有没有其他优化手段提供一下思路。

你可以参考其他关于调优的issue链接,但首先,有必要检查当前的计算是否达到你期望的计算峰值和内存带宽,这个需要看看硬件的文档