yitu-opensource / ConvBert

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

关于mixed-attention推理速度的问题

yygle opened this issue · comments

请问一下,因为我看到论文中提到的FLOPs分别是26.5G和19.3G,请问这个实验数据是怎么得到的,因为我自己测试12层的medium-small模型encoder总体是在1GFLOPs左右。还有后面的推理速度是什么条件下测试出来的呢?
因为我这边得到的结果是推理速度慢于原始的self-attention,我猜想是因为里面虽然浮点计算操作少了,但是数据搬运的时间多了(reshape、transpose)。

抱歉之前论文看得不仔细,总体的FLOPs确实是比bert-base小很多,我自己测试是在C++引擎上推理,在medium-small模型上测试的速度慢于6层的albert,因为我自己测试medium模型应该是1GFLOPs左右,但是6层albert在11GFLOPs的级别,我对此感到困惑,望解答!我的CPU(Intel(R) Xeon(R) CPU E5-2678 v3 @ 2.50GHz)

我想我找到问题的原因了,主要计算花在了embedding的操作上,mixed-attention确实是比self-attention要快的