关于mixed-attention推理速度的问题

Question

关于mixed-attention推理速度的问题

yygle opened this issue 4 years ago · comments

请问一下，因为我看到论文中提到的FLOPs分别是26.5G和19.3G，请问这个实验数据是怎么得到的，因为我自己测试12层的medium-small模型encoder总体是在1GFLOPs左右。还有后面的推理速度是什么条件下测试出来的呢？
因为我这边得到的结果是推理速度慢于原始的self-attention，我猜想是因为里面虽然浮点计算操作少了，但是数据搬运的时间多了（reshape、transpose）。

yangyuguang · Answer 1 · Tue Dec 01 2020 18:40:23 GMT+0800 (China Standard Time)

抱歉之前论文看得不仔细，总体的FLOPs确实是比bert-base小很多，我自己测试是在C++引擎上推理，在medium-small模型上测试的速度慢于6层的albert，因为我自己测试medium模型应该是1GFLOPs左右，但是6层albert在11GFLOPs的级别，我对此感到困惑，望解答！我的CPU（Intel(R) Xeon(R) CPU E5-2678 v3 @ 2.50GHz）

yangyuguang · Answer 2 · Tue Dec 01 2020 20:30:55 GMT+0800 (China Standard Time)

我想我找到问题的原因了，主要计算花在了embedding的操作上，mixed-attention确实是比self-attention要快的