使用Turbo进行命名实体识别，测试速度无明显提升

Question

Hap-Zhang opened this issue 3 years ago · comments

Hi,feifeibear

我仿照您提供的例子（bert_for_sequence_classification_example.py）写了个用于命名实体识别的测试程序，运行下来发现Turbo提速并不明显，请问这中间有什么潜在的注意事项吗？

Jiarui Fang · Answer 1 · Wed Aug 11 2021 20:29:16 GMT+0800 (China Standard Time)

可能是输入太短？用onnxrt有加速么？

Hap-Zhang · Answer 2 · Wed Aug 11 2021 20:45:58 GMT+0800 (China Standard Time)

请问中文大概多少个字能体现出效果呢，我可以再测试下

onnxrt是有些加速的，虽然我不知道为什么onnxrt这边Torch的时长更长了。。。。

Hap-Zhang · Answer 3 · Fri Aug 13 2021 13:34:22 GMT+0800 (China Standard Time)

我这边把timeline打出来了，您可以帮忙看看哪块有比较大的嫌疑吗？

Jiarui Fang · Answer 4 · Fri Aug 13 2021 14:03:42 GMT+0800 (China Standard Time)

看起来挺正常的，你多测几次，避免warmup开销，试试设置一下OMP线程数目

Hap-Zhang · Answer 5 · Fri Aug 13 2021 14:13:23 GMT+0800 (China Standard Time)

好的，OMP线程数目默认是机器本身CPU个数吗？

Jiarui Fang · Answer 6 · Fri Aug 13 2021 14:32:27 GMT+0800 (China Standard Time)

Hap-Zhang · Answer 7 · Fri Aug 13 2021 14:40:26 GMT+0800 (China Standard Time)

好的，非常感谢！！
最后想再请教下turbo在CPU环境下主要是改了哪里来加速的呢，有相关的paper吗，我只找到了一篇说GPU的：TurboTransformers: An Efficient GPU Serving System For Transformer Models

Jiarui Fang · Answer 8 · Fri Aug 13 2021 14:42:43 GMT+0800 (China Standard Time)

把pytorc的代码用C++重写了一遍，加入了算子融合，矩阵乘法用了mkl，其他操作用omp并行加速。
没有相关paper。

FEI Hao · Answer 9 · Sat Sep 04 2021 18:24:57 GMT+0800 (China Standard Time)

请在README里注明一下实际上目前版本的turbo只是在调用onnxruntime吧，编译二进制还挺麻烦的，代码里都没用上，不如直接掉onnxruntime