请问开发者有没有考虑移植到tensorrt上面来加速推理。

Question

请问开发者有没有考虑移植到tensorrt上面来加速推理。

NangInShell opened this issue 2 years ago · comments

NangInShell commented 2 years ago

github上有部分开发者做了相关尝试，但目前没有看到有较完善的demo。所以想问问开发者有没有这个打算。

lj1995-computer-vision · Answer 1 · Fri Jul 22 2022 00:28:00 GMT+0800 (China Standard Time)

我花了很长时间终于调通了win和debian上的trt视频推理pipeline
等7月或8月把转换和推理代码分享一下
但是，配环境…就看你们的造化了
换个系统，换个trt版本，换个cuda版本，换个GPU，可能都不通

lj1995-computer-vision · Answer 2 · Fri Jul 22 2022 18:38:54 GMT+0800 (China Standard Time)

github上有部分开发者做了相关尝试，但目前没有看到有较完善的demo。所以想问问开发者有没有这个打算。

@manang666
我来劝退楼主了
同样的模型，一个nn.Module，一个nn.Module转换后的TRTModule，同样是FP16，效果也不一样
图1原图，图2TRT，图3pytorch。肉眼可见TRT版本更糊了，四周一圈还有暗边。测试模型：pro2x-conservative
TRT代码不会公开了，以后我们的工作流也会删除TRT相关的代码，不会为了30%的加速牺牲效果。

lj1995-computer-vision · Answer 3 · Fri Jul 22 2022 20:46:56 GMT+0800 (China Standard Time)

T4和V100的TRT复现出了同样的结果

NangInShell · Answer 4 · Fri Jul 22 2022 20:48:28 GMT+0800 (China Standard Time)

T4和V100的TRT复现出了同样的结果

确实不能牺牲质量换取速度，感谢开发者的回复，期待后续其他方面的发展。

WolframRhodium · Answer 5 · Sun Jul 24 2022 13:10:57 GMT+0800 (China Standard Time)

这问题很可能和 se block 里逐层均值操作在 fp16 下越界有关，onnxruntime cuda 有同样的问题，可以在 fp32 下单独算这个算子

lj1995-computer-vision · Answer 6 · Sun Jul 24 2022 14:00:24 GMT+0800 (China Standard Time)

这问题很可能和 se block 里逐层均值操作在 fp16 下越界有关，onnxruntime cuda 有同样的问题，可以在 fp32 下单独算这个算子

@WolframRhodium 和我的猜想一致，因为经验中se层的结果影响模糊、锐化程度。最理想的办法是均值前转fp32，均值后转回fp16（pytorch原版我是这么写的，但是如果统一在fp16，pytorch版本一样没有问题），但是这样会非常麻烦，有4个se层所以整体得拆成5个子模型，外面还有套一堆整合的推理代码。（话说onnx支持某些层指定FP32其他层FP16吗）

WolframRhodium · Answer 7 · Sun Jul 24 2022 14:04:11 GMT+0800 (China Standard Time)

onnx 支持混合 fp16 和 fp32，不过有些后端不一定支持……（比如从 onnx 走 trt 不支持非 fp32