stivensss/wenet_trt8

总述

请简练地概括项目的主要贡献，使读者可以快速理解并复现你的工作，包括：

本项目使用TRT8部署开源语音识别工具包WeNet。为语音识别模型在TRT8上部署提供参考方案。原始模型来自[WeNet预训练模型](https://wenet.org.cn/wenet/pretrained_models.html）。

优化效果：TODO

Docker运行方法：TODO

WeNet 是一款面向工业落地应用的语音识别工具包，提供了从语音识别模型的训练到部署的一条龙服务，其主要特点如下：

本项目的模型使用预训练模型导出onnx，然后进行TRT部署。预训练模型方法导出参考WeNet手册。

训练等相关信息请参考官方：https://github.com/wenet-e2e/wenet。

WeNet模型分为encoder和decoder两个部分。其中，encoder主要使用了conv和self-attention结构，而decoder使用了self-attention和cross-attention结构。在模型转换和使用过程中存在以下问题：

针对以上问题，本项目采用以下方法进行模型优化。

这一部分是报告的主体。请把自己假定为老师，为TensorRT的初学者讲述如何从原始模型出发，经过一系列开发步骤，得到优化后的TensorRT模型。

建议：

分步骤讲清楚开发过程
最好能介绍为什么需要某个特别步骤，通过这个特别步骤解决了什么问题
- 比如，通过Nsight Systems绘制timeline做了性能分析，发现attention时间占比高且有优化空间（贴图展示分析过程），所以决定要写plugin。然后介绍plugin的设计与实现，并在timeline上显示attention这一部分的性能改进。

这一部分介绍优化模型在云主机上的运行效果，需要分两部分说明：

精度：报告与原始模型进行精度对比测试的结果，验证精度达标。
- 这里的精度测试指的是针对“原始模型”和“TensorRT优化模型”分别输出的数据（tensor）进行数值比较。请给出绝对误差和相对误差的统计结果（至少包括最大值、平均值与中位数）。
- 使用训练好的权重和有意义的输入数据更有说服力。如果选手使用了随机权重和输入数据，请在这里注明。
- 在精度损失较大的情况下，鼓励选手用训练好的权重和测试数据集对模型优化前与优化后的准确度指标做全面比较，以增强说服力
性能：最好用图表展示不同batch size或sequence length下性能加速效果。
- 一般用原始模型作为参考标准；若额外使用ONNX Runtime作为参考标准则更好。
- 一般提供模型推理时间的加速比即可；若能提供压力测试下的吞吐提升则更好。

请注意：

提交bug是对TensorRT的另一种贡献。发现的TensorRT、或cookbook、或文档和教程相关bug，请提交到github issues，并请在这里给出链接。

对于每个bug，请标记上hackathon2022标签，并写好正文：

欢迎在这里总结经验，抒发感慨。