如何写好网站开发技术文档企业网站设计苏州
定位性能瓶颈
trtexec --loadEngine=IFNetxx.trt --dumpProfile
 
–dumpProfile会定位出每一层的执行时间(总耗时、平均耗时、占比)
重写算子
经过第一部分的定位性能瓶颈,发现算子GridSample(计算光流)的耗时占比为40%,而且这个GridSample并不是官方的算子,因此需要重写
 具体步骤
理解GridSample
编写Plugin C++/CUDA核心代码
C++文件结构示例:
 GridSamplePlugin.h
 GridSamplePlugin.cpp
 GridSampleKernel.cu
 GridSampleCreator.cpp
 CMakeLists.txt
