AI模型越来越多,软件功能也越来越丰富,客户端部署小模型应用也是当前的热门。目前还是英伟达显卡遥遥领先的情况下,模型加速首选还是TensorRT技术。

英伟达官网下载TensorRT,注意要结合硬件选择对应的CUDA和CUDNN版本。

 

下载后解压TRT目录

trtexec.exe是一个命令行应用程序软件,能够极大的便利我们在 tensorRT 开发过程中的模型编译、精度设置、性能调优等工作。 

samples\trtexec 目录下是源代码,如果有特殊需求可以自己修改编译。

代码编译工具VS 

授权声明
 *     http://www.apache.org/licenses/LICENSE-2.0

AI人工智能(调包侠)速成之路十六(中国象棋AI网络机器人:TensorRTApache License, Version 2.0,就是你用他的东西开发出来的程序可以商用为你赚钱,而不会涉及到侵犯专利,但是你要在程序里面注明你用了apache的代码,也就是你的代码里面要带上license。 

。。。。。。。。。。。。。。。

由于硬件飞速发展,TRT版本也一直在更新,向下兼容性差,经常需要重写部署代码!

参考TRT代码 trtexec命令行工具的例子。

按功能分成两个部分。 一个是模型转换。主要是ONNX转TRT。另外是做一个接口供程序调用TRT模型进行推理。不需要经常更新主程序,只需要更新接口的dll

模型转换代码主要在samples\common sampleEngines.h sampleEngines.cpp

我们可以改写并加入模型加密解密功能。

模型推理代码主要在 samples\common sampleInference.h sampleInference.cpp

我们可以提取出来自己加入到自己写的接口dll中,提供给客户端请求推理的时候使用!

对外提供接口

模型推理代码重构

最难的代码是从TRT里面抄出来的,有了这个接口GPU编程也变成容易的事情了。

将推理功能单独做成一个dll接口,以后升级TRT的时候只需要更换适配的dll接口文件就行,跟程序逻辑独立开了。

加载模型 初始化 模型推理 释放模型 

这些功能可以直接使用trtexec.exe命令行实现,如果需要加入模型动态加解密功能需要自己修改编译。另外就是INT8量化后模型精度下降的问题。

trtexec --onnx=XX.onnx --saveEngine=model.plan --int8 --workspace=4096

转换FP16时精度无明显下降,但转换INT8时精度会明显下降;需要调用calibration接口进行校准。代码实现网上也有介绍。


www.xqcd.top 自己做了一个案例,小模型快速推理应用实现。