首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
模型推理服务
Untitled
创建于2022-10-29
订阅专栏
Model Inference Server框架及实战
等 4 人订阅
共5篇文章
创建于2022-10-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Triton Pipeines的实现方式及对比
部署yolov5 Triton Pipelines中,简单介绍了BLS和Ensemble这两种实现Triton Pipelines的方式,本文进行了对比
高性能部署Yolov5 Triton service
在Triton中部署yolov5目标检测服务, 并对比分析了三种优化方式,在并发数逐渐增加下的性能。
YOLOV5 TensorRT BatchedNMS
利用onnx_graphsurgeon改造原生detect层的输出张量,对接通过cuda实现的TensorRT batchedNMSPlugin
利用Triton Pipelines部署yolov5 service
模型服务不仅包含 GPU based Inference,还包括preprocess和postprocess。通过Triton Pipelines可以提高服务的性能
修改yolov5的detect层,提高Triton推理服务的性能
轻量化yolov5的detect层,提高模型部署在Nvidia Triton时的的吞吐和延迟等性能指标