模型压缩与部署

模型压缩与部署

模型压缩与部署

分享轻量级网络、模型压缩和部署知识。

等 7 人订阅共17篇文章创建于2022-12-04

模型压缩-量化算法概述

所谓量化，其实可以等同于低精度（Low precision）概念，常规模型精度一般使用 FP32（32 位浮点数，单精度）存储模型权重参数，低精度则表示使用 INT8、FP16 等权重数值格式。

2年前
2.1k
26
3

NCNN 模型推理详解及实战

本文首先描述了 ncnn 推理框架的依赖库的知识，及相关 cpu 和内存硬件特性描述。最后结合 shufflenet sample 解析了，模型推理的全部流程，详解了 sample 代码的每个细节。

2年前
1.5k
3
评论

海思 NNIE 芯片开发笔记

NNIE 是Neural Network Inference Engine 的简称，是海思媒体 SoC 中专门针对神经网络特别是深度学习卷积神经网络进行加速处理的硬件单元，可以理解为 CNN 加速器。

2年前
1.7k
4
评论

pytorch 中的模型剪枝方法实践

所谓模型剪枝，其实是一种从神经网络中移除"不必要"权重或偏差（weigths/bias）的模型压缩技术。本文深入描述了 pytorch 框架的几种剪枝 API，包括函数功能和参数定义，并给出示例代码。

2年前
2.5k
4
2

pytorch 中的模型剪枝方法实践

模型压缩-剪枝算法详解

模型剪枝是应用非常广的一种模型压缩方法，其可以直接减少模型中的参数量。本文会对模型剪枝的定义、发展历程、分类以及算法原理进行详细的介绍。

2年前
1.4k
4
3

深度学习模型压缩方法概述

模型压缩算法旨在将一个大模型转化为一个精简的小模型。工业界的模型压缩方法有：知识蒸馏、轻量化模型架构、剪枝、量化。

2年前
736
7
评论

轻量级模型设计与部署总结

轻量级网络的手动设计目前还没用广泛通用的准则，只有一些指导思想，和针对不同芯片平台（不同芯片架构）的一些设计总结，建议大家从经典论文中吸取指导思想和建议，然后自己实际做各个硬件平台的部署和模型性能测试

2年前
555
6
2

神经网络模型复杂度分析

终端设备上运行深度学习算法需要考虑内存和算力的需求，因此需要进行模型复杂度分析，涉及到模型计算量（时间/计算复杂度）和模型参数量（空间复杂度）分析。

2年前
1.7k
11
评论

卷积神经网络压缩方法总结

在一定程度上，网络越深，参数越多，模型也会越复杂，但其最终效果也越好。而模型压缩算法是旨在将一个庞大而复杂的预训练模型转化为一个精简的小模型。本文介绍了卷积神经网络常见的几种压缩方法。

2年前
1.3k
12
评论

深度学习模型部署流程概述

深度学习和计算机视觉方向除了算法训练/研究，还有两个重要的方向: 模型压缩（模型优化、量化）、模型部署（模型转换、后端功能SDK开发）。所谓模型部署，即将算法研究员训练出的模型部署到具体的端边云芯片上

2年前
981
7
评论

TensorRT基础笔记

TensorRT 是 NVIDIA 官方推出的基于 CUDA 和 cudnn 的高性能深度学习推理加速引擎，能够使深度学习模型在 GPU 上进行低延迟、高吞吐量的部署。

2年前
660
5
评论

ONNX模型分析与使用

ONNX 的本质只是一套开放的 ML 模型标准，模型文件存储的只是网络的拓扑结构和权重（其实每个深度学习框架最后保存的模型都是类似的），脱离开框架是没办法对模型直接进行 inference的。

2年前
759
6
评论

轻量级网络论文-MobileNetv1 详解

在降低 FLOPs 计算量上，MobileNet 的网络架构设计确实很好，但是 MobileNet 模型在 GPU、DSP 和 TPU 硬件上却不一定性能好，原因是不同硬件进行运算时的行为不同，从而导

2年前
1.6k
8
1

轻量级网络论文-MobileNetv1 详解

轻量级网络论文-ShuffleNetv2 详解

分析模型的推理性能得结合具体的推理平台（常见如：英伟达 GPU、移动端 ARM CPU、端侧 NPU 芯片等），目前已知影响推理性能的因素包括: 算子计算量 FLOPs（参数量 Params）、算子内

2年前
1.4k
8
评论

轻量级网络论文-ShuffleNetv2 详解

轻量级网络论文-RepVGG 详解

RepVGG 是为 GPU 和专用硬件设计的高效模型，追求高速度、省内存，较少关注参数量和理论计算量。在低算力设备上，可能不如 MobileNet 和 ShuffleNet 系列适用。

2年前
638
6
评论

轻量级网络论文-RepVGG 详解

轻量级网络论文-CSPNet 详解

CSPNet 作者认为网络推理成本过高的问题是由于网络优化中的梯度信息重复导致的。CSPNet 通过将梯度的变化从头到尾地集成到特征图中，在减少了计算量的同时可以保证准确率。

2年前
589
6
评论

轻量级网络论文-CSPNet 详解

轻量级网络论文-VoVNet 详解

VoVNet 作者认为是密集连接(dense connection)带来的输入通道线性增长，从而导高内存访问成本和能耗。为了提高 DenseNet 的效率，作者提出一个新的更高效的网络 VoVet。

2年前
1.8k
13
评论

轻量级网络论文-VoVNet 详解