首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
MegEngine
掘友等级
适合工业级研发的开源深度学习框架-旷视天元MegEngine
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
Web 上运行深度学习框架模型 - MegEngine.js
看社区开发者如何以一人之力, 3 个月完成 MegEngine javascript 版本,实现在 javascript 环境中快速部署 MegEngine 模型~
Cadence DSP 算子开发上手指南
本文梳理了一些 Cadence DSP 算子开发中的重点,希望可以给对 Cadence DSP 开发有兴趣的同学带来帮助。
如何设计一个高内聚低耦合的模块——MegEngine 中自定义 Op 系统的实践经验
MegEngine 推出的 Custom Op 工具,可以简单便捷的将算法工程师自己编写的 c++/cuda kernel 封装成 Op 并自动化的编译成动态链接库并集成入 MegEngine 中。
MegEngine 架构系列:静态内存分析
MegEngine 中采用了多种降低内存的解决方案,本次主要介绍的是 MegEngine 静态内存管理模块是如何利用顺序程序图中的数据流分析,实现内存重用以达到降低内存占用的效果。
流式计算框架 MegFlow 开源,帮助铲屎官实现花样宠溺
MegFlow 是面向计算机视觉应用的流式计算框架,提供了一套可快速完成 AI 应用部署的视觉解析服务方案。AI 应用开发者可以基于 MegFlow 提供的图像和视频解析服务,最快 15 分钟即可完成
CUDA 矩阵乘法终极优化指南
单精度矩阵乘法几乎是每一位学习 CUDA 的同学绕不开的案例,这个经典的计算密集型案例可以很好地展示 GPU 编程中常用的优化技巧。本文将详细介绍 CUDA SGEMM 的优化手段。
用户实践 | 基于 MegEngine 移动端 CPU 的深度学习模型推理性能优化
本文基于 MegEngine 推理引擎,对优化方法 NCHW44 和 Record 的原理和使用方法做比较详细的说明。
利用共享内存实现比NCCL更快的集合通信
MegEngine 中实现了更快的集合通信算法,对多个不同的网络训练相对于 NCCL 有 3% 到 10% 的加速效果,v1.5 版可切换集合通信后端为 shm(默认是 nccl),只需要改一个参数。
Fast Run:提高 MegEngine 模型推理性能的神奇功能
MegEngine 通过为每个计算自动选择最快的算法,从而保证整个网络的运行时间最短。并且同时能够将计算的参数和其对应的算法信息以及设备信息记录到内存或文件~
分享实录 | 利用 MegEngine 分布式通信算子实现复杂的并行训练
旷视研究院周亦庄讲师分享《利用 MegEngine 分布式通信算子实现复杂的并行训练》,分四部分:介绍 MegEngine 分布式通信算子;简单参数并行;层内模型并行; 层间模型并行和流水线并行。
下一页
个人成就
文章被点赞
114
文章被阅读
108,555
掘力值
2,546
关注了
2
关注者
57
收藏集
0
关注标签
6
加入于
2020-12-28