AI系统

AI系统

AI系统

AI系统

暂无订阅共146篇文章创建于2024-12-12

转载【AI系统】昇腾 AI 架构介绍

昇腾计算的基础软硬件是产业的核心，也是 AI 计算能力的来源。华为，作为昇腾计算产业生态的一员，是基础软硬件系统的核心贡献者。昇腾计算软硬件包括硬件系统、基础软件和应用使能等。而本文介绍的 AI 系

1年前
197
点赞
评论

转载【AI系统】推理引擎示例：AscendCL

AscendCL 作为华为 Ascend 系列 AI 处理器的软件开发框架，为用户提供了强大的编程支持。通过 AscendCL，开发者可以更加高效地进行 AI 应用的开发和优化，从而加速 AI 技术在

1年前
92
点赞
评论

转载【AI系统】知识蒸馏原理

本文将介绍知识蒸馏（Knowledge Distillation, KD）的原理，这是一种通过从大型的教师模型向小型的学生模型转移知识来实现模型压缩和优化的技术。知识蒸馏的核心思想是利用教师模型在大量

1年前
178
点赞
评论

转载【AI系统】AI 芯片的思考

为了满足数据中心算力需求，谷歌在 2014 年开始研发基于特定领域架构（Domain-specific Architecture，DSA）的 TPU（Tensor Processing Unit），专

1年前
116
点赞
评论

转载【AI系统】CPU 指令集架构

我们知道，计算机指令是指挥机器工作的指示和命令，程序就是一系列指令按照顺序排列的集合，执行程序的过程就是计算机的工作过程。从微观上看，我们输入指令的时候，计算机会将指令转换成二进制码存储在存储单元里面

1年前
146
点赞
评论

转载【AI系统】谷歌 TPUv2 训练芯片

在 2017 年，谷歌更新了他们的 TPU 序列。谷歌将这一代 TPU 称之为 “用于训练神经网络的特定领域超级计算机”，那么显而易见，相比于专注于推理场景的 TPU v1，TPU v2 将自己的设计

1年前
102
点赞
评论

转载【AI系统】SIMD & SIMT 与芯片架构

为了进一步探讨 SIMD/SIMT 与 AI 芯片之间的关系，本文将详细介绍 SIMD 单指令多数据和 SIMT 单指令多线程的计算本质，以及对 NVIDIA CUDA 底层实现 SIMD/SIMT

1年前
186
点赞
评论

转载【AI系统】Ascend C 语法扩展

Ascend C 的本质构成其实是标准 C++加上一组扩展的语法和 API。本文首先对 Ascend C 的基础语法扩展进行简要介绍，随后讨论 Ascend C 的两种 API——基础 API 和高阶

1年前
99
点赞
评论

转载【AI系统】轻量级CNN模型新进展

在本文会接着介绍 CNN 模型的小型化，除了第二篇文章提到的三个模型外，在本文会继续介绍 ESPNet 系列，FBNet 系列，EfficientNet 系列和 GhostNet 系列。 ESPNet

1年前
136
点赞
评论

转载【AI系统】自定义计算图 IR

模型转换涉及对模型的结构和参数进行重新表示。在进行模型转换时，通常需要理解模型的计算图结构，并根据目标格式的要求对其进行调整和转换，可能包括添加、删除或修改节点、边等操作，以确保转换后的计算图能够正确

1年前
126
点赞
评论

转载【AI系统】LLVM 后端代码生成

上一篇文章主要讲了 LLVM 的前端和优化层，前端主要对高级语言做一些词法的分析，把高级语言的特性转变为 token，再交给语法分析对代码的物理布局进行判别，之后交给语义分析对代码的的逻辑进行检查。优

1年前
125
点赞
评论

转载【AI系统】SqueezeNet 系列

本文将介绍 SqueezeNet 系列网络，在轻量化模型这个范畴中，Squeezenet 是最早的研究。主要针对了一些组件进行轻量化。与以往的网络都只讲网络如何设计不同。SqueezeNext 则从硬

1年前
171
点赞
评论

转载【AI系统】AI 发展驱动力

AI 起源于上世纪五十年代，经历了几次繁荣与低谷，直到 2016 年谷歌旗下的 DeepMind 发布 AlphaGo 程序赢得与世界围棋冠军的比赛，大众对 AI 的关注与热情被重新点燃。其实 AI

1年前
76
点赞
评论

转载【AI系统】昇腾 AI 核心单元

本文将深入介绍昇腾 AI 处理器的核心单元——AI Core，以及其背后的达芬奇架构。昇腾 AI 处理器是华为针对 AI 领域设计的专用处理器，其核心 AI Core 采用了特定域架构（Domain

1年前
123
点赞
评论

转载【AI系统】NVLink 原理剖析

随着 AI 技术的飞速发展，大模型的参数量已经从亿级跃升至万亿级，这一变化不仅标志着 AI 的显著提升，也对支持这些庞大模型训练的底层硬件和网络架构提出了前所未有的挑战。为了有效地训练这些复杂的模型，

1年前
214
点赞
评论

转载【AI系统】TVM 实践案例

在本文我们探讨一下，如何利用 AI 编译器在新的硬件上部署一个神经网络，从算法设计到实际运行，有哪些需要考虑的地方？本文将以 TVM 为例，首先介绍一下 TVM 的工作流：导入模型。TVM 可以从

1年前
168
点赞
评论

转载【AI系统】模型转换流程

用户在使用 AI 框架时，可能会遇到训练环境和部署环境不匹配的情况，比如用户用 Caffe 训练好了一个图像识别的模型，但是生产环境是使用 TensorFlow 做预测。因此就需要将使用不同训练框架

1年前
75
点赞
评论

转载【AI系统】计算之比特位宽

在前面的深度学习计算模式里面我们提到了模型的量化操作，通过建立一种有效的数据映射关系，使得模型以较小的精度损失获得更好的模型执行效率的收益。模型量化的具体操作就是将高比特的数据转换为低比特位宽表示。本

1年前
183
点赞
评论

转载【AI系统】LLVM 前端和优化层

在上一篇文章讲到了 LLVM 的 IR 贯穿了 LLVM 编译器的全生命周期，里面的每一个箭头都是一个 IR 的过程，这个就是整体 LLVM 最重要的核心概念。有了 LVM IR 之后这并不意味着

1年前
50
点赞
评论

转载【AI系统】关键设计指标

前面我们已经对 AI 的计算模式有了初步的认识，那么这些计算模式具体是如何和 AI 芯片设计结合起来的呢？接下来我们将从 AI 芯片关键设计指标的角度来进一步拓展对 AI 计算体系的思考。计算单位

1年前
149
点赞
评论