首页
沸点
课程
AI Coding
数据标注
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Ascend
zjun3021
创建于2024-11-08
订阅专栏
昇腾训练、推理、CANN相关技术
暂无订阅
共24篇文章
创建于2024-11-08
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
vllm+vllm-ascend本地部署QwQ-32B
1 模型下载 可按照此处方法下载预热后的模型,速度较快(推荐artget方式) 或者从hugging face官方下载。 2 vllm-ascend安装 2.1 使用vllm+vllm-ascend基
初识华为RazorAttention
论文原文:https://openreview.net/pdf?id=tkiZQlL04w 最近学习华为的RazorAttention,水平有限,根据论文做了初步了解。 1 背景:KV缓存成为部署模型
NPU上如何使能pytorch图模式
1 Pytorch的compile技术 PyTorch 的 torch.compile 是一个强大的功能,用于优化 PyTorch 模型的性能。它通过将 PyTorch 的动态图转换为静态图,并利用
MindIE BenchMark
1 BenchMark工具 服务化MindIE Benchmark工具是通过部署昇腾服务化配套包后,以调用终端命令的方式测试大语言模型在不同配置参数下的推理性能和精度,并通过表格的形式展示模型在各个阶
AscendC编程中的double buffer是什么?
执行于AI Core上的指令队列主要包括如下几类,即: Vector指令队列(V) Matrix指令队列(M) 存储移动指令队列(MTE2、MTE3)。 不同指令队列间的相互独立性和可并行执行性,是d
ATB算子实现原理解读
从前文ATB是什么?可知,在Ascend Transformer Boost加速库(ATB)中存在三种类型的算子,那么这三种类型的算子,它们的执行流程是什么,和其它的CANN中的算子有什么区别。
AscendC从入门到精通系列(五)调用基于工程开发AscendC算子
基于工程代码框架完成算子原型定义、kernel侧算子实现、host侧tiling实现,通过工程编译脚本完成算子的编译部署,之后再进行单算子API的调用
AscendC从入门到精通系列(四)使用Pybind调用AscendC算子
如果已经通过Ascend C编程语言实现了算子,那该如何通过pybind进行调用呢? 1 Pybind调用介绍 通过PyTorch框架进行模型的训练、推理时,会调用很多算子进行计算
AscendC从入门到精通系列(三)基于自定义算子工程开发AscendC算子
本次主要讨论下AscendC另外一种开发流程,基于自定义算子工程的算子开发。从算子工程创建、代码编写、编译部署到运行验证的开发全流程,让您对算子开发工程有个宏观的认识。
SelfAttention在Ascend上的实现
SelfAttention是什么? Self-Attention(自注意力)机制是深度学习领域的一种重要技术,尤其在自然语言处理(NLP)任务中得到广泛应用。
AscendC从入门到精通系列(二)基于Kernel直调开发AscendC算子
本次主要讨论下AscendC算子的开发流程,基于Kernel直调工程的算子开发。AscendC算子开发的基本流程
AscendC从入门到精通系列(一)初步感知AscendC
什么是AscendC Ascend C是CANN针对算子开发场景推出的编程语言,原生支持C和C++标准规范,兼具开发效率和运行性能。
如何在c++侧编译运行一个aclnn(AOL)算子?
、AOL算子库 CANN(Compute Architecture for Neural Networks)提供了算子加速库(Ascend Operator Library,简称AOL)。
Ascend推理组件MindIE LLM
MindIE LLM是MindIE解决方案下的大语言模型推理组件,基于昇腾硬件提供业界通用大模型推理能力,同时提供多并发请求的调度功能,支持Continuous Batching等。
ATB概念之:算子tiling
什么是算子tiling 在计算机科学和深度学习领域,算子 tiling(有时也被称作操作符 tiling 或者循环 tiling)是一种优化技术,主要用于提高计算效率。
如何使用Ascend的ATB加速库?
Ascend Transformer Boost加速库(下文简称为ATB加速库)是一款高效、可靠的加速库,基于华为Ascend AI处理器,专门为Transformer类模型的训练和推理设计
ATB是什么?
ATB介绍 Ascend Transformer Boost加速库(下文简称为ATB加速库)是一款高效、可靠的加速库,基于华为Ascend AI处理器,专门为Transformer类模型的训练和推理。
Ascend上的PageAttention
PageAttention引入的原因 PageAttention的引入主要是为了解决大型语言模型(LLM)在服务过程中遇到的内存管理低效问题
Ascend上的FlashAttention实现
FlashAttention FlashAttention是一种优化Transformer模型计算效率和内存使用的技术
Ascend Extension for PyTorch是个what?
1 Ascend Extension for PyTorch Ascend Extension for PyTorch 插件是基于昇腾的深度学习适配框架,使昇腾NPU可以支持PyTorch框架
下一页