Ascend

Ascend

Ascend

昇腾训练、推理、CANN相关技术

暂无订阅共24篇文章创建于2024-11-08

vllm+vllm-ascend本地部署QwQ-32B

1 模型下载可按照此处方法下载预热后的模型，速度较快（推荐artget方式）或者从hugging face官方下载。 2 vllm-ascend安装 2.1 使用vllm+vllm-ascend基

9月前
369
点赞
评论

初识华为RazorAttention

论文原文：https://openreview.net/pdf?id=tkiZQlL04w 最近学习华为的RazorAttention，水平有限，根据论文做了初步了解。 1 背景：KV缓存成为部署模型

10月前
168
点赞
评论

NPU上如何使能pytorch图模式

1 Pytorch的compile技术 PyTorch 的 torch.compile 是一个强大的功能，用于优化 PyTorch 模型的性能。它通过将 PyTorch 的动态图转换为静态图，并利用

10月前
180
点赞
评论

MindIE BenchMark

1 BenchMark工具服务化MindIE Benchmark工具是通过部署昇腾服务化配套包后，以调用终端命令的方式测试大语言模型在不同配置参数下的推理性能和精度，并通过表格的形式展示模型在各个阶

11月前
214
点赞
评论

AscendC编程中的double buffer是什么？

执行于AI Core上的指令队列主要包括如下几类，即： Vector指令队列（V） Matrix指令队列（M）存储移动指令队列（MTE2、MTE3）。不同指令队列间的相互独立性和可并行执行性，是d

1年前
102
点赞
评论

AscendC编程中的double buffer是什么？

ATB算子实现原理解读

从前文ATB是什么？可知，在Ascend Transformer Boost加速库（ATB）中存在三种类型的算子，那么这三种类型的算子，它们的执行流程是什么，和其它的CANN中的算子有什么区别。

1年前
328
点赞
评论

AscendC从入门到精通系列（五）调用基于工程开发AscendC算子

基于工程代码框架完成算子原型定义、kernel侧算子实现、host侧tiling实现，通过工程编译脚本完成算子的编译部署，之后再进行单算子API的调用

1年前
190
点赞
评论

AscendC从入门到精通系列（五）调用基于工程开发AscendC算子

AscendC从入门到精通系列（四）使用Pybind调用AscendC算子

如果已经通过Ascend C编程语言实现了算子，那该如何通过pybind进行调用呢？ 1 Pybind调用介绍通过PyTorch框架进行模型的训练、推理时，会调用很多算子进行计算

1年前
298
点赞
评论

AscendC从入门到精通系列（四）使用Pybind调用AscendC算子

AscendC从入门到精通系列（三）基于自定义算子工程开发AscendC算子

本次主要讨论下AscendC另外一种开发流程，基于自定义算子工程的算子开发。从算子工程创建、代码编写、编译部署到运行验证的开发全流程，让您对算子开发工程有个宏观的认识。

1年前
224
点赞
评论

AscendC从入门到精通系列（三）基于自定义算子工程开发AscendC算子

SelfAttention在Ascend上的实现

SelfAttention是什么？ Self-Attention（自注意力）机制是深度学习领域的一种重要技术，尤其在自然语言处理（NLP）任务中得到广泛应用。

1年前
272
点赞
评论

SelfAttention在Ascend上的实现

AscendC从入门到精通系列（二）基于Kernel直调开发AscendC算子

本次主要讨论下AscendC算子的开发流程，基于Kernel直调工程的算子开发。AscendC算子开发的基本流程

1年前
324
点赞
评论

AscendC从入门到精通系列（二）基于Kernel直调开发AscendC算子

AscendC从入门到精通系列（一）初步感知AscendC

什么是AscendC Ascend C是CANN针对算子开发场景推出的编程语言，原生支持C和C++标准规范，兼具开发效率和运行性能。

1年前
184
点赞
评论

AscendC从入门到精通系列（一）初步感知AscendC

如何在c++侧编译运行一个aclnn（AOL）算子？

、AOL算子库 CANN（Compute Architecture for Neural Networks）提供了算子加速库（Ascend Operator Library，简称AOL）。

1年前
155
点赞
评论

如何在c++侧编译运行一个aclnn（AOL）算子？

Ascend推理组件MindIE LLM

MindIE LLM是MindIE解决方案下的大语言模型推理组件，基于昇腾硬件提供业界通用大模型推理能力，同时提供多并发请求的调度功能，支持Continuous Batching等。

1年前
137
点赞
评论

Ascend推理组件MindIE LLM

ATB概念之：算子tiling

什么是算子tiling 在计算机科学和深度学习领域，算子 tiling（有时也被称作操作符 tiling 或者循环 tiling）是一种优化技术，主要用于提高计算效率。

1年前
211
点赞
评论

ATB概念之：算子tiling

如何使用Ascend的ATB加速库？

Ascend Transformer Boost加速库（下文简称为ATB加速库）是一款高效、可靠的加速库，基于华为Ascend AI处理器，专门为Transformer类模型的训练和推理设计

1年前
256
点赞
评论

如何使用Ascend的ATB加速库？

ATB是什么？

ATB介绍 Ascend Transformer Boost加速库（下文简称为ATB加速库）是一款高效、可靠的加速库，基于华为Ascend AI处理器，专门为Transformer类模型的训练和推理。

1年前
677
点赞
评论

Ascend上的PageAttention

PageAttention引入的原因 PageAttention的引入主要是为了解决大型语言模型（LLM）在服务过程中遇到的内存管理低效问题

1年前
277
点赞
评论

Ascend上的PageAttention

Ascend上的FlashAttention实现

FlashAttention FlashAttention是一种优化Transformer模型计算效率和内存使用的技术

1年前
138
点赞
评论

Ascend上的FlashAttention实现

Ascend Extension for PyTorch是个what？

1 Ascend Extension for PyTorch Ascend Extension for PyTorch 插件是基于昇腾的深度学习适配框架，使昇腾NPU可以支持PyTorch框架

1年前
102
点赞
评论

Ascend Extension for PyTorch是个what？