首页
沸点
课程
AI Coding
数据标注
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
zjun3021
掘友等级
AI追风者
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
zjun3021
9月前
关注
vllm+vllm-ascend本地部署QwQ-32B
1 模型下载 可按照此处方法下载预热后的模型,速度较快(推荐artget方式) 或者从hugging face官方下载。 2 vllm-ascend安装 2.1 使用vll...
0
评论
分享
zjun3021
10月前
关注
初识华为RazorAttention
论文原文:https://openreview.net/pdf?id=tkiZQlL04w 最近学习华为的RazorAttention,水平有限,根据论文做了初步了解。 1...
0
评论
分享
zjun3021
10月前
关注
NPU上如何使能pytorch图模式
1 Pytorch的compile技术 PyTorch 的 torch.compile 是一个强大的功能,用于优化 PyTorch 模型的性能。它通过将 PyTorch 的...
0
评论
分享
zjun3021
11月前
关注
NPU上运行onnxruntime
1 问题背景 在Ascend环境上,使用onnxruntime推理时,报错: 显示的是cuda的组件找不到。由于是Ascend环境,肯定是没有GPU的,很明显是onnxru...
0
评论
分享
zjun3021
11月前
关注
MindIE BenchMark
1 BenchMark工具 服务化MindIE Benchmark工具是通过部署昇腾服务化配套包后,以调用终端命令的方式测试大语言模型在不同配置参数下的推理性能和精度,并通...
0
评论
分享
zjun3021
1年前
关注
MindIE推理采样后处理参数temperature和top_k的引发的精度问题
背景 MindIE跑Qwen系列模型推理,测试发现后处理参数top_k很大,temperature=2的场景,模型输出有精度问题。 现象 经过进一步复现和测试,发现如下现象...
0
评论
分享
zjun3021
1年前
关注
Ascend+FastAPI+ Uvicorn 实现推理
1、FastAPI & Uvicorn FastAPI FastAPI 是一个用于构建 API 的现代、快速(高性能)的 Python Web 框架,专为在 Python ...
0
评论
分享
zjun3021
1年前
关注
解决Ascend上vllm运行时出现urllib3.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED]
背景 尝试使用vllm模型,脚本代码如下: 运行过程中出现: 问题分析 问题就出现在通过python去下载文件,然后SSL的安全校验出现了问题。临时解决办法是,可以规避该校...
0
评论
分享
zjun3021
1年前
关注
AscendC编程中的double buffer是什么?
执行于AI Core上的指令队列主要包括如下几类,即: Vector指令队列(V) Matrix指令队列(M) 存储移动指令队列(MTE2、MTE3)。 不同指令队列间的相...
0
评论
分享
zjun3021
1年前
关注
ATB算子实现原理解读
从前文ATB是什么?可知,在Ascend Transformer Boost加速库(ATB)中存在三种类型的算子,那么这三种类型的算子,它们的执行流程是什么,和其它的CAN...
0
评论
分享
zjun3021
1年前
关注
AscendC从入门到精通系列(五)调用基于工程开发AscendC算子
基于工程代码框架完成算子原型定义、kernel侧算子实现、host侧tiling实现,通过工程编译脚本完成算子的编译部署,之后再进行单算子API的调用...
0
评论
分享
zjun3021
1年前
关注
AscendC从入门到精通系列(四)使用Pybind调用AscendC算子
如果已经通过Ascend C编程语言实现了算子,那该如何通过pybind进行调用呢? 1 Pybind调用介绍 通过PyTorch框架进行模型的训练、推理时,会调用很多算子...
0
评论
分享
zjun3021
1年前
关注
AscendC从入门到精通系列(三)基于自定义算子工程开发AscendC算子
本次主要讨论下AscendC另外一种开发流程,基于自定义算子工程的算子开发。从算子工程创建、代码编写、编译部署到运行验证的开发全流程,让您对算子开发工程有个宏观的认识。...
0
评论
分享
zjun3021
1年前
关注
SelfAttention在Ascend上的实现
SelfAttention是什么? Self-Attention(自注意力)机制是深度学习领域的一种重要技术,尤其在自然语言处理(NLP)任务中得到广泛应用。...
0
评论
分享
zjun3021
1年前
关注
AscendC从入门到精通系列(二)基于Kernel直调开发AscendC算子
本次主要讨论下AscendC算子的开发流程,基于Kernel直调工程的算子开发。AscendC算子开发的基本流程...
0
评论
分享
zjun3021
1年前
关注
AscendC从入门到精通系列(一)初步感知AscendC
什么是AscendC Ascend C是CANN针对算子开发场景推出的编程语言,原生支持C和C++标准规范,兼具开发效率和运行性能。...
0
评论
分享
zjun3021
1年前
关注
如何在c++侧编译运行一个aclnn(AOL)算子?
、AOL算子库 CANN(Compute Architecture for Neural Networks)提供了算子加速库(Ascend Operator Library...
0
评论
分享
zjun3021
1年前
关注
Ascend推理组件MindIE LLM
MindIE LLM是MindIE解决方案下的大语言模型推理组件,基于昇腾硬件提供业界通用大模型推理能力,同时提供多并发请求的调度功能,支持Continuous Batch...
0
评论
分享
zjun3021
1年前
关注
ATB概念之:算子tiling
什么是算子tiling 在计算机科学和深度学习领域,算子 tiling(有时也被称作操作符 tiling 或者循环 tiling)是一种优化技术,主要用于提高计算效率。...
0
评论
分享
zjun3021
1年前
关注
如何使用Ascend的ATB加速库?
Ascend Transformer Boost加速库(下文简称为ATB加速库)是一款高效、可靠的加速库,基于华为Ascend AI处理器,专门为Transformer类模...
0
评论
分享
下一页
个人成就
文章被阅读
7,073
掘力值
249
关注了
0
关注者
0
收藏集
0
关注标签
9
加入于
2024-11-08