首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
zjun3021
掘友等级
AI追风者
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
vllm+vllm-ascend本地部署QwQ-32B
1 模型下载 可按照此处方法下载预热后的模型,速度较快(推荐artget方式) 或者从hugging face官方下载。 2 vllm-ascend安装 2.1 使用vllm+vllm-ascend基
初识华为RazorAttention
论文原文:https://openreview.net/pdf?id=tkiZQlL04w 最近学习华为的RazorAttention,水平有限,根据论文做了初步了解。 1 背景:KV缓存成为部署模型
NPU上如何使能pytorch图模式
1 Pytorch的compile技术 PyTorch 的 torch.compile 是一个强大的功能,用于优化 PyTorch 模型的性能。它通过将 PyTorch 的动态图转换为静态图,并利用
NPU上运行onnxruntime
1 问题背景 在Ascend环境上,使用onnxruntime推理时,报错: 显示的是cuda的组件找不到。由于是Ascend环境,肯定是没有GPU的,很明显是onnxruntime的包装错了。 通过
MindIE BenchMark
1 BenchMark工具 服务化MindIE Benchmark工具是通过部署昇腾服务化配套包后,以调用终端命令的方式测试大语言模型在不同配置参数下的推理性能和精度,并通过表格的形式展示模型在各个阶
MindIE推理采样后处理参数temperature和top_k的引发的精度问题
背景 MindIE跑Qwen系列模型推理,测试发现后处理参数top_k很大,temperature=2的场景,模型输出有精度问题。 现象 经过进一步复现和测试,发现如下现象。 在Ascend的npu上
Ascend+FastAPI+ Uvicorn 实现推理
1、FastAPI & Uvicorn FastAPI FastAPI 是一个用于构建 API 的现代、快速(高性能)的 Python Web 框架,专为在 Python 中构建 RESTful AP
解决Ascend上vllm运行时出现urllib3.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED]
背景 尝试使用vllm模型,脚本代码如下: 运行过程中出现: 问题分析 问题就出现在通过python去下载文件,然后SSL的安全校验出现了问题。临时解决办法是,可以规避该校验。 解决方案 首先找到se
AscendC编程中的double buffer是什么?
执行于AI Core上的指令队列主要包括如下几类,即: Vector指令队列(V) Matrix指令队列(M) 存储移动指令队列(MTE2、MTE3)。 不同指令队列间的相互独立性和可并行执行性,是d
ATB算子实现原理解读
从前文ATB是什么?可知,在Ascend Transformer Boost加速库(ATB)中存在三种类型的算子,那么这三种类型的算子,它们的执行流程是什么,和其它的CANN中的算子有什么区别。
下一页
个人成就
文章被阅读
7,064
掘力值
249
关注了
0
关注者
0
收藏集
0
关注标签
9
加入于
2024-11-08