首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Albert_Liyan
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
Albert_Liyan
1年前
关注
CUDA系列:llm.c layernorm源码
1 llm.c llm.c是大神karpathy手搓大模型,纯C/CUDA方式训练大模型。 llm.c项目介绍 使用简单、纯C/CUDA进行LLM训练,无需安装245MB ...
0
评论
分享
Albert_Liyan
1年前
关注
LLM系列:模型量化-稀疏量化SpQR
1 SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression 为什么...
0
评论
分享
Albert_Liyan
1年前
关注
力扣刷题7- 二叉树、旋转链表、逆序对、课程表
二叉树遍历 先序(非递归) 先访问root节点,再left子树,再right子树 先序(递归) LRU缓存 题解思路:O(1) map + DLinkNode(双端队列) ...
0
评论
分享
Albert_Liyan
1年前
关注
CUDA系列:编程实践3
cuda程序demo 编译命令,nvcc等价于g++ 核函数 kernel函数GPU进行并行执行(自发并行执行,硬件支持) 核函数与C++函数区别: 注意事项: CUDA线...
0
评论
分享
Albert_Liyan
1年前
关注
力扣刷题6-LRU缓存
leetcode刷题,力扣刷题6-高频基础,LRU缓存,请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。整数数组 nums 按升序排列,数组中的值 ...
0
评论
分享
Albert_Liyan
关注了
吃果冻不吐果冻皮
Albert_Liyan
1年前
关注
力扣刷题5-动态规划
237.删除链表中节点(中等) 题目描述:有一个单链表,给定节点node,需要删除这个node节点 题解:删除节点node必须找到前置节点,根据题意无法获取head节点,即...
0
评论
分享
Albert_Liyan
1年前
关注
力扣刷题4-dfs、贪心、二叉
1 DFS算法 二维矩阵中使用DFS搜索 200. 岛屿数量 思路: FloodFill算法。循环遍历网格,每遇到陆地,岛屿数+1,把与之相邻的陆地dfs变成海水。为什么淹...
0
评论
分享
Albert_Liyan
1年前
关注
LLM系列:KVCache量化
1 KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache github:https://github....
0
评论
分享
Albert_Liyan
1年前
关注
CUDA系列:编程实践2
1 CUDA程序基本框架 单源文件的CUDA程序,基本框架如下 头文件包含 常量定义(宏函数) C++自定义函数和CUDA函数声明 主函数 C++自定义函数和CUDA函数实...
0
评论
分享
Albert_Liyan
1年前
关注
LLM系列:PTQ经典量化-weight-only
经典的weight-only量化: (1) data-free: bitsandbytes、HQQ; (2) calibration-based: GPTQ、AWQ。 1 ...
0
评论
分享
Albert_Liyan
1年前
关注
LLM系列:模型量化-BiasCorrection
问题背景 高通的模型量化工具SNPE提供一种成熟的压缩算法Data-Free Quantization,同时高通发表论文介绍该压缩算法。这个算法主要应用于小模型量化,后来也...
0
评论
分享
Albert_Liyan
1年前
关注
LLM系列:模型量化-SmoothQuant
1 SmoothQuant量化 论文发现的规律: (1)激活比权重难量化。原因是权重分布均匀、平坦,可以看到LLMs权重INT8、INT4量化不会明显掉精度; (2)离群异...
0
评论
分享
Albert_Liyan
1年前
关注
深度学习-量化粒度
模型量化能显著减小内存,但选择合适的量化粒度(Quantization Granularity)对保持精度不劣化非常关键。常用量化粒度介绍如下。 Per-Tensor Qu...
0
评论
分享
Albert_Liyan
1年前
关注
LLM系列:PD分离推理架构
1 分离式架构 TTFT(Time To First Token) prefill首token耗时 TPOT(Time Per Output Token) decode 每...
0
评论
分享
Albert_Liyan
1年前
关注
LLM系列:LLM推理加速技术
本文梳理主要LLM推理加速技术,讨论加速原理及发展方向。 LLM推理关注的性能指标有哪些? 吞吐量 吞吐量的定义:单位时间内处理的token数量。(输入序列长度 + 输出序...
0
评论
分享
Albert_Liyan
1年前
关注
LLM系列:SFT微调demo
1 prompt工程 例如:做一个天气预报系统,用户可以提问并查询某个城市、某个日期的天气。 系统实现非常简单:写一个prompt工程提取用户query中关键词:日期+城市...
0
评论
分享
Albert_Liyan
1年前
关注
力扣刷题3-数组字符串、双指针、系统设计
1 数组字符串 1.1 合并两个有序数组 1.2 原地移除元素 1.3 删除有序数组中重复项 1.4 删除有序数组中重复项II 1.5 多数元素 1.6 轮转数组 1.7 ...
0
评论
分享
Albert_Liyan
1年前
关注
深度学习框架-端侧训练性能问题分析
问题背景:用户使用java native方式调深度学习框架端侧训练C++ API,在x86服务器环境性能劣化严重,直接调框架C++ API跑端侧训练,性能正常。 初步分析:...
0
评论
分享
Albert_Liyan
1年前
关注
Java Native内存分析N板斧
长稳测试发现Java Native内存泄漏,总结一下内存分析的套路。 长稳内存测试可参考(进程内存打印)[https://juejin.cn/post/7407407711...
2
评论
分享
下一页
个人成就
文章被点赞
4
文章被阅读
23,161
掘力值
723
关注了
1
关注者
3
收藏集
0
关注标签
0
加入于
2024-03-03