首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Xinyu
掘友等级
字节跳动
获得徽章 0
字节跳动技术团队
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
Xinyu
@字节跳动
·
2年前
关注
LLM-Attack: 撬开GPT阁下的嘴
来自CMU的团队通过结合贪心算法和梯度搜索的离散优化,提出了一种对语言模型进行攻击的方法,并且在不同模型上的均有攻击效果,ChatGPT也未能幸免。...
5
3
分享
Xinyu
@字节跳动
·
2年前
关注
PagedAttention(vLLM):更快地推理你的GPT
生成式大模型改变了我们在各个行业中应用人工智能的方式。然而,由于模型参数量巨大,为这些模型提供实际服务带来了挑战,即使在昂贵的硬件上,速度可能非常慢,这令人感到沮丧。...
4
2
分享
Xinyu
@字节跳动
·
2年前
关注
FlashAttention: 更快训练更长上下文的GPT
这篇Flash Attention的工作深入硬件,新提出了一种具有IO感知的,快速的⚡️,节省内存的🧠,精确的🎯注意力算法。...
1
评论
分享
Xinyu
@字节跳动
·
2年前
关注
GPU Arch:自顶向下分析
Intro 随着人工智能特别是以GPT为代表的生成式AI的迅猛发展,GPU已经成为了一种不可或缺的工具,甚至企业都以拥有多少高端GPU作为抓住风口能力的衡量标准。...
0
2
分享
Xinyu
@字节跳动
·
2年前
关注
QLoRA: 训练更大的GPT
在更大的模型上QLoRA和FullFinetuing的的差别是什么样的?目前只是用了LoRA作为训练的方式,其他的PEFT训练方式效果怎么样?...
0
1
分享
Xinyu
@字节跳动
·
2年前
关注
OBD&OBS:给神经网络做个外科手术
随着神经网络的发展,神经网络在现实世界中解决了越来越多的问题,但随之而来的是模型变的越来越大,结构变得越来越复杂,推理时间变的越来越长,部署起来也越来越不方便.........
2
评论
分享
Xinyu
@字节跳动
·
2年前
关注
GPTQ&OBQ:量化你的GPT
Quantization:模型量化,通过把浮点数转为定点数、降低访存来在引入较少误差的情况下,降低模型大小,推理时延,大幅提升模型性能。...
1
评论
分享
个人成就
文章被点赞
13
文章被阅读
18,641
掘力值
318
字节跳动技术团队
关注了
0
关注者
7
收藏集
0
关注标签
0
加入于
2022-04-12