Xinyu

字节跳动

字节跳动技术团队

赞

0

|

搜索文章

@字节跳动

·

2年前

LLM-Attack: 撬开GPT阁下的嘴

来自CMU的团队通过结合贪心算法和梯度搜索的离散优化，提出了一种对语言模型进行攻击的方法，并且在不同模型上的均有攻击效果，ChatGPT也未能幸免。...

5

3

@字节跳动

·

2年前

PagedAttention(vLLM):更快地推理你的GPT

生成式大模型改变了我们在各个行业中应用人工智能的方式。然而，由于模型参数量巨大，为这些模型提供实际服务带来了挑战，即使在昂贵的硬件上，速度可能非常慢，这令人感到沮丧。...

4

2

@字节跳动

·

2年前

FlashAttention: 更快训练更长上下文的GPT

这篇Flash Attention的工作深入硬件，新提出了一种具有IO感知的，快速的⚡️，节省内存的🧠，精确的🎯注意力算法。...

1

评论

@字节跳动

·

2年前

GPU Arch:自顶向下分析

Intro 随着人工智能特别是以GPT为代表的生成式AI的迅猛发展，GPU已经成为了一种不可或缺的工具，甚至企业都以拥有多少高端GPU作为抓住风口能力的衡量标准。...

0

2

@字节跳动

·

2年前

QLoRA: 训练更大的GPT

在更大的模型上QLoRA和FullFinetuing的的差别是什么样的？目前只是用了LoRA作为训练的方式，其他的PEFT训练方式效果怎么样？...

0

1

@字节跳动

·

2年前

OBD&OBS：给神经网络做个外科手术

随着神经网络的发展，神经网络在现实世界中解决了越来越多的问题，但随之而来的是模型变的越来越大，结构变得越来越复杂，推理时间变的越来越长，部署起来也越来越不方便.........

2

评论

@字节跳动

·

2年前

GPTQ&OBQ：量化你的GPT

Quantization：模型量化，通过把浮点数转为定点数、降低访存来在引入较少误差的情况下，降低模型大小，推理时延，大幅提升模型性能。...

2

评论

个人成就

文章被点赞 14

文章被阅读 19,253

字节跳动技术团队

加入于

2022-04-12