把大模型塞进手机,600MB就能跑的智能助手,小到离谱,强到意外,腾讯开源了

48 阅读5分钟

大家好,我是小悟。

这两天刷到一条消息,腾讯混元把自家一个“极小”模型 HY-1.8B-2Bit 开源了,而且明确是面向手机、耳机、智能家居这类消费级硬件的端侧模型。

💡 HY-1.8B-2Bit 是什么?

简单来说,它是一个为“本地运行”而生的小语言模型。

出身:基于混元 HY-1.8B-Instruct,通过2Bit量化感知训练(QAT)得来。

体型:等效参数量约0.3B,实际存储占用约600MB,模型大小仅为原始精度的1/6。

能力:保留了原版的思维链,能根据任务复杂度输出不同深度的推理过程。

性能:在数学、代码、科学等核心指标上,与4Bit PTQ版本表现接近,实现了“小而强”的目标。

图片

🤔 它解决了什么痛点?

我更愿意把它理解成:过去我们总觉得“本地小模型 = 智商打折”,现在腾讯在尝试把这条公式改一改。

硬件门槛高:很多设备内存就几GB,跑个7B、13B的模型,光加载就卡半天,更别提实时对话了。

云端依赖强:在线推理虽好,但总有网络不稳、延迟高、隐私泄露的担忧。

能力差距大:传统的小模型,一遇到复杂推理就“露怯”,体验甚至不如十年前的搜索引擎。

HY-1.8B-2Bit 的思路很直接:既然硬件有限,那就把模型“压”到极致,同时尽可能保住能力。

它等效参数量只有0.3B,实际存储占用约600MB,比不少手机应用还小,却保留了原版 HY-1.8B-Instruct 的完整思考能力,能根据任务复杂度切换长/短思维链。

在真实设备上,生成速度还能比原始精度模型快2-3倍。这背后是混元团队自研的2Bit量化感知训练(QAT)方案,通过数据优化、弹性拉伸量化等技术,把2Bit量化带来的精度损失压到了最低。

图片

HY-1.8B原始精度模型

图片

HY-1.8B-2Bit模型

🚀 核心功能:麻雀虽小,五脏俱全

别看它小,本事可不小。

离线推理:无需联网,所有计算都在设备本地完成,响应速度和隐私性都有保障。

思维链推理:能像大模型一样,先“想清楚”再“回答”,处理复杂问题时更有条理。

多场景适配:已在Arm等计算平台完成适配,可高效运行于支持Arm SME2技术的移动设备上。

🏃‍♂️ 使用体验:快到飞起

官方放出的测试数据相当亮眼:

MacBook M4芯片:在1024输入长度内,首字时延加速3-8倍,生成速度稳定提升至少2倍。

图片

天玑9500平台:相比Q4格式,首字时延加速1.5-2倍,生成速度提升约1.5倍。

图片

这意味着,在手机或平板上进行本地对话,延迟可以低到几乎无感,体验接近云端大模型,但完全不受网络影响。

👍 为什么推荐它?

对开发者:提供了一个“能跑、能调、能商用”的极低成本入口。无论是做个人助手、智能客服,还是嵌入到各种App中,都非常友好。

对普通用户:未来你用的App可能会更“聪明”,但不再那么依赖网络。你的数据更安全,体验也更流畅。

对行业:这是一次技术上的示范,证明了“小模型也能很强”。它可能会催生出更多创新的应用形态,让AI真正融入日常生活。

安装部署

1. 安装 AngelSlim
推荐使用 pip 安装 AngelSlim 的最新稳定版本:
pip install angelslim
或者,您可以克隆仓库并在可编辑模式下从源代码安装:
cd AngelSlim && python setup.py install


2. 快速入门
安装 AngelSlim 后,您可以使用以下脚本快速开始 Eagle3 训练:
# Start the vLLM server
bash scripts/speculative/run_vllm_server.sh
# Generate training data
bash scripts/speculative/generate_data_for_target_model.sh
# Perform online training for the Eagle3 model
bash scripts/speculative/train_eagle3_online.sh
-----------------------------------
©著作权归作者所有:来自51CTO博客作者悟空码字的原创作品,请联系作者获取转载授权,否则将追究法律责任
把大模型塞进手机,600MB就能跑的智能助手,小到离谱,强到意外,腾讯开源了
https://blog.51cto.com/wukongmazi/14475997

开源社区

项目链接:
https://github.com/Tencent/AngelSlim
模型地址:
https://huggingface.co/AngelSlim/HY-1.8B-2Bit
https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF
技术报告:
https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf
-----------------------------------
©著作权归作者所有:来自51CTO博客作者悟空码字的原创作品,请联系作者获取转载授权,否则将追究法律责任
把大模型塞进手机,600MB就能跑的智能助手,小到离谱,强到意外,腾讯开源了
https://blog.51cto.com/wukongmazi/14475997

✍️ 结语

我始终觉得,技术的终极目标不是“更大、更复杂”,而是“更懂人、更好用”。

HY-1.8B-2Bit 或许不是最强的模型,但它代表了一种方向:让强大的AI能力,不再局限于云端数据中心,而是真正走进每个人的口袋、每个家庭的角落。

图片

谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海