把大模型塞进手机，600MB就能跑的智能助手，小到离谱，强到意外，腾讯开源了这两天刷到一条消息，腾讯混元把自家一个“极小

大家好，我是小悟。

这两天刷到一条消息，腾讯混元把自家一个“极小”模型 HY-1.8B-2Bit 开源了，而且明确是面向手机、耳机、智能家居这类消费级硬件的端侧模型。

💡 HY-1.8B-2Bit 是什么？

简单来说，它是一个为“本地运行”而生的小语言模型。

出身：基于混元 HY-1.8B-Instruct，通过2Bit量化感知训练（QAT）得来。

体型：等效参数量约0.3B，实际存储占用约600MB，模型大小仅为原始精度的1/6。

能力：保留了原版的思维链，能根据任务复杂度输出不同深度的推理过程。

性能：在数学、代码、科学等核心指标上，与4Bit PTQ版本表现接近，实现了“小而强”的目标。

🤔 它解决了什么痛点？

我更愿意把它理解成：过去我们总觉得“本地小模型 = 智商打折”，现在腾讯在尝试把这条公式改一改。

硬件门槛高：很多设备内存就几GB，跑个7B、13B的模型，光加载就卡半天，更别提实时对话了。

云端依赖强：在线推理虽好，但总有网络不稳、延迟高、隐私泄露的担忧。

能力差距大：传统的小模型，一遇到复杂推理就“露怯”，体验甚至不如十年前的搜索引擎。

HY-1.8B-2Bit 的思路很直接：既然硬件有限，那就把模型“压”到极致，同时尽可能保住能力。

它等效参数量只有0.3B，实际存储占用约600MB，比不少手机应用还小，却保留了原版 HY-1.8B-Instruct 的完整思考能力，能根据任务复杂度切换长/短思维链。

在真实设备上，生成速度还能比原始精度模型快2-3倍。这背后是混元团队自研的2Bit量化感知训练（QAT）方案，通过数据优化、弹性拉伸量化等技术，把2Bit量化带来的精度损失压到了最低。

HY-1.8B原始精度模型

HY-1.8B-2Bit模型

🚀 核心功能：麻雀虽小，五脏俱全

别看它小，本事可不小。

离线推理：无需联网，所有计算都在设备本地完成，响应速度和隐私性都有保障。

思维链推理：能像大模型一样，先“想清楚”再“回答”，处理复杂问题时更有条理。

多场景适配：已在Arm等计算平台完成适配，可高效运行于支持Arm SME2技术的移动设备上。

🏃‍♂️ 使用体验：快到飞起

官方放出的测试数据相当亮眼：

MacBook M4芯片：在1024输入长度内，首字时延加速3-8倍，生成速度稳定提升至少2倍。

天玑9500平台：相比Q4格式，首字时延加速1.5-2倍，生成速度提升约1.5倍。

这意味着，在手机或平板上进行本地对话，延迟可以低到几乎无感，体验接近云端大模型，但完全不受网络影响。

👍 为什么推荐它？

对开发者：提供了一个“能跑、能调、能商用”的极低成本入口。无论是做个人助手、智能客服，还是嵌入到各种App中，都非常友好。

对普通用户：未来你用的App可能会更“聪明”，但不再那么依赖网络。你的数据更安全，体验也更流畅。

对行业：这是一次技术上的示范，证明了“小模型也能很强”。它可能会催生出更多创新的应用形态，让AI真正融入日常生活。

安装部署

1. 安装 AngelSlim
推荐使用 pip 安装 AngelSlim 的最新稳定版本：
pip install angelslim
或者，您可以克隆仓库并在可编辑模式下从源代码安装：
cd AngelSlim && python setup.py install


2. 快速入门
安装 AngelSlim 后，您可以使用以下脚本快速开始 Eagle3 训练：
# Start the vLLM server
bash scripts/speculative/run_vllm_server.sh
# Generate training data
bash scripts/speculative/generate_data_for_target_model.sh
# Perform online training for the Eagle3 model
bash scripts/speculative/train_eagle3_online.sh
-----------------------------------
©著作权归作者所有：来自51CTO博客作者悟空码字的原创作品，请联系作者获取转载授权，否则将追究法律责任
把大模型塞进手机，600MB就能跑的智能助手，小到离谱，强到意外，腾讯开源了
https://blog.51cto.com/wukongmazi/14475997

开源社区

项目链接：
https://github.com/Tencent/AngelSlim
模型地址：
https://huggingface.co/AngelSlim/HY-1.8B-2Bit
https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF
技术报告：
https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf
-----------------------------------
©著作权归作者所有：来自51CTO博客作者悟空码字的原创作品，请联系作者获取转载授权，否则将追究法律责任
把大模型塞进手机，600MB就能跑的智能助手，小到离谱，强到意外，腾讯开源了
https://blog.51cto.com/wukongmazi/14475997

✍️ 结语

我始终觉得，技术的终极目标不是“更大、更复杂”，而是“更懂人、更好用”。

HY-1.8B-2Bit 或许不是最强的模型，但它代表了一种方向：让强大的AI能力，不再局限于云端数据中心，而是真正走进每个人的口袋、每个家庭的角落。

谢谢你看我的文章，既然看到这里了，如果觉得不错，随手点个赞、转发、在看三连吧，感谢感谢。那我们，下次再见。

您的一键三连，是我更新的最大动力，谢谢

山水有相逢，来日皆可期，谢谢阅读，我们再会

我手中的金箍棒，上能通天，下能探海