腾讯开源翻译模型，源码地址+部署脚本，手机端可部署1GB内存就能跑腾讯混元团队开源了翻译模型1.5版本，一出手就是两个“

大家好，我是小悟。

腾讯混元团队开源了翻译模型1.5版本，一出手就是两个“王炸”，Tencent-HY-MT1.5-1.8B和Tencent-HY-MT1.5-7B两个尺寸的模型，把端侧翻译的门槛拉到了新低，效果还比很多商用API更猛。

端侧部署，1GB内存就能跑，手机翻译自由来了。1.8B模型居然能在手机端离线跑。根据腾讯官方数据，这个模型经过量化压缩后，内存占用不到1GB。

实测显示，处理50个单词的翻译任务，平均耗时只要0.18秒，而主流商用API普遍需要0.4秒左右。

这意味着什么？可以这样想象一下，你在国外旅游时用手机翻译菜单，或者和外国客户视频会议时实时生成字幕，不用担心网络卡顿了。

更绝的是，这个模型还支持33种语言互译，连捷克语、冰岛语这种小众语种都覆盖了。

你要是做跨境电商，之前为了翻译小语种商品描述，不得不买多个付费API接口，现在直接用混元1.8B就能搞定。可以说是“小身材大能量”的设计。

当然，光快不够，翻译质量才是硬指标。

根据权威测试数据，在FLORES-200、WMT25等国际基准测试中，1.8B模型的成绩达到了Gemini-3.0-Pro这种超大闭源模型的90分位水平。

要知道，后者可是参数规模几十倍的“巨无霸”，而混元1.8B只用不到2GB的内存就实现了类似效果，这波操作堪称“四两拨千斤”。

它的专业场景适配能力也值得一提。比如法律合同翻译，混元支持自定义术语库，能确保“不可抗力”“违约责任”这些关键词始终准确统一。

医学文献翻译时，它能理解长段落中的上下文逻辑，避免“指代不清”的尴尬。甚至翻译网页时，还能保留原文的排版格式，直接复制就能用。

这些细节优化，解决了传统翻译工具“机械直译”的痛点，让AI真正成为生产力工具。

混元团队这次用了一个很巧的技术，On-Policy Distillation（策略蒸馏）。简单来说，就是让7B的大模型当“老师”，实时指导1.8B的小模型学习。

但和传统蒸馏方法不同，它不是让小模型死记硬背答案，而是通过纠正预测序列的偏差，让小模型自己“悟”出翻译规律。

这种“启发式”训练方式，让小模型在参数量少的情况下，依然能保持高准确率和泛化能力。

这种技术路线，或许成为“轻量化+专业化”的行业趋势。大模型负责攻克通用任务，小模型通过蒸馏技术继承核心能力，再针对特定场景优化。

这样既能降低部署成本，又能满足多样化需求。腾讯这次开源，相当于给开发者提供了一套“端侧翻译解决方案”，模型开源降低了技术门槛。

说到开源，模型不仅在GitHub和HuggingFace等平台上线，还支持Arm、高通、Intel等多平台部署。

这意味着开发者可以轻松把它集成到手机、IoT设备甚至车载系统中。目前混元翻译已经在腾讯会议、企业微信等内部产品中落地。

开发者对这类“小而美”的模型需求应该很大。以后可能会出现针对医疗、教育、游戏等垂直领域的定制版混元翻译，甚至有人用它开发离线翻译APP，直接挑战传统翻译软件的市场。

混元团队这次开源，或许说明了AI落地不需要“堆参数、烧算力”。通过算法优化和场景深耕，小模型也能在特定领域实现超越大模型的效果。

对于普通用户来说，这意味着更低的使用成本、更快的响应速度和更可靠的隐私保护。对于开发者来说，则提供了一个可复用的技术框架，加速AI应用的创新。

本地安装与使用，源代码部署，更多详细步骤和用法，详见仓库文档：

与 transformers 一起使用
首先，请安装 transformers，推荐版本 v4.56.0

pip install transformers==4.56.0

如果您想使用 transformers 加载 fp8 模型，您需要将 config.json 中的 "ignored_layers" 名称更改为 "ignore"，并将 compressed-tensors 升级到 compressed-tensors-0.11.0。

以下代码片段展示了如何使用 transformers 库来加载和应用模型。

我们以 tencent/HY-MT1.5-1.8B 为例。

from transformers import AutoModelForCausalLM, AutoTokenizer
import os

model_name_or_path = "tencent/HY-MT1.5-1.8B"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")  # You may want to use bfloat16 and/or move to GPU here
messages = [
    {"role": "user", "content": "Translate the following segment into Chinese, without additional explanation.\n\nIt’s on the house."},
]
tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=False,
    return_tensors="pt"
)

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])

开源社区：

混元官网：https://hunyuan.tencent.com/modelSquare/home/list
Github链接：https://github.com/Tencent-Hunyuan/HY-MT
HuggingFace链接：https://huggingface.co/collections/tencent/hy-mt15

谢谢你看我的文章，既然看到这里了，如果觉得不错，随手点个赞、转发、在看三连吧，感谢感谢。那我们，下次再见。

您的一键三连，是我更新的最大动力，谢谢

山水有相逢，来日皆可期，谢谢阅读，我们再会

我手中的金箍棒，上能通天，下能探海