本文作者：白牛

我们之前开源了 LLM 群聊助手茴香豆（以下简称豆哥），它的特点是：

设计了一套拒答 pipeline，实用于群聊场景。 能够有效抵抗各种文本攻击、过滤无关话题，累计面对 openmmlab 数千用户运行半年（ 17 个群、7w 条群消息）。这个过程确认了 text2vec 模型更适合反着用
工业级开源。 除算法 pipeline 外，还实现对应的 android、web service， License 支持商用
成本低。 配合 LLM API 只需要 1.5G 显存

此外我们还工程优化了 ReRoPE，llama2 13B 在 A100 单卡上不训练，就可以从 8k 外推到 40k token。

然而在群聊中，豆哥往往会遇到类似对话：

张三：mmpose 支持移动端部署么？
李四：搭车问一下，怎么把它部署到 TX2 ？
王二：你们说的是哪家的算法框架？

显然 “它” 应该替换成 "mmpose"，然而豆哥处理李四的问题时，不能直接输入所有人的对话，否则会影响 pipeline 精度；受成本约束，也不能每一句都消，所以整件事第一步是，判断应不应该消歧。

项目链接：

github.com/internlm/hu…

（文末点击阅读原文可直达，欢迎点亮小星星）

为了解决上述问题，我们使用的方法是手工标注 + SFT 优化 LLM，也就是 NLPer 常见地，用 LLM 优化下游 NLP 任务。

最终结果如上图，“0.5B 媲美 14B”。

绿色的是训练前的 precision 曲线，证明反反复复标一周没白干，确实能靠 scaling law 明确问题和训数据；

蓝色的是训练后的 F1 score 曲线。

14B 的 recall 是最高的、能达到 92.11
32B 的 F1 score 最高，到了85.58
额外地，MoE-2.7B 涨了 +29.07，详见见 arXiv 里的表格

本文贡献是：

如何证明标注本身没有 bias ？ 我们使用 scaling law 定义问题、确认标注可靠。

scaling law 是说数据内容不变，精度随参数量和训练数据量线性增大。

反过来想，取一组相同架构的 LLM（qwen 0.5～32B）不变，prompt 和数据标注变化。如果数据的精度表现，随模型体积而改善，那是不是证明了数据标得好？

当然这个 “标得好” 更多的是和 qwen 更契合，更容易 finetune、更适合 GPU-poor