Datawhale组队学习-大语言模型-day06

58 阅读1分钟

解码与部署

前面的工作主要都是在让机器理解我们提出的问题,这部分开始让机器给出答案,并部署到生产环境中。

大模型解码

目前最常见的还是transformer的自回归解码器,讲义的这部分大概描述了一下解码器的完善过程。

  1. 经典的贪心算法,每步只选当前最优解。
  2. 束搜索。为了避免局部最优,每次同时保留匹配度前几的答案。
  3. 随机采样。用概率分布推导后续词元,后面是这种思路的改进措施。
  4. 温度词元。人为加入随机性的温度函数,这个很多应用配置的时候能看到这个选项。
  5. top-k。仅从概率前k高的词中采样。
  6. top-p。从累计概率和前p高的词中采样。
  7. 重复惩罚和对比解码。

局部截取_20250316_232252.png

解码效率分析和加速算法

评估指标主要有运算量、访存量、计算强度。这部分讲了如何估算模型的这些指标,以及系统及优化等策略来平衡上述指标。(又是最优化问题)

局部截取_20250316_232957.png

模型压缩

部署的时候需要压缩以减小模型占的空间,常见的就是量化、蒸馏、剪枝这些。

局部截取_20250316_233240.png

总结:感受到最优化问题无处不在,世界上多数的事情都做不到十全十美,只能综合平衡之后选择最适合自己的,所以工程化落地的过程中最优化问题还会经常出现。