使用超参数的工作方法第三部分(机器学习)

170 阅读2分钟
  1. 大型语言模型生成推理的低成本超参数优化(arXiv)

作者 :王智,刘学庆,Ahmed H. Awadallah

摘要 :像GPT-3这样的大型语言模型(LLMs)已经引发了人们对其生成能力的极大兴趣,导致了各种商业应用的发展。使用这些模型的高成本促使应用开发者在有限的推理预算下最大化生成的价值。本文提出了一项关于优化推理超参数的研究,如反应的数量、温度和最大标记,这对文本生成的效用/成本有很大影响。我们设计了一个名为EcoOptiGen的框架,利用经济的超参数优化和基于成本的修剪。在各种任务上用最新的GPT-3.5模型进行的实验验证了其有效性。EcoOptiGen在FLAML库中实现:https://github.com/microsoft/FLAML,我们提供了一个使用它的例子:https://microsoft.github.io/FLAML/docs/Examples/Integrate%20-%20OpenAI。

2.了解训练二元网络中的权重-幅度超参数(arXiv)

作者 :Joris Quist,Yunqiang Li,Jan van Gemert

摘要 : 二元神经网络(BNN)通过使用二元权重而不是实值权重来达到紧凑和高效。目前的BNN在训练中使用潜在的实值权重,其中有几个训练超参数是从实值网络中继承的。其中几个超参数的解释是基于实值权值的大小。然而,对于BNN来说,二进制权重的大小是没有意义的,因此不清楚这些超参数的实际作用。一个例子是权重衰减,其目的是保持实值权重的大小。其他的例子是潜伏权重初始化、学习率和学习率衰减,它们影响实值权重的大小。幅值对于实值权重是可以解释的,但对于二进制权重就失去了意义。在本文中,我们在网络优化过程中基于高阶梯度过滤,对这些基于幅度的超参数提供了新的解释。我们的分析使我们有可能理解基于量级的超参数是如何影响二进制网络的训练的,这使得我们可以为二进制神经网络专门设计新的优化过滤器,而这些过滤器是独立于它们的实值解释。此外,我们改进的理解减少了超参数的数量,这反过来又减轻了超参数的调整工作,这可能导致更好的超参数值,以提高准确性。代码可在github.com/jorisquist/…