大语言模型长文本性能衰退的预测公式研究新加坡国立大学数学系博士生Maxime Meyer的研究聚焦于大语言模型在处理超长

在本次系列访谈中，我们与AAAI/SIGAI博士联盟的部分参与者进行了交流，以深入了解他们的研究。我们采访了Maxime Meyer，与他聊了聊他目前的研究、未来计划以及他在博士联盟中的体验。

能否先介绍一下你自己，你在哪里学习以及你的研究课题？ 你好，我是Maxime，新加坡国立大学数学系的二年级博士生。我的研究方向是大语言模型。

你关注大语言模型的哪个方面？ 人们注意到，像ChatGPT这样的大语言模型，在处理常规长度的提示时通常表现良好，但当输入变得非常长时，其回答质量可能会下降。例如，如果你粘贴一份100页的PDF文件，模型可能会遗漏细节、感到困惑或给出不太可靠的答案。我的研究专注于理解随着输入变长这种性能下降的现象。我研究其发生的原因、随着文本增长如何演变，以及我们能否预测或限制这种下降。

近年来，模型已经取得了很大进步。过去，即使是一页文本对它们来说也可能很困难。如今，处理一页文本通常没问题。但非常长的文本仍然是一个问题。如果你想将一整本书（比如《圣经》）输入模型并提出一个具体问题，对当前系统来说信息量就太大了。同样的问题也出现在处理长篇的公司政策文件或大量规则和指令时。

你的工作中是否有特别有趣的方面？ 一个特别有趣的成果是，我们最近开发了可以预测模型性能的公式。基于模型的一些基本特征，我们可以估算出它能可靠处理的最大输入长度。这意味着我们并不总是需要进行大量的实验来寻找它的极限。具体来说，如果某机构拥有一个模型，并希望它能处理更长的提示，他们可以使用这些公式立即获得指导。通过调整某些参数，他们可以预期模型能够处理两倍甚至三倍长的输入，而无需通过反复试验来测试每一种可能性。

你计划如何扩展这方面的工作？ 我们正在探索两个主要方向。首先，我们希望将我们的技术应用于关于大语言模型的其他问题，而不仅仅是我们研究的特定场景。其次，我们正在努力优化我们的结果，以使预测更加精确。

你之前的一个项目是关于未知量子态的在线学习。能和我们聊聊那个项目吗？ 这个项目聚焦于量子计算中的一个问题。量子计算机类似于普通计算机，但它不是将信息存储为明确的0和1，而是将信息存储在量子态中。在普通计算机中，很容易判断一个比特是0还是1——你可以通过导线测量电信号并直接读取。而在量子计算机中，“比特”被量子态取代，这可能要复杂得多。要准确判断系统处于哪种状态要困难得多，这也是构建和使用量子计算机的主要挑战之一。在我们的工作中，我们研究了如何通过重复测量来逐步学习一个未知的量子态。我们专注于两个常用的量子态族。其中一个具有更高的对称性，因此人们认为它更容易学习。我们展示的是，在某些情况下，这种优势消失了：这两个家族的学习难度可能是一样的。

你对博士联盟和整个会议体验感觉如何？ 这是一次很棒的体验。这是我第一次展示我在大语言模型方面的工作，我收到了很多有用的反馈。博士联盟还让我们有机会与资深研究人员进行为期两天的密切交流。我们不仅讨论了研究，还讨论了职业发展、学术界的挑战，以及根据我们具体目标需要注意的事项。我收获了很多宝贵的见解。

你的背景是什么？是什么让你想研究人工智能，特别是大语言模型？ 我的背景是数学。我收到了来自两位我很喜欢的导师的录取通知，我接受了，因为我知道与合得来的人一起工作有多重要。我们也有灵活度可以在之后定义具体课题。其中一位导师建议我研究大语言模型，因为它们非常热门。我听从了他的建议，到目前为止我非常享受！我也感到幸运，我的背景与人工智能研究非常契合。该领域的许多人来自计算机科学背景，而受过非常扎实数学训练的研究者往往选择留在纯数学领域。然而，数学技能在人工智能研究中很受重视，所以我的技能组合恰好很合适。从事人工智能研究的另一个优势是，在纯数学领域，通常需要多年的学习才能完全理解前沿并开始做出贡献。相比之下，人工智能更侧重于广度而非深度。有了扎实的数学背景，你可以相对较快地跟上进度，并开始着手解决各种研究问题。

对于考虑攻读该领域博士学位的人，你有什么建议吗？ 主要是确保你处于一个良好的环境中，有合得来的导师，并且在一个你想居住的地方。环顾四周，我确实觉得这是决定人们是享受博士生涯还是经历几年艰难时光的最重要因素。如果你在一个没有朋友或家人的新城市，不喜欢那里的气候，并且每天都要和你不喜欢的人一起工作，那很快就会变得很艰难。相反，如果你有好的导师，并且处在一个你知道可以享受乐趣并能茁壮成长的环境中，那么攻读博士学位将是一次不可思议的经历。

你在攻读博士学位之外喜欢做什么？ 我的主要爱好是运动，我经常练拳击。博士开始时我就不再参加比赛了，但我仍然每天训练。

关于Maxime Meyer

我是Maxime，新加坡国立大学数学系的二年级博士生，师从Vincent Tan教授和Caroline Chaux教授。我主要对研究大语言模型的理论基础感兴趣。尽管它们取得了广泛的成功，但这些架构——以及它们依赖的数十亿参数——仍然没有得到很好的理解。我的目标是阐明控制它们的基本方程。每个参数扮演什么角色？我们如何量化修改它们对模型性能的影响？这些见解如何帮助我们设计更高效、更可解释的人工智能模型？FINISHED