MIT博士生用探针、路由和新注意力机制革新AI来自MIT-IBM沃森人工智能实验室暑期项目的五位博士生，通过开发探针、路

来自MIT-IBM沃森人工智能实验室首届暑期项目的五位博士生正利用前沿资源，致力于解决人工智能领域的痛点，并创造新功能以提升AI的实用性和部署能力。他们的研究横跨安全性、推理效率、多模态数据和知识基础推理等多个领域，共同指向一个目标：打造更可靠、更有价值的AI模型。

学会信任，并知道何时信任

MIT数学专业的博士生Andrey Bryutkin的研究聚焦于模型的可信度。他与实验室合作，开发了一种探究大型语言模型（LLM）行为本质的方法。研究团队探索了LLM的“不确定性的不确定性”。他们利用提示-标签对以及LLM的隐藏状态（如激活向量和最后词元）来测量梯度分数、对提示的敏感度以及分布外数据，从而判断探针的可靠性，并识别难以预测的数据区域。这种方法还有助于发现潜在的标签噪声，这对于确保AI系统的可信度至关重要，因为AI的可信度完全依赖于其构建所使用标注数据的质量和准确性。更准确、更一致的探针对处理关键数据的应用领域尤为重要。

确保LLM查询响应可信赖的另一种方法是利用外部可信知识库进行增强，以消除幻觉。对于结构化数据，知识图谱（KG）是理想的选择。然而，LLM和KG之间的通信通常使用固定的多智能体流水线，计算效率低下且成本高昂。物理专业博士生Jinyeop Song与实验室研究人员创建了一个单智能体、多轮次的强化学习框架，以简化此过程。该团队设计了一个托管Freebase和Wikidata知识图谱的API服务器，以及一个能够向服务器发出针对性检索操作以获取相关信息的LLM智能体。通过连续的交互，智能体将从KG收集到的数据附加到上下文中，并对查询做出响应。至关重要的是，该系统使用强化学习进行自我训练，以提供在准确性和完整性之间取得平衡的答案。

明智地分配计算资源

模型响应的及时性和完整性与准确性同等重要。为了处理长输入文本以及故事主题随时间演变的元素，EECS博士生Songlin Yang正在重新设计模型在推理的每个步骤中能处理的内容。他与实验室的研究人员合作，致力于开发超越Transformer的下一代语言模型架构。

Transformer面临两个主要限制：由于softmax注意力机制导致的長序列建模计算复杂度高，以及RoPE（旋转位置编码）的归纳偏置较弱导致的表达能力受限。这意味着输入长度翻倍时，计算成本将翻两番。为了解决这些问题，MIT-IBM团队探索了具有理论依据且硬件高效的算法。他们采用线性注意力作为softmax注意力的替代方案，以降低限制可行序列长度的二次复杂度。他们还研究了结合softmax和线性注意力的混合架构，以在计算效率和性能之间取得更好的平衡。为了提高表达能力，他们用基于Householder变换的动态反射式位置编码取代了RoPE。这种方法能够实现更丰富的 positional interactions，从而更深入地理解序列信息，同时保持快速高效的计算。

视觉新纪元

视觉数据蕴含着大量信息，人脑可以快速解析、内化并模仿。两位研究生正通过代码探索利用视觉语言模型（VLM）实现这一目标的途径。

在过去的两个夏天里，EECS的Jovana Kondic探索了视觉文档理解，特别是图表。为了提升模型在这类任务上的表现，她的团队着手创建了一个大规模的、开源的、基于代码的合成图表数据集，可用于训练和基准测试。通过他们的原型ChartGen，研究人员创建了一个流水线：将种子图表图像传递给VLM，提示其读取图表并生成最初可能用于创建该图表的Python脚本。该框架的LLM组件随后迭代地增强来自许多图表的代码，最终生成了超过20万个独特的图表及其代码对，涵盖近30种图表类型，并附带数据和标注（如图表描述及问答对）。该团队正在进一步扩充数据集，旨在为企业应用（如财务和科学报告、博客等）中的数据可视化赋能关键的多模态理解能力。

EECS的Leonardo Hernandez Cano则将目光投向了数字设计，特别是CAD应用中的视觉纹理生成。他与Armando Solar-Lezama及Nathan Fulton领导的研究小组合作，创建了一个能够自主学会完善代码的程序合成系统。该系统首先接收用户以图像形式给出的纹理描述，生成一个初始的Python程序（该程序能产生视觉纹理），然后迭代地优化代码，目标是找到一个能生成与目标描述相匹配纹理的程序。系统会从自身产生的数据中学习如何搜索新的程序。通过这些优化，这个新颖的程序能够创建出具有所需亮度、颜色、虹彩效应等的可视化效果，从而模拟真实材料。

将这些项目综合来看，它们共同推动着人工智能朝着更强大、更实用的方向发展。通过解决可靠性、效率和多模态推理等核心挑战，这些工作为打造不仅更强大，而且更可靠、更具成本效益的AI系统铺平了道路，使其能够应用于现实世界的企业和科学领域。FINISHED