来自MIT-IBM沃森人工智能实验室首届暑期项目的五位博士生正利用前沿资源,致力于解决人工智能领域的痛点,并创造新功能以提升AI的实用性和部署能力。他们的研究横跨安全性、推理效率、多模态数据和知识基础推理等多个领域,共同指向一个目标:打造更可靠、更有价值的AI模型。
学会信任,并知道何时信任
MIT数学专业的博士生Andrey Bryutkin的研究聚焦于模型的可信度。他与实验室合作,开发了一种探究大型语言模型(LLM)行为本质的方法。研究团队探索了LLM的“不确定性的不确定性”。他们利用提示-标签对以及LLM的隐藏状态(如激活向量和最后词元)来测量梯度分数、对提示的敏感度以及分布外数据,从而判断探针的可靠性,并识别难以预测的数据区域。这种方法还有助于发现潜在的标签噪声,这对于确保AI系统的可信度至关重要,因为AI的可信度完全依赖于其构建所使用标注数据的质量和准确性。更准确、更一致的探针对处理关键数据的应用领域尤为重要。
确保LLM查询响应可信赖的另一种方法是利用外部可信知识库进行增强,以消除幻觉。对于结构化数据,知识图谱(KG)是理想的选择。然而,LLM和KG之间的通信通常使用固定的多智能体流水线,计算效率低下且成本高昂。物理专业博士生Jinyeop Song与实验室研究人员创建了一个单智能体、多轮次的强化学习框架,以简化此过程。该团队设计了一个托管Freebase和Wikidata知识图谱的API服务器,以及一个能够向服务器发出针对性检索操作以获取相关信息的LLM智能体。通过连续的交互,智能体将从KG收集到的数据附加到上下文中,并对查询做出响应。至关重要的是,该系统使用强化学习进行自我训练,以提供在准确性和完整性之间取得平衡的答案。
明智地分配计算资源
模型响应的及时性和完整性与准确性同等重要。为了处理长输入文本以及故事主题随时间演变的元素,EECS博士生Songlin Yang正在重新设计模型在推理的每个步骤中能处理的内容。他与实验室的研究人员合作,致力于开发超越Transformer的下一代语言模型架构。
Transformer面临两个主要限制:由于softmax注意力机制导致的長序列建模计算复杂度高,以及RoPE(旋转位置编码)的归纳偏置较弱导致的表达能力受限。这意味着输入长度翻倍时,计算成本将翻两番。为了解决这些问题,MIT-IBM团队探索了具有理论依据且硬件高效的算法。他们采用线性注意力作为softmax注意力的替代方案,以降低限制可行序列长度的二次复杂度。他们还研究了结合softmax和线性注意力的混合架构,以在计算效率和性能之间取得更好的平衡。为了提高表达能力,他们用基于Householder变换的动态反射式位置编码取代了RoPE。这种方法能够实现更丰富的 positional interactions,从而更深入地理解序列信息,同时保持快速高效的计算。
视觉新纪元
视觉数据蕴含着大量信息,人脑可以快速解析、内化并模仿。两位研究生正通过代码探索利用视觉语言模型(VLM)实现这一目标的途径。
在过去的两个夏天里,EECS的Jovana Kondic探索了视觉文档理解,特别是图表。为了提升模型在这类任务上的表现,她的团队着手创建了一个大规模的、开源的、基于代码的合成图表数据集,可用于训练和基准测试。通过他们的原型ChartGen,研究人员创建了一个流水线:将种子图表图像传递给VLM,提示其读取图表并生成最初可能用于创建该图表的Python脚本。该框架的LLM组件随后迭代地增强来自许多图表的代码,最终生成了超过20万个独特的图表及其代码对,涵盖近30种图表类型,并附带数据和标注(如图表描述及问答对)。该团队正在进一步扩充数据集,旨在为企业应用(如财务和科学报告、博客等)中的数据可视化赋能关键的多模态理解能力。
EECS的Leonardo Hernandez Cano则将目光投向了数字设计,特别是CAD应用中的视觉纹理生成。他与Armando Solar-Lezama及Nathan Fulton领导的研究小组合作,创建了一个能够自主学会完善代码的程序合成系统。该系统首先接收用户以图像形式给出的纹理描述,生成一个初始的Python程序(该程序能产生视觉纹理),然后迭代地优化代码,目标是找到一个能生成与目标描述相匹配纹理的程序。系统会从自身产生的数据中学习如何搜索新的程序。通过这些优化,这个新颖的程序能够创建出具有所需亮度、颜色、虹彩效应等的可视化效果,从而模拟真实材料。
将这些项目综合来看,它们共同推动着人工智能朝着更强大、更实用的方向发展。通过解决可靠性、效率和多模态推理等核心挑战,这些工作为打造不仅更强大,而且更可靠、更具成本效益的AI系统铺平了道路,使其能够应用于现实世界的企业和科学领域。FINISHED