AI大模型技术突破篇:第18期

178 阅读13分钟

🌟 技术突破

谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!

mp.weixin.qq.com/s/n7vUg1Dum…

谷歌提出了全新的注意力机制,取代传统的遗忘机制,重新定义了AI架构设计。新模型Moneta、Yaad、Memora在多个任务上全面超越Transformer,参数减少40%,训练速度提升5-8倍。研究者引入了注意力偏向和保留门控的概念,提出了Miras框架,指导下一代序列模型的构建。新模型在语言建模、常识推理和记忆密集型任务中表现卓越,创造了多项新纪录。

用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025

mp.weixin.qq.com/s/rfV4WndSi…

复旦大学与腾讯优图实验室合作开发了一种基于扩散模型的少样本异常图像生成新模型DualAnoDiff,用于工业品异常检测。该模型通过双分支并行生成机制,生成异常图像及其对应异常区域,显著提升了检测模型的性能。实验结果表明,DualAnoDiff生成的异常图像在真实性与多样性上均取得了新SOTA,并有效增强了模型对复杂背景的拟合能力。此项研究将推动异常图像生成领域的发展。

苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

mp.weixin.qq.com/s/8B9wGazYn…

苹果最新研究揭示大推理模型(LRM)在高复杂度任务中普遍「推理崩溃」,即便给予明确算法提示,模型亦无法稳定执行,暴露推理机制的局限性。研究通过可控游戏环境的系统实验证明,现有LRMs在高复杂度任务上力不从心,甚至展现出「反常的推理崩溃曲线」。研究还通过在相同计算token预算下对比思考模型与普通模型,发现简单题目反而是传统大模型(LLMs)更强,而一旦太复杂,两类模型准确率同时坍塌至0%。

清华大学推出AutoMat AI Agent,加速电子显微镜分析

mp.weixin.qq.com/s/EG1Df6fzq…

清华大学与西北工业大学及上海AI lab合作推出了电镜领域的AI agent——AutoMat。该智能体能够将原子级STEM图像自动转化为标准CIF结构,并提供形成能等关键物性,大幅缩短了从显微成像到性质预测的时间。AutoMat在重建精度和能量预测上全面超越现有工具,为材料发现和实验流程的自动化提供了新的可能性。

OpenAI发布新论文:线性布局实现高效张量计算

mp.weixin.qq.com/s/iln4Kz0A2…

OpenAI 近日发布了一篇名为《Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using 𝔽₂》的研究论文,提出了一种用于高效张量映射的统一代数框架。该框架使用二元线性代数而非比特表示,解决了 Triton 等深度学习编译器中长期存在的难题。论文中详细介绍了线性布局的定义、基本算子及其在 Triton 中的应用,并通过实验验证了其在不同硬件平台上的性能提升。

AI视频模型新玩法:Luma AI推出Modify Video,重塑视频体验

mp.weixin.qq.com/s/UPnXhAz2l…

Luma AI推出的Modify Video功能,能够在保留原视频动作的同时,重构环境、照明和纹理,实现角色、场景、动作的精准控制。该功能支持视频动捕、风格迁移和单个元素编辑,用户可以在不影响原有性能的前提下,轻松实现各种风格的转换。Luma AI在与Runway V2V的对比中表现出色,多个关键指标领先。公司由Amit Jain和Alex Yu创立,专注于计算机视觉领域,最新一轮融资金额达9000万美元。

大模型结构化推理优势难复制到垂直领域!最新法律AI评估标准来了,抱抱脸评测集趋势第一

mp.weixin.qq.com/s/RpXrssl8v…

大模型在法律推理领域的应用面临挑战,苏黎世联邦理工学院等机构发布了多语言法律推理基准数据集LEXam。该数据集包含来自瑞士大学法学院的真实法律考试题目,旨在评估大模型在复杂法律推理中的能力。研究表明,现有大模型在长篇开放性法律问答题上表现困难,尤其在多步分析和复杂规则应用的情境下。LEXam引入了“LLM-as-a-Judge”模式,通过模型评估其他模型生成的法律推理步骤质量,与专家评估结果高度一致,为法律推理评估提供了高效的自动化支持。

最新研究揭示:GPT模型每参数可记忆3.6比特信息

mp.weixin.qq.com/s/DAoNui-_u…

Meta、DeepMind、康奈尔大学和英伟达的研究团队发现,GPT系列模型的记忆容量约为每个参数3.6比特。这项研究通过区分模型的记忆与泛化能力,提出了一种新方法来估计模型对数据点的了解程度。研究表明,随着数据集规模的增加,模型会持续记忆直到容量饱和,之后开始泛化。研究还借鉴了信息论之父Claude Shannon的理论,为理解复杂信息系统提供了新视角。实验结果显示,模型的容量与参数数量呈线性关系,且在不同精度下,容量略有提升。

Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

mp.weixin.qq.com/s/6Yc4THSoB…

Meta与约翰霍普金斯大学联合推出的CrossFlow框架,通过流匹配技术实现了跨模态生成的突破性进展。该框架无需依赖噪声分布或复杂条件机制,直接在模态间进行映射。CrossFlow在多个任务上(如图像生成、字幕生成、深度估计、超分辨率)实现了媲美乃至超过最优算法的性能。其核心创新在于使用变分编码器和流匹配模型,形成正则化的潜在空间,实现模态间的平滑映射。实验表明,CrossFlow在生成质量、训练成本和生成速度上均有显著提升。

普林斯顿大学推出Alita:开启AI自主进化新时代

mp.weixin.qq.com/s/vmp8H-3S_…

普林斯顿大学AI实验室推出了一种名为Alita的通用智能体,旨在通过最小化预定义和最大化自我进化来提升智能体的创造力和泛化能力。Alita在GAIA基准测试中表现优异,成为通用智能体的新标杆。其核心设计理念是让智能体自主创造MCP工具,而不依赖人工预设,从而实现动态能力扩展和跨生态系统的兼容性。Alita的成功展示了简约设计在智能体发展中的重要性,预示着未来通用AI助手的设计将更加简化。

超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试

mp.weixin.qq.com/s/GDe5Dm17e…

来自加拿大滑铁卢大学与TikTok新加坡的M-A-P华人团队提出了一种全新训练框架:General-Reasoner。该框架通过引入全领域推理数据集和生成式答案验证器,显著提升了Qwen系列大模型的跨领域推理能力,准确率提升近10%。在多个基准测试中,General-Reasoner的表现甚至超越了GPT-4o。研究团队计划继续优化模型性能,扩展更多领域的高质量推理数据,并提升验证器的鲁棒性。

开源播客生成MoonCast:让AI播客告别"机械味",中英双语对话更自然!

mp.weixin.qq.com/s/GMHtJ2yoa…

MoonCast是一款革新性的对话式语音合成模型,专为高质量播客内容创作量身打造。它利用强大的零样本语音合成技术,仅需数秒参考音频即可合成逼真语音。MoonCast通过LLM(大型语言模型)在剧本生成和音频建模方面的创新突破,实现了更自然的AI播客系统。其采用全面规模化策略,从模型参数、训练数据到上下文长度进行扩展,提升了AI播客的自然度和连贯性。实验表明,MoonCast在中英双语长对话播客的自然度和连贯性方面表现优异,接近真人播音效果。

UCLA与谷歌合作:3DLLM-MEM模型在3D环境中实现长时记忆突破

mp.weixin.qq.com/s/Vv8VtTUtC…

加州大学洛杉矶分校(UCLA)与谷歌研究院的研究团队开发了3DLLM-MEM模型和3DMEM-BENCH基准,首次让AI在复杂3D环境中具备构建、维护和利用长时记忆的能力。3DLLM-MEM通过双记忆架构和动态更新机制,显著提升了AI在具身任务和时空推理中的表现。在3DMEM-BENCH基准测试中,3DLLM-MEM的成功率比最强基线高出16.5%。尽管取得了重大突破,研究团队指出模型仍需与底层导航和控制结合以实现更广泛的应用。

智源发布Video-XL-2模型

mp.weixin.qq.com/s/gCleiTqm0…

智源研究院联合上海交通大学等机构发布了新一代超长视频理解模型Video-XL-2。该模型在效果、处理长度与速度上全面优化,支持单卡处理万帧视频,编码2048帧仅需12秒。Video-XL-2在MLVU、Video-MME、LVBench等主流评测基准上表现出色,显著提升了多模态大模型对长视频内容的理解能力。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。

视觉感知驱动的多模态推理,阿里通义提出VRAG,定义下一代检索增强生成

mp.weixin.qq.com/s/q3HD4xHK0…

在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。阿里巴巴通义实验室推出的VRAG-RL(Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning)通过引入强化学习算法,提升了视觉语言模型(VLMs)在检索、推理和理解视觉信息方面的能力。VRAG-RL通过定义视觉感知动作空间,使模型能够从粗到细地逐步聚焦信息密集区域,精准提取关键视觉信息。该框架在各个基准数据集上均取得了显著优于现有方法的性能,涵盖了从单跳到多跳推理、从文本到图表和布局等多种复杂的视觉和语言任务类型。

音频大模型安全可信度的全面“体检”!6大维度,清华南洋理工联手打造

mp.weixin.qq.com/s/gKifSw2iQ…

清华大学与南洋理工大学的研究团队推出了首个专为音频大语言模型(ALLMs)设计的多维度可信度评估基准——AudioTrust。该框架涵盖六个核心维度:公平性、幻觉、安全性、隐私、鲁棒性和身份验证,旨在解决音频模态特有的安全与可信问题。研究团队通过构建4,420+条音频/文本样本的数据集,深入探究ALLMs在高风险场景下的表现边界与局限性。实验结果揭示了当前开源与闭源ALLMs在高风险任务中的信任边界与脆弱环节,为后续研究奠定了基础。

推理“刹不住车”?新框架让DeepSeek-R1们告别过度思考,已开源

mp.weixin.qq.com/s/3Rkdh6FNF…

浙江大学、天津大学和微软亚洲研究院的研究团队提出了一种新方法,称为Self-Braking Tuning(SBT),旨在解决大模型在推理任务中出现的过度思考问题。SBT是一种轻量级、通用的调优机制,能够无缝集成到现有大模型中,帮助模型在最短路径上到达正确答案。其核心设计包括刹车信号机制和多任务微调,能够让模型在无需外部干预的情况下,适时终止推理过程。实验结果显示,SBT框架在多个数学推理数据集上展现出了显著的性能提升,尤其是在推理效率方面,取得了前所未有的进展。

斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了

mp.weixin.qq.com/s/IfaaqPlzA…

斯坦福大学最新的医疗任务评测显示,DeepSeek R1在35个基准测试中以66%的胜率领先,宏观平均分为0.75,表现优异。评测框架MedHELM涵盖了22个子类别的医疗任务,经过临床医生验证,确保了评估的全面性和准确性。研究团队还开发了13个全新基准测试,其中12个基于真实电子健康记录数据,弥补了现有评估中真实医疗数据使用不足的问题。评估结果显示,DeepSeek R1在临床决策支持、患者沟通与教育等任务中表现出色,而在管理与工作流程类别中的得分相对较低。

思维链也会「跳帧」?浙大团队提出CoT-Bridge,显著提升数学推理性能

mp.weixin.qq.com/s/Gjz9CLEGn…

浙江大学联合微软亚洲研究院、香港中文大学提出了Thought Leap Bridge任务,并开发了思维链修复方法:CoT-Bridge。该方法显著提升了多个数学与逻辑任务中的推理准确率,并能作为“即插即用”的模块嵌入到知识蒸馏、强化学习等流程中。研究团队通过实验验证,补全后的数据集在多个数学基准任务上均带来了显著的性能提升,最大增益达到+5.87%。此外,CoT-Bridge还在逻辑推理类任务中表现出色,提升了模型的泛化能力和鲁棒性。

训练MoE足足提速70%!华为只用了3招

mp.weixin.qq.com/s/kOLEdpPDA…

在Scaling Law的推动下,MoE(混合专家)模型成为扩展模型能力的关键。然而,MoE的训练效率问题日益突出,华为通过构建Adaptive Pipe & EDPB优化方案,成功解决了这一瓶颈。该方案通过通信掩盖技术和动态专家路由,实现了无等待的流畅运行。此外,华为还推出了DeployMind仿真平台,能够在1小时内模拟百万次训练场景,找到最优策略。实验结果显示,华为的优化方案在Pangu Ultra MoE 718B模型的训练中,实现了72.6%的训练吞吐提升。