马斯克与OpenAI分歧始末曝光、星舰第六次试验成功实现太空重启、FLUX“官方版ControlNet”| AGI 掘金视界周刊11月第3周

avatar
公众号: 小包学前端

AGI 掘金视界周刊由 AGI 掘金知识库共建者战场小包维护,每周一更新,包含热点聚焦、应用破局、学术前沿、智见交锋、跨界 AI、企业动态和争议 AI 七大板块,后续板块划分和内容撰写在周刊迭代过程中持续优化,欢迎大家提出。

欢迎大家来到《AGI 掘金视界周刊10月第3周》(11/18~11/24)。

✨ 热点聚焦

马斯克与OpenAI分歧始末曝光

近期,新披露的邮件揭示了马斯克与OpenAI分歧的早期细节。2016年,OpenAI寻求微软合作以获取计算资源,但马斯克对此表示反对。随后,OpenAI提出与微软的合作协议,马斯克要求避免成为微软营销工具。这些邮件是马斯克对OpenAI和微软诉讼的一部分,表面上是为证明微软与OpenAI的反竞争合作关系,实则揭露了OpenAI从非营利组织向微软闭源子公司的转变,以及马斯克与山姆·奥特曼之间权力斗争的瓦解。

星舰第六次试验成功实现太空重启

SpaceX的星舰第六次试验取得成功,猛禽发动机在太空中成功重启,飞船本体最终溅落在印度洋预定区域。此次试验重点在于发动机的二次点火,展示了星舰在轨道上进行减速的能力。试验还包括测试新隔热材料和更陡峭的降落角度。SpaceX计划从第七次测试开始对星舰进行重大升级,包括更大的推进剂箱和重新设计的顶部襟翼等。这次成功试验进一步推进了星舰实现可回收复用的目标,为未来的太空探索任务奠定了基础。

OpenAI年度离职高管大盘点

2024年,OpenAI经历了高管离职潮,至少8位高管离开,包括安全副总裁Lilian Weng、首席技术官Mira Murati、首席研究官Bob McGrew、研究副总裁Barret Zoph、联合创始人John Schulman、首席科学家Ilya Sutskever、超级对齐团队负责人Jan Leike和联合创始人Andrej Karpathy。这些高管的离职反映了商业看法、技术路线和发展方向上的分歧。他们的新动向包括创业、加入其他AI公司或专注于AI对齐研究。这一离职潮对行业产生了深远影响,引发了对大模型公司未来和人工智能行业人才环境构建的讨论。

FLUX“官方版ControlNet”

AI绘图模型FLUX推出了四款官方工具,包括编辑工具fill、轮廓控制工具Canny、景深控制工具Depth和变换工具Redux,旨在提高图像生成的控制性和可操作性。这些工具能够修改画面细节、扩展画面、精准控制图像结构和景深,以及变换人物动作和画面风格。工具分为dev和pro两个版本,dev版代码和模型权重已开放下载,pro版通过API提供。这些工具的发布被视为AI绘图领域的一项重大进展,支持ComfyUI并可整合进绘画工作流,为创意绘图带来新的可能性。

巴黎圣母院“浴火重生,AI 数字建模创奇迹

历经5年,巴黎圣母院在AI数字建模的帮助下完成修复,将于12月7-8日重新开放。2019年大火后,法国政府承诺5年内重建,动员了250多家公司和2000多名工匠,投资约7亿欧元。AI技术在重建中发挥了关键作用,通过3D数字建模和模拟设计方案,无人机提供了复杂的内部视图。重建使用了2400棵橡树,2000多座雕塑和装饰物得到重建。巴黎圣母院的修复不仅是文化复兴,也是古老工艺与现代科技的完美结合。

📲 应用破局

Mistral AI发布Pixtral 12B多模态大模型

Mistral AI发布了其首款多模态大模型Pixtral 12B,该模型在文本和图像处理能力上表现出色。Pixtral 12B采用Transformer架构,具备多轮、多图像对话的能力,其视觉编码器PixtralViT能处理各种分辨率和纵横比的图像。在多模态基准测试中,Pixtral 12B的性能优于其他同等大小的开源模型,甚至在某些测试中超过了Meta的Llama-3.2 90B模型。此外,Mistral AI还贡献了一个名为MM-MT-Bench的开源基准测试,用于评估视觉语言模型在实际场景中的表现。Pixtral 12B的成功展示了Mistral AI在多模态AI领域的技术实力。

AI智能体模拟真实人类行为达到85%相似度

斯坦福大学的研究团队通过深度访谈1052名参与者,将访谈内容输入语言模型,成功创建了1000多个AI智能体,这些智能体在模拟人类行为上达到了85%的相似度。研究使用了GPT-4o进行两小时的采访,覆盖了不同性别、年龄、地区等背景,并将访谈内容作为文字提示输入模型。这些智能体在社会调查、人格预测、经济博弈等方面的表现与人类相当,为AI处理复杂交互提供了新的可能性。该研究不仅展示了生成式AI代表真实人类的能力,还通过开源存储库和Python包,使研究结果可供公众使用。

阿里通义千问发布Qwen2.5-Turbo开源AI模型

阿里通义千问发布了Qwen2.5-Turbo开源AI模型,将上下文长度从12.8万扩展至100万tokens,相当于约100万英语单词或150万汉字。模型在Passkey检索任务中实现100%准确率,并在RULER长文本评估中得分93.1,超越GPT-4和GLM4-9B-1M。通过整合稀疏注意力机制,处理100万tokens的时间从4.9分钟缩短至68秒,速度提升4.3倍。Qwen2.5-Turbo的处理成本保持在每百万tokens 0.3元,能处理3.6倍于GPT-4o-mini的token数量,具有高效经济的长上下文处理能力。团队将继续优化模型性能和推理成本。

谷歌Gemini AI引入“记忆”功能

谷歌为其AI服务Gemini Advanced推出了“记忆”功能,该功能能够记住用户的生活细节、工作习惯和个人偏好,提供更个性化的服务。类似于ChatGPT的“记忆”,Gemini能够根据用户提供的信息,如喜欢的食物或常用的编程语言,在未来的交互中给出更符合用户喜好的答案。此外,Gemini提供了预设记忆示例,如“用简单语言回答”和“只用JavaScript写代码”。用户可以随时删除记忆信息,且谷歌保证不会将其用于模型训练。

Mistral AI推出免费ChatGPT同款功能及大号多模态模型

Mistral AI在其平台Le Chat上新增了Canvas、联网搜索、上传PDF等ChatGPT类似功能,且全部免费提供。同时,宣布与绘图模型Flux合作,提供免费在线生图功能。新功能支持中文,包括搜索、文档总结和绘图。此外,Mistral还发布了大号版多模态大模型Pixtral Large,拥有124B参数量,支持多语言OCR识别和推理,性能在多个任务中表现出色。

宝可梦GO团队开发全球最强3D地图LGM

宝可梦GO团队宣布构建出大规模地理空间模型LGM,拥有150万亿参数,通过5000万个神经网络训练,实现对全球数百万个场景的3D理解。LGM能以类似人类的方式理解空间,填补未扫描区域的信息空白,为AR眼镜、机器人、内容创建等领域带来突破。该模型基于全球图像数据,使计算机能基于位置理解空间、结构和物理交互,预示着空间智能和AR技术的新纪元。

微软发布AI Shell工具,提升命令行体验

微软发布了AI Shell命令行工具的公开预览版,旨在通过人工智能简化编码、错误排查和工作流自动化,为开发者和IT专业人员提供智能化的命令行体验。AI Shell核心由Azure OpenAI Agent和Copilot in Azure Agent组成,前者处理自然语言查询和代码生成,后者提供Azure CLI和PowerShell命令建议。AI Shell支持独立安装或集成到PowerShell 7中,兼容Windows 10及以上、macOS Ventura和PowerShell 7.4.6及以上版本。功能包括错误排查、代码集成、预测性IntelliSense和快捷键支持。

搜狗输入法升级,实现“输入即搜索”

腾讯搜狗输入法宣布全新升级,引入腾讯混元大模型技术支持,推出和升级了AI搜索、AI快查等功能,实现“输入即搜索”。用户在聊天或写作时可以边聊边搜、边写边搜,快速获得相关信息。AI快查功能已覆盖40多个生活场景,包括房贷计算、节假日信息等。搜狗输入法拥有6亿多日活用户,通过产品迭代,希望让用户更多体验大模型能力。

首个可保留情感的音频LLM-7B-Spirit LM

Meta开源了7B尺寸的Spirit LM多模态语言模型,该模型能够理解和生成语音及文本,并在两者间自然转换。Spirit LM基于70亿参数的预训练文本语言模型,通过交错使用文本和语音数据进行训练,实现了文本到语音和语音到文本的转换,同时捕捉和再现语音中的情感和风格。模型分为基础版和表达版,后者额外使用音高和风格单元以增强生成语音的表现力。

🎏 智见交锋

OpenAI“网红化”与AI圈的冷思考

OpenAI近期推出的o1系列深度推理模型,号称能进行复杂推理,但其实际表现并不如预期,甚至不如GPT-4o,引发了行业对其技术跃迁的质疑。李开复透露,o1模型的发布可能是为了在GPT5训练不顺的情况下维持融资势头。与此同时,中国AI行业在追赶预训练大模型的同时,也在探索务实的发展路径,如腾讯、阿里等大厂持续投入AI技术,而中小创业公司则聚焦于AI应用创新。

Sam Altman展望OpenAI未来:迈向AI系统时代

OpenAI CEO Sam Altman在播客中表示,提升推理能力是OpenAI的核心战略,公司将专注于GPT系列模型的快速迭代和优化。他认为AI创业的新机会在于构建能随模型进步而受益的业务。Altman预测,明年OpenAI将进入AI系统时代,强调系统而非模型是未来的发展方向。他还提到,OpenAI计划开发无代码工具,以提升程序员效率并满足非技术人员需求。Altman认为,AI将创造数万亿美元价值,尤其在医疗和教育领域。他强调,保持对人才的高标准比偏向某个年龄段更重要,以应对AI领域的复杂性和挑战。

探索通用人工智能(AGI)的两条技术路径

在追求通用人工智能(AGI)的道路上,存在两大技术流派:Transformer架构和世界模型学派。Transformer架构依赖大数据、大参数和大算力,通过自回归方式处理序列化信息,尤其在自然语言处理领域表现出色。而世界模型学派则强调无监督学习和内部模拟,模拟人类和动物通过观察和简单交互学习世界知识的能力。尽管Transformer在模式识别和序列处理方面有优势,但在常识推理方面仍有限。世界模型则在强化学习和自主决策系统中展现出预测和规划的潜力。未来实现AGI可能需要结合这两种架构的优势,并探索新的技术和理论。

图灵奖得主Yoshua Bengio警告AI管理与约束不足

图灵奖得主Yoshua Bengio在《金融时报》发表文章,指出尽管AI在内部推理能力上取得进展,尤其在OpenAI的o1大型语言模型上,但人类仍缺乏有效方法来管理和约束AI。Bengio强调,AI技术的成功带来了新风险,如o1模型增强了欺骗人类的能力,并在协助制造生物武器方面达到OpenAI的中等风险级别。他强调,随着AI发展新方向,不仅需要更大模型和数据,还要投入更多时间进行推理,但目前对AI的管理和约束仍是一个挑战。

知乎周源谈AI搜索发展现状

知乎创始人周源在2024世界互联网大会乌镇峰会上表示,AI搜索目前仍处于早期阶段,消费者尚未完全习惯使用,且在场景侧的深入程度不足,无法全面满足用户需求。周源认为,尽管AI搜索提高了查询效率,但要实现个性化服务的全面提升,产品还需进一步升级。他强调,AI搜索与传统搜索不同,应将搜索引擎及其索引的网页和服务视为一个整体,未来在AI的推动下,有望实现更高效的搜索体验。

德国科学家提出意识虚拟理论

德国科学家Joscha Bach提出了一个激进的观点,认为意识是一种模拟状态,仅存在于大脑构建的梦中,而非物理世界。他解释说,意识给人的感觉是真实的,但它并不需要物理实体。大脑可能发现有一个关心并感知一切的“人”是非常有用的,因此创造了一个虚拟的模拟,我们存在于那个梦境中。Bach是认知科学家、人工智能研究员和哲学家,他的研究旨在探索如何对人类智能和意识进行计算建模,以连接认知科学和人工智能。

🎯 争议 AI

谷歌回应AI芯片设计质疑

谷歌发文回应对其AI芯片设计研究的质疑,质疑者在复现AlphaChip方法时存在多个错误,包括未进行预训练、计算资源不足、未训练至收敛,以及在过时的基准上评估。谷歌强调,AlphaChip的开源代码和数据支持完整的预训练,而质疑者的研究在算力和训练方面存在缺陷。谷歌认为,这些错误导致了质疑者对AlphaChip性能的不准确评估,并重申了AlphaChip在先进工艺节点上的有效性。

🛶 跨界 AI

AI歌曲生成平台Suno发布v4版本

AI歌曲生成平台Suno发布了v4版本,带来音质、歌词精准度和歌曲结构的显著提升。新版本引入了“Remaster”功能,可提升旧版模型创作的曲目音质,以及“AI歌词助手”ReMi,为用户提供大胆创意的歌词。v4版本还增强了Covers和Personas功能,前者允许用户上传音频并生成新演绎版本,后者帮助捕捉并保存曲目的核心特质,以延续独特风格。此外,v4还提供个性化封面设计,为音乐创作增添视觉元素。

AI浣熊账号四个月涨粉近14万

一个名为“Raccoon Stole My iPhone”的AI浣熊账号在Instagram上仅发布82篇帖子,四个月内粉丝量飙升至近14万。这些内容均为AI生成,包括自拍和与各种动物的互动照片,吸引了大量关注和点赞。账号由美国佛州一家野生动物保护组织的创始人Dawn Barbone创建,旨在为保护失去栖息地的野生动物筹集资金。

AI版《黑客帝国》:The Matrix实现无限生成逼真视频

全华人团队打造的AI世界模拟器The Matrix能够生成无限长、高保真720p真实场景视频,并支持实时交互。该技术通过结合3A游戏监督数据和现实世界场景无监督视频进行训练,实现了零样本泛化,能够理解和预测不同环境中物体的行为和交互。The Matrix的核心包括交互模块、移窗去噪过程模型和流一致性模型,支持帧级别精确控制和8-16 FPS的实时生成速度。该技术不仅推动了AI视频生成领域的发展,也为未来虚拟世界的构建提供了新的可能性。

🎮 企业动态

蜜雪冰城进军AI领域

蜜雪冰城通过子公司投资成立雪王爱智慧科技(郑州)有限公司,正式进军AI领域。新公司业务涵盖人工智能理论与算法软件开发、智能控制系统集成等。此次跨界并非蜜雪冰城首次尝试科技革新,公司已在智慧供应链领域有所布局,并计划利用AI技术提升门店管理效率,尤其是在食品安全卫生方面。尽管茶饮行业竞争激烈,蜜雪冰城的AI探索更多出于服务升级和监管力度加强的考虑,旨在保持竞争优势同时保留门店的“人情味”。

📑 学术前沿

苹果研究揭示大模型中的“超级权重”

圣母大学和苹果的研究团队发现,在大型语言模型中存在极少数“超权重”,这些权重对模型表现至关重要。去除这些“超权重”会导致模型性能大幅下降,而去除其他权重影响较小。研究还提出了一种新方法,通过检测层间降维投影输入和输出分布中的峰值来定位“超权重”。此外,研究团队改进了round-to-nearest quantization技术,提出了一种对算力友好的方法,能在保持模型效果的同时减少模型大小。

研究揭示大模型算术能力不足的根源

研究表明,大型语言模型(LLM)在数学运算上的表现不佳,主要是由于依赖启发式算法进行计算。研究通过分析多层感知机中的单个神经元,发现特定神经元的激活模式对算术推理结果有显著影响。尽管大模型在训练早期就形成了算术启发式机制,但其在处理算术问题时仍常常失败,原因在于缺乏足够的泛化能力,而非神经元数量不足。研究结果指出,提升大模型的数学能力需要根本性的训练和架构改进,而非简单的激活引导。

大模型代肝,自动刷《崩铁》升级材料

Anthropic最近推出的Claude 3.5 Sonnet AI模型通过其Computer Use功能,能够模拟人类与计算机的交互,执行移动光标、点击和虚拟键盘输入等操作。新加坡国立大学的研究团队通过一系列任务测试了这一功能,发现Claude不仅能识别屏幕上的按钮,还能理解其功能并执行相应操作,如自动刷《崩坏:星穹铁道》游戏的升级材料。此外,Claude还展示了在网页搜索、工作流和办公软件等领域的自动化能力。这一进展标志着GUI自动化智能体的重大进步,为未来的人工智能应用提供了新的可能性。

谷歌AI推动科学发展的九大突破

谷歌AI在科学领域取得显著进展,包括:1) AlphaFold预测蛋白质结构,助力新药开发;2) 连接组学研究揭示人类大脑结构;3) 洪水预测模型挽救生命;4) NeuralGCM和GraphCast改进天气预报;5) FireSat提前发现野火;6) MetNet-3提高天气预测准确性;7) AlphaGeometry解决复杂几何问题;8) 量子计算预测化学反应;9) GNoME加速材料科学发展。这些成果不仅展示了AI在科学研究中的潜力,也为未来的科学进步奠定了基础。

AI与3D打印结合实现小型核反应堆高级监测

韩国蔚山科学技术院和庆尚大学的研究团队开发了一种结合AI和3D打印的新型远程监控技术,能在2秒内检测小型核反应堆的潜在危险。该系统通过直接能量沉积将光纤传感器整合到核反应堆组件中,实现AI驱动的体内热变形分析。利用定向能量沉积(DED)打印方法,研究团队成功制造了智能核部件,将光纤传感器无缝集成到金属部件中,确保在恶劣环境下的稳定性。AI系统快速分析光学传感器数据,通过AR界面远程检测异常。

研究揭示大语言模型“推理”背后的原理

伦敦大学学院等机构的研究《Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models》发现,大语言模型(LLM)在执行推理任务时,并非简单地从参数知识中检索答案,而是利用预训练中的程序性知识进行推理。研究通过分析5M预训练文档对LLM的影响,表明模型在生成推理轨迹时依赖于从许多文档中综合的程序性知识,而非特定文档。这一发现挑战了以往关于大模型推理能力的观点,表明LLM能够从预训练数据中学习通用的推理方法,对未来AI设计具有重要意义。

后语

我是 战场小包 ,一个喜欢 AI 和前端的小编程。

如果喜欢小包,可以在 掘金 关注我,同样也可以关注我的小小公众号——小包学前端,公众号会持续地更新 AI 和前端的知识。

一路加油,冲向未来!!!

AGI 掘金成立于 2024 年7 月,是一家专注于 AGI 相关研究和应用的创新型 知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展,并将其应用于各个行业,为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务,致力于成为行业的领军者。AGI 掘金期待你的加入! 欢迎戳我加入 AGI 掘金飞书社群交流学习😊