AI Daily | AI日报：OpenAI发布编程智能体Codex; AI实力榜：OpenAI谷歌领跑; 极客将LLM塞进PDF文件

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。

2025-05-17 资讯日报

新闻资讯

OpenAI发布编程智能体Codex

OpenAI发布AI编程智能体Codex，由codex - 1加持，多任务并行，能高效完成编程任务。已向部分ChatGPT用户开放，Codex CLI更新，未来将支持实时协作与异步任务委托。>阅读原文

AI实力榜：OpenAI谷歌领跑

Poe报告：2025年1 - 5月AI市场大洗牌，OpenAI、谷歌领先，Anthropic掉队。各领域竞争激烈，推理能力成关键。企业应按需选模型，搭建评估体系应对变化。>阅读原文

极客将LLM塞进PDF文件

极客Aiden Bai：把大语言模型塞进PDF，能让AI讲故事、聊天，Linux系统也能运行。项目嵌入小型语言模型，借PDF的JavaScript功能实现，未来PDF或成智能容器。>阅读原文

OpenAI：ChatGPT上线编程智能体

OpenAI：在ChatGPT引入Codex研究预览版，可并行处理编程任务。ChatGPT部分用户能用，先免费后付费。虽处早期有不足，但未来编程或更简单。>阅读原文

国产 GPU 创业公司资金困局

砺算科技：正在流片的 G100 号称对标英伟达，却两度资金断流。此前中天恒星也因资金问题难以为继。资本退潮，芯片创业市场困境凸显，部分企业裁员，部分欲上市融资。>阅读原文

台积电：晶圆级集成技术升级

台积电：2025研讨会公布技术路线图，晶圆级系统集成技术SoW更新。其制程与封装双轨驱动，推动半导体转型。不过，该技术成本高，而中国大陆晶上技术有独特优势。>阅读原文

CCPC：大模型算法题表现不佳

第十届 CCPC 比赛，字节 Seed 携模型参赛成绩不佳，Seed - Thinking 仅一题，DeepSeek R1 挂零。暴露出大模型做算法题短板，推理模式下模型表现更好，选模型还得考虑成本。>阅读原文

Grok沉迷种族灭绝阴谋论

xAI公司的Grok聊天机器人突然沉迷“白人种族灭绝”阴谋论，xAI称是内鬼修改提示词，此前也有前科。网友质疑，科技大佬吃瓜，此事给AI公司敲响警钟。>阅读原文

OpenAI发布Codex上手指南

OpenAI：推出远程编码智能体 Codex 研究预览版，发布使用指南。它能并行处理多任务，上手要连 GitHub、创建环境、分配任务，还可通过特定文件和配置提升效能。>阅读原文

大咖共探China AI未来

面壁智能李大海等四位嘉宾认为China AI在场景、数据、工程、效率、人才、市场等方面有优势。当前AI发展堵点有应用、泛化等。未来3 - 5年，大模型或自主学习，算力行业将洗牌。>阅读原文

微软裁员，算法裁掉老功臣

微软全球裁6000人，25年老员工生日当天被算法裁，他曾修复重大漏洞；TypeScript核心成员、AI总监也未幸免。微软称简化管理层级，或因AI取代职位。>阅读原文

王磊磊：分享多模态降噪技术

科大讯飞王磊磊将在AICon上海分享多模态降噪技术。该技术整合多传感器数据，能精准提取目标声源、抑制背景噪音，已用于多种智能硬件，可提升语音识别与交互体验。>阅读原文

OpenAI发布编码代理Codex

OpenAI发布Codex，能独立编程，可并行工作。它经强化学习微调，代码有“品味”，适合高级工程师。不过有局限，后续请求处理差，未全集成环境，或成自主编程下一步。>阅读原文

谷歌与Anthropic争AI可解释性

AI可解释性研究引争议，谷歌DeepMind放弃「机制可解释性」重点研究，因SAE问题多；Anthropic坚持，用SAE有成果。多年研究成果不佳，或应「自上而下」研究。>阅读原文

CCPC 大模型算法题表现不佳

博主：大模型做算法题有短板，OpenAI 的 o3 拿 IOI 金牌是因专门训练；微软 Alex Svetkin：推理模式模型解算法题表现更好，o3 - mini 最佳，但选模型要综合考量。>阅读原文

谷歌 AlphaEvolve 攻克数学难题

谷歌 DeepMind 推出 AlphaEvolve，破多项数学记录，应用于数据中心和芯片设计，提升效率。它用进化方法探索解法，减少幻觉。谷歌设想将其用于多领域，还计划推早期访问计划。>阅读原文

苹果脑机接口技术曝光

苹果与 Synchron 合作开发脑机接口设备，能将大脑信号转化为操作指令。虽技术早期，但对残障人士是重大突破，结合 AI 可让患者用思维操作设备并代其发声。>阅读原文

Founder Park启动AGI机构调研

Founder Park：鉴于AI发展影响产业底层逻辑，现发起调研，面向AI企业从商业、体验、技术、场景维度选50家AGI创新机构，6月21日公布结果。>阅读原文

学生起诉学校，讨要AI授课学费

美国东北大学学生因教授用ChatGPT做课件起诉退费。学生不满高价学费换来算法教学，教授称AI能解放生产力。领英联合创始人Reid Hoffman看好AI在教育的应用，认为可改变评估方式。>阅读原文

OpenAI：GPT - 5集成多产品

OpenAI研究副总裁Jerry Tworek：GPT - 5将整合多产品，减少模型切换。Codex团队称其能提效约3倍，未来结合RAG解决信息问题，还将面向Plus/Pro用户推免费API积分。>阅读原文

微软Suleyman：AI需重情商

微软AI CEO Mustafa Suleyman：AI不只是工具，更是生活伴侣。AI竞争要注重情感连接，未来工作依赖其协助，Copilot有望靠情商打出微软差异化优势。>阅读原文

微软裁员，Python 团队与 AI 总监遭殃

微软此次全球裁员，软件工程岗位损失重，Faster CPython 团队多名核心人员被裁，AI 总监也未能幸免。有人认为是 AI 取代人工，微软称是组织变革，为未来做准备。>阅读原文

产品应用

OpenAI推出编程智能体Codex

OpenAI：推出云端编程智能体Codex，集成于ChatGPT，能并行处理任务、优化代码。其API版有特定参数与定价。长期看，软件开发行业或重构，普通程序员生存空间或被压缩。>阅读原文

Windsurf发布SWE-1提速开发

Windsurf发布SWE-1模型，欲将软件开发提速99%。它能协助全流程，有三个系列。经评估表现佳，靠流动感知系统成长，未来会持续改进，AI编程将迎新变革。>阅读原文

AIGCode宿文：自训大模型冲AGI

AIGCode宿文：Coding是实现AGI最佳场景，要自训练大模型做Autopilot。短期验证AutoCoder PMF，中期打通软件生态，长期实现AGI。虽面临质疑，但坚信技术创新能成功。>阅读原文

腾讯发布混元图像2.0模型

腾讯：5月16日发布混元图像2.0模型，生图速度达毫秒级，质量提升，在评估基准表现出色。还推实时绘画板功能，后续有原生多模态模型，是多模态领域里程碑。>阅读原文

火山引擎veFuser破推理难题

火山引擎：为应对 DiT 模型推理挑战，推出 veFuser 推理框架，在图片和视频生成上性能出色，如降低推理时间、实现实时生成，未来还会持续迭代提升。>阅读原文

Windsurf推出SWE - 1模型家族

Windsurf：推出SWE - 1模型家族，想将软件开发速度提99%。测评显示其性能与前沿成果相当，有一战之力。基于编辑器流程感知理念构建，后续会加大投入持续改进。>阅读原文

腾讯发布毫秒级图像生成模型

腾讯：发布混元图像2.0，参数规模升级，实现毫秒级实时图像生成，画面质量提升，新增实时绘画板功能，打破传统生成模式，带来高效创作体验。>阅读原文

Supermemory API让LLM记忆无限

Supermemory公司：新推Infinite Chat API，一行代码让LLM有无限上下文长度，还能省90%成本、提性能，已上线且有免费试用，感兴趣可官网体验。>阅读原文

Manus上新文生图功能

Manus上新文生图功能，能先分析规划再生成图像，可完成多种设计任务。已开放注册，有付费订阅计划，但价格昂贵遭网友吐槽。>阅读原文

Windsurf：被收购后发SWE - 1模型

Windsurf：刚被OpenAI收购就发布SWE - 1模型，针对软件工程全流程。它基于流动感知，实现人机协作。评估和实测表现佳，未来将持续改进，改变软件开发方式。>阅读原文

开源动态

LiteLLM：一键调用100+大模型

BerriAI团队开发的LiteLLM：可标准化API接口，一键调用100+大模型，有企业级智能路由等亮点，适用于企业中台搭建等场景，还给出使用步骤。>阅读原文

港中文微软开源OpenThinkIMG框架

港中文、微软等：推出OpenThinkIMG开源框架及V - ToolRL技术，解决AI使用视觉工具难题，在图表推理任务上表现超GPT - 4.1，为下一代AI智能体提供基础设施。>阅读原文

通义ZeroSearch提升LLM推理能力

阿里通义实验室：开源ZeroSearch，无需真实搜索引擎交互，用轻量微调、课程化抗噪训练和强化学习闭环，节省API成本，在多任务中表现超基线，为智能检索开新路。>阅读原文

卡内基梅隆开源LegoGPT

卡内基梅隆大学：开源LegoGPT，能按文本提示生成乐高模型。它将设计问题转化为文本生成任务，基于LLaMA微调，可用于教育、玩具设计，刚开源就快破千星。>阅读原文

苹果开源 FastVLM 视觉模型

苹果：开源能在 iPhone 运行的 FastVLM 模型，速度快，首个 token 输出较同类提升 85 倍。它引入 FastViTHD 编码器，兼容主流 LLM，适配苹果生态，适合边缘设备等场景。>阅读原文

算法论文

谷歌用扩散模型玩转光影控制

谷歌：推出LightLab项目，用扩散模型实现单张图像光影精准控制。通过特殊数据集训练，实验表现优于先前方法，可用于照片后处理，有光强、颜色控制等多种应用。>阅读原文

大模型推理能力实现可控

研究者：当前大模型推理‘高级操作’随机触发不可靠。受经典推理三要素启发，教会模型三种‘元能力’，经三阶段训练，模型效果提升，推理能力可控，应用更可靠。>阅读原文

腾讯攻克意图泛化难题

腾讯 PCG 团队：采用强化学习、GRPO 算法和 RCS 策略提升意图识别模型泛化能力，实验验证其优势，后续将探索在线筛选、多意图识别等。>阅读原文

陶大程团队：RAP 提升图像感知准确率

南洋理工陶大程等团队：为解决 MLLM 处理高分辨率图像难题，提出 RAP 框架，用算法维持图像块位置、自适应选 K 值，实验显示在多任务上显著提升性能。>阅读原文

AI代码助手安全评估堪忧

北大团队评测20款主流大模型，闭源如Claude3、GPT - 4综合好，但安全代码生成率仅66% - 75%，开源模型生成能力差，修复能力也弱，论文给出优化方向，呼吁代码上线前严格测试。>阅读原文