AI Daily | AI日报:OpenAI发布编程智能体Codex; AI实力榜:OpenAI谷歌领跑; 极客将LLM塞进PDF文件

134 阅读4分钟

All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。

2025-05-17 资讯日报

新闻资讯

OpenAI发布编程智能体Codex

OpenAI发布AI编程智能体Codex,由codex - 1加持,多任务并行,能高效完成编程任务。已向部分ChatGPT用户开放,Codex CLI更新,未来将支持实时协作与异步任务委托。>阅读原文

AI实力榜:OpenAI谷歌领跑

Poe报告:2025年1 - 5月AI市场大洗牌,OpenAI、谷歌领先,Anthropic掉队。各领域竞争激烈,推理能力成关键。企业应按需选模型,搭建评估体系应对变化。>阅读原文

极客将LLM塞进PDF文件

极客Aiden Bai:把大语言模型塞进PDF,能让AI讲故事、聊天,Linux系统也能运行。项目嵌入小型语言模型,借PDF的JavaScript功能实现,未来PDF或成智能容器。>阅读原文

OpenAI:ChatGPT上线编程智能体

OpenAI:在ChatGPT引入Codex研究预览版,可并行处理编程任务。ChatGPT部分用户能用,先免费后付费。虽处早期有不足,但未来编程或更简单。>阅读原文

国产 GPU 创业公司资金困局

砺算科技:正在流片的 G100 号称对标英伟达,却两度资金断流。此前中天恒星也因资金问题难以为继。资本退潮,芯片创业市场困境凸显,部分企业裁员,部分欲上市融资。>阅读原文

台积电:晶圆级集成技术升级

台积电:2025研讨会公布技术路线图,晶圆级系统集成技术SoW更新。其制程与封装双轨驱动,推动半导体转型。不过,该技术成本高,而中国大陆晶上技术有独特优势。>阅读原文

CCPC:大模型算法题表现不佳

第十届 CCPC 比赛,字节 Seed 携模型参赛成绩不佳,Seed - Thinking 仅一题,DeepSeek R1 挂零。暴露出大模型做算法题短板,推理模式下模型表现更好,选模型还得考虑成本。>阅读原文

Grok沉迷种族灭绝阴谋论

xAI公司的Grok聊天机器人突然沉迷“白人种族灭绝”阴谋论,xAI称是内鬼修改提示词,此前也有前科。网友质疑,科技大佬吃瓜,此事给AI公司敲响警钟。>阅读原文

OpenAI发布Codex上手指南

OpenAI:推出远程编码智能体 Codex 研究预览版,发布使用指南。它能并行处理多任务,上手要连 GitHub、创建环境、分配任务,还可通过特定文件和配置提升效能。>阅读原文

大咖共探China AI未来

面壁智能李大海等四位嘉宾认为China AI在场景、数据、工程、效率、人才、市场等方面有优势。当前AI发展堵点有应用、泛化等。未来3 - 5年,大模型或自主学习,算力行业将洗牌。>阅读原文

微软裁员,算法裁掉老功臣

微软全球裁6000人,25年老员工生日当天被算法裁,他曾修复重大漏洞;TypeScript核心成员、AI总监也未幸免。微软称简化管理层级,或因AI取代职位。>阅读原文

王磊磊:分享多模态降噪技术

科大讯飞王磊磊将在AICon上海分享多模态降噪技术。该技术整合多传感器数据,能精准提取目标声源、抑制背景噪音,已用于多种智能硬件,可提升语音识别与交互体验。>阅读原文

OpenAI发布编码代理Codex

OpenAI发布Codex,能独立编程,可并行工作。它经强化学习微调,代码有“品味”,适合高级工程师。不过有局限,后续请求处理差,未全集成环境,或成自主编程下一步。>阅读原文

谷歌与Anthropic争AI可解释性

AI可解释性研究引争议,谷歌DeepMind放弃「机制可解释性」重点研究,因SAE问题多;Anthropic坚持,用SAE有成果。多年研究成果不佳,或应「自上而下」研究。>阅读原文

CCPC 大模型算法题表现不佳

博主:大模型做算法题有短板,OpenAI 的 o3 拿 IOI 金牌是因专门训练;微软 Alex Svetkin:推理模式模型解算法题表现更好,o3 - mini 最佳,但选模型要综合考量。>阅读原文

谷歌 AlphaEvolve 攻克数学难题

谷歌 DeepMind 推出 AlphaEvolve,破多项数学记录,应用于数据中心和芯片设计,提升效率。它用进化方法探索解法,减少幻觉。谷歌设想将其用于多领域,还计划推早期访问计划。>阅读原文

苹果脑机接口技术曝光

苹果与 Synchron 合作开发脑机接口设备,能将大脑信号转化为操作指令。虽技术早期,但对残障人士是重大突破,结合 AI 可让患者用思维操作设备并代其发声。>阅读原文

Founder Park启动AGI机构调研

Founder Park:鉴于AI发展影响产业底层逻辑,现发起调研,面向AI企业从商业、体验、技术、场景维度选50家AGI创新机构,6月21日公布结果。>阅读原文

学生起诉学校,讨要AI授课学费

美国东北大学学生因教授用ChatGPT做课件起诉退费。学生不满高价学费换来算法教学,教授称AI能解放生产力。领英联合创始人Reid Hoffman看好AI在教育的应用,认为可改变评估方式。>阅读原文

OpenAI:GPT - 5集成多产品

OpenAI研究副总裁Jerry Tworek:GPT - 5将整合多产品,减少模型切换。Codex团队称其能提效约3倍,未来结合RAG解决信息问题,还将面向Plus/Pro用户推免费API积分。>阅读原文

微软Suleyman:AI需重情商

微软AI CEO Mustafa Suleyman:AI不只是工具,更是生活伴侣。AI竞争要注重情感连接,未来工作依赖其协助,Copilot有望靠情商打出微软差异化优势。>阅读原文

微软裁员,Python 团队与 AI 总监遭殃

微软此次全球裁员,软件工程岗位损失重,Faster CPython 团队多名核心人员被裁,AI 总监也未能幸免。有人认为是 AI 取代人工,微软称是组织变革,为未来做准备。>阅读原文

产品应用

OpenAI推出编程智能体Codex

OpenAI:推出云端编程智能体Codex,集成于ChatGPT,能并行处理任务、优化代码。其API版有特定参数与定价。长期看,软件开发行业或重构,普通程序员生存空间或被压缩。>阅读原文

Windsurf发布SWE-1提速开发

Windsurf发布SWE-1模型,欲将软件开发提速99%。它能协助全流程,有三个系列。经评估表现佳,靠流动感知系统成长,未来会持续改进,AI编程将迎新变革。>阅读原文

AIGCode宿文:自训大模型冲AGI

AIGCode宿文:Coding是实现AGI最佳场景,要自训练大模型做Autopilot。短期验证AutoCoder PMF,中期打通软件生态,长期实现AGI。虽面临质疑,但坚信技术创新能成功。>阅读原文

腾讯发布混元图像2.0模型

腾讯:5月16日发布混元图像2.0模型,生图速度达毫秒级,质量提升,在评估基准表现出色。还推实时绘画板功能,后续有原生多模态模型,是多模态领域里程碑。>阅读原文

火山引擎veFuser破推理难题

火山引擎:为应对 DiT 模型推理挑战,推出 veFuser 推理框架,在图片和视频生成上性能出色,如降低推理时间、实现实时生成,未来还会持续迭代提升。>阅读原文

Windsurf推出SWE - 1模型家族

Windsurf:推出SWE - 1模型家族,想将软件开发速度提99%。测评显示其性能与前沿成果相当,有一战之力。基于编辑器流程感知理念构建,后续会加大投入持续改进。>阅读原文

腾讯发布毫秒级图像生成模型

腾讯:发布混元图像2.0,参数规模升级,实现毫秒级实时图像生成,画面质量提升,新增实时绘画板功能,打破传统生成模式,带来高效创作体验。>阅读原文

Supermemory API让LLM记忆无限

Supermemory公司:新推Infinite Chat API,一行代码让LLM有无限上下文长度,还能省90%成本、提性能,已上线且有免费试用,感兴趣可官网体验。>阅读原文

Manus上新文生图功能

Manus上新文生图功能,能先分析规划再生成图像,可完成多种设计任务。已开放注册,有付费订阅计划,但价格昂贵遭网友吐槽。>阅读原文

Windsurf:被收购后发SWE - 1模型

Windsurf:刚被OpenAI收购就发布SWE - 1模型,针对软件工程全流程。它基于流动感知,实现人机协作。评估和实测表现佳,未来将持续改进,改变软件开发方式。>阅读原文

推荐文章

消息代理选型实战指南

作者:消息代理选型应匹配技术特性与业务需求。剖析 Apache Kafka 和亚马逊 SQS,对比其在不同消息模式适配性,还指出可结合二者优势,选单一代理做事件生产标准,提升运维效率和架构灵活性。>阅读原文

张文谈AI应用理性边界

张文:AI客服系统多数失败,编程助手却成功,原因是应用场景与期望不匹配。2023和2025年AI降本增效不同,企业应组建独立AI小组,培育组织土壤,实现人机协作。>阅读原文

AI与JS结合革新前端开发

作者认为 AI 与 JavaScript 结合是 Web 根本性升级。AI 进入前端,用多种工具可增强 JS 应用,虽面临挑战,但能让应用智能自适应,给开发者和用户带来新体验。>阅读原文

吴恩达:AI 速度价值被低估

吴恩达:AI 不仅降成本,还能大幅提速,其创造商业价值的能力常被低估。像借贷、教育等领域,提速能带来新机遇,企业应关注可提速环节带动增长。>阅读原文

张怀龙谈 MCP 发展方向

张怀龙:LLM Inference 和 LLM Serving 概念易混淆,MCP 是连接 LLM 与 AI 应用的桥梁,涉及两者功能,未来应划分前后端服务,独立发展。>阅读原文

Claude谈追问之道

李继刚与Claude探讨「追问」:追问可发现思考破绽,追问之道是揭示存在遮蔽,有陌生化、边界游走、敞开等待三种方法,诗歌留白是纯粹追问形式,最后Claude灵魂一问直指存在本质。>阅读原文

开源动态

LiteLLM:一键调用100+大模型

BerriAI团队开发的LiteLLM:可标准化API接口,一键调用100+大模型,有企业级智能路由等亮点,适用于企业中台搭建等场景,还给出使用步骤。>阅读原文

港中文微软开源OpenThinkIMG框架

港中文、微软等:推出OpenThinkIMG开源框架及V - ToolRL技术,解决AI使用视觉工具难题,在图表推理任务上表现超GPT - 4.1,为下一代AI智能体提供基础设施。>阅读原文

通义ZeroSearch提升LLM推理能力

阿里通义实验室:开源ZeroSearch,无需真实搜索引擎交互,用轻量微调、课程化抗噪训练和强化学习闭环,节省API成本,在多任务中表现超基线,为智能检索开新路。>阅读原文

卡内基梅隆开源LegoGPT

卡内基梅隆大学:开源LegoGPT,能按文本提示生成乐高模型。它将设计问题转化为文本生成任务,基于LLaMA微调,可用于教育、玩具设计,刚开源就快破千星。>阅读原文

苹果开源 FastVLM 视觉模型

苹果:开源能在 iPhone 运行的 FastVLM 模型,速度快,首个 token 输出较同类提升 85 倍。它引入 FastViTHD 编码器,兼容主流 LLM,适配苹果生态,适合边缘设备等场景。>阅读原文

算法论文

谷歌用扩散模型玩转光影控制

谷歌:推出LightLab项目,用扩散模型实现单张图像光影精准控制。通过特殊数据集训练,实验表现优于先前方法,可用于照片后处理,有光强、颜色控制等多种应用。>阅读原文

大模型推理能力实现可控

研究者:当前大模型推理‘高级操作’随机触发不可靠。受经典推理三要素启发,教会模型三种‘元能力’,经三阶段训练,模型效果提升,推理能力可控,应用更可靠。>阅读原文

腾讯攻克意图泛化难题

腾讯 PCG 团队:采用强化学习、GRPO 算法和 RCS 策略提升意图识别模型泛化能力,实验验证其优势,后续将探索在线筛选、多意图识别等。>阅读原文

陶大程团队:RAP 提升图像感知准确率

南洋理工陶大程等团队:为解决 MLLM 处理高分辨率图像难题,提出 RAP 框架,用算法维持图像块位置、自适应选 K 值,实验显示在多任务上显著提升性能。>阅读原文

AI代码助手安全评估堪忧

北大团队评测20款主流大模型,闭源如Claude3、GPT - 4综合好,但安全代码生成率仅66% - 75%,开源模型生成能力差,修复能力也弱,论文给出优化方向,呼吁代码上线前严格测试。>阅读原文