第18期：AI大模型本周热点事件6大模型决战高考数学新一卷：豆包、元宝并列第一，OpenAI o3竟惨败垫底 https

6大模型决战高考数学新一卷：豆包、元宝并列第一，OpenAI o3竟惨败垫底

mp.weixin.qq.com/s/fI8Xx2Fvt…

在2025年高考数学新课标Ⅰ卷的测试中，字节的豆包和腾讯的元宝以68分并列第一，表现最为出色。DeepSeek和阿里的通义分别获得63分和62分，而百度的文心X1仅得51分。OpenAI的o3表现不佳，仅得34分，正确率47%。此次测试揭示了大模型在数学推理能力上的进步与不足，尤其是在处理复杂逻辑和几何直觉方面的挑战。

详细答题截图

高考第一天，用豆包修图3.0花式「整活」送祝福，已原地笑翻！

mp.weixin.qq.com/s/BDVmiacD3…

豆包AI修图3.0版本上线，带来了全新的图像编辑体验。通过自然语言即可实现精准的图片编辑，支持高考祝福、网络梗图、大片级精修等多种应用场景。新版本的SeedEdit 3.0模型提升了图像编辑的稳定性与真实感，尤其在人像美化、场景替换等复杂任务中表现出色。豆包AI不仅能在图像上精准添加文字，还能进行局部修改和风格迁移，成为设计师们的得力助手。

Gemini新版蝉联竞技场榜一，但刚发布就被越狱了

mp.weixin.qq.com/s/Ak5jRdZO-…

谷歌最新发布的Gemini 2.5 Pro版本在多个任务上表现出色，尤其是在“人类最后的考试”中取得了21.6%的成绩，超越了o3和Claude 4 Opus。新版本在大模型竞技场上也取得了总分第一的成绩。然而，发布仅两小时后，Gemini 2.5 Pro 0605版本就被成功越狱，暴露了安全性问题。尽管如此，Gemini在安卓应用市场的下载量已超过ChatGPT，显示出其受欢迎程度。

Qwen3深夜开源新系列：文本表征模型，3种尺寸可选，超越商业API拿下SOTA

mp.weixin.qq.com/s/kw7C7cppQ…

Qwen3发布了全新的Embedding系列模型，专为文本表征、检索与排序任务设计，支持多语言处理。该系列包括0.6B、4B和8B三种尺寸，其中8B版本在MTEB多语言Leaderboard榜单中排名第一，性能超越众多商业API服务。模型在Hugging Face、ModelScope和GitHub平台开源，用户也可以通过阿里云百炼平台使用最新的文本向量模型服务。Embedding模型和Reranker模型结合使用，显著提升了文本检索的效率和精度。阿里巴巴确认与苹果合作，提供Apple Intelligence在中国的服务。

阿里智能体多轮推理超越GPT-4o，开源模型也能做Deep Research

mp.weixin.qq.com/s/ZFPyrO1on…

阿里通义实验室推出的WebDancer智能体，通过系统化的训练范式，实现了多轮推理与连续动作执行，超越了GPT-4o的能力。WebDancer采用创新的数据合成方法和ReAct框架，结合开源模型QwQ，生成高质量的agentic数据。实验结果显示，WebDancer在多个信息检索基准测试中表现优异，尤其在GAIA和WebWalkerQA数据集上取得了高分。未来，WebDancer计划引入更多复杂工具，扩展任务泛化能力

论文链接： arXiv
代码链接： GitHub

ChatGPT普通会员能用编程神器Codex了！支持联网，奥特曼：更多更新在路上

mp.weixin.qq.com/s/T2Xxw7mNd…

ChatGPT近期进行了多项更新，普通会员现在也可以使用AI编程工具Codex，并支持联网功能，方便用户在任务执行期间访问互联网以安装依赖项、升级包等。此外，ChatGPT的记忆功能也向免费用户开放，提供个性化回复。OpenAI还提醒用户，联网功能可能带来安全风险，需谨慎使用。更多有趣的更新内容即将发布，用户可以期待。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

mp.weixin.qq.com/s/XF-huJzUk…

PosterAgent 是一款新时代科研党神器，能够一键将论文从PDF格式转换为可编辑的PPTX格式海报。相比于GPT-4o，PosterAgent生成指标更优，token使用量减少87%，成本仅为0.0045美元。该工具由滑铁卢大学的联合研究团队开发，并构建了首个学术海报评估标准Paper2Poster，解决了长上下文、多模态压缩的评估空白。PosterAgent通过多阶段自动生成框架，结合解析器、规划器和绘制器-评论器等组件，实现了高效的海报生成。

论文链接：arXiv
代码链接：GitHub
项目链接：Paper2Poster

GPT-5七月上线？内部爆料+奥特曼疯狂暗示，自曝前方时刻「令人恐惧」

mp.weixin.qq.com/s/M85_XMsQk…

近日，关于GPT-5发布时间的消息引发广泛关注。多方信息显示，GPT-5可能将在今年7月发布。著名预言帝、AIPRM首席工程师Tibor Blaho暗示，OpenAI将在7月发布一个重大更新，可能就是GPT-5。此外，AI投资人也列出了今年夏天最值得期待的模型，其中包括GPT-5。奥特曼在最近的访谈中表示，全球必须为AI的巨大影响做好准备，OpenAI提前发布不完美的模型是为了让世界能够提前适应并制定相关法规。他还提到，GPT-5的表现远超预期，OpenAI将迎来破纪录的需求。网友们对GPT-5充满期待，认为它将是人工智能史上最受期待的发布，应该属于下一代AI，带来极大的飞跃。