6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
在2025年高考数学新课标Ⅰ卷的测试中,字节的豆包和腾讯的元宝以68分并列第一,表现最为出色。DeepSeek和阿里的通义分别获得63分和62分,而百度的文心X1仅得51分。OpenAI的o3表现不佳,仅得34分,正确率47%。此次测试揭示了大模型在数学推理能力上的进步与不足,尤其是在处理复杂逻辑和几何直觉方面的挑战。
高考第一天,用豆包修图3.0花式「整活」送祝福,已原地笑翻!
豆包AI修图3.0版本上线,带来了全新的图像编辑体验。通过自然语言即可实现精准的图片编辑,支持高考祝福、网络梗图、大片级精修等多种应用场景。新版本的SeedEdit 3.0模型提升了图像编辑的稳定性与真实感,尤其在人像美化、场景替换等复杂任务中表现出色。豆包AI不仅能在图像上精准添加文字,还能进行局部修改和风格迁移,成为设计师们的得力助手。
Gemini新版蝉联竞技场榜一,但刚发布就被越狱了
谷歌最新发布的Gemini 2.5 Pro版本在多个任务上表现出色,尤其是在“人类最后的考试”中取得了21.6%的成绩,超越了o3和Claude 4 Opus。新版本在大模型竞技场上也取得了总分第一的成绩。然而,发布仅两小时后,Gemini 2.5 Pro 0605版本就被成功越狱,暴露了安全性问题。尽管如此,Gemini在安卓应用市场的下载量已超过ChatGPT,显示出其受欢迎程度。
Qwen3深夜开源新系列:文本表征模型,3种尺寸可选,超越商业API拿下SOTA
Qwen3发布了全新的Embedding系列模型,专为文本表征、检索与排序任务设计,支持多语言处理。该系列包括0.6B、4B和8B三种尺寸,其中8B版本在MTEB多语言Leaderboard榜单中排名第一,性能超越众多商业API服务。模型在Hugging Face、ModelScope和GitHub平台开源,用户也可以通过阿里云百炼平台使用最新的文本向量模型服务。Embedding模型和Reranker模型结合使用,显著提升了文本检索的效率和精度。阿里巴巴确认与苹果合作,提供Apple Intelligence在中国的服务。
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
阿里通义实验室推出的WebDancer智能体,通过系统化的训练范式,实现了多轮推理与连续动作执行,超越了GPT-4o的能力。WebDancer采用创新的数据合成方法和ReAct框架,结合开源模型QwQ,生成高质量的agentic数据。实验结果显示,WebDancer在多个信息检索基准测试中表现优异,尤其在GAIA和WebWalkerQA数据集上取得了高分。未来,WebDancer计划引入更多复杂工具,扩展任务泛化能力
ChatGPT普通会员能用编程神器Codex了!支持联网,奥特曼:更多更新在路上
ChatGPT近期进行了多项更新,普通会员现在也可以使用AI编程工具Codex,并支持联网功能,方便用户在任务执行期间访问互联网以安装依赖项、升级包等。此外,ChatGPT的记忆功能也向免费用户开放,提供个性化回复。OpenAI还提醒用户,联网功能可能带来安全风险,需谨慎使用。更多有趣的更新内容即将发布,用户可以期待。
论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster
PosterAgent 是一款新时代科研党神器,能够一键将论文从PDF格式转换为可编辑的PPTX格式海报。相比于GPT-4o,PosterAgent生成指标更优,token使用量减少87%,成本仅为0.0045美元。该工具由滑铁卢大学的联合研究团队开发,并构建了首个学术海报评估标准Paper2Poster,解决了长上下文、多模态压缩的评估空白。PosterAgent通过多阶段自动生成框架,结合解析器、规划器和绘制器-评论器等组件,实现了高效的海报生成。
- 论文链接:arXiv
- 代码链接:GitHub
- 项目链接:Paper2Poster
GPT-5七月上线?内部爆料+奥特曼疯狂暗示,自曝前方时刻「令人恐惧」
近日,关于GPT-5发布时间的消息引发广泛关注。多方信息显示,GPT-5可能将在今年7月发布。著名预言帝、AIPRM首席工程师Tibor Blaho暗示,OpenAI将在7月发布一个重大更新,可能就是GPT-5。此外,AI投资人也列出了今年夏天最值得期待的模型,其中包括GPT-5。奥特曼在最近的访谈中表示,全球必须为AI的巨大影响做好准备,OpenAI提前发布不完美的模型是为了让世界能够提前适应并制定相关法规。他还提到,GPT-5的表现远超预期,OpenAI将迎来破纪录的需求。网友们对GPT-5充满期待,认为它将是人工智能史上最受期待的发布,应该属于下一代AI,带来极大的飞跃。