51-260503 AI 科技日报 (ChatGPT图像功能用户量暴涨,新用户占六成)

0 阅读3分钟

51-260503 AI 科技日报 (ChatGPT图像功能用户量暴涨,新用户占六成)

AI模型

  1. V4-Flash模型长对话后性能下降 — DeepSeek V4-Flash在对话超过40轮、约300K token后,表现会明显下降。 🔗

产品发布

  1. ChatGPT图像功能使用率暴增 — ChatGPT图像功能几周内使用量增长超50%,近60%的每日用户是新注册用户。 🔗

  2. Codex应用迎来大量功能更新 — Codex近两周更新了GPT-5.5集成、浏览器控制、文档处理和多项性能优化。 🔗

  3. 谷歌测试Gemini Omni视频生成模型 — 谷歌I/O泄露信息显示Gemini正在测试Omni视频生成模型,可能升级现有Veo能力。 🔗

  4. OpenClaw更新集成Grok 4.3等多模型 — OpenClaw 2026.5.2集成Grok 4.3,并优化插件稳定性和多平台支持。 🔗

研究论文

  1. FPGA上跑通MicroGPT,纯硬件实现 — MicroGPT Transformer已经能在FPGA上纯硬件运行,不依赖GPU、PyTorch或CPU推理循环。 🔗

  2. Claude Opus 4.7自主实现AlphaZero式自对弈 — Claude Opus 4.7在消费级硬件上3小时从零实现AlphaZero式自对弈,并在四子棋上表现优异。 🔗

  3. 当前AI Agent记忆机制更像备忘录 — 新论文认为现有Agent记忆系统偏向记录和检索,缺少把短期记忆巩固成长期知识的能力。 🔗

  4. 利用智能体推理将LLM变为自主系统的统一路线图 — 综述论文提出“智能体推理”框架,试图把LLM组织成能自主执行复杂任务的系统。 🔗

工具推荐

  1. Gemini 3.1用于快速构建动画网站 — Gemini 3.1在14分钟内生成带动画的网站,展示了多模态模型做前端原型的速度。 🔗

  2. 快速语音识别模型支持单词级时间戳-whisperX — 开源语音识别模型支持快速转写、单词级时间戳和说话人分离,适合会议记录和字幕场景。 🔗

  3. 开源AI平台覆盖从流水线到Agent-zenml — 开源AI平台提供从数据处理流水线到AI Agent构建部署的完整工具链。 🔗

  4. 动态AI Agent记忆系统开源 — 动态记忆系统面向LLM Agent设计,用来管理和利用历史交互信息。 🔗

行业动态

  1. 多模态模型在视觉推理上仍有短板 — 多模态模型能处理图像,但复杂视觉推理仍依赖语言表达,几何和逻辑理解容易卡住。 🔗

  2. 对比Mistral与DeepSeek的技术路线差异 — Mistral近两年进展相对平缓,DeepSeek从V1到V4经历多次路线调整,技术演进更激进。 🔗

  3. AI诊断急诊患者准确率超过医生 — 哈佛研究显示,AI在真实急诊患者诊断任务中的准确率超过两位主治医师。 🔗

  4. Gary Marcus详细论述AI社会负面效应清单 — Gary Marcus梳理生成式AI在教育、监控、犯罪、偏见和信息污染等方面的社会问题。 🔗


关注我,每天获取AI最新资讯。

image.png