51-260503 AI 科技日报 (ChatGPT图像功能用户量暴涨，新用户占六成)

2026-05-03 0 阅读3分钟

51-260503 AI 科技日报 (ChatGPT图像功能用户量暴涨，新用户占六成)

AI模型

V4-Flash模型长对话后性能下降 — DeepSeek V4-Flash在对话超过40轮、约300K token后，表现会明显下降。 🔗

产品发布

ChatGPT图像功能使用率暴增 — ChatGPT图像功能几周内使用量增长超50%，近60%的每日用户是新注册用户。 🔗
Codex应用迎来大量功能更新 — Codex近两周更新了GPT-5.5集成、浏览器控制、文档处理和多项性能优化。 🔗
谷歌测试Gemini Omni视频生成模型 — 谷歌I/O泄露信息显示Gemini正在测试Omni视频生成模型，可能升级现有Veo能力。 🔗
OpenClaw更新集成Grok 4.3等多模型 — OpenClaw 2026.5.2集成Grok 4.3，并优化插件稳定性和多平台支持。 🔗

研究论文

FPGA上跑通MicroGPT，纯硬件实现 — MicroGPT Transformer已经能在FPGA上纯硬件运行，不依赖GPU、PyTorch或CPU推理循环。 🔗
Claude Opus 4.7自主实现AlphaZero式自对弈 — Claude Opus 4.7在消费级硬件上3小时从零实现AlphaZero式自对弈，并在四子棋上表现优异。 🔗
当前AI Agent记忆机制更像备忘录 — 新论文认为现有Agent记忆系统偏向记录和检索，缺少把短期记忆巩固成长期知识的能力。 🔗
利用智能体推理将LLM变为自主系统的统一路线图 — 综述论文提出“智能体推理”框架，试图把LLM组织成能自主执行复杂任务的系统。 🔗

工具推荐

Gemini 3.1用于快速构建动画网站 — Gemini 3.1在14分钟内生成带动画的网站，展示了多模态模型做前端原型的速度。 🔗
快速语音识别模型支持单词级时间戳-whisperX — 开源语音识别模型支持快速转写、单词级时间戳和说话人分离，适合会议记录和字幕场景。 🔗
开源AI平台覆盖从流水线到Agent-zenml — 开源AI平台提供从数据处理流水线到AI Agent构建部署的完整工具链。 🔗
动态AI Agent记忆系统开源 — 动态记忆系统面向LLM Agent设计，用来管理和利用历史交互信息。 🔗

行业动态

多模态模型在视觉推理上仍有短板 — 多模态模型能处理图像，但复杂视觉推理仍依赖语言表达，几何和逻辑理解容易卡住。 🔗
对比Mistral与DeepSeek的技术路线差异 — Mistral近两年进展相对平缓，DeepSeek从V1到V4经历多次路线调整，技术演进更激进。 🔗
AI诊断急诊患者准确率超过医生 — 哈佛研究显示，AI在真实急诊患者诊断任务中的准确率超过两位主治医师。 🔗
Gary Marcus详细论述AI社会负面效应清单 — Gary Marcus梳理生成式AI在教育、监控、犯罪、偏见和信息污染等方面的社会问题。 🔗

关注我，每天获取AI最新资讯。