DeepSeek 公布高效系统设计，理论利润率高达 545%DeepSeek 公布高效系统设计，理论利润率高达 545%

DeepSeek 在开源周第六弹发布了系统设计原则[3]，通过优化吞吐量和降低延迟，将性能和成本发挥到了极致。

他们晒出了 24 小时的实战成绩单：高峰时使用了 278 个节点（每节点配备 8 个 H800 GPU），平均使用 226.75 个节点。

单个节点能够处理 73.7k 输入 token/秒和 14.8k 输出 token/秒，全天吞吐量分别达到了 6080 亿和 1680 亿 token。

速度稳定在 20-22 token/秒，一天花费 8.7 万美元，却能赚取 56 万美元，利润率高达 545%。

Search-R1[1] 通过强化学习（RL）训练模型，使 3B 参数的小模型能够在推理过程中自主调用工具（如搜索）。

Search-R1 的灵感来源于 DeepSeek-R1，是首个成功复现 DeepSeek-R1 方法并加以创新的开源项目。

Sesame 团队弄了个叫 Conversational Speech Model (CSM) 的语音技术，其主要目的是解决现阶段语音助手那种“死板”的问题，让人觉得是在跟一个真人在说话，能听懂你情绪，还能跟你聊出点感觉来

他们还设计了两个演示角色：Maya（女声）和 Miles（男声）。根据用户反馈，这些角色确实表现出色。

例如，当你停下来不说话时，Maya 会主动询问“你咋了？”或者用之前聊过的梗儿来 cue 你。与那些只会“嗯嗯啊啊”的助手相比，CSM 更像是一个有灵魂的朋友。不过，目前它仅支持英语。

佬们可以在 Sesame 官网[2]上体验看看。

OlmOCR[4] 是由 Allen Institute for AI 开发的一款开源 OCR 工具，专门用于从 PDF 或图片中提取文字，并保留标题、表格等结构信息，甚至能够识别手写内容。

该模型不仅识别精度高，还能理解阅读顺序，并输出 Markdown 格式。批量处理 100 万页 PDF 的成本仅为 190 美元，佬们可以在官网[5]上传几页进行测试下效果，或者选择自部署。

总体确实非常不错，不过音标识别方面还是差点意思。

PhotoDoodle[6] 是一个开源的图像编辑框架，主要用于实现“照片涂鸦”（Photo Doodling）。

它允许用户通过简单的文字提示，在真实照片中添加艺术化的装饰元素，例如手绘风格的图案、魔幻效果或卡通角色，同时保持原图的真实感。

可以在官方的 Space 上在线体验[7]，实测效果还行的。