2026年03月31日 AI 科技日报 (Claude Code 源码通过 source map 泄露)
共收录 25 条资讯
Claude Code 源码通过 source map 泄露
Anthropic 在 npm 包中意外包含了 source map,社区提取出包含 4756 个源文件的 JSON,1906 个为 Claude Code 的 TypeScript 源码。源码暴露了架构、提示词、工具调用逻辑和实现细节,属于明显的安全与合规漏洞,对 Anthropic 的产品安全、竞品研究以及用户数据和接口安全产生直接影响。
关键词: Claude Code 源码泄露 source map 安全
来源: @chenchengpro
链接: x.com/chenchengpr…
AI模型
智谱 GLM-5.1 对编码用户开放
智谱将 GLM-5.1 向 Coding Plan 用户开放。实测在完整 12 轮测试中,前 1-9 轮表现接近 Opus 4.5,但在更长上下文轮次出现小规模破坏性错误导致得分下降。对开发者意味着可用于桌面与移动端的编码与应用场景,但长上下文的鲁棒性和稳定性仍需关注与验证。
关键词: GLM-5.1 编码计划 模型评测 长上下文
来源: @ZhihuFrontier
链接: x.com/ZhihuFronti…
阿里发布 Qwen3.5-Omni
阿里宣布 Qwen3.5-Omni,全模态能力升级,定位与最新的多模态大模型竞争。该模型强调文本与多媒体输入输出能力对齐最新对标产品,意味着中国厂商在全模态模型能力上持续推进,影响模型选型、研发和商业化部署的决策者与开发者。
关键词: Qwen3.5-Omni 全模态 模型发布
来源: @CodeByPoonam
链接: x.com/CodeByPoona…
产品发布
KAT-Coder-Pro V2 发布
KwaiKAT 发布 KAT-Coder-Pro V2,作为非推理的代码模型在 Artificial Analysis Intelligence Index 中得分 44,与 Claude Sonnet 4.6(非推理)相当,仅次于 Claude Opus 4.6(46)。厂商强调对代码任务优化和大规模输出吞吐,适合需要高效批量代码生成与自动化的场景,关注成本与运行效率指标。
关键词: KAT-Coder 代码模型 性能评测 效率
来源: @ArtificialAnlys
链接: x.com/ArtificialA…
Ollama 优化 Apple Silicon 性能
Ollama 更新以使用 Apple 的 MLX 框架,使其在 Apple Silicon 上运行速度提升,针对在本地运行模型的开发者和研究者,能显著改善 macOS 设备上的推理效率和响应速度,利于本地化部署和隐私敏感场景的模型使用。
关键词: Ollama Apple Silicon MLX 本地推理
来源: @JustinLin610
链接: x.com/JustinLin61…
英特尔离线生成式 AI 套件
出现面向 Intel PC 的离线生成式 AI 套件,目标是在无需持续联网的情况下提供图像/文本生成能力。该方向对企业与个人用户在数据隐私、延迟和成本控制方面有直接吸引力,推动更多生成式模型向端侧或边缘设备部署。
关键词: 离线生成式 AI Intel PC 本地部署
来源: @tom_doerr
链接: x.com/tom_doerr/s…
实时语音翻译桌面应用
一款实时语音翻译的桌面应用被分享,可即时转录并翻译语音,适用于会议、远程协作和跨语种交流。该类工具结合实时 ASR 与机器翻译,可提高多语场景的沟通效率,关注点包括延迟、翻译准确性和隐私处理方式。
关键词: 实时翻译 语音识别 桌面应用
来源: @tom_doerr
链接: x.com/tom_doerr/s…
Superagent 发布 130+ 预置技能包
Superagent 宣布发布超过 130 个预置技能,覆盖营销、数据处理、设计等常见任务,旨在缩短智能体产品化与落地时间。对希望快速构建多功能代理、减少手工脚本和 prompt 工作量的企业与开发者有直接价值。
关键词: 智能体技能 产品化 自动化
来源: @svpino
链接: x.com/svpino/stat…
研究论文
工具集成推理用于自治 Agent(论文)
一篇关于将外部工具与推理过程紧密集成以增强自治 Agent 能力的研究/工程工作,探讨如何让 Agent 在调用工具时保持连贯的推理与决策,改进任务完成率与可控性。该方向对构建复杂任务型 Agent、提高自动化执行质量和降低风险具有实际参考价值。
关键词: 自治 Agent 工具集成 推理 研究
来源: @tom_doerr
链接: x.com/tom_doerr/s…
World Reasoning Arena 发布基准
研究团队发布 World Reasoning Arena,一个面向世界模型的综合评测基准。基准覆盖交互式与推理任务,并揭示当前模型在长期因果推理与动态环境建模上的明显短板。对从事通用智能体、世界模型与评估方法的研究人员和基准建设者最有参考价值。
关键词: 世界模型 基准 推理能力
来源: @NandoDF
链接: x.com/NandoDF/sta…
CMU 新研究:推进编码型智能体策略
卡内基梅隆大学相关工作提出针对编码型智能体的运行策略研究,强调如何组织与调度子任务以提升代码生成与迭代能力。该方向有助于提高代码智能体在复杂工程场景中的可靠性与效率,影响自动编程工具、开发者代理与研究者的设计思路。
关键词: 编码智能体 自动编程 策略
来源: @omarsar0
链接: x.com/omarsar0/st…
论文:让智能体优化其运行“护具”与经验存储
一篇新论文指出,多数强能力智能体依赖手工设计的运行护具(harness),并展示了通过优化护具来提升最终任务表现的方法。关键方案是在文件系统中存储全部交互经验,并允许智能体有选择性地检查这些经验,适用于提升代理长期学习与规划能力。
关键词: 智能体 护具优化 经验存储
来源: @chelseabfinn
链接: x.com/chelseabfin…
工具推荐
Ollama 可用 MLX 作为后端
Ollama 宣布已支持使用 MLX 作为后端,这意味着 Ollama 用户可以选择 MLX 提供的后端部署(包括 CUDA 与 CPU 支持),简化本地推理和多后端集成。对需要在本地或私有环境运行大型模型的研究者和工程团队而言,能扩展部署选项并提升对硬件后端的灵活性。
关键词: Ollama MLX 本地推理 后端集成
来源: @ollama
链接: x.com/ollama/stat…
Hermes Agent 在 OSS 中自我改进的案例
社区用户反馈 Hermes Agent 能在开源项目中改进并修复自己的 PR,体现出 agent 在代码维护和协作中的实际应用价值。此类自改进代理能提升维护效率,但同时带来可靠性、代码质量审查与安全性等治理问题,适合希望试验低成本自动化维护的开源团队。
关键词: Hermes Agent 开源 自改进 开发自动化
来源: @Teknium
链接: x.com/Teknium/sta…
本地 Agent 带学习回路项目
最近出现的开源/演示项目展示了在本地运行的 Agent 框架,包含可持续学习回路,支持在设备端通过交互数据逐步改进行为。这类方案适合对隐私敏感、需要离线适配的应用场景,为开发者提供了在端侧持续优化 Agent 能力的思路。
关键词: 本地 Agent 持续学习 端侧推理
来源: @tom_doerr
链接: x.com/tom_doerr/s…
macOS 上的小型 AI 助手实验
有人发布在 macOS Dock 上运行的小型 AI 助手原型,提供快速入口的轻量交互体验。这类桌面级 AI 助手展示了将模型嵌入操作系统界面的趋势,适合快速查询和简短任务,但受限于能力与隐私实现方式。
关键词: 桌面助手 macOS 快速交互
来源: @tom_doerr
链接: x.com/tom_doerr/s…
CreaoAI:面向确定性任务的代理工具
用户反馈 CreaoAI 可用于构建并调度多项任务,特点是输出确定可复现,适合需要可重复结果的自动化流程。该类工具更适合企业级工作流自动化、定期报表与脚本化任务,而非开放式生成场景。
关键词: 自动化 代理平台 确定性输出
来源: @svpino
链接: x.com/svpino/stat…
将 Hermes 智能体会话转为训练数据
有建议把 Hermes 智能体的会话记录用于训练数据集,便于通过真实交互改进模型与技能库。此做法能加速闭环迭代,但同时带来数据隐私、标注质量与分发合规性问题,平台方与研究者需平衡收益与风险。
关键词: 训练数据 会话记录 数据治理
来源: @ClementDelangue
链接: x.com/ClementDela…
行业动态
AI 代码审查工具提前发现 axios 供应链异常
AI 驱动的代码审查/监控工具 Devin Review 在 axios 供应链问题公开前捕获异常,提前告警多位客户。该事件显示通用编码智能代理在检测依赖篡改与恶意安装行为方面具有实际价值,可缩短安全响应时间,但团队需评估误报率、集成成本与审计合规性。
关键词: 供应链攻击 代码审查 Devin Review 安全自动化
来源: @imjaredz
链接: x.com/imjaredz/st…
Cursor 测试架构平均提升模型 11% 表现
测试显示,在 Cursor 测评套件下,前沿模型相比其他 harness 平均性能提升约 11%。这一结果强调了评测框架与推理封装对模型得分的影响,提示研究者和评测者在横向对比模型时需统一或说明 harness 细节,以免评测环境差异掩盖模型本身能力。
关键词: Cursor 评测套件 模型评估 基准差异
来源: @sjwhitmore
链接: x.com/sjwhitmore/…
Linear 发布 Agent 交互指南
Linear 发布了 Agent 交互指南,提出将 Agent 作为可协作的“同事”设计,强调透明标识、及时反馈与明确操作语义。该指南为产品设计师与开发者提供了可执行的交互规范,适用于将 AI Agent 嵌入工作流或协作工具的场景,降低误用风险并提升用户可理解性。
关键词: Agent 交互 UX 指南 产品设计
来源: @Gorden_Sun
链接: x.com/Gorden_Sun/…
Anthropic 功能迭代带来流量增长
根据 Similarweb 数据,Anthropic 因加快功能交付,3 月网站流量环比增长 86%。这反映出快速迭代和新功能能显著提升用户触达,表明在 AI 产品竞争中,持续交付与用户体验改进是获取流量和用户的关键策略。
关键词: Anthropic 产品迭代 流量增长
来源: @testingcatalog
链接: x.com/testingcata…
ggml 开源运行时加入 Hugging Face 团队
Hugging Face 团队迎来 ggml 与其主要维护者加入,ggml 是广泛用于本地推理的轻量级运行时。此举有助于加强本地化推理生态、优化边缘/离线部署路径,并对依赖本地推理的开发者和产品团队带来技术支持与更快迭代。
关键词: ggml 本地推理 Hugging Face
来源: @ClementDelangue
链接: x.com/ClementDela…
PyTorchCon Europe 将在巴黎举行
PyTorch 官方宣布 4 月 7-8 日在巴黎举办 PyTorchCon Europe,包含技术议题与实作工作坊。会议聚焦模型训练、工具链与社区实践,适合研究者、工程师与开源贡献者获取最新框架进展与实战经验。
关键词: PyTorchCon 会议 社区
来源: @PyTorch
链接: x.com/PyTorch/sta…
关注我,每天获取AI最新资讯。
