| AI Agent 与框架 | 狼人杀AI对决 | 一个用于进行“狼人杀”游戏的高分AI Agent。 | - | Hugging Face Space |
| Evaluation-Agent | 由上海AI实验室与南洋理工大学开发的视觉生成模型评估框架。 | 能够根据用户需求定制测试,并生成专家级的分析报告。 | GitHub |
| Amazon Bedrock AgentCore | 亚马逊云科技发布的企业级AI Agent构建工具包。 | 提供7大核心服务(无服务器、记忆管理、性能监控等),支持任何框架、模型和协议,灵活、安全。 | - |
| mcp-agent | 一个使用模型上下文协议(MCP)构建AI代理的可组合框架。 | - 基于Anthropic的MCP设计理念。<br>- 简化服务器连接生命周期管理。<br>- 支持并行处理、路由、意图分类等多种代理模式。 | GitHub |
| RAG-Anything | 一个全面的多模态文档处理RAG(检索增强生成)系统。 | - 端到端多模态处理流程。<br>- 支持PDF、Office文档、图像等多种格式。<br>- 自动构建多模态知识图谱,支持混合智能检索。 | GitHub |
| AgentOrchestra | 昆仑万维与南洋理工大学发布的分层多智能体协作框架。 | 采用“AI交响乐团”模式,由“指挥”Agent统筹,配合三类专业“乐手”Agent协作完成复杂任务。 | GitHub |
| MiniMax Agent | MiniMax推出的Agent全栈开发平台。 | 支持无代码一键构建包含后端托管、支付集成的完整应用系统,可快速创建金融看板、电商网站等。 | Website |
| 研究与模型 | 实时强化学习 (Real-time RL) | 旨在解决传统强化学习中交互延迟问题的技术。 | - 交错异步推理:在每个环境步都执行动作,消除无动作遗憾。<br>- 时序跳跃连接:减少深度神经网络的推理延迟。 | GitHub 1<br>GitHub 2 |
| Mixture-of-Recursions (MoR) | 谷歌发布的可能替代Transformer的新型LLM模型架构。 | 引入统一方法,同时实现参数共享和根据输入复杂度动态分配计算资源的自适应计算。 | Paper |
| Goedel-Prover-V2 | 新一代开源数学定理证明模型。 | 由普林斯顿、清华、北大等多家顶尖机构联合推出,其32B模型在多个基准测试上超越了之前的最先进模型。 | - |
| “大海捞针”测试结论 | Chroma团队针对大模型长文本能力的最新研究。 | 结论:当上下文长度超过1万tokens时,包括GPT-4.1、Claude 4在内的18款主流大模型集体“失智”。 | - |
| 工具与库 | Panda Guard | 专为研究大语言模型(LLMs)越狱攻击、防御和评估的开源项目。 | 提供了一个连接攻击者、防御者和评估者的框架,以实现对LLM安全性的全面评估。 | GitHub |
| KubeDiagrams | 一个用于生成Kubernetes架构图的工具。 | 可从清单文件、Helm图表或实际集群状态生成可视化架构图。 | GitHub |
| Triton Inference Server | NVIDIA维护的开源AI推理服务软件。 | - 支持多种主流深度学习框架。<br>- 支持云、数据中心、边缘等多种部署环境。<br>- 提供并发执行、动态批处理等高级功能。 | GitHub |
| Agent UI 开源框架 | 用于构建基于节点(Node-based)的Agent用户界面的框架。 | - React: ReactFlow / xyflow<br>- Vue: Vue Flow | xyflow (React/Svelte)<br>Vue Flow |
| Chroma | 一个开源的AI应用数据库。 | 旨在通过将知识和技能整合为LLM可调用的模块,来简化LLM应用的构建。 | - |
| Terragon | 一款允许在云端并行运行Claude Code代理的开发工具。 | 提升开发效率,简化流程,减少本地环境管理负担。目前处于免费测试版。 | Website |
| 方法与教程 | 提示词模板 | 一个用于编写Copilot指令的模板。 | - | GitHub |
| Geoffrey Huntley的Kiro源码解读 | 对亚马逊Kiro Agent的非官方源码级分析。 | 深入解读了其架构、分层提示词体系、意图识别策略和安全机制。 | Analysis<br>GitHub Repo |
| Claude Code 模块化指令 | 一种结构化、模块化提供指令给Claude的方法。 | 核心思想:只提供当前任务所需内容,避免超长指令导致模型忽略和Token浪费,从而提升执行一致性和效率。 | Reddit<br>GitHub |
| 将Claude Code用作通用Agent | Anthropic技术人员分享的实践方法。 | 核心思想:将所有内容(记忆、待办事项、日记等)都视为文件,通过自定义命令让Claude Code管理本地文件,实现高度个性化的工作流。 | X.com |
| 行业动态与新闻 | AtCoder 竞赛结果 | 在世界巡回总决赛中,人类Psycho位居第一,OpenAI位居第二。 | AtCoder是日本的全球性编程竞赛网站。 | - |
| ModelScope 与 Kimi 集成 | ModelScope与Kimi Playground达成集成。 | 用户可以在Kimi Playground中使用ModelScope MCP服务。 | - |
| 马克·扎克伯格关于超级智能的言论 | Meta CEO对超级智能发展的看法。 | “已看到模型自我提升的初步迹象”,认为应按“两三年后就能成”的预期准备,并投入数千亿美元。 | - |
| AI机器人手术成功 | AI训练的机器人在无人类协助下成功实施了手术。 | 在死亡的猪身上成功实施了胆囊切除手术,是AI在医疗领域的一个里程碑。 | - |
| NeurIPS 增设会场 | NeurIPS官方宣布将在墨西哥城设立第二个线下会议场地。 | 目的是为了应对参会人数激增和部分与会者的签证难题。 | - |
| OpenAI Image API 更新 | 图像生成工具新增input_fidelity参数。 | 设置为high时,可以提升编辑人脸、Logo等场景下的细节保留度和还原度。 | Cookbook |
| Anthropic 人员变动 | Anthropic重新聘回了两位曾加入Cursor的Claude Code关键负责人。 | - | - |
| 其它资源 | 免费使用Kimi 2 | 一个可以免费使用Kimi 2模型的链接。 | - | Together AI |
| youtube-transcript-mcp | 一个根据YouTube视频内容生成可视化、总结或脚本的AI工具想法。 | - | GitHub |