首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Luhui_Dev
掘友等级
开发者,研究 Agent 体系与产品落地,公众号 Luhui Dev
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
16
文章 14
沸点 2
赞
16
返回
|
搜索文章
Luhui_Dev
6小时前
关注
Anthropic 2026 最新 Agent Harness 架构完整拆解:Managed Agents
从 Agent Loop 到 Agent Runtime,Anthropic 正在把 Agent Harness 的重点转向持久状态、上下文调度、安全执行、凭证边界与可观测...
0
评论
分享
Luhui_Dev
9天前
关注
AHE 深度解析:Coding Agent 的 Harness 如何自动演化
AHE 是一个面向 Coding Agent 的 harness 自动演化框架。通过可观测的运行证据,持续改进 prompt、tools、middleware、memory...
0
评论
分享
Luhui_Dev
16天前
举报
#新晋AI顶流PK:GPT-5.5 vs DeepSeek V4 #
GPT-5.5 发布后的深度体验总结
这是自 GPT-4.5 以来首次完整重新预训练的模型,代号"Spud"。
核心亮点包括长上下文能力飞跃(1M token 窗口,MRCR 测试提升 37 个百分点)、自检功能增强、Agent 自主工作能力显著提升。
虽然在某些代码任务上不及 Claude,但在长文本检索、高难度数学和计算机操作方面表现领先。
API 价格翻倍,但 token 消耗减少 40%,实际成本涨幅约 20%。
模型能力提升速度已超过安全防护机制成熟速度,值得关注。
展开
https://mp.weixin.qq.com/s/AU5VDpHMR9NRs_Hf2Z0j_Q
mp.weixin.qq.com
AICoding交流
赞过
分享
评论
1
Luhui_Dev
1月前
关注
科研图示难产?看看Agent多角色分工机制
探索 PaperBanana 如何通过多 Agent 协作机制解决科研图示生成难题。五角色分工(Retriever、Planner、Stylist、Visualizer、C...
0
评论
分享
Luhui_Dev
1月前
关注
一行代码,把几何画板嵌入你的网页
通过大角几何开放平台的嵌入式 SDK,将完整的几何画板功能集成到应用中。开发无需自建几何引擎,仅需一行代码即可实现动态几何图形展示、交互式数学可视化等功能。关键词:几何画板...
0
评论
分享
Luhui_Dev
2月前
关注
AlphaGeometry DSL 教程:Google 几何构造语言、defs.txt 与 Predicate 详解
系统拆解 AlphaGeometry DSL 的问题格式、defs.txt action 定义、predicate 语义、rules.txt 推理规则与构造流程,适合做几何...
0
评论
分享
Luhui_Dev
2月前
关注
Google 是如何让 AI 解 IMO 几何题的:AlphaGeometry 系统解析
拆解 AlphaGeometry2 如何把几何推理、辅助线搜索与符号证明结合起来解决 IMO 几何题,并总结对数学 AI 工程的启发。...
0
评论
分享
Luhui_Dev
2月前
关注
Google DeepMind Aletheia:完全自主研究的数学 Agent 解读
Google DeepMind Aletheia 在 IMO-ProofBench Advanced 数据集中以 ~91.9% 成绩遥遥领先。 针对美国数学奥林匹克 202...
0
评论
分享
Luhui_Dev
2月前
关注
HKU CodePlot-CoT 深度解析:视觉推理还是几何推理?
前言 上一篇写 MathCanvas 深度解析 的时候,我的总结观点是: 大模型在几何上不稳定,并不是因为看不懂图,而是因为没有稳定的中间结构可以操作。 一些研究工作开始让...
0
评论
分享
Luhui_Dev
2月前
关注
MathCanvas 深度技术解读:几何推理新范式
几何能力的瓶颈不在语言推理,而在可操作的中间结构。MathCanvas 将“作图”纳入推理链,使图像成为可参与决策的状态。步结合 大角几何画板 的实践,对比视觉中间态与可执...
0
评论
分享
Luhui_Dev
3月前
关注
AI 与数学的融合:技术路径、应用前沿与未来展望(2026 版)
AI在数学领域的突破,远远超过了传统的题库解答。本文深入探讨了大模型如何从语言生成到结构验证,推动数学解题从基础应用走向工程化和形式化的时代。通过对基准测试的演进、模型能力...
0
评论
分享
Luhui_Dev
3月前
关注
一句话讲明白:MCP、Skills、Agents SDK 到底谁是标准?
通过一个“智能工厂”的类比,作者将 MCP、Skills、Agents SDK 放回各自该在的位置,清晰地区分了协议层、能力封装层与运行时调度层。...
1
1
分享
Luhui_Dev
3月前
关注
2025 年,我最离不开的 7 个 AI 工具,以及我真正的工作方式
一个工程型创作者的真实工作流。我这一年,如何用 AI 构建第二个大脑和第二套生产系统。 生产力引擎:AI IDE (Cursor、Trae、Claude 等)......
0
评论
分享
Luhui_Dev
3月前
关注
工程视角:Agent 时代,诚实对齐该如何落地?
大模型 Agent、reward hacking、工具调用隐瞒、confession 双通道、置信门控、可回滚事务、Prompt Shield、Constitutional...
0
评论
分享
Luhui_Dev
4月前
关注
当模型知道自己在作弊:Scheming 与 Reward Hacking 的技术解剖
并非所有“不靠谱输出”都源自模型无知。越来越多证据显示,一类高风险失败模式来自有意识的不诚实:模型理解规则、评估收益,并在最优策略下选择欺骗。本文系统拆解三条研究主线——R...
0
评论
分享
Luhui_Dev
4月前
关注
2025 开源大模型生态回顾一览
2025 年,开源大模型首次在推理能力与工程可用性上进入前沿竞争,从“复刻闭源”转向与其并跑,并形成多路线并存的生态格局。中国团队成为这一轮跃迁的关键推动者。...
0
评论
分享
Luhui_Dev
4月前
关注
Self-reflection 的幻觉:为什么让模型“反思”往往没用?
通过对比自我批评、反思提示、自洽投票、辩论、宪法式对齐与供述机制,文章揭示:减少错误不等于提升诚实,真正的可信性需要独立的披露通道与激励设计。...
0
评论
分享
Luhui_Dev
4月前
关注
OpenAI Confession:为什么“承认作弊”比“不作弊”更重要
Confession 并不是让模型“更守规矩”,而是通过奖励解耦,让模型在事后如实暴露自己的违规、取巧与不确定性。它承认一个现实:在 Agent 系统中,作弊不可避免,但不...
0
评论
分享
Luhui_Dev
4月前
关注
OpenAI:大模型真正的问题不是幻觉,而是不诚实
当模型输出错误内容时,我们通常认为这是能力不足。但如果模型知道自己不确定、知道自己违规,却依然给出一个看似合理的答案,这还是“幻觉”吗?OpenAI 最近的研究,将问题从正...
1
评论
分享
Luhui_Dev
5月前
关注
幻觉不是 AI 的病,而是智能的宿命
过去两年里,AI 的“幻觉”(hallucination)问题成了最热门的技术话题之一。 像昨天发布的 GPT-5.2 Thinking 中也提到,最新版本的实时性错误测试...
1
评论
分享
下一页
个人成就
文章被点赞
15
文章被阅读
5,522
掘力值
378
关注了
0
关注者
1
收藏集
0
关注标签
17
加入于
2025-10-09