首页
AI Coding
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
机器之心
掘友等级
机器之心
专业的人工智能信息平台(www.jiqizhixin.com)
获得徽章 0
动态
文章
专栏
沸点
课程
收藏集
关注
作品
赞
91
文章 90
沸点 1
赞
91
返回
|
搜索文章
机器之心
@机器之心
·
1小时前
关注
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开
如今,强化学习(RL)已成为提升大语言模型(LLM)复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈的上下文属性,LLM 的...
0
评论
分享
机器之心
@机器之心
·
1小时前
关注
英伟达CUDA迎来史上最大更新!
NVIDIA CUDA Toolkit 13.1 正式发布,英伟达官方表示:「这是 20 年来最大的一次更新。」 这个自 2006 年 CUDA 平台诞生以来规模最大、最全...
0
评论
分享
机器之心
@机器之心
·
2天前
关注
登顶SuperCLUE DeepSearch,openPangu-R-72B深度搜索能力跃升
随着大模型推理和 Agent 工具调用能力的快速发展,其通过反复搜索处理复杂信息需求的效果愈发受到业界关注。近日,第三方评测机构 SuperCLUE 发布 11 月 Dee...
2
评论
分享
机器之心
@机器之心
·
3天前
关注
DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了
DeepSeek 一发布模型,总会引起业内的高度关注与广泛讨论,但也不可避免的暴露出一些小 Bug。 比如老外用英文询问,它却在思考过程中切回「神秘的东方文字」。当然,De...
0
评论
分享
机器之心
@机器之心
·
3天前
关注
云计算一哥出手,大家AI Agent自由了
最先进的 Agentic AI,现在是做什么工作的? 在搞太空探索。 上个月,蓝色起源「新格伦」重型运载火箭首次成功实现了一级回收,在与 SpaceX 的竞争中迈出了重要一...
0
评论
分享
机器之心
@机器之心
·
3天前
关注
从MiniMax到DeepSeek:为何头部大模型都在押注「交错思维」?
昨日,有位推特博主晒出了国内几大开源模型在轻量级软件工程 Agent 基准测试 mini-SWE-agent 上的成绩。该基准主要测试大模型在真实软件开发任务中的多步推理、...
0
评论
分享
机器之心
@机器之心
·
5天前
关注
刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apache 2.0
刚刚,「欧洲的 DeepSeek」Mistral AI 刚刚发布了新一代的开放模型 Mistral 3 系列模型。 该系列有多个模型,具体包括: 「世界上最好的小型模型」:...
0
评论
分享
机器之心
@机器之心
·
5天前
关注
这下Altman急了,OpenAI紧急启动「红色警报」
ChatGPT 三周年刚刚过去,Sam Altman 却显得分外焦虑。 据 The Information 报道,一份内部备忘录显示,Altman 周一告诉员工,OpenA...
0
评论
分享
机器之心
@机器之心
·
5天前
关注
华为新开源!扩散语言模型突破32K上下文,还解锁了「慢思考」
今年,文本生成领域迎来了从自回归(Auto-Regressive)向扩散语言模型(Diffusion LM)的重要范式转变。然而,长序列训练的不稳定性一直是制约扩散模型发展...
0
评论
分享
机器之心
@机器之心
·
6天前
关注
NeurIPS 2025 | DePass:通过单次前向传播分解实现统一的特征归因
共同一作:洪翔宇,清华大学电子系大四本科生,曾获清华大学蒋南翔奖学金等,曾在NeurIPS,EMNLP,NAACL等顶级会议上发表论文。姜澈,清华大学电子系博士三年级在读,...
0
评论
分享
机器之心
@机器之心
·
6天前
关注
NeurIPS 2025 | 英伟达发布Nemotron-Flash:以GPU延迟为核心重塑小模型架构
导读 过去两年,小语言模型(SLM)在业界备受关注:参数更少、结构更轻,理应在真实部署中 “更快”。但只要真正把它们跑在 GPU 上,结论往往令人意外 —— 小模型其实没...
1
评论
分享
机器之心
@机器之心
·
9天前
关注
华为放出「准万亿级MoE推理」大招,两大杀手级优化技术直接开源
如果说过去数年大模型竞争的焦点在训练规模与能力突破上,那么如今,推理效率正迅速成为影响模型能否落地的关键变量。 从任务属性来看,训练侧重于通过更多算力和数据扩展模型能力,而...
0
评论
分享
机器之心
@机器之心
·
9天前
关注
DeepSeek强势回归,开源IMO金牌级数学模型
The whale is back! 就在刚刚,DeepSeek 又悄咪咪在 Hugging Face 上传了一个新模型:DeepSeek-Math-V2。 顾名思义,这是...
0
评论
分享
机器之心
@机器之心
·
10天前
关注
Adam的稳+Muon的快?华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境
在 LLM 优化领域,有两个响亮的名字:Adam(及其变体 AdamW)和 Muon。 它们一个是久经沙场的「守门员」,凭借动量和自适应学习率统治了深度学习的半壁江山,却在...
0
评论
分享
机器之心
@机器之心
·
11天前
关注
小米开源首个跨域具身基座模型MiMo-Embodied,29个榜单SOTA
该研究由小米具身智能团队(Xiaomi Embodied Intelligence Team) 共同完成。由该团队的郝孝帅担任核心贡献第一作者,项目负责人则是小米智驾团队首...
0
评论
分享
机器之心
@机器之心
·
12天前
关注
从推荐算法优化到AI4S、Pico和大模型,杨震原长文揭秘字节跳动的技术探索
11月24日,第五届字节跳动奖学金颁奖典礼在北京大钟寺办公区举办。 本届奖学金共吸引了中国和新加坡66所高校的500余名同学报名申请,来自清华、北大、复旦、人大、华中科技大...
0
评论
分享
机器之心
@机器之心
·
12天前
关注
哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA
全模态大模型(Omnimodal Large Models, OLMs)能够理解、生成、处理并关联真实世界多种数据类型,从而实现更丰富的理解以及与复杂世界的深度交互。人工智...
0
评论
分享
机器之心
@机器之心
·
13天前
关注
智能体&编程新王Claude Opus 4.5震撼登场,定价大降2/3
如昨日预期一样,Anthropic 正式发布了最新模型 Claude Opus 4.5。 根据介绍,Claude Opus 4.5 非常智能高效,在编程、智能体以及计算机操...
0
评论
分享
机器之心
@机器之心
·
17天前
关注
AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
引言:从「语义理解」到「心智共情」的跨越 在人类日常交流中,话语的含义往往超越字面本身。举个例子,当有人说出 “这里好冷啊” 的时候,真正的用意可能远不止是在描述温度 ——...
0
评论
分享
机器之心
@机器之心
·
18天前
关注
通往通用人工智能的关键一步?DeepMind放大招,3D世界最强AI智能体SIMA 2
您的 AI 伙伴「游戏陪玩」版已上线。 今天,Google DeepMind 发布了 SIMA 2,一个在虚拟 3D 世界中能自主游戏、推理并持续学习的通用 AI 智能体。...
0
评论
分享
下一页
个人成就
优秀创作者
文章被点赞
11,765
文章被阅读
2,185,828
掘力值
93,260
关注了
3
关注者
31,158
收藏集
0
关注标签
1
加入于
2017-08-30