首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
拖拖765
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
拖拖765
9小时前
关注
深度解构 LSTM:为什么 2015 年的这篇博客至今仍是 AI 必读经典?
一、 核心痛点:RNN 的“鱼式记忆” 在传统神经网络中,信息是单向流动的。而人脑在思考时具有持久性。为了模拟这种特性,循环神经网络(RNN)应运而生。 然而,传统 RNN...
0
评论
分享
拖拖765
1天前
关注
重读经典:Karpathy 的《循环神经网络不可思议的有效性》与代码实战
在 GPT-4 和各种大模型横行的今天,我们很容易忘记深度学习领域的“史前时代”。但在 2015 年,Andrej Karpathy(OpenAI 创始成员、前 Tesla...
0
评论
分享
拖拖765
2天前
关注
大语言模型不是 AGI 的死路
从模式匹配到协调物理:UCCT 与 MACI 如何把 LLM 推向可验证推理 本文基于论文 《The Missing Layer of AGI: From Pattern...
0
评论
分享
拖拖765
16天前
关注
[深度解读] 复杂动力学第一定律:为什么宇宙中间阶段最“有趣”?
摘要:热力学第二定律告诉我们,宇宙的终点是死寂的无序(高熵)。但为什么在从有序走向无序的过程中,会出现星系、生命、以及牛奶咖啡中那些复杂的漩涡结构?本文基于 Scott A...
0
评论
分享
拖拖765
19天前
关注
✨深入浅出理解《The Annotated Transformer》:从零实现 Transformer 的完整解析
Transformer 之所以能成为当今大模型时代的核心基础架构,并非偶然。从 2017 年“Attention Is All You Need”提出至今,Transfor...
0
评论
分享
拖拖765
21天前
关注
Attention Is All You Need:彻底改变 AI 世界的论文解析
这篇 Blog 将带你快速理解: 论文讲了什么内容 Transformer 的关键创新点 它在现实中的实际应用场景 一个最小可运行 Transformer Demo(可直接...
0
评论
分享
拖拖765
23天前
关注
从“死”文档到“活”助手:Paper2Agent 如何将科研论文一键转化为可执行 AI
你是否经历过这种绝望:读到一篇绝佳的科研论文,想要复现它的结果或在自己的数据上试用它的方法,结果却陷入了无穷无尽的“依赖地狱”?环境配置报错、代码缺少文档、参数不知如何调整...
0
评论
分享
拖拖765
1月前
关注
骗过 AI 的大脑?如何利用“难度错觉”让 LLM 变聪明
你是否遇到过这种令人抓狂的情况:大语言模型(LLM)能轻松解决复杂的微积分问题,却在简单的逻辑陷阱题上翻车?这种“能力不一致性”一直是 AI 领域的谜团。 牛津大学的一项最...
0
评论
分享
拖拖765
1月前
关注
打破 LLM 长任务瓶颈:MAKER 如何实现百万步零错误执行
近几年,大语言模型(LLM)在推理、代码生成、工具调用等任务上取得了巨大进展。但当任务变得极长,需要上千甚至上百万步(例如 Towers of Hanoi 20 个盘,需要...
0
评论
分享
拖拖765
1月前
关注
AlphaResearch:让 AI 自主发现新算法的时代来了
最近,算法研究界最炸裂的论文之一,就是《AlphaResearch: Accelerating New Algorithm Discovery with Language ...
0
评论
分享
拖拖765
1月前
关注
🧠 MemOS:让 AI 拥有“记忆操作系统”的未来
一、背景:AI 需要一个“记忆操作系统” 在大语言模型(LLM)飞速发展的今天,模型可以推理、生成、规划,但依旧存在一个根本性缺陷——没有真正的长期记忆。 我们现在常用的 ...
0
评论
分享
拖拖765
1月前
关注
用工程化思维把 LLM 从“聪明的孤岛”变成可靠的产品 —— 基于 Weaviate《Context Engineering》读后实践指南
一、核心挑战与原则(为什么要做 Context Engineering) 1. 上下文窗口的根本限制 LLM 的「工作内存」是有限的(context window),把太多...
0
评论
分享
拖拖765
1月前
关注
Kimi Linear:让长上下文大模型真正实用的线性注意力架构
一、为什么我们需要新的注意力机制? Transformer 已成为大语言模型(LLM)的核心,但它的 softmax 全注意力(Full Attention) 存在两个关键...
0
评论
分享
拖拖765
2月前
关注
从 Claude Code 学到的那些事:简单、启发与自我管理的 AI 架构哲学
Claude 作为 Anthropic 的旗舰模型,一直给人一种“温柔又聪明”的印象。但最近我深入研究了 Claude Code 的实现设计后,发现它的“聪明”,并非仅仅来...
0
评论
分享
拖拖765
4月前
关注
深度思考与置信度:DeepConf 让大模型推理更高效更准确
近期,Meta AI 和 UCSD 的研究者提出了一种新的方法——Deep Think with Confidence(DeepConf),它在保持甚至提升大语言模型(LL...
0
评论
分享
拖拖765
4月前
关注
解读《Thyme: Think Beyond Images》——让大模型“写代码”思考图像
在多模态大模型快速发展的今天,如何让模型更好地利用视觉信息来进行推理,一直是研究的热点。最近的一篇论文 《Thyme: Think Beyond Images》 提出了一个...
0
评论
分享
拖拖765
4月前
关注
用一行代码改进 SFT 泛化能力:DFT(Dynamic Fine-Tuning)详解
在大语言模型(LLM)后训练中,SFT(Supervised Fine-Tuning) 是最常用的手段:简单、高效、快速模仿专家数据。然而,很多人发现 SFT 泛化能力差,...
0
评论
分享
拖拖765
4月前
关注
【今日论文】监督微调其实就是强化学习:洞见、创新与实际应用
微调大语言模型(LLM)已经成为使其对齐人类意图的核心方法之一。虽然从人类反馈中强化学习(RLHF)是流行选择,但它通常复杂且不稳定。令人惊讶的是,一个更简单的替代方法——...
0
评论
分享
拖拖765
5月前
关注
Data Efficacy: 用更好的数据组织让大模型运行更好
最近,来自 Microsoft Research 的一篇新论文 "Data Efficacy for Language Model Training",揭示了训练大语言模型...
0
评论
分享
拖拖765
6月前
关注
Mirage:让AI拥有“心理意象”,开启多模-态推理新篇章
想象一下,当您在玩拼图时,您是如何判断两块碎片能否拼在一起的?您可能不会用语言去描述每一个锯齿的形状,而是在脑海中“想象”它们拼接在一起的样子。这种内在的、非语言的视觉构建...
0
评论
分享
下一页
个人成就
文章被阅读
3,986
掘力值
454
关注了
0
关注者
1
收藏集
0
关注标签
6
加入于
2025-03-07