首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
chaofa用代码打点酱油
掘友等级
LLM, NLP, 计算广告
|
腾讯
想做一些有意义的事情, https://yuanchaofa.com
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
5
文章 5
沸点 0
赞
5
返回
|
搜索文章
chaofa用代码打点酱油
LLM, NLP, 计算广告 @腾讯
·
2月前
关注
Kimi-K2 和 Kimi-K2-Thinking 深度解读:从预训练优化到 Agentic 能力训练的完整流程(含MuonClip优化、Agentic 数据
深度解读 Kimi K2 和 K2 Thinking 技术细节:MuonClip 优化方案、大规模 Agentic 数据合成 pipeline、通用强化学习的 Self-J...
1
评论
分享
chaofa用代码打点酱油
LLM, NLP, 计算广告 @腾讯
·
3月前
关注
RAG 进化之路:传统 RAG 到工具与强化学习双轮驱动的 Agentic RAG
本文深入剖析RAG技术的进化历程,从传统RAG到智能体RAG的全面升级。探索两种实现Agentic RAG的关键路径:提示工程+工具调用与强化学习驱动方法。...
1
评论
分享
chaofa用代码打点酱油
LLM, NLP, 计算广告 @腾讯
·
6月前
关注
Gemini 2.5 Pro 是怎么炼成的?-- gemini 2.5 技术报告阅读笔记与思考
深入解读 Gemini 2.5 技术报告,分析多模态、长上下文与思考能力等核心突破,结合个人理解与行业趋势,快速掌握最新大模型技术发展。...
1
评论
分享
chaofa用代码打点酱油
LLM, NLP, 计算广告 @腾讯
·
7月前
关注
自适应快慢思考推理模型(Adaptive Reasoning Model):Qwen3混合思考->字节AdaCoT->清华AdaThinking
深入分析三个快慢思考模型的实现:阿里Qwen3通过SFT实现的混合思考、字节AdaCoT基于RL的帕累托最优化、清华AdaThinking的受限优化框架。详细解读代码实现、...
1
评论
分享
chaofa用代码打点酱油
LLM, NLP, 计算广告 @腾讯
·
8月前
关注
DeepSeek-GRM:Inferene-time Scaling 的 Generalist Reward Model(通用奖励模型)
DeepSeek团队提出全新通用奖励模型DeepSeek-GRM,通过Self-Principled Critique Tuning(SPCT)方法实现推理时动态扩展能力...
1
2
分享
个人成就
文章被点赞
5
文章被阅读
1,601
掘力值
129
关注了
0
关注者
3
收藏集
0
关注标签
0
加入于
2021-04-01