首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
用户844513426565
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
用户844513426565
16小时前
关注
hello agent chapt4 构建智能体经典范式
最简单的agent可以粗略地理解为llm_client+tool_executor,更有效的agent则需要memory模块等其他组件,其中tool_executor要实现...
0
评论
分享
用户844513426565
10天前
举报
#新人报道#
大模型生态圈
分享
评论
点赞
用户844513426565
1月前
关注
主流训练并行策略一锅炖
LLM训练并行策略全面解析。数据并行、模型并行、张量并行、3D并行。各种并行策略的优缺点以及技术改进方向。...
1
评论
分享
用户844513426565
1月前
关注
hello-agents第一章笔记
Hello-Agents 是Datawhale社区的系统性智能体学习教程。本文对应hello-agents第一章,智能体的定义、类型,以及一个简易版智能体demo。...
1
评论
分享
用户844513426565
1月前
关注
后训练之SFT实践篇
Llama_Factory的SFT(LORA)实践。Llama_Factory是一个支持多种模型,覆盖预训练、训练后优化(SFT、DPO等),更支持Lora、QLora等,...
0
评论
分享
用户844513426565
1月前
关注
后训练之总结
不同的训练后优化方法各有优缺点,需要结合具体的资源、需求等来选择。 监督微调SFT通过最大化示例回答的概率来模仿目标响应模式; 直接偏好优化DPO通过对比学习鼓励优质回答/...
0
评论
分享
用户844513426565
1月前
关注
后训练之Online RL
两种强化学习: 离线学习(模型只从预先收集的(prompt, response, reward)三元组中学习) 在线学习(模型在实时生成新响应的过程中不断学习)。 在线学习...
0
评论
分享
用户844513426565
2月前
关注
后训练之DPO
什么是DPO? DPO/直接偏好优化:直接偏好优化可以被视为一种从正面和负面回复中进行对比学习的方法。 DPO适用于什么阶段? DPO适用于指令微调大模型(上文提到的基础大...
0
评论
分享
用户844513426565
2月前
关注
后训练之SFT理论篇
对齐和后训练 在预训练阶段,基础模型从海量文本中学习文本内蕴含的语义知识,从而学会合理地预测下一个token。 经过预训练后,基础模型能够自发地生成下一个token。...
0
评论
分享
个人成就
文章被点赞
2
文章被阅读
477
掘力值
62
关注了
0
关注者
0
收藏集
0
关注标签
4
加入于
2025-10-13