首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
用户844513426565
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
hello agents第七章 构建你的智能体框架
首先介绍下hello agents项目 ) 项目初心:希望能为社区提供一本从零开始、理论与实战并重的智能体系统构建指南。 项目介绍:Hello-Agents 是 Datawhale 社区的系统性智能体
hello agent chapt4 构建智能体经典范式
最简单的agent可以粗略地理解为llm_client+tool_executor,更有效的agent则需要memory模块等其他组件,其中tool_executor要实现的一些方法包括:注册、获取可
主流训练并行策略一锅炖
LLM训练并行策略全面解析。数据并行、模型并行、张量并行、3D并行。各种并行策略的优缺点以及技术改进方向。
hello-agents第一章笔记
Hello-Agents 是Datawhale社区的系统性智能体学习教程。本文对应hello-agents第一章,智能体的定义、类型,以及一个简易版智能体demo。
后训练之SFT实践篇
Llama_Factory的SFT(LORA)实践。Llama_Factory是一个支持多种模型,覆盖预训练、训练后优化(SFT、DPO等),更支持Lora、QLora等,是个值得学习了解的工具。
后训练之总结
不同的训练后优化方法各有优缺点,需要结合具体的资源、需求等来选择。 监督微调SFT通过最大化示例回答的概率来模仿目标响应模式; 直接偏好优化DPO通过对比学习鼓励优质回答/抑制劣质回答; 在线强化学习
后训练之Online RL
两种强化学习: 离线学习(模型只从预先收集的(prompt, response, reward)三元组中学习) 在线学习(模型在实时生成新响应的过程中不断学习)。 在线学习四步: 响应(生成新的响应(
后训练之DPO
什么是DPO? DPO/直接偏好优化:直接偏好优化可以被视为一种从正面和负面回复中进行对比学习的方法。 DPO适用于什么阶段? DPO适用于指令微调大模型(上文提到的基础大模型通过SFT训练之后得到的
后训练之SFT理论篇
对齐和后训练 在预训练阶段,基础模型从海量文本中学习文本内蕴含的语义知识,从而学会合理地预测下一个token。 经过预训练后,基础模型能够自发地生成下一个token。
个人成就
文章被点赞
2
文章被阅读
889
掘力值
83
关注了
0
关注者
0
收藏集
0
关注标签
4
加入于
2025-10-13