首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
树獭叔叔
掘友等级
Agent
|
前阿里巴巴 |现AI初创
正在努力学习吸收最前沿的AI知识(算法-工程-产品)
获得徽章 1
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2.9K
文章 2.8K
沸点 29
赞
2.9K
返回
|
搜索文章
最新
热门
DPO:最简单的对齐算法
DPO:最简单的对齐算法 📚 目录 DPO是什么:抛弃RL的对齐方法 RLHF的问题:为什么还要更简单 DPO的核心创新:直接优化偏好 详细机制:从公式到代码 IPO:DPO的改进版(解决饱和问题)
AI反馈对齐:用AI替代人类标注
> Constitutional AI & RLAIF —— 让AI自己给自己打分 --- ## 📚 目录 1. RLHF的成本问题:人类标注太贵了 2. Constitutional AI:AI自我
GRPO:比PPO更简单的RLHF算法
📚 目录 GRPO是什么:PPO的简化版 PPO的问题:为什么需要改进 GRPO的核心创新:组内对比 详细机制:从公式到代码 对比PPO:优势与权衡 代码实现 📌 前置概念:从PPO到GRPO GRP
从RLHF到PPO:让AI学会说人话
📚 目录 RLHF整体框架:三阶段训练 第三阶段的四个组件:形象理解 组件的模型结构:共享Base,替换Head 训练流程:一次完整迭代 PPO的核心创新:Clip机制 代码实现与常见问题 📌 前置概
PyTorch学习阶段四-GPU调度 : 资源管理与性能优化
📚 目录 Device Context:CPU与GPU的数据流转 显存管理:理解Caching Allocator 性能优化:找出训练瓶颈 混合精度训练:加速2倍的秘密 常见OOM问题与解决方案 🔄
PyTorch学习阶段三-优化器与训练循环
📚 目录 梯度下降的本质:从数学到代码 优化器家族:SGD、Momentum、Adam 的原理 学习率调度:如何动态调整学习率 损失函数:训练的目标 完整训练循环:从数据到模型 常见训练问题与解决方案
PyTorch学习阶段二 - Autograd 自动微分引擎
📚 目录 从链式法则到自动微分:为什么需要 Autograd? 计算图的动态构建:每个操作都在记录历史 backward() 的实现原理:反向传播的机制 grad_fn 的追踪:梯度函数链 自定义操作
PyTorch学习阶段一:前向传播 - Tensor 的内存模型与高性能算子
阶段一:前向传播 - Tensor 的内存模型与高性能算子 📚 目录 Tensor 的三要素:Storage、Shape、Stride 设计动机:为什么要分离 Storage 和 Shape? 零拷贝
PyTorch 总览:从工程视角重新认识深度学习框架
🎯 PyTorch 到底是什么? 如果你问一个初学者"PyTorch 是什么",大多数人会说: 这个答案没错,但不够准确。让我们换一个更工程化的视角: PyTorch 的本质定义 PyTorch 是一
DualPath: 突破 AI Agent 推理中的存储带宽瓶颈
📋 论文概览 随着 AI Agent(智能体)应用的快速发展,大语言模型(LLM)不再仅仅是一次性的对话工具,而是能够进行多轮交互、调用工具、执行代码的智能助手。然而,这种多轮迭代的 Agent 推理
下一页
个人成就
优秀创作者
文章被点赞
2,554
文章被阅读
167,250
掘力值
8,978
关注了
87
关注者
177
收藏集
2
关注标签
8
加入于
2022-04-27