首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
小刘的大模型笔记
掘友等级
研究员
喜欢研究大模型,精准大模型
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
5
文章 5
沸点 0
赞
5
返回
|
搜索文章
最新
热门
微调与推理:解锁大模型定制化能力的核心密钥
作为一名专注AI领域的博主,我经常会收到初学者的提问:为什么同样的基础大模型,别人用起来能精准贴合需求,自己用却总觉得差了点意思?答案其实很简单——微调与推理,这两个相辅相成的技术,正是解锁大模型定制
PPO与DPO:大模型对齐的两大核心算法,差异与选型全解析
一、引言 大模型对齐(Align)是让模型输出贴合人类偏好、符合伦理规范、规避有害内容的关键环节,而PPO与DPO是目前主流的两大对齐算法。很多开发者混淆二者的适用场景,盲目选用导致对齐效果差、训练成
RAG 文档切分攻略:做好这步,检索精度提升 50%
一、引言 在 RAG 系统中,文档切分是最容易被忽视,却直接决定检索效果的核心环节 —— 把完整的产品说明拆成碎片化片段,导致检索到的内容残缺;切分的片段过长,主题杂乱,向量表示模糊,大模型回答答非所
向量数据库深度剖析:核心优劣势 + 适用场景,避开 RAG 落地的选型坑
一、引言 作为 RAG(检索增强生成)系统的核心组件,向量数据库早已成为大模型落地的 “标配工具”,被广泛应用于智能客服、知识库问答、个性化推荐等场景。但很多开发者在选型时,只看到向量数据库的优势,却
PPO 与 DP
一、引言 在大模型偏好优化领域,PPO 和 DPO 是两种主流的强化学习算法,都是解决 “让大模型输出更贴合人类偏好” 的核心技术。PPO 是 RLHF(基于人类反馈的强化学习)流程中的经典算法,而
大模型微调实战——从数据准备到落地部署全流程
一、引言 大模型微调是实现业务适配的关键步骤,能让通用大模型贴合特定场景需求,解决“通用模型不精准、输出不可控”的核心痛点。但很多开发者面对微调流程时,常陷入“参数混乱、数据踩坑、部署无门”的困境,误
向量数据库优势和劣势 —— 全方位解析适用场景与使用边界
一、引言 向量数据库作为大模型、RAG、智能推荐等技术的核心支撑工具,凭借独有的相似度检索能力,成为非结构化数据处理的标配,但并非万能解决方案,在数据类型、使用成本等方面仍存在明显短板。本文抛开技术术
大模型微调PPO原理——零基础吃透RLHF核心算法
一、引言 在大模型微调领域,RLHF(基于人类反馈的强化学习)是让模型输出贴合人类偏好的关键技术,而PPO(近端策略优化)作为RLHF流程中最核心、最常用的算法,凭借稳定性强、易落地的优势,成为Cha
PPO应用——大模型偏好优化的核心场景与落地实践
一、引言 近端策略优化(PPO)作为RLHF流程的核心算法,并非停留在理论层面,已在各类大模型产品中实现规模化应用。其核心价值是通过人类反馈引导模型优化输出策略,让模型不仅“会回答”,更能“回答得贴合
大模型微调 PPO 原理 —— 零基础也能懂的强化学习微调逻辑
一、引言 在大模型微调领域,强化学习微调是让模型输出贴合人类偏好的核心技术,而近端策略优化(PPO)算法凭借稳定性强、易落地的特点,成为 RLHF(基于人类反馈的强化学习)流程中最主流的选择。无论是
下一页
个人成就
文章被阅读
5,892
掘力值
337
关注了
1
关注者
0
收藏集
0
关注标签
3
加入于
2026-01-16