小刘的大模型笔记

研究员

喜欢研究大模型，精准大模型

赞

5

|

搜索文章

研究员

·

16天前

高质量大模型数据集

一、引言在大模型微调的全流程中，数据集是决定模型效果的核心要素，如同汽车的燃料 —— 优质燃料能让汽车高效运行，高质量数据集能让模型精准适配任务；反之，劣质燃料会导致汽车...

0

评论

研究员

·

16天前

LoRA微调技术：高效定制化

引言在大模型微调技术中，LoRA（Low-Rank Adaptation，低秩适配）是目前最受欢迎的参数高效微调方法。它解决了全参数微调算力成本高、容易导致灾难性遗忘...

0

评论

研究员

·

16天前

大数据原理实践

引言在大模型微调的实践中，很多开发者都会遇到这样的问题：为每个任务单独训练一个模型，不仅耗时耗力，而且模型的泛化能力很差——换一个类似的任务，模型就“失灵”了。有没有一种...

0

评论

研究员

·

16天前

POP原理落地到实际微调

作为AI博主，经常有读者问我：“懂了PPO原理，怎么落地到实际微调中？” 其实大模型微调的核心价值，从来都不在“纸上谈兵”的理论理解，而在亲手操盘的实战落地。PPO（近端策...

0

评论

研究员

·

16天前

RAG技术实战

引言检索增强生成，也就是大家常说的RAG，早已不是停留在论文里的技术概念，而是实实在在走进了各行各业的AI应用核心。它最核心的价值，就是解决通用大模型的两大痛点：[知识滞...

0

评论

研究员

·

16天前

大数据微调GPU选择

作为一名专注AI领域的博主，我经常收到新手的私信求助：想入门大模型微调，到底该选什么样的GPU？是选消费级显卡还是专业卡？显存多大才够用？其实，GPU选型没有统一答案，核心...

0

评论

研究员

·

16天前

大数据微调实战

**引言：微调选型决定定制化效果** 随着开源大模型生态的蓬勃发展，越来越多的个人开发者和中小企业开始投身模型定制化的浪潮。而微调作为将通用大模型改造为场景化模型的核心手段...

0

评论

研究员

·

17天前

大模型微调框架 —— 选型与实操全指南

一、引言大模型微调框架是连接模型、数据与硬件资源的核心载体，直接决定微调的效率、稳定性与可扩展性。随着大模型技术的普及，市面上涌现出众多微调框架，如 LLaMA-Fact...

0

评论

研究员

·

17天前

大模型微调应用：解锁垂直场景的无限可能

引言大语言模型的出现，让机器理解和生成人类语言的能力达到了新高度。但通用大模型就像一把 “万能钥匙”，虽然能打开很多门，却在面对特定场景时显得力不从心。比如让通用模型写一...

0

评论

研究员

·

17天前

大模型效率优化：多任务微调的原理、优势与落地技巧

引言在大模型微调的实践中，很多开发者都会遇到这样的问题：为每个任务单独训练一个模型，不仅耗时耗力，而且模型的泛化能力很差——换一个类似的任务，模型就“失灵”了。有没有一种...

0

评论

研究员

·

17天前

微调与推理：解锁大模型定制化能力的核心密钥

作为一名专注AI领域的博主，我经常会收到初学者的提问：为什么同样的基础大模型，别人用起来能精准贴合需求，自己用却总觉得差了点意思？答案其实很简单——微调与推理，这两个相辅相...

0

评论

研究员

·

17天前

PPO与DPO：大模型对齐的两大核心算法，差异与选型全解析

一、引言大模型对齐（Align）是让模型输出贴合人类偏好、符合伦理规范、规避有害内容的关键环节，而PPO与DPO是目前主流的两大对齐算法。很多开发者混淆二者的适用场景，盲...

0

评论

研究员

·

17天前

RAG 文档切分攻略：做好这步，检索精度提升 50%

一、引言在 RAG 系统中，文档切分是最容易被忽视，却直接决定检索效果的核心环节 —— 把完整的产品说明拆成碎片化片段，导致检索到的内容残缺；切分的片段过长，主题杂乱，向...

0

评论

研究员

·

17天前

向量数据库深度剖析：核心优劣势 + 适用场景，避开 RAG 落地的选型坑

一、引言作为 RAG（检索增强生成）系统的核心组件，向量数据库早已成为大模型落地的 “标配工具”，被广泛应用于智能客服、知识库问答、个性化推荐等场景。但很多开发者在选型时...

0

评论

研究员

·

18天前

PPO 与 DP

一、引言在大模型偏好优化领域，PPO 和 DPO 是两种主流的强化学习算法，都是解决 “让大模型输出更贴合人类偏好” 的核心技术。PPO 是 RLHF（基于人类反馈的强化...

0

评论

研究员

·

18天前

大模型微调实战——从数据准备到落地部署全流程

一、引言大模型微调是实现业务适配的关键步骤，能让通用大模型贴合特定场景需求，解决“通用模型不精准、输出不可控”的核心痛点。但很多开发者面对微调流程时，常陷入“参数混乱、数...

0

评论

研究员

·

18天前

向量数据库优势和劣势 —— 全方位解析适用场景与使用边界

一、引言向量数据库作为大模型、RAG、智能推荐等技术的核心支撑工具，凭借独有的相似度检索能力，成为非结构化数据处理的标配，但并非万能解决方案，在数据类型、使用成本等方面仍...

0

评论

研究员

·

18天前

大模型微调PPO原理——零基础吃透RLHF核心算法

一、引言在大模型微调领域，RLHF（基于人类反馈的强化学习）是让模型输出贴合人类偏好的关键技术，而PPO（近端策略优化）作为RLHF流程中最核心、最常用的算法，凭借稳定性...

0

评论

研究员

·

18天前

PPO应用——大模型偏好优化的核心场景与落地实践

一、引言近端策略优化（PPO）作为RLHF流程的核心算法，并非停留在理论层面，已在各类大模型产品中实现规模化应用。其核心价值是通过人类反馈引导模型优化输出策略，让模型不仅...

0

评论

个人成就

文章被阅读 1,980

加入于

2026-01-16