首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大模型
coting
创建于2025-05-27
订阅专栏
系统整理与分享深度学习与大语言模型(LLM)相关的核心知识、面试内容、实际应用场景及部署技巧。
等 2 人订阅
共57篇文章
创建于2025-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
从原理到实战:RLHF(人类反馈强化学习)完整流程
RLHF(Reinforcement Learning with Human Feedback)是近年来推动大语言模型(LLM)快速发展的关键技术之一。
一文搞懂什么是微调
在当今自然语言处理领域,预训练语言模型如GPT、BERT等凭借强大的通用能力,已经成为推动技术进步的重要引擎。然而,仅仅依赖这些通用模型,往往难以满足具体任务的特殊需求。
大模型工程框架生态全览
随着大语言模型(LLM)的快速发展,单纯依赖原始模型已经无法满足复杂的业务需求。如何高效管理模型、构建多轮对话、集成外部工具和知识库、同时保证高性能推理,成为大模型落地的核心挑战。
DPO是怎么通过偏好数据直接优化大模型的?
DPO(Direct Preference Optimization)作为一种新兴技术,提出直接利用人类偏好数据,以简单且高效的方式训练模型,省去了强化学习步骤。
一文理解监督微调(SFT)在大语言模型训练中的作用
随着大规模预训练模型(如 GPT、LLaMA)的兴起,单靠无监督预训练难以满足具体任务需求。 监督微调(SFT)通过在带标签的数据上有针对性训练,使模型更好地适应特定应用场景。
一文弄懂RLHF (基于人类反馈的强化学习)的核心原理
随着大语言模型(LLM)规模和能力飞跃,单纯依赖预训练和监督微调难以让模型完全符合人类期望。 RLHF 通过结合人类反馈和强化学习,显著提升模型的对齐性和输出质量。
一文理解提示微调(Prefix Tuning/Prompt Tuning/P Tuning)
随着大语言模型(LLM)规模和能力的提升,传统的全参数微调变得成本高昂且不灵活。 提示微调作为一种新兴的参数高效微调方法,通过调整输入提示(Prompt)而非模型权重,实现了更轻量、高效的模型定制。
一文理解 AdaLoRA 动态低秩适配技术
传统 LoRA 固定低秩大小,难以兼顾所有层的复杂性和任务需求。 AdaLoRA(Adaptive LoRA)创新地引入动态调整秩的机制,根据层的重要性和训练过程自动分配参数资源,提升微调效果和效率。
一文搞懂如何用 QLoRA 高效微调大语言模型
QLoRA(Quantized LoRA)作为结合了量化技术和低秩微调的创新方案,极大降低了显存占用,实现了资源有限设备上对超大模型的高效微调。
LoRA详细步骤解析
随着大规模模型的广泛应用,微调大模型的计算和存储成本成为制约因素。LoRA 作为一种参数高效微调(PEFT)技术,通过低秩矩阵分解,仅微调增量部分,有效降低了资源消耗。
一文搞懂 LoRA 如何高效微调大模型
随着大规模预训练模型不断增大,模型微调的资源需求和部署复杂度也急剧提升。LoRA作为近年来高效微调的代表方案,因其在显存占用、训练效率和部署便捷性之间取得了平衡,迅速成为大模型微调的首选。
DeepSeek-V3.1来了!
2025年8月21日,DeepSeekV3.1发布,引起了很大的轰动,随后8月22日半导体与人工智能相关板块大涨,当然这两个之间我也不知道有没有关系。
一文搞懂微调技术的发展与演进
我们会先用一个现成的强大模型,然后根据自己的需求对它做一些“微调”,让它更懂我们的领域、更符合我们的业务和价值观。微调并不是一开始就有这么多方法,它的技术路线也是一步步发展起来的。
一文弄懂MOE
随着大语言模型(LLM)参数规模从十亿级增长到千亿、万亿级,如何在保持性能的同时节省算力,成为研究的核心问题。MoE(Mixture of Experts, 混合专家) 架构正是在这种背景下应运而生。
彻底搞懂 RoPE:位置编码的新范式
在 Transformer 架构中,位置编码是理解序列顺序的关键机制。自从 Google 提出原始的 Sinusoidal 编码以来,研究者一直在探索更高效、可泛化的方式。
一文搞懂位置编码Positional Encoding
这篇文章将带你从原理、公式、可视化和优势等多个角度,彻底理解 Transformer 中的位置编码。
Grok-1:马斯克旗下 xAI 首个开源大模型全面解析
本文将带你深入了解 Grok-1 的背景、技术架构、MoE 特性以及其在开源 LLM 生态中的意义。
DeepSeek-R1 架构解析:如何通过强化学习激发大模型的推理能力?
DeepSeekR1以 DeepSeek-V3 为基座,通过强化学习(RL)方式对模型推理能力进行定向优化,在多个基准推理任务上取得显著提升。
DeepSeek-V3 架构解析
2024 年底,DeepSeek 团队发布了他们的旗舰大模型 —— DeepSeek-V3 Technical Report,提出一系列突破性优化。
DeepSeek-V2 架构解读
2024 年 5 月,DeepSeek 团队发布了重磅模型 —— DeepSeek-V2,在 DeepSeekMoE 的基础上做出关键优化,提出多头潜在注意力(MLA) 机制,并全面提升推理效率。
下一页