首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大模型
coting
创建于2025-05-27
订阅专栏
系统整理与分享深度学习与大语言模型(LLM)相关的核心知识、面试内容、实际应用场景及部署技巧。
等 2 人订阅
共45篇文章
创建于2025-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
一文搞懂微调技术的发展与演进
我们会先用一个现成的强大模型,然后根据自己的需求对它做一些“微调”,让它更懂我们的领域、更符合我们的业务和价值观。微调并不是一开始就有这么多方法,它的技术路线也是一步步发展起来的。
一文弄懂MOE
随着大语言模型(LLM)参数规模从十亿级增长到千亿、万亿级,如何在保持性能的同时节省算力,成为研究的核心问题。MoE(Mixture of Experts, 混合专家) 架构正是在这种背景下应运而生。
彻底搞懂 RoPE:位置编码的新范式
在 Transformer 架构中,位置编码是理解序列顺序的关键机制。自从 Google 提出原始的 Sinusoidal 编码以来,研究者一直在探索更高效、可泛化的方式。
一文搞懂位置编码Positional Encoding
这篇文章将带你从原理、公式、可视化和优势等多个角度,彻底理解 Transformer 中的位置编码。
Grok-1:马斯克旗下 xAI 首个开源大模型全面解析
本文将带你深入了解 Grok-1 的背景、技术架构、MoE 特性以及其在开源 LLM 生态中的意义。
DeepSeek-R1 架构解析:如何通过强化学习激发大模型的推理能力?
DeepSeekR1以 DeepSeek-V3 为基座,通过强化学习(RL)方式对模型推理能力进行定向优化,在多个基准推理任务上取得显著提升。
DeepSeek-V3 架构解析
2024 年底,DeepSeek 团队发布了他们的旗舰大模型 —— DeepSeek-V3 Technical Report,提出一系列突破性优化。
DeepSeek-V2 架构解读
2024 年 5 月,DeepSeek 团队发布了重磅模型 —— DeepSeek-V2,在 DeepSeekMoE 的基础上做出关键优化,提出多头潜在注意力(MLA) 机制,并全面提升推理效率。
DeepSeekMoE 架构解析
DeepSeek 团队发布了创新性工作 —— DeepSeekMoE,为专家网络注入全新机制,显著提升模型性能并解决长期存在的 MoE 局限。
一文搞懂DeepSeek LLM
DeepSeek LLM 是一项来自 DeepSeek-AI 的开源努力,不仅在架构、训练调度、数据处理等方面延续了高水准的工程实践,更进一步探索了如何在“长期主义”视角下优化大模型的可扩展性与性能。
一文了解 DeepSeek 系列模型的演进与创新
近年来,DeepSeek 团队在大语言模型(LLM)领域持续发力,围绕模型架构、专家路由、推理效率、训练方法等方面不断优化,推出了一系列性能强劲的开源模型。
LLaMA 3:离 AGI 更近一步?
继 LLaMA 1 的“小而强”、LLaMA 2 的“对齐进化”之后,LLaMA 3 带着更大规模的数据、更强的推理能力以及完全开放的商用许可横空出世。
LLaMA2-大模型开源了!
在继承了初代 LLaMA 强大性能与开源精神的基础上,Meta 于 2023 年推出了 LLaMA 2,这不仅是一次模型能力的升级,更是一场关于 可控、安全、可用的开源 AI 的深刻变革。
一文读懂LLAMA
Meta 提出了LLaMA(Large Language Model Meta AI),它不仅在多个任务中击败了 GPT-3 和 PaLM,还做到了完全基于开源数据训练。
GPT‑3.5:从语言模型迈向对话智能的过渡之作
在 GPT‑3 引发轰动之后,OpenAI 于 2022 年末至 2023 年初悄然推出 GPT‑3.5 系列模型。
GPT-3:真正意义上的少样本学习模型来了!
2020 年,OpenAI 发布了轰动一时的 GPT-3 论文《Language Models are Few-Shot Learners》,这是继 GPT-2 之后更大规模、更强泛化能力的语言模型。
GPT-2:让语言模型一统多任务学习江湖
这篇博客将带你走进 GPT-2 的核心思想、训练方法和模型架构,理解它为何成为后续 GPT-3/GPT-4 崛起的关键跳板。
GPT1:通用语言理解模型的开端
2018 年,OpenAI 发布了里程碑式论文,也就是 GPT的起点。这篇论文首次提出了一种有效的生成式预训练+判别式微调的框架,为大语言模型的发展奠定了基础。
大模型幻觉:你信它,它却在胡说?
大语言模型(LLM)如 ChatGPT、Claude、Gemini 等,正以前所未有的方式改变我们的工作与生活。但在它们有时会一本正经地“胡说八道”,仿佛陷入了幻觉。
RAG信息检索-如何让模型找到‘对的知识’
在RAG系统中,生成效果的好坏,往往不取决于模型本身有多“聪明”,而是它是否能“查对资料”。通俗地说,RAG 的本质是一种“开卷考试”:模型并不靠死记硬背,而是通过查找外部知识库来作答。
下一页