AGI - 卖导弹的小男孩的收藏集 - 掘金

AGI

卖导弹的小男孩

更多收藏集

12篇文章 · 0订阅

13张图解Transformer和混合专家（MoE）的差别 | 大型语言模型的架构对比

在自然语言处理（NLP）领域，‌Transformer模型‌因其卓越的表现能力已成为当前主导架构。然而，随着模型参数量的持续增长，‌计算资源消耗‌与‌实时推理延迟‌逐渐成为关键限制因素。为突破这一瓶

智泊AI
13天前
84
1
1

一文讲清：AI大模型8个关键词及其基本原理

什么是大模型? 你是不是脑海中立刻闪现出OpenAI、ChatGPT、DeepSeek？还有那些能跳机械舞、表演后空翻的智能机器人？稍微专业点的，还能脱口而出监督学习、强化学习这些术语？有没有觉得最

智泊AI
1月前
113
点赞
评论

7种大模型微调的方法全解，看这篇文章就够了！

一、大型模型微调的基础理论大型语言模型(LLM)的训练过程通常分为两大阶段：阶段一：预训练阶段在这个阶段，大型模型会在大规模的无标签数据集上接受训练，目标是使模型掌握语言的统计特征和基础知识。

智泊AI
1月前
236
点赞
评论

GPT vs BERT：一个是预言家，一个是侦探｜深入理解语言模型的两大范式

GPT vs BERT：一个是预言家，一个是侦探｜深入理解语言模型的两大范式 🧩 导语：AI 的“语言觉醒” 早期的自然语言模型（比如 Word2Vec、GloVe）非常“死板”：每个词都只有一个固

mwq30123
1月前
107
1
评论

大模型基础：知识蒸馏原理和过程

知识蒸馏（Knowledge Distillation, KD）是一种非常流行的技术，用于让大型深度学习模型（通常被称为“教师模型”）的能力，传递到一个较小的模型（称为“学生模型”）中。

大模型教程
1月前
157
点赞
评论

AI大模型岗位面试题之 Prompt 提示词工程

Prompt是用户提供给大语言模型（LLM）的输入文本或指令，用于引导和激发模型生成符合期望的输出。

大模型教程
1月前
225
3
1

大模型工程面试经典（七）—如何评估大模型微调效果？

本期分享详细介绍了如何验证模型微调性能的方法包括人工+数据集自动化，以及扩展了模型评估相关的热点面试问题。总的来说，评估微调效果不仅仅是模型研发的最后一环，更是决定模型能否真正落地应用的关键环节。

大模型真好玩
1月前
190
4
评论

大模型工程面试经典（七）—如何评估大模型微调效果？

LLM 系列（六）：模型推理篇

总而言之，大型语言模型的未来，不仅取决于我们能构建多大的模型，更取决于我们能以多快的速度、多低的成本、多高的效率去运行它们。推理优化，正是这场通往通用人工智能道路上，至关重要且充满挑战的征途。

磊叔的技术博客
4月前
249
2
2

如何把你的 DeePseek-R1 微调为某个领域的专家？

今天我们一起来聊聊大模型的进阶使用：“模型微调” ，也就是较大家真正的 “调教“ 出一个能够满足特定需求场景、更贴合个人使用习惯的个性化模型。

ConardLi
8月前
15k
294
9

如何把你的 DeePseek-R1 微调为某个领域的专家？

LangChain + ChatGLM2-6B 搭建个人专属知识库

之前教过大家利用 langchain + ChatGLM-6B 实现个人专属知识库，非常简单易上手。最近，智谱 AI 研发团队又推出了 ChatGLM 系列的新模型 ChatGLM2-6B

程序员树先生
2年前
20k
152
18

LangChain + ChatGLM2-6B 搭建个人专属知识库