首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
AGI
订阅
卖导弹的小男孩
更多收藏集
微信扫码分享
微信
新浪微博
QQ
12篇文章 · 0订阅
13张图解Transformer和混合专家(MoE)的差别 | 大型语言模型的架构对比
在自然语言处理(NLP)领域,Transformer模型因其卓越的表现能力已成为当前主导架构。 然而,随着模型参数量的持续增长,计算资源消耗与实时推理延迟逐渐成为关键限制因素。为突破这一瓶
一文讲清:AI大模型8个关键词及其基本原理
什么是大模型? 你是不是脑海中立刻闪现出OpenAI、ChatGPT、DeepSeek?还有那些能跳机械舞、表演后空翻的智能机器人?稍微专业点的,还能脱口而出监督学习、强化学习这些术语? 有没有觉得最
7种大模型微调的方法全解,看这篇文章就够了!
一、大型模型微调的基础理论 大型语言模型(LLM)的训练过程通常分为两大阶段: 阶段一:预训练阶段 在这个阶段,大型模型会在大规模的无标签数据集上接受训练,目标是使模型掌握语言的统计特征和基础知识。
GPT vs BERT:一个是预言家,一个是侦探|深入理解语言模型的两大范式
GPT vs BERT:一个是预言家,一个是侦探|深入理解语言模型的两大范式 🧩 导语:AI 的“语言觉醒” 早期的自然语言模型(比如 Word2Vec、GloVe)非常“死板”: 每个词都只有一个固
大模型基础:知识蒸馏原理和过程
知识蒸馏(Knowledge Distillation, KD)是一种非常流行的技术,用于让大型深度学习模型(通常被称为“教师模型”)的能力,传递到一个较小的模型(称为“学生模型”)中。
AI大模型岗位面试题之 Prompt 提示词工程
Prompt是用户提供给大语言模型(LLM)的输入文本或指令,用于引导和激发模型生成符合期望的输出。
大模型工程面试经典(七)—如何评估大模型微调效果?
本期分享详细介绍了如何验证模型微调性能的方法包括人工+数据集自动化,以及扩展了模型评估相关的热点面试问题。总的来说,评估微调效果不仅仅是模型研发的最后一环,更是决定模型能否真正落地应用的关键环节。
LLM 系列(六):模型推理篇
总而言之,大型语言模型的未来,不仅取决于我们能构建多大的模型,更取决于我们能以多快的速度、多低的成本、多高的效率去运行它们。推理优化,正是这场通往通用人工智能道路上,至关重要且充满挑战的征途。
如何把你的 DeePseek-R1 微调为某个领域的专家?
今天我们一起来聊聊大模型的进阶使用:“模型微调” ,也就是较大家真正的 “调教“ 出一个能够满足特定需求场景、更贴合个人使用习惯的个性化模型。
LangChain + ChatGLM2-6B 搭建个人专属知识库
之前教过大家利用 langchain + ChatGLM-6B 实现个人专属知识库,非常简单易上手。最近,智谱 AI 研发团队又推出了 ChatGLM 系列的新模型 ChatGLM2-6B