首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大模型原理
订阅
关于大语言模型的原理,如Encoding, Decoding和Tranformer。
稀有猿诉
更多收藏集
微信扫码分享
微信
新浪微博
QQ
5篇文章 · 0订阅
解析 Temperature 与 Top P:如何掌控大模型的输出随机性
深入解析大模型中 Temperature 和 Top P 两个核心参数的工作原理。从 Logits 生成、Softmax 概率转换到加权采样三个步骤,揭示 Temperature 如何通过调节概率分布
LLM 采样入门到进阶:理解与实践 Top-K、Top-P、温度控制
在语言模型(LLM)的生成过程中,“采样”指的是模型在预测下一个词语时,如何从多个可能候选中进行选择的机制。与其说采样仅仅是挑出概率最高的那个词,不如理解为它通过不同的策略(如 Top-K、Top-P
数学不好也能懂:解读 AI 经典论文《Attention is All You Need》与大模型生成原理
像 ChatGPT、DeepSeek 这样的大模型, 是如何一步步生成出连贯的句子和答案的. 答案就在一篇 AI 经典论文《Attention is All You Need》中.
图解 Transformer [译]
原文:The Random Transformer 作者:Jay Alammar 讨论环节: 在 Hacker News 上获得 65 分,共有 4 条评论 在 Reddit 的 r/MachineL
深入理解Transformer技术原理 | 得物技术
谷歌在2017年发布Transformer架构的论文时,论文的标题是:Attention Is All You Need。重点说明了这个架构是基于注意力机制的。