首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
艾醒
掘友等级
鸽子区佛系博主,不定时掉落文章,可私信催更
获得徽章 4
动态
文章
专栏
沸点
收藏集
关注
作品
赞
88
文章 88
沸点 0
赞
88
返回
|
搜索文章
最新
热门
大模型原理剖析——多头并行 + 潜变量协同:原理、应用与部署优化
“多头并行+潜变量协同”是深度学习注意力机制的核心进阶架构,通过“多维度并行挖掘”与“隐性特征协同融合”,突破单一注意力头的表达瓶颈,高效捕捉数据中的复杂关联(如语义、时序、特征依赖)。
大模型原理剖析——矩阵吸收优化:LLM推理加速的核心原理与实践
矩阵吸收优化是针对Transformer架构大语言模型(LLM)的无精度损失推理加速技术,核心通过利用矩阵乘法结合律和模型参数的固定性,将冗余的在线矩阵乘法提前离线预计算,从而减少推理时的计算量
大模型原理剖析——解耦RoPE(旋转位置编码)的基本原理
本篇文章详细解析解耦RoPE(Decoupled Rotary Position Embedding,DRoPE),包括它的核心原理、与传统RoPE的区别、实现方式以及核心优势。
大模型原理剖析——突破LLM效率瓶颈:多标记预测(MTP)技术深度解析与实战
在大语言模型(LLM)落地的过程中,“生成效率”始终是绕不开的核心痛点——传统自回归模型像“挤牙膏”一样逐词元(Token)生成文本,不仅推理速度慢,训练效率也难以满足大规模应用需求。
大模型原理剖析——多头潜在注意力 (MLA) 详解
多头潜在注意力(Multi-Head Latent Attention, MLA)是DeepSeek团队于2024年在DeepSeek模型中首次提出的创新注意力机制,通过低秩联合压缩键值(KV)
大模型原理剖析——DeepSeek-V3深度解析:671B参数MoE大模型的技术突破与实践
DeepSeek-V3的出现,正是通过架构、训练、调度等多维度的技术创新,在671B超大参数规模下实现了“高效能+低成本”的平衡。
大模型原理剖析——拆解预训练、微调、奖励建模与强化学习四阶段(以ChatGPT构建流程为例)
大语言模型(如ChatGPT)的“智能”并非一蹴而就,而是通过分阶段的精细化训练逐步实现的。本文基于课程内容,拆解ChatGPT的四阶段构建流程,解析每个环节的核心逻辑与技术细节。
大模型原理剖析——从技术特性、底层架构到落地逻辑的全维度解析
近年来,大模型以其颠覆性的智能表现席卷技术领域——从精准的代码生成到自然的多轮对话,从跨模态的文生图到复杂的逻辑推理,其背后是一套融合规模、架构、数据与训练范式的技术体系。
探索大语言模型(LLM): 大模型应用与对应的硬件选型一览表
大模型应用与硬件怎么选?看这几张表就够了。不同系列的显卡,适合的人群和做的事不一样,看下面的表就清楚啦。
大模型面试题剖析:大模型训练关键技术解析(从 RLHF 、RLAIH、DPO到 SFT)
在大模型的迭代优化过程中,如何让模型输出更符合人类预期、更适配特定任务,一直是技术研发的核心方向.。
下一页
个人成就
文章被点赞
129
文章被阅读
65,074
掘力值
2,936
关注了
6
关注者
21
收藏集
0
关注标签
13
加入于
2022-03-20