艾醒

鸽子区佛系博主，不定时掉落文章，可私信催更

赞

88

|

搜索文章

打破信息差——2月21日AI全域热点全复盘

打破信息差——2月21日AI全域热点全复盘 2月21日AI全域热点全复盘｜百模迭代、千亿融资、国产登顶、科研破界，行业彻底告别野蛮生长 2026年2月21日，全球AI行业迎来技术、资本、产业、科研

6天前
128
1
评论

打破信息差——2月21日AI全域热点全复盘

打破信息差——2026年2月19日AI热点新闻速览

2026年2月19日AI热点新闻速览核心要闻速览医疗AI格局定型：行业呈现巨头做入口、初创深耕垂类的分化态势，OpenAI 加码医疗大模型，OpenEvidence 估值飙升至120亿美元

8天前
668
2
评论

打破信息差——2026年2月19日AI热点新闻速览

大模型原理剖析——多头并行 + 潜变量协同：原理、应用与部署优化

“多头并行+潜变量协同”是深度学习注意力机制的核心进阶架构，通过“多维度并行挖掘”与“隐性特征协同融合”，突破单一注意力头的表达瓶颈，高效捕捉数据中的复杂关联（如语义、时序、特征依赖）。

2月前
96
点赞
评论

大模型原理剖析——矩阵吸收优化：LLM推理加速的核心原理与实践

矩阵吸收优化是针对Transformer架构大语言模型（LLM）的无精度损失推理加速技术，核心通过利用矩阵乘法结合律和模型参数的固定性，将冗余的在线矩阵乘法提前离线预计算，从而减少推理时的计算量

2月前
127
点赞
评论

大模型原理剖析——解耦RoPE(旋转位置编码)的基本原理

本篇文章详细解析解耦RoPE（Decoupled Rotary Position Embedding，DRoPE），包括它的核心原理、与传统RoPE的区别、实现方式以及核心优势。

2月前
162
点赞
评论

大模型原理剖析——突破LLM效率瓶颈：多标记预测(MTP)技术深度解析与实战

在大语言模型（LLM）落地的过程中，“生成效率”始终是绕不开的核心痛点——传统自回归模型像“挤牙膏”一样逐词元（Token）生成文本，不仅推理速度慢，训练效率也难以满足大规模应用需求。

2月前
217
点赞
评论

大模型原理剖析——多头潜在注意力 (MLA) 详解

多头潜在注意力(Multi-Head Latent Attention, MLA)是DeepSeek团队于2024年在DeepSeek模型中首次提出的创新注意力机制，通过低秩联合压缩键值(KV)

2月前
169
点赞
评论

大模型原理剖析——DeepSeek-V3深度解析：671B参数MoE大模型的技术突破与实践

DeepSeek-V3的出现，正是通过架构、训练、调度等多维度的技术创新，在671B超大参数规模下实现了“高效能+低成本”的平衡。

2月前
123
1
评论

大模型原理剖析——拆解预训练、微调、奖励建模与强化学习四阶段（以ChatGPT构建流程为例）

大语言模型（如ChatGPT）的“智能”并非一蹴而就，而是通过分阶段的精细化训练逐步实现的。本文基于课程内容，拆解ChatGPT的四阶段构建流程，解析每个环节的核心逻辑与技术细节。

2月前
128
点赞
评论

大模型原理剖析——拆解预训练、微调、奖励建模与强化学习四阶段（以ChatGPT构建流程为例）

大模型原理剖析——从技术特性、底层架构到落地逻辑的全维度解析

近年来，大模型以其颠覆性的智能表现席卷技术领域——从精准的代码生成到自然的多轮对话，从跨模态的文生图到复杂的逻辑推理，其背后是一套融合规模、架构、数据与训练范式的技术体系。

2月前
142
点赞
评论

个人成就

文章被点赞 132

文章被阅读 68,280

掘力值 2,986

加入于

2022-03-20