首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
艾醒
掘友等级
鸽子区佛系博主,不定时掉落文章,可私信催更
获得徽章 4
动态
文章
专栏
沸点
收藏集
关注
作品
赞
88
文章 88
沸点 0
赞
88
返回
|
搜索文章
艾醒
24天前
关注
MiniMax M2.5:从黑马到全球顶流的"前世今生"与趣闻
M2.5不只是一款模型,更是MiniMax用108天极速迭代、以MoE+Agent原生打破全球AI格局的传奇产物 一、前世:MiniMax的"黑马崛起"与M系列前传 Par...
0
评论
分享
艾醒
1月前
关注
打破信息差——2月21日AI全域热点全复盘
打破信息差——2月21日AI全域热点全复盘 2月21日AI全域热点全复盘|百模迭代、千亿融资、国产登顶、科研破界,行业彻底告别野蛮生长 2026年2月21日,全球AI行业迎...
1
评论
分享
艾醒
1月前
关注
打破信息差——2026年2月19日AI热点新闻速览
2026年2月19日AI热点新闻速览 核心要闻速览 医疗AI格局定型:行业呈现巨头做入口、初创深耕垂类的分化态势,OpenAI 加码医疗大模型,OpenEvidence 估...
2
评论
分享
艾醒
关注了
AGI杂货铺
艾醒
3月前
关注
大模型原理剖析——多头并行 + 潜变量协同:原理、应用与部署优化
“多头并行+潜变量协同”是深度学习注意力机制的核心进阶架构,通过“多维度并行挖掘”与“隐性特征协同融合”,突破单一注意力头的表达瓶颈,高效捕捉数据中的复杂关联(如语义、时序...
0
评论
分享
艾醒
3月前
关注
大模型原理剖析——矩阵吸收优化:LLM推理加速的核心原理与实践
矩阵吸收优化是针对Transformer架构大语言模型(LLM)的无精度损失推理加速技术,核心通过利用矩阵乘法结合律和模型参数的固定性,将冗余的在线矩阵乘法提前离线预计算,...
0
评论
分享
艾醒
3月前
关注
大模型原理剖析——解耦RoPE(旋转位置编码)的基本原理
本篇文章详细解析解耦RoPE(Decoupled Rotary Position Embedding,DRoPE),包括它的核心原理、与传统RoPE的区别、实现方式以及核心...
0
评论
分享
艾醒
3月前
关注
大模型原理剖析——突破LLM效率瓶颈:多标记预测(MTP)技术深度解析与实战
在大语言模型(LLM)落地的过程中,“生成效率”始终是绕不开的核心痛点——传统自回归模型像“挤牙膏”一样逐词元(Token)生成文本,不仅推理速度慢,训练效率也难以满足大规...
0
评论
分享
艾醒
3月前
关注
大模型原理剖析——多头潜在注意力 (MLA) 详解
多头潜在注意力(Multi-Head Latent Attention, MLA)是DeepSeek团队于2024年在DeepSeek模型中首次提出的创新注意力机制,通过低...
0
评论
分享
艾醒
3月前
关注
大模型原理剖析——DeepSeek-V3深度解析:671B参数MoE大模型的技术突破与实践
DeepSeek-V3的出现,正是通过架构、训练、调度等多维度的技术创新,在671B超大参数规模下实现了“高效能+低成本”的平衡。...
1
评论
分享
艾醒
3月前
关注
大模型原理剖析——拆解预训练、微调、奖励建模与强化学习四阶段(以ChatGPT构建流程为例)
大语言模型(如ChatGPT)的“智能”并非一蹴而就,而是通过分阶段的精细化训练逐步实现的。本文基于课程内容,拆解ChatGPT的四阶段构建流程,解析每个环节的核心逻辑与技...
0
评论
分享
艾醒
3月前
关注
大模型原理剖析——从技术特性、底层架构到落地逻辑的全维度解析
近年来,大模型以其颠覆性的智能表现席卷技术领域——从精准的代码生成到自然的多轮对话,从跨模态的文生图到复杂的逻辑推理,其背后是一套融合规模、架构、数据与训练范式的技术体系。...
0
评论
分享
艾醒
5月前
关注
探索大语言模型(LLM): 大模型应用与对应的硬件选型一览表
大模型应用与硬件怎么选?看这几张表就够了。不同系列的显卡,适合的人群和做的事不一样,看下面的表就清楚啦。...
1
评论
分享
艾醒
5月前
关注
大模型面试题剖析:大模型训练关键技术解析(从 RLHF 、RLAIH、DPO到 SFT)
在大模型的迭代优化过程中,如何让模型输出更符合人类预期、更适配特定任务,一直是技术研发的核心方向.。...
0
评论
分享
艾醒
6月前
关注
探索大语言模型(LLM):参数量背后的“黄金公式”与Scaling Law的启示
过去十年,人工智能领域最震撼的变革之一,是模型参数量从百万级飙升至万亿级。从GPT-3的1750亿参数到GPT-4的神秘规模,再到谷歌Gemini的“多模态巨兽”,参数量仿...
1
评论
分享
艾醒
6月前
关注
探索大语言模型(LLM):使用EvalScope进行模型评估(API方式)
EvalScope 是由阿里巴巴魔搭社区(ModelScope)开发的开源模型评估与性能基准测试框架,专注于为大语言模型(LLM)、多模态模型及其他 AI 模型提供系统化的...
1
评论
分享
艾醒
6月前
关注
探索大语言模型(LLM):大模型微调方式全解析
在大模型落地实践中,微调(Fine-tuning)是连接通用预训练能力与特定任务需求的关键环节。通过微调,我们能让在海量数据上预训练的模型“适配” 具体业务场景。本文将系统...
1
评论
分享
艾醒
6月前
关注
大模型面试题剖析:深入解析 Transformer 与 MoE 架构
在人工智能大模型飞速发展的今天,Transformer 架构无疑是撑起整个领域的 “基石”,而 MoE架构则凭借其独特的 “稀疏激活” 思路,成为突破大模型参数的关键...
1
评论
分享
艾醒
6月前
关注
探索大语言模型(LLM):一文读懂通用大模型的定义、特点与分类
在人工智能技术飞速发展的当下,通用大模型无疑是最受关注的领域之一。它凭借强大的能力打破了传统 AI 模型的局限,为各行业的智能化升级提供了全新可能。...
1
评论
分享
下一页
个人成就
文章被点赞
132
文章被阅读
77,163
掘力值
3,029
关注了
7
关注者
31
收藏集
0
关注标签
13
加入于
2022-03-20