首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
艾醒
掘友等级
鸽子区佛系博主,不定时掉落文章,可私信催更
获得徽章 4
动态
文章
专栏
沸点
收藏集
关注
作品
赞
88
文章 88
沸点 0
赞
88
返回
|
搜索文章
艾醒
15天前
关注
大模型原理剖析——多头并行 + 潜变量协同:原理、应用与部署优化
“多头并行+潜变量协同”是深度学习注意力机制的核心进阶架构,通过“多维度并行挖掘”与“隐性特征协同融合”,突破单一注意力头的表达瓶颈,高效捕捉数据中的复杂关联(如语义、时序...
0
评论
分享
艾醒
15天前
关注
大模型原理剖析——矩阵吸收优化:LLM推理加速的核心原理与实践
矩阵吸收优化是针对Transformer架构大语言模型(LLM)的无精度损失推理加速技术,核心通过利用矩阵乘法结合律和模型参数的固定性,将冗余的在线矩阵乘法提前离线预计算,...
0
评论
分享
艾醒
17天前
关注
大模型原理剖析——解耦RoPE(旋转位置编码)的基本原理
本篇文章详细解析解耦RoPE(Decoupled Rotary Position Embedding,DRoPE),包括它的核心原理、与传统RoPE的区别、实现方式以及核心...
0
评论
分享
艾醒
17天前
关注
大模型原理剖析——突破LLM效率瓶颈:多标记预测(MTP)技术深度解析与实战
在大语言模型(LLM)落地的过程中,“生成效率”始终是绕不开的核心痛点——传统自回归模型像“挤牙膏”一样逐词元(Token)生成文本,不仅推理速度慢,训练效率也难以满足大规...
0
评论
分享
艾醒
18天前
关注
大模型原理剖析——多头潜在注意力 (MLA) 详解
多头潜在注意力(Multi-Head Latent Attention, MLA)是DeepSeek团队于2024年在DeepSeek模型中首次提出的创新注意力机制,通过低...
0
评论
分享
艾醒
18天前
关注
大模型原理剖析——DeepSeek-V3深度解析:671B参数MoE大模型的技术突破与实践
DeepSeek-V3的出现,正是通过架构、训练、调度等多维度的技术创新,在671B超大参数规模下实现了“高效能+低成本”的平衡。...
1
评论
分享
艾醒
19天前
关注
大模型原理剖析——拆解预训练、微调、奖励建模与强化学习四阶段(以ChatGPT构建流程为例)
大语言模型(如ChatGPT)的“智能”并非一蹴而就,而是通过分阶段的精细化训练逐步实现的。本文基于课程内容,拆解ChatGPT的四阶段构建流程,解析每个环节的核心逻辑与技...
0
评论
分享
艾醒
19天前
关注
大模型原理剖析——从技术特性、底层架构到落地逻辑的全维度解析
近年来,大模型以其颠覆性的智能表现席卷技术领域——从精准的代码生成到自然的多轮对话,从跨模态的文生图到复杂的逻辑推理,其背后是一套融合规模、架构、数据与训练范式的技术体系。...
0
评论
分享
艾醒
2月前
关注
探索大语言模型(LLM): 大模型应用与对应的硬件选型一览表
大模型应用与硬件怎么选?看这几张表就够了。不同系列的显卡,适合的人群和做的事不一样,看下面的表就清楚啦。...
1
评论
分享
艾醒
2月前
关注
大模型面试题剖析:大模型训练关键技术解析(从 RLHF 、RLAIH、DPO到 SFT)
在大模型的迭代优化过程中,如何让模型输出更符合人类预期、更适配特定任务,一直是技术研发的核心方向.。...
0
评论
分享
艾醒
3月前
关注
探索大语言模型(LLM):参数量背后的“黄金公式”与Scaling Law的启示
过去十年,人工智能领域最震撼的变革之一,是模型参数量从百万级飙升至万亿级。从GPT-3的1750亿参数到GPT-4的神秘规模,再到谷歌Gemini的“多模态巨兽”,参数量仿...
1
评论
分享
艾醒
3月前
关注
探索大语言模型(LLM):使用EvalScope进行模型评估(API方式)
EvalScope 是由阿里巴巴魔搭社区(ModelScope)开发的开源模型评估与性能基准测试框架,专注于为大语言模型(LLM)、多模态模型及其他 AI 模型提供系统化的...
1
评论
分享
艾醒
3月前
关注
探索大语言模型(LLM):大模型微调方式全解析
在大模型落地实践中,微调(Fine-tuning)是连接通用预训练能力与特定任务需求的关键环节。通过微调,我们能让在海量数据上预训练的模型“适配” 具体业务场景。本文将系统...
1
评论
分享
艾醒
3月前
关注
大模型面试题剖析:深入解析 Transformer 与 MoE 架构
在人工智能大模型飞速发展的今天,Transformer 架构无疑是撑起整个领域的 “基石”,而 MoE架构则凭借其独特的 “稀疏激活” 思路,成为突破大模型参数的关键...
1
评论
分享
艾醒
3月前
关注
探索大语言模型(LLM):一文读懂通用大模型的定义、特点与分类
在人工智能技术飞速发展的当下,通用大模型无疑是最受关注的领域之一。它凭借强大的能力打破了传统 AI 模型的局限,为各行业的智能化升级提供了全新可能。...
1
评论
分享
艾醒
3月前
关注
大模型面试题剖析:模型微调中冷启动与热启动的概念、阶段与实例解析
在人工智能模型的开发流程中,微调是让预训练模型适配特定任务、提升性能的关键环节。而在微调的启动方式上,“冷启动” 和 “热启动” 是两个高频出现但容易混淆的概念。...
1
评论
分享
艾醒
3月前
关注
探索大语言模型(LLM):Windows系统与Linux系统下的Ollama高级配置(修改模型地址、Service服务以及多卡均衡调用)
之前的文章中已经介绍了ollama在Windows环境下和Linux环境下的安装,在本篇中将重点介绍Ollama的常用配置...
0
评论
分享
艾醒
3月前
关注
大模型面试题剖析:RAG中的文本分割策略
在大语言模型(LLM)驱动的应用场景中,检索增强生成(RAG)技术愈发关键。而文本分割,作为RAG流程里的核心环节,直接影响着整个系统的性能与效果。...
3
评论
分享
艾醒
4月前
关注
探索大语言模型(LLM):Open-WebUI的安装
Open-WebUI 是一款专为大模型设计的开源可视化交互工具,它通过类 ChatGPT 的直观界面,让用户无需代码即可管理、调试和调用本地或云端的大语言模型(LLMs)...
0
1
分享
艾醒
4月前
关注
探索大语言模型(LLM):Ollama快速安装部署及使用(含Linux环境下离线安装)
Ollama 是一个开源的本地化大模型运行平台,支持用户直接在个人计算机上部署、管理和交互大型语言模型(LLMs),无需依赖云端服务。而且其混合推理的特性也使得CPU和GP...
0
评论
分享
下一页
个人成就
文章被点赞
129
文章被阅读
60,994
掘力值
2,926
关注了
6
关注者
21
收藏集
0
关注标签
13
加入于
2022-03-20