首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
致Great
掘友等级
自然语言处理
勇于面对,不要躲避yanqiangmiffy.github.io
获得徽章 12
动态
文章
专栏
沸点
收藏集
关注
作品
赞
325
文章 210
沸点 115
赞
325
返回
|
搜索文章
最新
热门
推理大模型的后训练增强技术--LLM 推理模型的现状
提升大型语言模型(LLM)的推理能力无疑是 2025 年最火热的话题之一,而且理由很充分。更强的推理能力意味着 LLM 可以处理更复杂的问题,让它在各种任务上表现得更出色,更贴近用户的实际需求。 最近
大语言模型对软件工程师的影响曲线
最近刷到一篇有意思的文章,讨论了大语言模型(LLM)对软件工程师影响的职级曲线。文章提出了一个观点:大语言模型对工程师的帮助并非均匀的,而是随着职级变化呈现出类似U型的曲线。 以工程师的职级差异视角出
推理大模型的后训练增强技术-预训练篇
大模型训练技术概述 LLM训练的三个阶段 训练大型语言模型不是一个单一的过程,相反,它是一个多层的训练过程组合,每个过程都有其独特的作用,并对模型的性能做出贡献。 阶段1:自我监督学习(Self-Su
RAG学习必备,论文+实战+经验全收录!
📌 RAG 论文精选 RAG中半结构化数据的解析和向量化方法 检索信息中的噪音是如何影响大模型生成的? 文档树:如何提升长上下文、非连续文档、跨文档主题时的检索效果 通过HyDE提升检索效果 CAG:
关于Grok3和DeepSeek背后苦涩教训引发的思考
引言 Ilya Sutskever(前 OpenAI 联合创始人兼首席科学家)曾在在召开的 NeurIPS 会议上表示,大模型的预训练已经走到了尽头。 而 Noam Brown(OpenAI 研究员,
从零开始优化 RAG 流程的终极指南,解决检索增强生成的核心挑战
RAG 工作流程划分 首先,我们将 RAG 工作流程分为三个部分,以增强我们对 RAG 的理解,并优化每个部分以提高整体性能: 预检索 在预检索步骤中,需要准备LLM 原始训练数据集之外的新数据(也称
注意力机制进化史:从MHA到MoBA,新一代注意力机制的极限突破!
大模型时代下的注意力模型发展回顾:MHA、MQA、GQA、MLA、NSA、MoBA DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA,即Native Sparse Attent
硬件对齐+原生训练!DeepSeek NSA打造高效稀疏Attention
一、研究背景与动机 在自然语言处理领域,长上下文建模对下一代大语言模型至关重要,其应用场景广泛,如深度推理、代码生成、多轮对话等。然而,标准注意力机制计算复杂度高,当处理长序列时,计算成本剧增,成为模
RAG科普文!检索增强生成的技术全景解析
增强生成 (RAG) 是塑造应用生成式 AI 格局的关键技术。Lewis 等人在其开创性论文中提出了一个新概念面向知识密集型 NLP 任务的检索增强生成之后,RAG 迅速成为基石,提高了大型语言模型
一文深入了解DeepSeek-R1:模型架构
📝 1. 输入上下文长度 DeepSeek-R1的输入上下文长度为128K。 DeepSeek-R1 从其基础模型 DeepSeek-V3-Base 继承了 128K 上下文长度。最初,DeepSee
下一页
个人成就
文章被点赞
502
文章被阅读
86,362
掘力值
3,729
关注了
16
关注者
4,798
收藏集
5
关注标签
32
加入于
2015-12-13