首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
自然语言处理
致Great
创建于2022-01-01
订阅专栏
自然语言处理
等 22 人订阅
共74篇文章
创建于2022-01-01
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
AI老板心中的迈巴赫:DeepSeek+Ollama+Xinference+RAGFlow+Dify部署教程,RAG产品化体验5件套
Xinference部署 Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌
为什么 RAG 会失败以及如何解决?揭秘背后三大致命缺陷!
检索增强生成 (RAG) 能让 大型语言模型 (LLM) 借助外部知识,提高回答的准确性和上下文理解能力。不过,RAG 并不总是那么可靠,在很多情况下会“翻车”,导致输出的内容不够准确或相关。这种问题
解锁的搜索与推理新模式:DeepSearch与DeepResearch的区别
1. Test-Time Compute(测试时计算) 在深入了解 DeepSearch 和 DeepResearch 之前,我们得先搞明白一个概念:Test-Time Compute(测试时计算)。
玩转RAG应用:如何选对Embedding模型?
在打造检索增强生成(RAG)应用时,选择合适的Embedding模型就像挑选合适的工具,直接影响到应用的表现和效果。那么,面对众多的模型,我们该如何轻松找到最适合的那一款呢? MTEB简介 git
推理大模型的后训练增强技术-Reasoning模型也进化到2.0了,这次居然学会用工具了
论文简介 Reasoning模型也进化到2.0了,这次居然学会用工具了!✨ 最近有个叫START的方法,让大模型也能学着用工具,比如自己调用代码解释器,来提升推理和解决问题的能力。 具体怎么实现的呢?
推理大模型的后训练增强技术-从系统1到系统2:大语言模型推理能力的综述
35/100 发布文章 加粗 斜体 标题 删除线 无序 有序 待办 引用 代码块 运行代码 资源绑定 图片 视频 表格 超链接 投票 导入 导出 保存 撤销 重做 历史 new 模版 使用富文本编辑器
检索增强生成 (RAG) 的 5 大 提示词,非常实用!
从去年到现在,检索增强生成(RAG)这套玩法越来越火。简单来说,它就是让大型语言模型(LLM)结合外部数据,确保回答更准确、不胡说八道(减少“幻觉”)。这样一来,RAG 系统不仅能给出更靠谱的答案,还
Gemma 3 27B版本超越DeepSeek V3:技术要点分析!
Gemma是来自Google的一个轻量级模型系列,基于 Gemini 技术构建。2025年3月12日,也就是昨天,Google 发布了 Gemma 3,这是他们 Gemma 系列模型的新一代。Gemm
推理大模型的后训练增强技术-强化学习篇
大模型强化学习简介 概念 人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实
关于DeepResearch设计实现的碎碎念
前言 最近我们通过一些新闻博客包括LLMs产品的推出,DeepSearch和DeepResearch这两个词不断的映入我们眼帘。 一个有趣的发现是,DeepSearch 和 DeepResearch
推理大模型的后训练增强技术--LLM 推理模型的现状
提升大型语言模型(LLM)的推理能力无疑是 2025 年最火热的话题之一,而且理由很充分。更强的推理能力意味着 LLM 可以处理更复杂的问题,让它在各种任务上表现得更出色,更贴近用户的实际需求。 最近
大语言模型对软件工程师的影响曲线
最近刷到一篇有意思的文章,讨论了大语言模型(LLM)对软件工程师影响的职级曲线。文章提出了一个观点:大语言模型对工程师的帮助并非均匀的,而是随着职级变化呈现出类似U型的曲线。 以工程师的职级差异视角出
推理大模型的后训练增强技术-预训练篇
大模型训练技术概述 LLM训练的三个阶段 训练大型语言模型不是一个单一的过程,相反,它是一个多层的训练过程组合,每个过程都有其独特的作用,并对模型的性能做出贡献。 阶段1:自我监督学习(Self-Su
RAG学习必备,论文+实战+经验全收录!
📌 RAG 论文精选 RAG中半结构化数据的解析和向量化方法 检索信息中的噪音是如何影响大模型生成的? 文档树:如何提升长上下文、非连续文档、跨文档主题时的检索效果 通过HyDE提升检索效果 CAG:
关于Grok3和DeepSeek背后苦涩教训引发的思考
引言 Ilya Sutskever(前 OpenAI 联合创始人兼首席科学家)曾在在召开的 NeurIPS 会议上表示,大模型的预训练已经走到了尽头。 而 Noam Brown(OpenAI 研究员,
从零开始优化 RAG 流程的终极指南,解决检索增强生成的核心挑战
RAG 工作流程划分 首先,我们将 RAG 工作流程分为三个部分,以增强我们对 RAG 的理解,并优化每个部分以提高整体性能: 预检索 在预检索步骤中,需要准备LLM 原始训练数据集之外的新数据(也称
注意力机制进化史:从MHA到MoBA,新一代注意力机制的极限突破!
大模型时代下的注意力模型发展回顾:MHA、MQA、GQA、MLA、NSA、MoBA DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA,即Native Sparse Attent
硬件对齐+原生训练!DeepSeek NSA打造高效稀疏Attention
一、研究背景与动机 在自然语言处理领域,长上下文建模对下一代大语言模型至关重要,其应用场景广泛,如深度推理、代码生成、多轮对话等。然而,标准注意力机制计算复杂度高,当处理长序列时,计算成本剧增,成为模
RAG科普文!检索增强生成的技术全景解析
增强生成 (RAG) 是塑造应用生成式 AI 格局的关键技术。Lewis 等人在其开创性论文中提出了一个新概念面向知识密集型 NLP 任务的检索增强生成之后,RAG 迅速成为基石,提高了大型语言模型
一文深入了解DeepSeek-R1:模型架构
📝 1. 输入上下文长度 DeepSeek-R1的输入上下文长度为128K。 DeepSeek-R1 从其基础模型 DeepSeek-V3-Base 继承了 128K 上下文长度。最初,DeepSee
下一页