首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大模型入门指南
常先森
创建于2023-10-31
订阅专栏
这个专栏将提供关于大模型的基础知识,包括介绍大模型的概念、应用领域和基本原理。它将帮助读者了解大模型的基本概念和术语,并为他们打下坚实的基础。
等 3 人订阅
共23篇文章
创建于2023-10-31
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
你的RAG需要知识图谱吗?——一套务实的技术选型心法
RAG在复杂关系推理中失效。本文提供四步决策框架,对比LLM自动抽取与人工预定义,提出混合方案三阶段实践路线,帮助工程师判断是否引入知识图谱,核心理念是以业务问题而非技术驱动决策。
当检索结果“语义正确却答案错误”:一次 RAG 系统的工程化诊断
在 RAG 系统的实际落地过程中,一个最容易被忽视、却最具破坏力的问题是:检索结果在语义上“看起来很合理”,但却完全无法回答用户的问题。本文将拆解这一现象,如何通过工程化手段,来解决这类问题。
【解密源码】 轻量 GrapghRAG - LightRAG 检索工程实践
LightRAG 是一个轻量级 RAG 框架,其核心创新在于融合了知识图谱与向量数据库进行混合检索,提供六种查询模式、智能关键词提取及精细的 Token 管理,旨在提升检索精度和生成效果。
RAG 表格解析最佳实践:标题识别、表头推断与语义重建全指南
本指南系统梳理了 RAG 场景下表格解析的完整最佳实践,重点解决 OCR 导致的表格结构丢失、标题误识、表头缺失及语义难以还原等核心问题。
【解密源码】 轻量 GrapghRAG - LightRAG 文档解析工程实践
LightRAG 已成为当前最具工程可行性的 GraphRAG 方案之一,让“图谱增强检索”能够以真正务实、低依赖的方式应用于实际业务场景中。
Agent 上下文管理系列 - mem0 设计全解
mem0 是一个围绕「记忆系统」构建的开源框架,它让大模型具备“长期记忆”的能力。本文将通过源码拆解,带你深入理解 mem0 的核心设计与工作原理,尤其是最关键的记忆创建(add)机制。
【解密源码】 RAGFlow 召回策略全解
RAGFlow 的召回模块并非简单的向量检索,而是集成了 **参数解析 → 模型一致性校验 → 查询增强 → 混合召回 → 动态重排序 → 阈值过滤与分页** 的完整闭环。
【解密源码】 RAGFlow 切分最佳实践- ppt 篇
在 RAGFlow 的文档解析体系中,PPT 文件的解析流程相对独特。它不仅要提取页面中的文字、表格内容,还需要生成每一页的缩略图,保证多模态检索场景下的语义对齐。
【解密源码】 RAGFlow 切分最佳实践- book 篇
书籍文件往往篇幅巨大、结构复杂,不同章节、目录、致谢等混杂在同一文档中。RAGFlow 通过自动识别版面结构、过滤非正文、并结合视觉模型生成图片摘要,实现对长文档的精准切分与高质量抽取。
【解密源码】 RAGFlow 切分最佳实践- paper 篇
论文类文档是 RAG 应用中最具挑战性的解析类型之一。 与普通 pdf 或 ppt 不同的是,paper 通常包含复杂的版面结构:摘要、公式、表格、参考文献等,且跨且跨页、双栏、脚注等情况极为常见。
上下文工程2.0:从设计到实践的全景方法论
未来的上下文工程将不再是“让 AI 记住上下文”,而是让 AI 理解并共创上下文。 而真正的智能,不是拥有记忆,而是知道——什么值得被记住。
【解密源码】 RAGFlow 切分最佳实践- naive parser 语义切块(html & json & doc 篇)
在 RAGFlow 的多文档解析体系中,HTML、JSON 与 DOC 三类文档具有天然的结构化特性。 相较于 PDF、Markdown 等复杂输入,它们的语义边界更清晰、噪声更少、解析路径更短。
【解密源码】 RAGFlow 切分最佳实践- naive parser 语义切块(markdown 篇)
在 RAGFlow 中,Markdown 以其自带的语义结构,使解析器无需 OCR 或排版分析即可精准还原内容层次,是一种独特且高效的输入类型。
【解密源码】 RAGFlow 切分最佳实践- naive parser 语义切块(excel & csv & txt 篇)
本期我们将聚焦这些结构化与半结构化数据的处理方案。Excel/CSV/TXT 文档的处理更注重数据完整性、格式保真和高效提取。RAGFlow 通过精巧的设计,为每种格式提供了最优的语义切块策略。
【解密源码】 RAGFlow 切分最佳实践- naive parser 语义切块(pdf 篇)
本期我们将挑战文档处理领域的"终极 BOSS"—— pdf 格式。作为最复杂、最通用的文档格式,版面布局千变万化,文字提取难度极高。RAGFlow 为不同特性的 pdf 文档提供了针对性的解决方案。
【解密源码】 RAGFlow 切分最佳实践-上传与解析全流程
本系列文章带你从源码角度深度剖析 RAGFlow,从文件上传、解析、切分、向量化到最终入库。本文聚焦于文档解析与切分的全流程概述,为理解整个 RAGFlow 流程打下基础。
【解密源码】 RAGFlow 切分最佳实践-navie 分词器原理
本期对 ragflow 分词器的原理进行详细拆解。这一模块作为所有文档类型解析流程的公共组件,承担了语义分段、文本归一化、chunk 边界控制等底层职责。
【解密源码】 RAGFlow 切分最佳实践- naive parser 语义切块(docx 篇)
本期我们将从通用机制深入到具体文件类型的实现逻辑,聚焦 word 文档在 navie parser 下的语义切块原理。
为什么你的 DeepSeek-OCR 不好用?DeepSeek 与 PaddleOCR-VL 全面测评
对比 DeepSeek-OCR 与 PaddleOCR-VL,揭示前者识别弱但理解强的本质,解释你觉得它“不好用”的真正原因。
一图胜千言:DeepSeek、Glyph 与 PaddleOCR-VL 的不同答案
当 AI 能“看懂”图片,它是否比人更懂文字?本文拆解三种最新视觉方案——DeepSeek-OCR、PaddleOCR-VL、Glyph,讨论背后隐藏问题:AI 的阅读力,究竟比我们更聪明,还是更模糊
下一页