大模型入门指南

大模型入门指南

大模型入门指南

这个专栏将提供关于大模型的基础知识，包括介绍大模型的概念、应用领域和基本原理。它将帮助读者了解大模型的基本概念和术语，并为他们打下坚实的基础。

等 3 人订阅共26篇文章创建于2023-10-31

RAG 系统评估的工程实践：一些非标准但可长期复用的方法

这篇文章并不是对现有 RAG 评估方法的系统性综述，而是基于多个真实项目中逐步形成的一套工程化经验总结。它不追求形式上的完整，而更强调：在实际工程环境中，这些评估方法是否真的能指导决策。

24天前
35
点赞
评论

【解密源码】WeKnora RAG 检索与重排解析：生产级系统如何筛选可用 Chunk

面对海量“相关”结果，生产级RAG如何精准筛选可用Chunk？本文解密WeKnora源码，揭示其统一多路召回、智能重排与降级策略，直击检索效能核心。

1月前
82
1
评论

【解密源码】WeKnora 文档切分与 Chunk 构建解析：腾讯生产级 RAG 的底层设计

WeKnora 是腾讯开源的一套生产级 RAG 框架，解决真实业务场景下“文档复杂、类型多样、规模可控但质量要求极高”的知识增强问题。本文将聚焦 WeKnora 的文档接入与解析体系。

1月前
105
1
评论

你的RAG需要知识图谱吗？——一套务实的技术选型心法

RAG在复杂关系推理中失效。本文提供四步决策框架，对比LLM自动抽取与人工预定义，提出混合方案三阶段实践路线，帮助工程师判断是否引入知识图谱，核心理念是以业务问题而非技术驱动决策。

1月前
47
1
评论

当检索结果“语义正确却答案错误”：一次 RAG 系统的工程化诊断

在 RAG 系统的实际落地过程中，一个最容易被忽视、却最具破坏力的问题是：检索结果在语义上“看起来很合理”，但却完全无法回答用户的问题。本文将拆解这一现象，如何通过工程化手段，来解决这类问题。

2月前
82
点赞
评论

【解密源码】轻量 GrapghRAG - LightRAG 检索工程实践

LightRAG 是一个轻量级 RAG 框架，其核心创新在于融合了知识图谱与向量数据库进行混合检索，提供六种查询模式、智能关键词提取及精细的 Token 管理，旨在提升检索精度和生成效果。

2月前
135
点赞
评论

RAG 表格解析最佳实践：标题识别、表头推断与语义重建全指南

本指南系统梳理了 RAG 场景下表格解析的完整最佳实践，重点解决 OCR 导致的表格结构丢失、标题误识、表头缺失及语义难以还原等核心问题。

2月前
161
点赞
评论

【解密源码】轻量 GrapghRAG - LightRAG 文档解析工程实践

LightRAG 已成为当前最具工程可行性的 GraphRAG 方案之一，让“图谱增强检索”能够以真正务实、低依赖的方式应用于实际业务场景中。

2月前
120
点赞
评论

Agent 上下文管理系列 - mem0 设计全解

mem0 是一个围绕「记忆系统」构建的开源框架，它让大模型具备“长期记忆”的能力。本文将通过源码拆解，带你深入理解 mem0 的核心设计与工作原理，尤其是最关键的记忆创建（add）机制。

2月前
409
点赞
评论

【解密源码】 RAGFlow 召回策略全解

RAGFlow 的召回模块并非简单的向量检索，而是集成了 **参数解析 → 模型一致性校验 → 查询增强 → 混合召回 → 动态重排序 → 阈值过滤与分页** 的完整闭环。

3月前
87
点赞
评论

【解密源码】 RAGFlow 切分最佳实践- ppt 篇

在 RAGFlow 的文档解析体系中，PPT 文件的解析流程相对独特。它不仅要提取页面中的文字、表格内容，还需要生成每一页的缩略图，保证多模态检索场景下的语义对齐。

3月前
87
点赞
评论

【解密源码】 RAGFlow 切分最佳实践- book 篇

书籍文件往往篇幅巨大、结构复杂，不同章节、目录、致谢等混杂在同一文档中。RAGFlow 通过自动识别版面结构、过滤非正文、并结合视觉模型生成图片摘要，实现对长文档的精准切分与高质量抽取。

3月前
62
点赞
评论

【解密源码】 RAGFlow 切分最佳实践- paper 篇

论文类文档是 RAG 应用中最具挑战性的解析类型之一。与普通 pdf 或 ppt 不同的是，paper 通常包含复杂的版面结构：摘要、公式、表格、参考文献等，且跨且跨页、双栏、脚注等情况极为常见。

3月前
247
点赞
评论

上下文工程2.0：从设计到实践的全景方法论

未来的上下文工程将不再是“让 AI 记住上下文”，而是让 AI 理解并共创上下文。而真正的智能，不是拥有记忆，而是知道——什么值得被记住。

3月前
131
点赞
评论

【解密源码】 RAGFlow 切分最佳实践- naive parser 语义切块（html & json & doc 篇）

在 RAGFlow 的多文档解析体系中，HTML、JSON 与 DOC 三类文档具有天然的结构化特性。相较于 PDF、Markdown 等复杂输入，它们的语义边界更清晰、噪声更少、解析路径更短。

3月前
107
点赞
评论

【解密源码】 RAGFlow 切分最佳实践- naive parser 语义切块（markdown 篇）

在 RAGFlow 中，Markdown 以其自带的语义结构，使解析器无需 OCR 或排版分析即可精准还原内容层次，是一种独特且高效的输入类型。

3月前
95
点赞
评论

【解密源码】 RAGFlow 切分最佳实践- naive parser 语义切块（excel & csv & txt 篇）

本期我们将聚焦这些结构化与半结构化数据的处理方案。Excel/CSV/TXT 文档的处理更注重数据完整性、格式保真和高效提取。RAGFlow 通过精巧的设计，为每种格式提供了最优的语义切块策略。

3月前
197
点赞
评论

【解密源码】 RAGFlow 切分最佳实践- naive parser 语义切块（pdf 篇）

本期我们将挑战文档处理领域的"终极 BOSS"—— pdf 格式。作为最复杂、最通用的文档格式，版面布局千变万化，文字提取难度极高。RAGFlow 为不同特性的 pdf 文档提供了针对性的解决方案。

3月前
218
2
评论

【解密源码】 RAGFlow 切分最佳实践-上传与解析全流程

本系列文章带你从源码角度深度剖析 RAGFlow，从文件上传、解析、切分、向量化到最终入库。本文聚焦于文档解析与切分的全流程概述，为理解整个 RAGFlow 流程打下基础。

3月前
237
点赞
评论

【解密源码】 RAGFlow 切分最佳实践-navie 分词器原理

本期对 ragflow 分词器的原理进行详细拆解。这一模块作为所有文档类型解析流程的公共组件，承担了语义分段、文本归一化、chunk 边界控制等底层职责。

3月前
278
点赞
评论