基于AI知识库RAG的综合窗口系统

419 阅读4分钟

背景

     电子政务网上大厅统一接件系统是为各市、区(市)县所有行政权力事项(行政许可、行政处罚、行政强制、行政征收、其他行政权力等)实现在线统一接件、办理调度、办件过程信息查询、结果查询及公开、服务评价、办件统计等功能的应用系统,它通过标准数据接口、基于政务信息共享交换平台实现与行政审批系统等市级综合业务平台、地税局网上办税系统等部门业务平台、电子监察系统等应用实现互联互通,办件数据共享,为没有业务系统的部门及事项提供在线接件功能,通过该系统形成一个真正意义的在线办事服务平台,将分散于不同业务系统的接件平台统一到政府门户网站,让用户不再跑网上的分散窗口。针对政府网站信息搜不到、搜不全的问题,平台对网站信息进行结构化处理,通过构建信息知识图谱,整合辖区情况介绍、政策文件、办事服务、热门问答等内容,形成知识库。市民只需输入关键词或问题,平台就能迅速总结提炼相关信息,有效提升咨询效率和准确度。GPT智能客服通过对大量政策文件的深度学习,精准把握政策深层含义,当企业用户、普通市民只需在线输入问题,平台即可智能匹配相关政策法规和办事流程等信息,并生成清晰、简洁的解读及指导,有效破解传统智能客服“不解人意”“答非所问”的问题,帮助公众更好理解政策。以下实践某政务综合窗口接件系统基于RAG的实践。

RAG(Retrieval-Augmented Generation)

      RAG技术全称为“检索增强的生成”,它将传统的信息检索技术与现代的自然语言生成技术相结合,旨在提高文本生成的准确性和相关性。这种技术通过引入外部知识源,使得语言模型在生成文本时能够参考更广泛、更准确的信息,从而显著提升生成内容的质量和可信度。

RAG技术主要由两个核心组件构成:检索组件和生成组件。

  1. 检索组件:负责从大型知识库中检索出与给定输入相关的信息。这个知识库可以是维基百科、专业期刊、书籍等任何形式的文档集合。检索组件通常使用向量检索技术(如FAISS或Annoy库)来快速定位相关文档或文档片段。
  2. 生成组件:是一个预训练的Transformer模型(如GPT或BERT),它结合了原始输入和检索组件提供的外部信息来生成文本。生成组件能够根据融合了检索信息的上下文生成回答或续写文本,从而确保生成内容的准确性和丰富性。

流程

image

数据流

image

功能架构

image

Elastic k-Nearest Neighbor (kNN) Search

k 最近邻 (kNN) 算法对密集向量类型的字段执行相似性搜索。这种类型的搜索更合适地称为“近似 kNN”,接受向量或嵌入作为搜索项,并查找索引中接近的条目。以下图片来自Elastic官方

实践

    将之前收集到政策相关事项docx文件,195个文档上传知识库,包含 事项要素,材料模板,审查样表 的docx文档,其中审查样表部分docx包含图片

clip_image002


如下是已经导入完成

clip_image004

解析完成后

clip_image006

数据管理可查看导入文档详情

clip_image008

clip_image010

创建索引

clip_image012

知识库管理

clip_image014

知识库基于向量存储ElasticSearch

clip_image016

已经自动切片

clip_image018

命中测试

clip_image020

应用配置 对应知识库

clip_image022

测试对话

clip_image024

前端UI编写

clip_image026

最终我们看到 综合窗口的AI助手

入口

clip_image028

智能AI对话与咨询

clip_image030

示例2

clip_image032

示例3

clip_image034

我们可以看HTTP 请求响应体

clip_image036

第二部分

clip_image038

总结

      我们看到电子政务网上大厅综合窗口接件基于RAG实现准确智能助手。RAG技术在多个领域具有广泛的应用前景,包括但不限于问答系统、文本摘要、对话系统、企业信息库建设、AI文档问答、业务培训、科研等场景。通过结合检索和生成两种技术,RAG技术为这些领域提供了更加高效、准确和可靠的解决方案。