博睿数据小睿助理:以 Agentic AI 赋能可观测性*
一、背景与定位
-
研发背景:解决技术人员使用ONE运维平台时功能查找困难、故障时PromQL语句编写卡顿等日常运维痛点,让技术操作中的抓狂时刻成为过去式。
-
产品定位:基于大语言模型(LLM)的智能助手系统,并非简单问答机器人,而是懂技术的运维领域伙伴,服务于ONE运维平台使用者。
-
设计哲学:让复杂的技术变得简单,让简单的操作变得自然,不取代技术人员,而是成为其“超级助理”,承接重复性、记忆性任务。
二、什么是Agentic AI?Agentic AIOps?以及两者之间的关系?
- Agentic AI(代理式人工智能)
以 ** 自主智能体(Agent)** 为核心,能感知环境、理解意图、自主规划步骤、执行任务并持续迭代优化的新一代 AI,区别于传统指令式 AI,可主动完成复杂、多步骤的目标任务。
- Agentic AIOps(代理式智能运维)
将 Agentic AI 技术与 AIOps(智能运维)结合的运维体系,通过运维领域的专属智能体,自主感知运维环境、分析故障、规划并执行运维操作(如监控查询、故障排查、资源调度),实现运维任务的自动化、智能化闭环。
- 两者关系
Agentic AIOps 是 Agentic AI 在运维领域的垂直落地与具体应用:
- Agentic AI 是底层通用技术框架和核心理念,提供自主智能体的技术能力;
- Agentic AIOps 基于该框架,结合运维场景(如监控、故障、资源管理)做领域定制,让通用 AI 智能体适配运维的专业需求,成为运维场景的专属智能代理。
三、博睿数据小睿助理的核心功能
小睿助理具备五大核心功能,各功能精准匹配技术人员的不同运维需求,实现全场景技术支持:
-
意图识别:精准理解用户操作需求,为后续需求分流提供基础;
-
PQL生成:快速为用户生成复杂的PromQL监控查询语句,解决语法记忆、参数设置难题;
-
智能导航:为用户指引ONE运维平台所需功能的具体页面位置;
-
环境感知:上下文感知用户当前所处的ONE平台页面,以及该页面的所有功能;
-
智能问答:基于运维领域、可观测领域、ONE平台功能点三类知识,解答用户各类技术问题。
****四、核心技术原理:LLM+RAG技术
小睿助理的底层核心为大语言模型(LLM)与检索增强生成(RAG)技术结合,先通过LLM完成用户意图识别,再根据意图分流至不同功能模块,所有功能均基于文本嵌入(文本转向量)和向量数据库检索实现,整体分为索引构建(离线)和查询与生成(在线)两个阶段,为RAG技术的主流流程,具体如下:
|阶段|执行时机|核心步骤|关键说明|
| ---- | ---- | ---- | ---- |
|索引构建|离线,仅执行一次/定期更新|1.文档加载与解析:读取PDF/Word等多源原始知识库,提取纯文本
2.文本分割:将长文档切分为小文本块,适配LLM上下文窗口限制
3.文本向量化:嵌入模型将文本块转为高维向量,表征语义
4.存储至向量数据库:将文本块、向量、元数据存入向量库|为知识库建立快速检索的向量索引,是后续在线查询的基础|
|查询与生成|在线,用户每次提问时实时执行|1.查询处理与向量化:嵌入模型将用户问题转为向量(与索引阶段模型一致)
2.向量数据库检索:通过余弦相似度等计算,查找Top-K相似文本块
3.结果评估与提示词构建:ReRanker模型做相关性排序,相关则构建增强提示词,不相关则告知用户无相关信息
4.LLM生成回答:将增强提示词输入LLM,结合其内部知识生成精准答案|基于用户问题实现精准的知识检索与答案生成,保证回答的准确性|
****五、核心功能具体实现
(一)意图识别
-
实现方式:将用户问题输入LLM,通过提示词预设的意图类别,由LLM完成问题的意图分类;
-
功能作用:类似医院导诊台,为用户问题匹配对应的功能模块,实现精准分流;
-
示例:“如何查询Pod的内存使用率?”→PQL生成;“拓扑图在哪里?”→智能导航。
(二)PQL生成
为意图识别中匹配“监控指标查询”需求的核心功能,全程遵循RAG模式,关键数字为Top20、Top10、1024维,具体流程:
-
用户问题向量化:嵌入模型将自然语言问题转为1024维向量;
-
指标检索:在Milvus向量库中做相似度搜索,找到Top20个语义最相关的指标信息(含名称、描述等);
-
重排序:ReRanker模型对20个候选指标再次排序,筛选出Top10个精准匹配的指标及示例PromQL;
-
Few-Shot提示构建:将Top10信息以“输入→输出”形式拼接到提示词中,作为示例;
-
LLM生成PromQL:将含用户问题和示例的提示词输入LLM,生成最终的PromQL查询语句。
-
实操示例:查询“过去5分钟Nginx的QPS”,最终生成语句为
sum(rate(nginx_http_requests_total{job="nginx"}[5m])) by (instance)。
(三)智能导航、环境感知、智能问答
三大功能的技术原理与PQL生成类似,核心差异在于知识库构建和提示词设置,具体:
-
知识库构建:收集ONE平台每个页面的URL、导航路径、功能介绍、内容概要等信息,经嵌入模型生成向量后存入Milvus数据库,形成ONE页面专属知识库;
-
提示词设置:智能导航功能中,需在LLM提示词中输入页面URL、导航路径等信息,确保回答中包含详细的导航地址;
-
核心逻辑:均通过向量数据库检索相关知识,再结合专属提示词由LLM生成结果。
****六、产品核心价值
-
提升运维效率:故障时无需翻找文档编写PromQL,凌晨告警可快速获取技术支持;
-
降低平台使用门槛:新人入职无需花费大量时间摸索ONE平台功能,快速上手;
-
释放技术人员价值:让技术人员从重复性、记忆性的运维任务中解放,专注于创造性工作;
-
提供有温度的技术支持:并非冰冷的代码工具,而是随时随地提供帮助的“经验丰富的老员工”。
****七、关键问题
问题1:小睿助理的核心技术支撑是什么,其整体技术流程分为哪两个阶段?
答案:小睿助理的核心技术支撑是大语言模型(LLM)与检索增强生成(RAG)技术的结合,所有功能均以文本嵌入(文本转向量)和向量数据库检索为基础;其整体技术流程分为索引构建(离线处理)和查询与生成(在线处理)两个阶段,为目前主流的RAG技术流程。
问题2:小睿助理的PQL生成功能是如何实现的,其中涉及的关键数字有哪些?
答案:PQL生成功能遵循RAG模式实现,具体流程为:用户问题向量化→在Milvus向量库检索出Top20相关指标→ReRanker模型重排序筛选出Top10指标及示例PromQL→构建Few-Shot提示词→LLM生成最终PromQL语句;涉及的关键数字有1024维(问题向量化后的向量维度)、Top20(初次检索的指标数量)、Top10(重排序后筛选的指标数量)。
问题3:小睿助理的智能导航、环境感知功能与PQL生成功能的技术原理核心差异是什么?
答案:核心差异体现在专属知识库构建和LLM提示词设置两方面:1. 知识库层面,智能导航和环境感知需先构建ONE平台的页面知识库,收集各页面的URL、导航路径、功能介绍等信息并转向量存入Milvus,而PQL生成依托的是运维指标相关知识库;2. 提示词层面,智能导航功能需在提示词中输入页面URL、导航路径等信息,确保LLM回答包含详细的导航地址,PQL生成则是将相关指标示例以Few-Shot形式融入提示词。
八、总结
小睿助理是基于大语言模型(LLM)和检索增强生成(RAG)技术打造的运维领域智能助手系统,核心解决技术人员使用ONE运维平台的操作、PromQL编写等日常痛点,具备意图识别、PQL生成、智能导航、环境感知、智能问答五大核心功能,其底层通过索引构建(离线)和查询与生成(在线)的RAG标准流程实现,各功能均以文本嵌入和向量数据库检索为基础,再由LLM生成结果,旨在成为技术人员的贴心技术伙伴,简化复杂技术操作,让技术人员专注于创造性工作。