企业搜索及企业办公
一、 企业搜索与企业问答
场景和痛点是什么
1、只要在大型组织里工作,员工就很难找到他们需要的信息
2、随着技术开发系统和软件,这个问题只会变得更糟,员工比以往任何时候都更难找到信息了
3、关于工作的“工作”是生产力的拖累,每周花费数小时寻找信息和数据,阻碍人们专注于核心职责
4、企业越大,这种效率损失就越严重
5、如果能有一个搜索框,能搜索企业内部的所有信息和数据(有权限范围)
6、甚至我都不想去看搜索结果,我只给出一个问题,就有AI能基于搜索结果回答我的问题
例如:
1: 上个月讨论新品计划的时候,张三讲的文档里几个竞争品牌的新品数据是多少来着?
2: 这个季度的业务规划,最后张三审批通过的版本是每个业务什么任务来着?
3: 本周张三的几场直播数据情况怎么样,比上周有进步了么?
二、 企业搜索是个什么架构,怎么搜?
2.1、都有哪些类型的数据和信息
1、文件、文档:txt、office、wps、图片、视频、飞书文档、腾讯文档、金山文档
2、协作过程:项目协作、文档协作、工作群
3、沟通记录(员工与顾客):企业微信、在线客服、自有IM系统
4、业务数据:数据库、文件、文档、第三方系统(CRM、ERP等)
5、交易数据:公司银行账户信息、客户及供应商账户信息、银行交易流水
6、IT:服务器资源、API接口、代码库、各类密钥
2.2、各处的数据和信息如何打通
2.3、数据打通之后怎么处理
Federated Search:联合搜索
通过各系统提供的搜索API接口进行搜索,相当于将搜索请求发送给各个系统,分别搜索后汇总搜索结果
优势:功能实现相对简单,不需要太复杂的开发过程
劣势:速度慢,效果严重依赖各系统的搜索功能
Data Indexing:给抓取来的数据和信息建立数据库,并建立数据索引
研发工程师一般会给企业的数据库常用表、常用字段建立索引,提升检索速度
如用户表、订单表里的部分字段,比如用户手机号、邮箱、订单ID、订单金额等字段,会经常被检索和查询
给各处抓取来的数据和信息建立索引,可以提供给用户提供类似百度和Google一样的快速搜索体验索引建立的自动化以及实效性也是重要考量指标
2.4、如何做到有效的搜索
多模态数据的处理:搜索视频、音频、图片文件
过去的企业搜索,只会搜索上述文件的文件名,但大量的信息在内容中
只搜索文件名:绝大多数企业的搜索功能都只是搜索文件名,这样的选择开发成本低,但员工要找的是资料,要解决的是问题,员工连自己有哪些文件名都不一定记得住,更何况是整个企业的
音频:转成文字,将文字加入到可搜索的数据库,音频文件作为该条数据的关联文件
视频:提取音频,音频转文字;识别关键帧,用多模态模型给关键帧写出详细文字描述;直接用4o给视频写描述图片:用多模态模型写出详细文字描述
安全与权限:在原本的各个系统中,数据和信息都有严格的权限控制
企业统一搜索的系统中,是否应该自动保持数据和信息在原本系统中的所有权限设定
什么是知识图谱?
语义化:知识图谱中的信息不仅仅是数据,还包括了基于语义的关系。比如,某个人(节点)和某个公司(节点)之间的关系(边)可能表示“工作于”或“创立了”等语义。
推理和查询:知识图谱不仅是一个静态的数据库,它支持推理和复杂查询。例如,通过已知的信息推导出其他隐含的知识,或者根据图谱结构执行查询来获取特定的关系或实体。
构建企业知识图谱
1、这张图不需要过多的初始化工作,需要一个数据库表记录所有的节点,还需要另外一张表,记录节点之间的关系
2、最重要的是那100多个连接器(Connector),每一个都是为了某个特定的数据源专门开发的
3、Connector 不仅会获取信息的标题,甚至包括正文、评论、创建者、修改人、修改历史、文件夹结构、权限设定、引用链接 等等一切有可能会有用的信息,而且是实时的
4、Connector 会为新的Content、People 创建新的节点,会将创建、修改、评论、转发、点击等操作 创建节点之间的连线,节点和连线都有额外的属性要存储
5、为了不产生重复数据,Connector 需要对每条数据进行查重:Embedding向量相似度、规则检查、相同属性检查
6、为了不产生重复的员工节点,系统需要自动比对一个员工的信息是否已经存在在图谱中了
7、为了后续更好的个性化搜索体验,甚至你和哪些同事是同部门的关系,你们之间也会出现一条连线,说明你们是比较亲密的协作关系,你和哪些内容之间是可读关系、可编辑关系、管理关系也是如此
做完前述知识图谱工作后,下一步是什么?
三、 企业问答怎么答,是个RAG么?
当搜索已经比较准确之后,基于某个知识片段回答问题,即可获得很好的体验
四、需要集成的更多工具
LLM不擅长什么,可能就要集成相应的工具
• 模型不擅长Excel 表格操作、数据计算
• 模型不擅长生成可视化图表
• 模型不擅长 等等
ps:备注
知识图谱
- 知识图谱就是一个用“关系线”把万事万物连接起来,形成一张“知识大网”的技术。
- **普通人的大脑(像传统数据库):** 记得三件事:
1. 宫保鸡丁是道菜。
1. 鸡丁是种食材。
1. 花生是种食材。
这三个信息是分开的,没什么联系。
- **“美食家”的大脑(就像知识图谱):它不仅记得这些信息,还知道它们之间的关系**:
1. 宫保鸡丁** - **的主要食材是** -> **鸡丁**
1. 宫保鸡丁** - **的辅料包括** -> **花生**
1. 宫保鸡丁** - **属于菜系** -> **川菜**
1. 川菜** - **的特点是** -> **麻辣**
-
例如: 你在谷歌搜索“周杰伦的老婆是谁?”。谷歌背后的知识图谱就像那个“美食家”,它知道:
-
“周杰伦” - “妻子是” -> “昆凌”
所以它可以直接在搜索结果顶部告诉你答案,而不是只给你一堆包含“周杰伦”和“老婆”关键词的网页链接。