今天借助腾讯云大模型知识引擎原子能力提供的文档解析API快速提取图片信息为MD文档的WinFomr应用小案例,感兴趣的朋友可以看一下!
一、大模型知识引擎 LKE介绍
官方介绍:大模型知识引擎(LLM Knowledge Engine),是面向企业客户及合作伙伴的,基于大模型的应用构建平台,结合企业专属数据,更快更高效地搭建Agent、RAG、工作流等多种模式应用,推动大语言模型在企业中的应用落地。
大模型知识引擎 LKE: cloud.tencent.com/product/lke
1.1 如何开通服务?
点击【产品体验】按钮进入服务开通页面大概需要半分钟左右的时间,具体如下图:
开通成功之后如下图:
1.2 大模型知识引擎组成
大模型知识引擎主要分为四个模块:
应用管理:个人创建的大模型应用管理主界面。如果没有创建应用的话,默认为创建界面。
原子能力:已API接口的方式提供给开发者自行构建大模型专属应用。主要包括多轮改写、Embedding、重排序、文档解析四大能力。
插件中心:通过插件能帮助知识引擎开发应用拓展功能,支持有开发能力者丰富应用内容,相当于是知识引擎应用能力的补充。
体验中心:基于知识引擎推出的最佳实践应用,大家可以基于推荐的应用创建为自己的应用,然后进行功能进一步丰富。
腾讯云2月8日上线DeepSeek-R1及V3原版模型API接口,依托腾讯云强大的公有云服务,为大家提供了稳定优质的接口调用服务。这里主要依靠腾讯云提供的API接口来实现。
二、案例实战
使用技术:C#+VS2022+WinFrom
完整的案例流程如下图:
2.1、创建项目
首先打开vs2022创建一个Winfrom项目
点击下一步输入项目名称【TDeepSeekChengYuDemo】,然后点击创建按钮。
空白项目创建之后效果如下图:
2.2、引入腾讯大模型知识引擎 LKE调用SDK依赖库
Nuget包管理器(推荐)
打开NuGet包管理器搜索”TencentCloudSDK.Lke“
然后点击安装即可。安装成功之后效果如下图:
命令行方式
打开程序包管理控制台输入如下命令:
暂时无法在飞书文档外展示此内容
2.3、代码编写
然后新建一个工具类库ImageOCRUtils.cs用来调用大模型API接口,创建如下图:
主要代码逻辑
创建文档解析任务的方法
参考官方SDK示例进行封装方法如下:
暂时无法在飞书文档外展示此内容
输入参数引用官方文档
暂时无法在飞书文档外展示此内容
输出参数参考官方文档如下图:
正确返回参数json示例
暂时无法在飞书文档外展示此内容
查询文档解析结果逻辑
根据上一步获取的TaskId查询文档解析结果,返回值为文件URL,文件类型为压缩包,具体代码如下:
暂时无法在飞书文档外展示此内容
输入参数,引用官方文档如下图:
输出参数,引用官方文档如下图:
特别注意:
- 文档解析的结果文件,存储在腾讯云COS的下载URL,下载URL的有效期为10分钟。
- 需要创建和获取自己的API开发密钥,具体请访问 console.cloud.tencent.com/cam/capi
- 一定要妥善保存自己的开发API密钥,避免造成不必要的损失
正确返回json示例
暂时无法在飞书文档外展示此内容
第三步根据文档URL下载压缩包到本地
暂时无法在飞书文档外展示此内容
说明:根据时间戳命名下载结果文件的Zip压缩包文件。
解压压缩包到指定目录,这里使用了SharpZipLib类库,大家直接使用nuget搜索安装即可。具体如下图:
解压压缩包主要是为了得到目录结构进行TreeView控件展示,主要代码如下:
暂时无法在飞书文档外展示此内容
2.4、界面设计
因为接口调用为异步调用为了方便快速实现分成了三个按钮:【创建文档解析任务】、【获取解析文件URL】、【获取解析结果】按照顺序点击进行解析结果的获取,界面效果如下图:
主要代码如下:
暂时无法在飞书文档外展示此内容
说明:主要包括按钮点击事件和加载解析结果的树形结构逻辑。
这里选择我之前文章的一个图片(主要是DeepSeek-R1模型介绍的图片)进行解析,图片如下:
具体调用最终效果
说明:需要按钮步骤进行文档解析结果。
我们打开解析后的MarkDown文档查看解析的实际效果
文档结构如下:
接着使用Typoa进行打开效果如下:
整体解析的效果还是非常棒的。并且生成的MD文件进行了段落比较合理的分组。
三、总结
以上是基于腾讯云大模型知识引擎原子能力提供的文档解析接口轻松实现图片解析为MarkDown文档的小案例。整体接口调用不管是稳定性还是准确度都是非常可靠的,感兴趣的朋友可以基于腾讯云大模型知识引擎提供的各种能力创造出更多提升工作效率的专属应用,针对该案例大家如果有相关问题的话欢迎沟通交流!