Coze 在刚发布时就已经使用过一段时间,但当时没有API调用而且没有想到应用的场景,就对更深入的了解他鸽了很长一段时间。最近团队内有需要识别发票的业务,功能其实业界已经很成熟了,不管是使用YOLO + 文字识别、Paddle OCR或者是各大云厂商的各种接口都能满足需求。
后面了解了一个框架: PP-Structure ,这个框架也是 Paddle OCR 的一个延伸,了解完大致的原理后,在想能否通过Coze 也实现一下识别发票这种简单的需求尝试一下,就有了这篇文章。
先说结论,感觉创造Agent更多的是调试的过程,毕竟LLM就是一个黑盒子,如何让他满足需求就是在不断的调整提示词,实际开发的部分不多,所以直接看一下实现结果。
体验
发票识别助手
提示词
工作流 invoice_rec
搭建过程
实现的原理其实很简单,只是通过通用OCR将发票中的相关信息识别出来,然后将所有的信息喂给模型,通过提示词规定模型的输出格式及需要提取的相关信息。
整个过程下来感觉,人人都能做开发,同样拥有不同背景、不同水平的人都能进行开发时,发布出去的东西应该也会层次不齐,不知道是否是我的感受错误,但后面的发展也不知道是什么样子,后面也会对Coze更加深入的使用和体验。在这个日新月异的时代,各位共勉!
如果需要API调用,请参考 Coze 官方文档: www.coze.cn/open/playgr…