在AI浪潮席卷而来的今天,你还在为发票手动录入烦恼吗?本文手把手教你利用Dify平台和阿里通义千问多模态大模型,快速构建一个智能发票识别Agent。零代码基础也能上手,提升工作效率10倍以上!从注册到部署,全流程详解。快来解锁你的AI生产力吧!
在数字化转型的时代,企业每天处理海量的发票数据,手动录入不仅耗时耗力,还容易出错。想象一下,如果你有一个智能Agent,能自动扫描发票图像,提取关键信息如金额、日期、税号,甚至分类归档,那该多省心啊!。接下来,我将一步步带你从零搭建,确保即使是AI小白也能跟上。整个流程基于最新的 Dify 版本和 qwen-vl-max,准备好了吗?让我们开始吧!
准备工作和账号注册
首先,确保你有基本的环境准备:一台电脑、稳定的网络,以及一个阿里云百炼平台账号(用于通义千问)。
-
注册Dify账号:
打开浏览器,访问 Dify官网。使用邮箱或GitHub账号注册。Dify支持云端部署和本地自建,如果你只是测试,云端免费版就够用。注意,免费版有API调用限额,但足以搭建原型。
本地部署也很简单,将 dify clone 下来使用docker compose up -d即可运行。 -
获取通义千问API Key:
登录 阿里云百炼控制台,访问模型,点击左下角的密钥管理,然后在API管理页面生成一个API Key。记住,这个Key是连接Dify和通义千问的桥梁。通义千问支持多模态模型如Qwen-VL(视觉语言模型),我们将用它来处理发票图像。
创建Dify应用并集成通义千问模型
现在,进入Dify的核心操作。
-
新建工作流:
在Dify控制台,点击创建空白应用,选择“工作流”模式创建应用。给它起个名字,比如“发票识别 Agent”,再点击“创建”按钮。 -
集成大模型:
在开始的下一个节点点击LLM,此时下面的模型会自动选中之前配置的第一个模型,我们需要将其模型切换为qwen-vl-max或者其他支持视觉的大模型。 -
配置Prompt模板:
在LLM的SYSTEM编辑器中,定义核心提示词。提示词是Agent的“大脑”,告诉模型如何处理发票。示例Prompt(直接复制使用):你是一个专业的发票识别专家。用户会上传一张发票图像,请分析图像内容,提取以下关键信息: - 发票号码 - 开票日期 - 总金额(含税小写) 如果图像模糊或信息缺失,请提示用户重新上传。输出格式为JSON,除JSON数据外不返回任何说明信息包括, ```json ``` 这种也不需要,便于后续处理。 未识别到内容时的示例输出: { "code": -1, "msg": "图像模糊或信息缺失" } 正确的示例输出: { "code": 200, "msg": "成功", "data": { "invoice_number": "0987654321", "date": "2025-08-17", "total_amount": "600.00" } }这个Prompt利用了通义千问的多模态能力,能直接“看”图像并理解语义。
-
添加数据处理脚本:
添加代码执行节点,输入变量选择大模型输出的text,输出变量为result,输出类型为对象,代码内容如下所示:import json def main(text: str) -> dict: return { "result": json.loads(text) } -
添加结束节点:
新增结束节点,输出内容为上一步的result,到这一步配置就完成了。 -
发布:
测试没问题后,点击右上角的发布按钮,生成分享链接或API Endpoint。你可以将其嵌入到微信小程序、网页,或直接用Dify的Chat界面。想高级点?也可以通过调用API的方式将其集成到企业微信或钉钉。