TextIn xParse 文档解析skill 如何免费使用?

21 阅读10分钟

2 月 14 日,我国最大规模科学智能计算集群在河南郑州国家超算互联网核心节点投入使用,AI 算力底座持续升级。算力不断突破的同时,智能 Agent 在企业场景中仍被文档解析卡脖子,TextIn xParse 文档解析 Skill 正式上架 ClawHub,以免费开放的方式,为 Agent 提供高精度文档解析能力。

一、相关痛点梳理

当前,智能Agent已成为新的应用范式,OpenClaw生态中上万种Skills的涌现,让Agent能够按需加载能力,实现写代码、查资料、调API等自主操作,逐渐成为企业高效运转的“数字员工”。但当Agent深入企业真实业务场景时,其核心瓶颈并非模型的思考能力,而是缺乏高精度、结构化的文档上下文,具体痛点可分为以下4点,与Agent应用深度绑定:

1.Agent上下文获取困难: 企业长期沉淀的大量非结构化资料,包括PDF中的合同条款、Word中的产品手册、Excel中的经营数据、PPT中的战略规划等,虽然承载着核心业务价值,但由于格式混乱、结构不稳定、字段不规范,对模型而言就是“读不透”的无效信息,导致Agent无法获取有效上下文,难以发挥实际作用。

2.文档格式适配性差: 企业日常办公中涉及的文档格式繁杂,涵盖PDF、Word、Excel、PPT、长截图、HTML、OFD等十余种,不同格式的文档结构差异较大,传统解析工具无法实现全格式兼容,Agent难以统一处理各类文档,增加了开发者的适配成本。

3.知识无法高效转化复用: 从原始文档到Agent可直接使用的输入,中间缺少关键的“编译”环节——正如Karpathy提出的LLM知识库构建理念,原始文档需要转化为结构化信息才能被Agent消费,但这一转化过程技术门槛高,普通开发者难以实现,导致高价值文档信息无法被Agent检索、分析、复用。

4.开发与使用成本双高: 自研文档解析能力需要长期的技术积累,尤其是在OCR识别、格式还原、精度控制等方面,投入的人力、物力成本极高;而传统商用文档解析工具收费昂贵,中小团队和个人开发者难以承担,导致Agent的文档处理能力难以落地。

二、工具介绍

TextIn xParse 文档解析Skill,是合合信息依托19年智能文字识别技术沉淀,面向OpenClaw、ZeroClaw、Claude Code等Agent生态推出的行业标杆级文档解析工具,目前已正式上架ClawHub,以“免费开放、零门槛上手”为核心,为开发者提供企业级文档解析解决方案。

作为合合信息对外开放的首个Agent生态适配工具,TextIn xParse 打破了以往文档解析技术“闭源商用”的模式,将19年沉淀的企业级文档解析能力,压缩成轻量、可插拔的Skill组件,无需复杂配置,即可让Agent快速具备高精度文档解析能力。其核心定位并非简单的OCR识别工具,而是Agent的“知识入口”——通过将原始文档“编译”成结构化、标准化的信息,让PDF、Word等各类文档转化为Agent可持续消费、反复调用的知识资产,助力Agent实现检索、问答、分析、报告生成等全流程业务处理。

该工具最大的亮点的是免费可用,免登录即可享受每日1000页的解析额度,覆盖个人开发者和中小团队的日常使用需求;同时支持MIT-0开源协议,开发者可自由使用、修改、 redistribute,无需额外归因,进一步降低了使用和二次开发成本。

三、操作步骤讲解

TextIn xParse 文档解析Skill的核心优势之一就是“零门槛使用”,无需写代码、无需调API,只要完成简单安装,即可通过自然语言指令让Agent完成文档解析全流程,具体操作步骤分为“免费使用范围说明、安装方式、使用指令”三部分,详细拆解如下:

1. 免费使用范围

免登录可用:无需注册TextIn账户,直接安装Skill即可解析PDF、图片格式(含jpg、png、bmp、tiff、webp等常见图片格式),满足日常文档解析需求。

免费额度:每日1000页解析额度,无额外限制,足够个人开发者、中小团队日常使用,批量解析小型文档无需额外付费。

扩展权益:若需要解析更多格式(如Word、Excel、PPT、HTML、OFD等20+常见文档格式),或需要更高的解析额度,可配置TextIn账户凭证解锁,进一步满足企业级批量处理需求。

2. 两种安装方式

方式一:Agent/Claw一键安装(推荐,最快上手)

适用于OpenClaw、ZeroClaw、Claude Code等支持Skill市场的Agent平台,全程无需手动下载文件,仅需输入简单指令即可完成安装:

打开Agent对话框,直接输入指令:“帮我从技能市场安装 intsig-textin/xparse-parser”;

若技能市场中未找到该Skill,可通过npx命令安装,输入指令:“npx skills add intsig-textin/xparse-skills --yes”,等待安装完成即可;

若npx命令无法使用,可直接从GitHub、Gitee仓库下载相关资源,手动安装(参考方式二)。

方式二:手动安装(适配无网络或特殊需求场景)

适用于无法直接通过Agent平台安装的场景,步骤简单,仅需3步即可完成:

从以下任一官方地址下载zip压缩包(三个地址内容一致,可根据网络情况选择):

GitHub:github.com/intsig-text…

Gitee:gitee.com/intsig-text…

ClawHub:clawhub.ai/intsig-text…

将下载的zip压缩包解压,找到解压文件夹中的“skill.md”文件;

将“skill.md”文件拖入Agent对话框,让模型读取该文件,即可完成安装,

后续直接输入指令即可使用。

3. 一句话使用指令(无需复杂操作,直接调用

安装完成后,无需额外配置,直接对Agent说出自然语言指令,即可完成文档解析、格式转换、信息提取等操作,以下为常见使用场景示例,开发者可根据自身需求灵活调整:

文档信息提取:“帮我读一下这份PDF合同,提取其中的关键条款(如付款方式、违约责任)”;

格式转换:“把这份业务报告转成Markdown格式,保存到桌面文件夹”;

加密文档解析:“这份加密PDF的密码是123456,帮我解析前10页的内容,输出为Markdown”;

图片表格提取:“提取这张表格图片里的所有内容,输出为JSON格式,方便后续处理”;

批量文档处理:“帮我解析这个文件夹里的所有PDF文档,统一转成Markdown,按原文件名保存”。

四、优势亮点

TextIn xParse 文档解析Skill之所以能成为行业标杆级工具,核心在于其依托合合信息19年的技术沉淀,在解析精度、速度、兼容性等方面形成了明显优势,同时兼顾免费性和易用性,具体亮点如下:

1.全格式兼容,覆盖所有常见场景: 支持PDF、Word、Excel、PPT、图片(多种格式)、HTML、OFD等十余种文档格式输入,无论是企业办公常用的Office文档,还是扫描件、长截图,都能实现精准解析,无需额外安装其他工具,解决开发者多格式适配的痛点。

2.结构完整还原,解析精度拉满: 能够精准保留原始文档的核心结构,包括跨页表格、目录层级、页眉页脚、标题结构、段落间距等,避免解析后出现格式混乱、信息缺失的问题;同时支持块级及字符级坐标回显,返回解析结果在原文档中的精确位置,方便前端可视化展示和后续审核校对,确保解析结果可追溯、可验证。

3.极速解析,适配批量处理需求: 解析速度远超行业平均水平,百页文档仅需约1.5秒即可完成解析,能够从容应对企业大规模文档批处理场景,大幅提升Agent的工作效率,避免因解析速度慢影响业务推进。

4.输出格式适配,贴合Agent与LLM需求: 默认输出Markdown格式,这种格式是目前最受LLM和Agent欢迎的知识形态,能够完整保留文档的层级与语义,解析后的内容可直接被Agent调用,无需额外进行格式转换,降低开发者的后续处理成本。

5.免费友好,零门槛、低成本: 免登录即可使用,每日1000页免费额度,满足个人和中小团队的日常需求;采用MIT-0开源协议,开发者可自由使用、修改、分发,无需归因,无需承担任何版权成本,真正实现零成本升级Agent文档处理能力。

五、客户案例

1.中小企业批量文档处理案例: 某中小科技企业需要每日解析500-800页PDF业务报表,用于Agent进行数据统计和分析。使用TextIn xParse后,无需安排专人手动转换格式,百页报表仅需1.5秒即可完成解析,解析效率较传统人工解析提升80%以上;同时,解析后的Markdown格式可直接被Agent调用,数据提取准确率达99.8%,大幅减少了人工校对成本,每日1000页的免费额度完全覆盖其日常需求,实现零成本升级文档处理流程。

2.OpenClaw开发者个人应用案例: 某OpenClaw生态开发者,需要将大量产品手册(Word格式)、行业报告(PDF格式)转化为Agent可调用的知识库。使用TextIn xParse手动安装后,通过简单指令即可完成多格式文档解析,文档结构还原度达100%,标题层级、表格内容无任何错乱;原本需要花费1天时间的格式转换工作,现在仅需10分钟即可完成,大幅提升了开发效率,且无需支付任何费用。

3.企业Agent生产环境应用案例: 某大型制造企业将TextIn xParse Skill接入企业自有Agent系统,用于解析生产流程中的合同、质检报告、设备手册等各类文档。该工具在生产环境中稳定运行,无任何卡顿、报错情况,日均解析文档2000+页(配置账户凭证后解锁更高额度),解析精度稳定在99.5%以上,帮助企业Agent实现了合同审核、数据统计、报告生成的全自动化,减少了60%的人工工作量,每年节省人力成本数十万元。