文档伴侣新版本上新
hello,大家好,我是小艾同学,我们的软件文档伴侣的核心功能有了新的进展,现在可以识别图片或者pdf文档中的文字、图片、表格、行内公式、行间公式、印章、二维码、条形码等内容。官网在这里
今天是2022年3月31号,原定2022年初,给后端解析器上新版本,但时间有限,结果就在上周才上新的。虽然有点推迟,但总归也成功上新了。
成果
新版本的解析器,不需要用户更新,用户只需要在原有的软件上请求就可以了。
新的功能如下:
-
可解析文档中的
文字、图片、表格、行内公式、行间公式、印章、二维码、条形码等内容。详细参考这里。旧版本不能处理印章、二维码、条形码。 -
行内公式和行间公式的区分。旧版本无法区分行内行间公式。 -
手写文字可检测到,但识别不一定准确。 -
手写公式有较大局限性,识别不一定准确。 -
街景图片
-
单一的
公式图片。用户可以截图之后,将截取的公式图片上传进行解析。具体文档可以参考这里。旧版本不能处理单一的公式图片。 -
单一的文字图片。
-
单一的
表格图片。表格可以检测到,但只有固定格式的表格才可以正确识别。如果无法识别,会以图片的形式返回。 请参考这里 -
单一的
印章图片。注意,这里不会解析,只会返回印章图片。 -
单一
二维码,条形码图片 -
允许图片/文档有
[-4,4]度的旋转 -
要求图片不能有90度,180度,270度的旋转
-
更快的解析速度
下一阶段的目标
我们的解析器预计将在下一个版本达到稳定状态。前端界面也会在下两个版本达到稳定状态。
达到稳定状态之后,较长一段时间内不会有大的改动了。预估两年左右能达到稳定状态。
接下来的时间,我们要攻克如下内容:
-
检测文档中的
乐谱 -
检测
流程图 -
检测
UML图 -
检测
emoji -
文字和公式重叠的部分
-
手写公式识别准确度提升
-
手写文字识别准确度提升
问题
问题主要表现在前端界面上,请允许我先将解析器的难点攻克之后,再来收拾前端。
- 截图功能在部分电脑上有问题。
- 启动速度