1. 项目介绍
1.1 整体背景
随着大模型的出现,人工智能进入了一个全新阶段,也引发了各行各业的 APP 的革新与调整。基于合合信息的大模型、图像处理、文档处理等技术与帮助用户提高生活效率的期望,并结合当今学生是互联网 App 的最大用户群体之一,本团队将产品应用场景的目光投向辅助学习软件。 辅助学习软件是指利用人工智能技术来辅助学生学习的软件工具。计算机技术的快速发展使得软件可以更好地满足人们的需求,而互联网的普及则为信息共享和远程学习提供了便利。在这样的背景下,辅助学习软件迅速崭露头角,成为教育领域的关键技术之一。然而,当今市面上的辅助学习软件的内容和题目可能存在质量不一的问题。尽管这些软件提供了大量的学习资源和题目,但其中的内容质量参差不齐。有些软件提供的题目难度过高或过低,与学生的实际需求不匹配,导致学习效果不佳。市面上缺乏一款能够旨在针对学生复习场景,对疑难杂点进行智能对话答题,且根据学生所学知识点以及样卷格式进行智能化归纳考点的智学软件。为提升学习软件在用户日常复习的智能化的场景应用,给用户以清晰的复习效果和提高用户学习能力,需根据用户日常查询问题进行知识点分学科类别存档更新并根据用户所输入样卷知识点分布进行考点归纳,针对用户每次提问问题进行知识点总结,使用户能够高效利用学习软件加强知识储备,并在产品内容上进行创新,该方向也是合合信息目前在新产品创新应用内容方向之一。
1.2 企业背景
合合信息是一家人工智能及大数据科技企业,基于自主研发的领先的智能文字识别及商业大数据核心技术,为全球 C 端用户和多元行业 B 端客户提供数字化、智能化的产品及服务。其凭借领先的自主研发技术、成熟的产品落地能力、优质的用户体验及服务质量,公司的 C 端产品覆盖了全球百余个国家和地区的亿级用户,B 端服务覆盖了近 30 个行业的企业客户。在 B 端业务方面,公司智能文字识别与商业大数据服务已覆盖了银行、证券、保险、政府、物流、制造、地产、零售等近 30 个行业的众多头部客户。
1.3 主要模块简介
本软件主要模块为试卷分析和基于个人题库的复习计划生成。在试卷分析中,用户上传试卷的pdf或者图片,软件对其进行分析,并将题目分割,用户可根据需求将题目收藏至个人题库。复习计划生成则是根据用户给出的科目、复习周期、知识点基于题库由大模型生成每日复习计划,并生成试卷pdf文件可供学生下载打印练习。
2.接口使用
本次主要使用了TextIn的办公文档识别接口,PDF 转图片接口,图片转 PDF 接口。
2.1分析试卷对试卷进行切割
由于TextIn的办公文档识别接口无法直接输出公式,可能导致无法完整的呈现试题因此我们此次选择对试卷中的题目进行分割,同时为了方便处理我们也将上传的pdf利用TextIn接口转换成图片,而分割的方法如下:通过TextIn的办公文档接口(可以识别到多栏信息)可以获取题目的文本信息以及对应的坐标,接下来对此坐标集合进行处理。
使用DBSCAN密度聚类算法,对文本块的左上角的横坐标作为数据点进行簇的划分,可以分辨出试卷的栏数(单栏或双栏),簇内的数据点都在同一栏下。具体过程如下:
阈值分割法,即基于图像的灰度特征来计算一个或多个灰度阈值,并将图像中每个像素的灰度值与阈值作比较,最后将像素根据比较结果分到合适的类别中,我们使用该算法,将灰度延伸为坐标,具体如下:
接下来对处理后的文本信息组进行自然语言处理,依据试卷和练习卷等的题目标题规律,即“1.”、“1,”等,筛选以此为开头的文本元素,并获取对应的边界坐标信息,此时每个题目的边界可以得到确定,然后根据坐标信息,使用node.js的sharp库,将原图进行切图操作,得到了单独的题目。
最后,我们取第一个题目前的文本内容,进行关键词提取,判断科目,若没有提取到关键词,则将题目的文本内容交由ai进行自然语言处理,获取相关科目。
2.2 不同试卷题目拼接尺寸兼容
为了实现提取的题目文本尺寸统一以方便后续生成练习卷,以下为实现尺寸兼容过程的自适应布局算法:
练习卷生成:
最后利用TextIn接口将拼接的图片转换为pdf供学生下载,合成试卷如下:
3.总结
本团队致力于利用TxetIn的相关API打造更创新、更高效、更便捷的智学软件。通过本产品,用户可在应对各科考试时迅速找准复习方向,合理规划复习时间,及时解决各类疑难杂点,提高复习效率。 本产品的核心业务功能是模拟用户复习场景,TextIn强大且丰富的API帮助我们实现了多模态转化,可以将pdf、图片等文件转化成文字送给语言大模型,大模型基于用户上传试卷扫描功能进行试卷分析并拆分成单题进行解析,用户可根据自身需要进行收藏,此外,根据用户个性化需求,系统针对性地为用户制定复习计划,用户可每日生成针对复习的练习卷进行复习检验,并可在数据分析中查看个人复习进度。
本项目的核心亮点在于基于百度的千帆大模型进行符合业务场景的大模型微调,使用大量的标注数据集和指定复习计划相关的数据集对模型进行训练,并借助混淆矩阵进行规范性检查和优化计算,使团队训练出的大模型可根据不同用户的需求和学习目标进行个性化定制复习计划,并依据艾宾浩斯遗忘曲线输出知识点复习计划,同时从题库中抽取相关知识点的题目形成每天的复习试卷。此外,团队根据阈值分割法,对上传的试卷进行个性化识别及切图,通过分析由办公文档识别获得的文字定位,得到文档的栏数,并将多栏文档的内容分开识别。同时可通过sharp库将单行图片碎片的长宽按照等比例进行修改,得到尺寸接近的题目切图。
本项目充分利用了TextIn提供的API,在规划期内顺利完成,技术、功能亮点多,市场可行性高,是一个高效的、 能够创造社会效益的辅助学习软件。