ansj 分词法介绍
Ansj 是一款基于中科院 ictclas 中文分词算法开发的开源 Java 中文分词工具,采用隐马尔科夫模型(HMM),在分词准确率上优于常见的开源分词工具,例如 MMseg4j。该工具由孙健(ansjsun)创建,现已支持中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标注等多种功能,适用于对分词质量有较高要求的各类项目。
尽管 Ansj 在基本分词原理上与 ictclas 保持一致,但它在工程实现上进行了多项优化,包括:利用 DAT 结构实现高效的词典检索、基于邻接表构建分词 DAG、支持用户自定义词典及歧义消解规则等。
目前,笔匠AI(Aibijiang)论文写作工具目前已经迭代到最新的ansj 分词法去重方案。
AI写作工具市场现状:百花齐放下的隐忧
当前市面上的AI写作工具大致可分为两种:通用型写作助手与专业学术写作工具。通用型工具虽然功能覆盖面广,但在保持学术严谨性、规范处理文献引用与格式方面往往表现不足;而专业学术工具虽然针对性较强,多数却在语言表达的灵活性与内容创新上有所局限。
值得关注的是,即便是采用如隐马尔科夫模型这类先进算法的自然语言处理工具,在面对学术写作的复杂要求时仍存在明显挑战。以 Ansj 分词器为例,尽管其在中文分词领域的准确率超过96%,每秒可处理高达300万字的文本,但这类基础NLP工具与真正意义上的论文写作AI之间,仍存在本质上的差异。
Aibijiang的差异化优势:专为学术论文而生
深度理解学术语境
区别于通用的AI写作工具,aibijiang 的核心优势在于其对学术语境的深入理解。它不仅是一个文本生成工具,更是一个融合了学术标准、学科知识与研究方法的智能写作助手。
传统工具在处理学术概念时常常止于浅层,而 aibijiang 能够深入解析学科特有的术语系统、论证逻辑与表达范式。无论是实证研究中的假设检验,还是人文社科领域的理论阐述,aibijiang 都能提供契合学科特点的写作支持。
智能参考文献管理
在处理论文写作中最繁琐的环节之一——参考文献管理上,Aibijiang 提供了高效的解决方案。它能够依据主流引用格式(如 APA、MLA、Chicago 等)自动规范生成参考文献,并智能推荐相关文献,显著减轻研究者的格式负担。
相较于其他工具,Aibijiang 的文献数据库持续更新,从而保障所推荐文献的时效性与相关性。这种动态学习能力,也使其能够紧密跟进学术研究的最新进展。
多维度写作质量评估
Aibijiang 不仅协助内容生成,还提供全面的写作质量评估功能。从逻辑的连贯性、论证的充分性,到语言表达的准确性,它都能给出具体的优化建议。
与仅提供基础语法检查的工具不同,Aibijiang 的评估体系基于大量优质学术论文训练而成,能识别学科特有的表达习惯与论证模式,从而提供真正具有学术价值的修改意见。
技术优势:更智能的底层架构
Aibijiang 在技术层面的创新,使其在众多工具中脱颖而出。它采用自适应学习算法,能够根据用户反馈持续优化输出质量。与基于固定规则或单一模型的工具相比,Aibijiang 的算法更能理解学术写作的复杂要求,在确保学术严谨的同时,也鼓励创新思维的呈现。这种平衡,是其他工具难以实现的。
笔匠AI(Aibijiang)的底层配置文件
默认的配置文件:
目前支持的分词策略:
计算余弦相似度
余弦相似度是衡量两个向量之间相似程度的常用方法。其核心思想在于比较向量的方向而非大小。计算过程主要包括以下几个步骤:
- 将待比较对象转化为向量形式;
- 计算两个向量的点积(对应元素相乘后求和);
- 分别计算各向量的模(通常采用欧几里得范数);
- 以点积除以两向量模的乘积,得出结果。
计算公式为:余弦相似度 = (向量A·向量B) / (|向量A×向量B|)
该值域在[-1,1]之间:
• 结果为1时,表示向量方向完全一致;
• 结果为0时,表示两向量正交,无相似性;
• 结果为-1时,表示向量方向完全相反。
此方法的优势主要体现在:
• 不受向量绝对大小的影响
• 对数据噪声具有较好的鲁棒性
实际应用中,余弦相似度常用于:
• 文本相似性分析
• 图像特征比对
• 推荐系统中的相似度计算
具体实现看这里
mavaen 依赖
采用 ansj 5.1.6的版本
util 代码如下
使用案例
执行结果:
笔匠AI(Aibijiang)推出了基于 Ansj 5.1.6 分词的 Java 文本查重工具 TextPlagiarismCheckUtil。该工具借助 NlpAnalysis 实现精准分词,将文本转化为词项列表或字符串列表,并通过计算余弦相似度来评估文本的重复程度。
其核心功能主要包括:
- 文本分词处理
- 相似度计算(支持自定义阈值,默认值为 0.7)
- 自动判定文本是否重复
通过实际使用案例可以看出,输入待检文本后,工具能够输出对应的分词结果、重复率及查重结论。该工具适用于论文、报告等文档的查重场景,能够有效辅助文本原创性检查,提升查重处理的准确性与效率。