首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
文档分类
订阅
柳涤尘
更多收藏集
微信扫码分享
微信
新浪微博
QQ
3篇文章 · 0订阅
全自动文档分类管理工具助力大数据采集
大部分企业对文档的管理只是停留在简单的图片人工归类和查询,这样耗费了大量的人力。尤其是对于数据密集型的企业,急需通过优化所有文档驱动的业务流程来降低文档管理成本。 云脉文档管理基于超高识别率的OCR识
使用opennlp进行文档分类
opennlp的categorize方法需要自己先切词好,单独调用不是很方便,不过如果是基于pipeline设计的,也可以理解,在pipeline前面先经过切词等操作。本文仅仅是使用官方的测试源码来做介绍,读者可以下载个中文分类文本训练集来训练,然后对中文文本进行分类。
文本文档分类实战(哈希编码/权重编码提取特征 + 卡方过滤 + 搭建神经网络分类)
对于哈希编码的特征向量,这里使用了svm、随机森林与搭建了个神经网络分别测试了分类的效果。此外还用svm测试了权重编码的效果,同时查看了一下那些特征会影响分类结果。最后,贴上了一个官方的代码以供学习。