Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML、PDF、Doc),侦测和提取出元数据和结构化内容。
<dependency>
<groupId>io.quarkus</groupId>
<artifactId>quarkus-tika</artifactId>
</dependency>
使用
InputStream stream = ...
String text = parser.getText(stream);
总结
- 搜索引擎中数字文档的文本内容的提取
- 数字资产管理
- 文档分析 & 内容分析