【每日鲜蘑】Quarkus使用Tika管理数字资产🔥

2,207 阅读1分钟

Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTMLPDFDoc),侦测和提取出元数据和结构化内容

<dependency>
    <groupId>io.quarkus</groupId>
    <artifactId>quarkus-tika</artifactId>
</dependency>

使用

  InputStream stream = ...
  String text = parser.getText(stream);

总结

  • 搜索引擎中数字文档的文本内容的提取
  • 数字资产管理
  • 文档分析 & 内容分析