【每日鲜蘑】Quarkus使用Tika管理数字资产🔥

2020-09-09 2,247 阅读1分钟

Apache Tika 利用现有的解析类库，从不同格式的文档中（例如HTML、PDF、Doc)，侦测和提取出元数据和结构化内容。

<dependency>
    <groupId>io.quarkus</groupId>
    <artifactId>quarkus-tika</artifactId>
</dependency>

使用

  InputStream stream = ...
  String text = parser.getText(stream);