解决doc转html的问题

255 阅读1分钟

前言

开发类似官网需求的过程中,会遇到对协议、说明类doc文档处理成html的需求,对doc文档本身样式,提取内容

方案

  1. 手打
    愚蠢

  2. 规范文档 + 正则过滤

  • 首先要对文档进行规范,对文档里的排版,换行,标题,做规范性编辑,doc编辑
  • 字符串处理,比如去除一些不必要的html标签(无内容、多余),去除标签属性
// 去除HTML中的注释
str.replace(/<!--[\w\W\r\n]*?-->/gmi, '')

// 去除HTML标签
str.replace(/<[^>]+>/g,"")

// // 去除HTML标签中的属性
str.replace(/(<[^\s\/>]+)\b[^>]*>/gi,"$1>")

结束语

觉得有用的话,还请点个赞哦!