前言
开发类似官网需求的过程中,会遇到对协议、说明类doc文档处理成html的需求,对doc文档本身样式,提取内容
方案
-
手打
愚蠢 -
规范文档 + 正则过滤
- 首先要对文档进行规范,对文档里的排版,换行,标题,做规范性编辑,doc编辑
- 字符串处理,比如去除一些不必要的html标签(无内容、多余),去除标签属性
// 去除HTML中的注释
str.replace(/<!--[\w\W\r\n]*?-->/gmi, '')
// 去除HTML标签
str.replace(/<[^>]+>/g,"")
// // 去除HTML标签中的属性
str.replace(/(<[^\s\/>]+)\b[^>]*>/gi,"$1>")
结束语
觉得有用的话,还请点个赞哦!