解决doc转html的问题

2022-08-18 342 阅读1分钟

前言

开发类似官网需求的过程中，会遇到对协议、说明类doc文档处理成html的需求，对doc文档本身样式，提取内容

方案

手打
愚蠢
规范文档 + 正则过滤

首先要对文档进行规范，对文档里的排版，换行，标题，做规范性编辑，doc编辑
字符串处理，比如去除一些不必要的html标签（无内容、多余），去除标签属性

// 去除HTML中的注释
str.replace(/<!--[\w\W\r\n]*?-->/gmi, '')

// 去除HTML标签
str.replace(/<[^>]+>/g,"")

// // 去除HTML标签中的属性
str.replace(/(<[^\s\/>]+)\b[^>]*>/gi,"$1>")

结束语

觉得有用的话，还请点个赞哦！