转自:
http://article.pchome.net/content-425187.html
word可以直接另存为 htm,但即使是 另存为 html 也会有大量的废代码。以前我一般用 dreamweaver 的 clean up html 来处理,先处理 word 特有标签,然后删除一些 font,b,span 等。进一步,在 editplus 里面用正则进行处理,最后得到我想要的干净的html 代码。当然最完美的办法就是拷贝文字出来,自己用文本编辑器书写htm标签,:)
今天又看到lifehacker这几种word 2 clean htm方法:
1.使用这个HTML Tidy Library Project开源软件来处理。
2.微软官方站点也有个Office 2000 HTML Filter 2.0工具,可以用来处理掉word2000转html时出现的多余代码。
3.使用这个Word HTML Cleaner 在线工具来处理。只能处理word2000以下版本。
4.有人给出了正则表达式(其实,上面的各种软件也都是用正则来解决的)
删除不需要的标签
<[/]?(font|span|xml|[ovwxp]:w+)[^>]*?>
- replace any matches with the empty string
删除class,style...等不需要的属性
<([^>]*)(?:class|lang|style|size|face|[ovwxp]:w+)=(?:'[^']*'|""[^""]*""|[^>]+)([^>]*)>
- replace any matches with <$1$2>
详细解释在
Clean Word HTML using Regular Expressions
EditPlus+正则表达式,处理中等大小的文本
分享到:
相关推荐
java使用poi将word转为html
js把word转成html js把word转成html js把word转成html js把word转成html
word转为html工具,很好用的,很常用的一种技术。
使用poi将word文档转为html文档,亲测可用,上传之前专门测试过!有完整的代码,直接下载运行即可!
本文介绍了使用Java程序把Word文档直接转换成Html文件的方法。
1、Word模板转html模板的操作步骤(图示例+操作描述,13张图); 2、由上述生成的html模板通过java代码生成pdf; 3、示例有本地模板和远程模板之分,可杜绝pdf标题丢失的问题; 4、资源概要:先阅读README.md文档,然后...
能够便捷的把word文档转化为html页面显示的内容
C#代码启动word软件读取word文档全文,并另存为HTML文件格式,最后关闭软件。
2007版Word转为PDF插件 2007版Word转为PDF插件 2007版Word转为PDF插件2007版Word转为PDF插件
VBA-Word图片导出(四种方法).txt
如何把word转为PDF文件打开word文件点击“文件”,“另存为”保存类型选择“PDF”
word内容提取 word转html 对样式、字体、图片、表格、等等均支持
poi实现word转化成html,链接html实现预览功能的demo,可直接修改运行!
java中读取word文档并转换成html语言,其中还包含OSS上传文件的实例
NULL 博文链接:https://kuaile863.iteye.com/blog/1390551
这个是完整的一个poi把word文档转化为html,导入eclipase就可以运行。 不至于骗一点积分。
java将.docx文件和.doc文件转为html文件的工具类。。。
Word文档转为PPT演示文档的2种方法.docx
使用Java将Word转为Html或txt!
完整项目包括所有jar包,完美支持html转word,并解决图片断网不能访问的问题。调用HtmlToWord类测试即可,注意修改调用文件的路径,因里面用到jacob,需要将jacob.dll拷贝到项目所在jre\bin目录下面