Ttidy Html转Xml

172 阅读2分钟

package com.css;

import org.w3c.tidy.Tidy;

import java.io.*;
import java.net.URL;

public class HtmlToXML {
private String url;
private String outFileName;
private String errOutFileName;

public HtmlToXML(String url, String outFileName, String errOutFileName) {
this.url = url; //目标页面地址
this.outFileName = outFileName; //输出文件的地址和名称
this.errOutFileName = errOutFileName; //输出错误文件的地址和名称
}

public void convert() {
URL u;
BufferedInputStream in;
FileOutputStream out;

Tidy tidy = new Tidy();

tidy.setXmlOut(true);
tidy.setXmlPi(true);   //添加 <?xml?> 标签 为输出的 XML 文件, 这些参数是可选的。
tidy.setXmlSpace(true);
tidy.setCharEncoding(Configuration.ISO2022); //这个很重要,如果没有它,就会出现中文乱码
/*
我看了一下源码,上面对charEncoding是这样规定的
/* character encodings */
public static final int RAW         = 0;
public static final int ASCII       = 1;
public static final int LATIN1      = 2;
public static final int UTF8        = 3;
public static final int ISO2022     = 4;
public static final int MACROMAN    = 5;

*/
try {
//错误文件的输入地址和名称
tidy.setErrout(new PrintWriter(new FileWriter(errOutFileName), true));
u = new URL(url);

//建立输入和输出文件
in = new BufferedInputStream(u.openStream());
out = new FileOutputStream(outFileName);

//文件转换
tidy.parse(in, out);
//资源释放
in.close();
out.close();

} catch (IOException e) {
System.out.println(this.toString() + e.toString());
}
}

public static void main(String[] args) {
/*
* Parameters are:
* URL of HTML file
* Filename of output file
* Filename of error file
*/
HtmlToXML t = new HtmlToXML("www.baidu.com", "c:/jtidy.htm", "c:/jtidyError.htm");
t.convert();
}
}

大概看了一下 JTidy 的 API 文档,里面还是有许多内容的,这里的这个例子只是入门,对于真正的 JTidy 使用还有许多路走,有时间大家可以看一下 JTidy 的API文档
-------------------------------------
看了一下JTidy的api文档,现在网友的一些Tidy的方法明细列出来,供参考使用,漏掉的方法可以参考API文档。

public void setIndentContent(boolean IndentContent)  是否使用缩进
public void setSmartIndent(boolean SmartIndent)  节点结束后,是否另起一行
public void setQuoteMarks(boolean QuoteMarks)  用 "替换 "
public void setQuoteNbsp(boolean QuoteNbsp)
public Document parseDOM(java.io.InputStream in,java.io.OutputStream out)  转换为DOM对象

setAltText(java.lang.String altText)
加上默认的alt属性值
setBreakBeforeBR(boolean breakBeforeBR)
在换行<br />之前加一空行
setCharEncoding(int charencoding)
已废弃
setConfigurationFromFile(java.lang.String filename)
从文件中读取配置信息
setConfigurationFromProps(java.util.Properties props)
从properties中读取配置信息
setErrfile(java.lang.String errfile)
错误输出文件
setFixBackslash(boolean fixBackslash)
URL中用/取代\
setForceOutput(boolean forceOutput)
不管生成的xml是否有错,强制输出。
setHideComments(boolean hideComments)
结果中不生成注释
setInputEncoding(java.lang.String encoding)
输入编码
setLogicalEmphasis(boolean logicalEmphasis)
用em替代i,strong替代b
setMessageListener(TidyMessageListener listener)
加入一个TidyMessageListener监听器
setOnlyErrors(boolean onlyErrors)
只输出错误文件
setOutputEncoding(java.lang.String encoding)
输出编码
setPrintBodyOnly(boolean bodyOnly)
只输出body中的部分
setRepeatedAttributes(int repeatedAttributes)
重复属性的处理
setSpaces(int spaces)
每行前的空格数,就是缩进格式
setTidyMark(boolean tidyMark)
是否生成tidy标记
setTrimEmptyElements(boolean trimEmpty)
不输出空元素
setUpperCaseAttrs(boolean upperCaseAttrs)
属性变大写
setUpperCaseTags(boolean upperCaseTags)
标记变大写
setWraplen(int wraplen)
多长换行
setXHTML(boolean xhtml)
输出xhtml(扩展性html)
setXmlOut(boolean xmlOut)
输出xml
setXmlPi(boolean xmlPi)
文件头输出xml标记
setXmlSpace(boolean xmlSpace)
加入xml名字空间属性