我有一个 htm 文件,我可以将其读取为 UTF-8 格式的文件,而不对该文件执行任何操作。
该文件保存在 unicode 中(不确定)我想将其读取为 UTF-8 文件,否则它会给我一些框..这必须使用 java 来完成
FileReader loInput = new FileReader(loFile);
BufferedReader loBufferReader = new BufferedReader(loInput);
String loLine; // String that holds current loFile loLine
int loCount = 0; // Line number of loCount
loLine = loBufferReader.readLine();
loCount++;
while (loLine != null) {
loContent = loContent.concat(loLine);
loLine = loBufferReader.readLine();
loCount++;
}
loBufferReader.close();
我试过这个
EDIT:我必须从 HTML 文件中获取数据并将其转换为 DOM 对象以进行进一步处理
我在用
SAXBuilder loSaxBuilder=new SAXBuilder();
Reader loStringReader=new StringReader(loContent);
Document loDoc=loSaxBuilder.build(loStringReader);
XPath loXpath = XPath.newInstance("/Div");
Element loElement = (Element) loXpath.selectSingleNode(loDoc);
将其转换为 dom 对象
首先,Unicode不是一种编码,而是一个编码家族,UTF-8就是其中之一。
其次,你可以使用类似的东西
Reader in = new BufferedReader(new InputStreamReader(new FileInputStream(file), "UTF-8"));
然后读自in
循环并附加到StringBuilder
or CharBuffer
,或写信给StringWriter
,但对你来说使用可能是最简单的来自 Apache Commons IO 的 IOUtils.toString(InputStream,String) http://commons.apache.org/io/api-2.0/org/apache/commons/io/IOUtils.html#toString%28java.io.InputStream,%20java.lang.String%29,我推荐。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)