我有一个 htm 文件,我可以将其读取为 UTF-8 格式的文件,而不对该文件执行任何操作

2024-06-28

我有一个 htm 文件,我可以将其读取为 UTF-8 格式的文件,而不对该文件执行任何操作。 该文件保存在 unicode 中(不确定)我想将其读取为 UTF-8 文件,否则它会给我一些框..这必须使用 java 来完成

FileReader loInput = new FileReader(loFile); 
BufferedReader loBufferReader = new BufferedReader(loInput); 
String loLine; // String that holds current loFile loLine 
int loCount = 0; // Line number of loCount 
loLine = loBufferReader.readLine(); 
loCount++; 
while (loLine != null) { 
    loContent = loContent.concat(loLine); 
    loLine = loBufferReader.readLine(); 
    loCount++; 
} 
loBufferReader.close(); 

我试过这个

EDIT:我必须从 HTML 文件中获取数据并将其转换为 DOM 对象以进行进一步处理

我在用

SAXBuilder loSaxBuilder=new SAXBuilder();
            Reader loStringReader=new StringReader(loContent);
            Document loDoc=loSaxBuilder.build(loStringReader);
            XPath loXpath = XPath.newInstance("/Div");
            Element loElement = (Element) loXpath.selectSingleNode(loDoc);

将其转换为 dom 对象


首先,Unicode不是一种编码,而是一个编码家族,UTF-8就是其中之一。

其次,你可以使用类似的东西

Reader in = new BufferedReader(new InputStreamReader(new FileInputStream(file), "UTF-8"));

然后读自in循环并附加到StringBuilder or CharBuffer,或写信给StringWriter,但对你来说使用可能是最简单的来自 Apache Commons IO 的 IOUtils.toString(InputStream,String) http://commons.apache.org/io/api-2.0/org/apache/commons/io/IOUtils.html#toString%28java.io.InputStream,%20java.lang.String%29,我推荐。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

我有一个 htm 文件,我可以将其读取为 UTF-8 格式的文件,而不对该文件执行任何操作 的相关文章

随机推荐