我们正在尝试下载网页源代码,但是由于字符编码的原因,我们无法正确看到某些特定字符,例如 ü、ö、ş、ç。我们尝试了以下代码来转换字符串(“text”变量)的编码:
byte[] xyz = text.getBytes();
text = new String(xyz,"windows-1254");
我们观察到,如果编码是utf-8,我们仍然无法正确看到页面。我们应该做什么?
如果您知道页面将其内容编码为 UTF-8,请告诉 String 构造函数使用 UTF-8 编码来解释字节。
但是我不确定这是否是您问题的严重程度。在尝试“转换”它之前,您已经有了“文本”。这意味着某些东西已经尝试根据某种编码将页面的字节解释为字符串。如果这是错误的编码,那么您以后所做的任何事情都不一定能修复它。
相反,您需要修复这个上游问题。
byte[] bytesOfThePage = ...;
String text = new String(bytesOfThePage, "UTF-8");
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)