抓取非英文网站的编码问题

2023-12-19

我试图将网页的内容作为字符串获取，我发现这个问题解决了如何编写一个基本的网络爬虫 https://stackoverflow.com/questions/1381617/simplest-way-to-correctly-load-html-from-web-page-into-a-string-in-java，它声称（并且似乎）处理编码问题，但是那里提供的适用于美国/英语网站的代码无法正确处理其他语言。

这是一个完整的 Java 类，演示了我所指的内容：

import java.io.IOException;
import java.io.InputStreamReader;
import java.io.Reader;
import java.io.UnsupportedEncodingException;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


public class I18NScraper
{
    static
    {
        System.setProperty("http.agent", "");
    }

    public static final String IE8_USER_AGENT = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; WOW64; Trident/4.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; InfoPath.2)";

  //https://stackoverflow.com/questions/1381617/simplest-way-to-correctly-load-html-from-web-page-into-a-string-in-java
    private static final Pattern CHARSET_PATTERN = Pattern.compile("text/html;\\s+charset=([^\\s]+)\\s*");
    public static String getPageContentsFromURL(String page) throws UnsupportedEncodingException, MalformedURLException, IOException {
        Reader r = null;
        try {
            URL url = new URL(page);
            HttpURLConnection con = (HttpURLConnection)url.openConnection();
            con.setRequestProperty("User-Agent", IE8_USER_AGENT);

            Matcher m = CHARSET_PATTERN.matcher(con.getContentType());
            /* If Content-Type doesn't match this pre-conception, choose default and 
             * hope for the best. */
            String charset = m.matches() ? m.group(1) : "ISO-8859-1";
            r = new InputStreamReader(con.getInputStream(),charset);
            StringBuilder buf = new StringBuilder();
            while (true) {
              int ch = r.read();
              if (ch < 0)
                break;
              buf.append((char) ch);
            }
            return buf.toString();
        } finally {
            if(r != null){
                r.close();
            }
        }
    }

    private static final Pattern TITLE_PATTERN = Pattern.compile("<title>([^<]*)</title>");
    public static String getDesc(String page){
        Matcher m = TITLE_PATTERN.matcher(page);
        if(m.find())
            return m.group(1);
        return page.contains("<title>")+"";
    }

    public static void main(String[] args) throws UnsupportedEncodingException, MalformedURLException, IOException{
        System.out.println(getDesc(getPageContentsFromURL("http://yandex.ru/yandsearch?text=%D0%A0%D0%B5%D0%B7%D1%83%D0%BB%D1%8C%D1%82%D0%B0%D1%82%D0%BE%D0%B2&lr=223")));
    }
}

哪个输出：

???????????&nbsp;&mdash; ??????: ??????? 360&nbsp;???&nbsp;???????

虽然它应该是：

Результатов&nbsp;&mdash; Яндекс: Нашлось 360&nbsp;млн&nbsp;ответов

你能帮助我理解我做错了什么吗？尝试强制使用 UTF-8 之类的方法并没有帮助，尽管这是源代码和 HTTP 标头中列出的字符集。

确定正确的字符集编码可能很棘手。

您需要结合使用

a) HTML META Content-Type 标签：

<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">

b) HTTP 响应头：

Content-Type: text/html; charset=utf-8

c) 从字节中检测字符集的启发式方法（参见这个问题 https://stackoverflow.com/questions/499010/java-how-to-determine-the-correct-charset-encoding-of-a-stream)

使用这三个的原因是：

(a) 和 (b) 可能缺失
META Content-Type 可能是错误的（请参阅这个问题 https://stackoverflow.com/questions/7545459/html-file-fetched-using-wget-reported-as-binary-by-less)

如果 (a) 和 (b) 都缺失怎么办？

在这种情况下，您需要使用一些启发式方法来确定正确的编码 - 请参阅这个问题 https://stackoverflow.com/questions/499010/java-how-to-determine-the-correct-charset-encoding-of-a-stream.

我发现这个序列对于可靠地识别 HTML 页面的字符集编码来说是最可靠的：

使用 HTTP 响应标头 Content-Type（如果存在）
对响应内容字节使用编码检测器
使用 HTML META 内容类型

但您可能会选择交换 2 和 3。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

抓取非英文网站的编码问题的相关文章

如何判断 Django 忽略 Accept-Language 标头的原因？

我有一个 Django 应用程序在 Google App Engine 上我希望将其国际化设置 py USE I18N True LANGUAGE CODE en Restrict supported languages and JS
使用现有同级属性值对属性进行 Jackson 多态反序列化

我有一个现有的Request Response协议使用JSON我无法控制示例1 响应JSON不需要任何多态反序列化 name simple response params success true 示例2 响应JSON需要对 params
JMenuItem：如何设置具有3个键的加速器？

请看下面的代码 import java awt import java awt event import javax swing public class MenuActions extends JFrame private JMenuBa
抽象数据类型和接口

抽象数据类型和接口有什么区别例如我们有一个ListADT interface MyListADT
如何测试两个 Joda-Time DateTime 对象几乎相等？

在单元测试中我经常使用返回DateTime于或关于now 有没有办法说actual日期时间在几秒之内actual约会时间这听起来是个坏主意单元测试不应该以任何方式依赖于当前的实际时间这就是为什么注入一些接口是一个很好的做法称为Cl
struts2应用程序未运行

我是 Maven 和 struts2 的新手当我尝试运行我的程序时出现以下错误严重调度程序初始化失败无法加载配置操作文件 E workspace metadata plugins org eclipse wst server c
如何使用 selenium 和 junit 测试多个浏览器（版本）

我刚刚发现了硒一个很棒的工具我计划运行使用 selenium ide 生成的 junit4 代码但我需要它与许多浏览器网络驱动程序一起运行这个用例有 junit java 模式吗我的第一个想法是使用 RunWith Param
OpenGL ES 2.0 只绘制一次对象

首先我要说的是很抱歉今天问了这么多问题所以我有一个圈子的课程我有一个包含 3 个圆形实例的数组列表每个实例都有不同的 x 坐标来绘制不管出于什么原因 OpenGL ES 2 0 只绘制其中之一尽管我调用所有这些来绘制我检查了
使用具有不同参数的 Jackson for List 将 JSON 映射到 pojo

JSON 格式 0 cast showname woh pagle type Episodes video src video mp4 DRM False 这里的问题是我遇到以下异常 org codehaus jackson map Jso
使用 Java Google App Engine 批量加载程序将整个数据存储区下载到一个 csv 文件

我目前正在使用 kind参数来指定下载的类型和 filename指定要生成的 csv 文件的名称这 rps limit bandwidth limit and batch size用于加速下载例如要下载我正在使用的游戏类型 appcf
Android Edittext Onclick Datepickerdialog 棒棒糖中出现错误

我正在使用日期选择器对话框它在 kitkat 上运行正常但是当我在棒棒糖上运行应用程序时当我单击编辑文本时它会打开一个日期选择器对话框但当我选择日期时它会不幸地给出停止错误以下是 edittext 上日期选择器的代码 priv
Java：如何实现通用二叉搜索树？

到目前为止我一直在编写一个 Node 类 class Node private value private Node left private Node right public int getValue return value pub
Java 8 LocalDate Jackson 格式

For java util Date当我做 JsonFormat shape JsonFormat Shape STRING pattern dd MM yyyy private Date dateOfBirth 然后在我发送时在 JSON
获取 javax.crypto.IllegalBlockSizeException：使用填充密码解密时输入长度必须是 16 的倍数？

使用 tomcat 我有两个 Web 应用程序即 app1 和 app2 我以加密形式使用下面的代码将 url 从 app1 发送到 app2 然后在app2 我解密了这个加密的网址但我在第 50 行低于异常decryp方法 Get
Spring MVC @RequestBody 不适用于 jquery ajax？

这是我的ajax请求 var dataModel name1 value1 name2 value2 ajax url testURL type POST async false contentType application json d
在 RStudio 控制台中显示西里尔字母

我在 Rstudio 控制台中显示俄语字符时遇到问题我使用 readxl 包加载带有俄语的 Excel 文件西里尔字母在数据框中正确显示但是如果我运行一个输出包含变量名称的函数 RStudio 控制台将显示符号而不是正确的西里尔字符
将 JVM 参数放入要在运行时获取的文件中

我正在构建当前应用程序的 jar 它需要设置几个 JVM 参数有没有办法在文件中而不是在命令行上设置这些 JVM 参数我已经做了一些搜索看起来我可以使用 java properties 文件做一些事情可能通过设置 java args
JSON 解析为 Java - Android 应用程序

我需要在 Java Android 应用程序中解析 json 字符串的帮助 JSON 文件的文本 data columns location id name description latitude longitude error type
使用迭代器时无限循环

Set key1 map keySet Iterator it1 key1 iterator int cnt 0 while it1 hasNext cnt 这段代码导致无限循环的可能性有多大实际上这会导致无限循环我怀疑是因为我没有服用
为什么 java.io.File 没有 close 方法？

While java io RandomAccessFile确实有一个close method java io File没有这是为什么文件在完成时会自动关闭吗 javadoc 的Fileclass 将该类描述为文件和目录路径名的抽象表

随机推荐

隐式参数和函数

我在考虑 Haskell GHC 中的隐式参数时遇到问题我有一个函数f 假设隐式参数x 并希望通过应用将其封装在上下文中f to g f x Int gt Int gt Int f n n x g Int gt Int gt Int gt
如何用范围填充可变参数？

填充可变参数的正确方法是什么我的尝试看起来像自行车首先我构建范围然后我将其转换为列表然后到 intarray然后传播它 m getColumns count count 35 toList toIntArray 其中 getColumn
将字符串插入工作表会导致插入数字

在我的 Google Apps 脚本中我在电子表格中添加了一行在附加的这一行中我尝试插入一个值 0102 的字符串但是插入时它会转换为数字 102 有没有什么方法可以使用 Google Apps 脚本将值插入到工作表中而不会格式化
Ubuntu 自动从 Github 存储库中拉取

我在我的服务器上安装了 git 但我希望每当我推送本地所做的更改时它都会从我的 github 存储库中提取我研究过钩子但它非常令人困惑而且我找不到任何教程有谁知道这是怎么做到的吗我希望我的服务器在每次提交后从存储库中提取这看起来
JPA 和 PostgreSQL 与 GenerationType.IDENTITY

我有关于 Postgres 和 GenerationType Identity 与 Sequence 的问题在这个例子中 Id SequenceGenerator name mytable id seq sequenceName myta
PySpark Worker 中 rdd.collect() 上的 ModuleNotFoundError

我正在 python 中运行 Apache Spark 程序并且收到一个我无法理解且无法开始调试的错误我有一个驱动程序它在名为 hound py 的文件中定义了一个名为 hound 的函数在同一目录中我有一个名为 hound ba
PHP Websocket 在测试中验证用户身份（传递会话 cookie）

我正在尝试测试一个场景一方面匿名用户应立即断开与 Websocket 连接的连接另一方面经过身份验证的用户应保持 Websocket 连接第一种情况很容易使用下面的代码进行测试身份验证过程不起作用对于会话存储我将 Cooki
具有多种格式的 Moshi LocalDateTime 适配器

默认情况下 ThreeTenABP LocalDateTime 转换为 date day 10 month 4 year 2018 time hour 3 minute 34 nano 115000000 second 18 我可以编写一个
Magento 客户/会话不工作

这个问题首先被意识到是因为前端的订单历史页面 sales order history 只显示一条短消息您没有下订单经过一番调试发现问题出在这个函数上 Mage getSingleton customer session 它不会返回包含
为什么 Plastic SCM 不断询问我是否信任复制服务器的证书？

每次运行类似命令时我开始收到以下提示cm status cs 630 rep MyServer repserver ssl
出现“类型错误...$(...).modal 不是函数

我正在尝试使用引导模式创建和编辑用户更新注释的函数在 REACT 项目中但这是我得到的错误 Uncaught in promise TypeError jquery WEBPACK IMPORTED MODULE 1 default m
查找数组中所有元素都具有特定值的文档

这基本上是一个简单的问题但我找不到它的查询函数示例集合 id 1 foo bar 9 bar 16 id 2 foo bar 9 bar 9 bar 9 示例输出 id 2 foo bar 9 bar 9 bar 9 因为这是唯一一个每
python pyplot连接点

我正在使用一组点制作 pyplot 图 plt plot range 0 10 dictionary key bo 这按照我的预期正确地绘制了点但是我也希望在这些点之间绘制一条线我找不到用 pyplot 来做到这一点的方法我认为这是微
Oracle 中完全外连接的奇怪行为 - 如何解释？

我注意到 Oracle 11 中 FULL OUTER JOIN 的奇怪行为我正在连接 HR 模式中的表特别是 EMPLOYEES 和 DEPARTMENTS 例如以下查询返回 123 行 SELECT FROM employees
使用 $resource 承诺模式缓存数据

假设我的服务从 resource get 返回一个承诺我想知道这是否是缓存数据的正确方法在此示例中点击后退箭头并返回搜索结果后我不想再次查询网络服务器因为我已经有了它们这是处理这种情况的正确模式吗下面的示例是查询 Flixte
转换时间字符串格式

我想将时间数据转换为格式HH mm ss在 JavaScript 中我的代码有问题请参阅代码内的注释 function parseTime timeString var timeString timeString toLowerCase
如何简化Java中的印度区字符串？（问题扩展）

我有一系列印度地区例如String districts district1 district2 district3 等等也许是印度的全部或部分地区认为 District1 district2 district3 是拉贾斯坦邦的区 An
删除 Google 地图圆形/形状

我正在使用 google maps Circle 方法创建一个 Circle 这一切都工作得很好但是我怎样才能删除这个圆圈呢 My code var populationOptionsAgain strokeColor c4c4c4 st
如何测试断言？

我发现如何测试异常或错误 https stackoverflow com a 54241438 6509751 https stackoverflow com a 54241438 6509751 但我如何测试以下内容assert工作正常吗
抓取非英文网站的编码问题

我试图将网页的内容作为字符串获取我发现这个问题解决了如何编写一个基本的网络爬虫 https stackoverflow com questions 1381617 simplest way to correctly load html f

抓取非英文网站的编码问题

抓取非英文网站的编码问题 的相关文章

随机推荐

热门标签

抓取非英文网站的编码问题的相关文章