使用boilerpipe提取非英文文章

2024-04-15

我正在尝试使用锅炉管 http://code.google.com/p/boilerpipe/java 库，用于从一组网站中提取新闻文章。它非常适合英文文本，但对于带有特殊字符的文本，例如带有重音符号的单词 (história)，无法正确提取这些特殊字符。我认为这是一个编码问题。

在boilerpipe常见问题解答中，它说“如果您提取非英语文本，您可能需要更改一些参数”，然后引用paper http://www.l3s.de/~kohlschuetter/publications/wsdm187-kohlschuetter.pdf。我在这篇论文中没有找到解决方案。

我的问题是，使用锅炉管道时是否有任何参数可以指定编码？有什么办法可以绕过并正确获取文本吗？

我如何使用图书馆：（根据 URL 进行第一次尝试）：

URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);

（第二个关于HTML源代码）

String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);

您不必修改内部Boilerpipe类。

只要通过InputSource反对ArticleExtractor.INSTANCE.getText()方法并对该对象强制编码。例如：

URL url = new URL("http://some-page-with-utf8-encodeing.tld");

InputSource is = new InputSource();
is.setEncoding("UTF-8");
is.setByteStream(url.openStream());

String text = ArticleExtractor.INSTANCE.getText(is);

Regards!

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用boilerpipe提取非英文文章的相关文章

如何让spring为JdbcMetadataStore创建相应的schema？

我想使用此处描述的 jdbc 元数据存储 https docs spring io spring integration docs 5 2 0 BUILD SNAPSHOT reference html jdbc html jdbc met
如何获取 WebElement 的父级[重复]

这个问题在这里已经有答案了我试过了 private WebElement getParent final WebElement webElement return webElement findElement By xpath 但我得到
防止用户在下拉菜单中选择默认值

我试图阻止用户选择默认的下拉菜单选项有没有办法在下拉菜单选项中添加文本而不是值我的代码
Java 数组的最大维数

出于好奇在 Java 中数组可以有多少维爪哇language不限制维数但是JavaVM规范将维度数限制为 255 例如以下代码将无法编译 class Main public static void main String args
W3C 验证器：“握手警报：unrecognized_name”

我正在尝试验证我的网站W3C Nu Html 检查器 https validator w3 org nu doc https 3A 2F 2Fwww healthdrop in 2F但我遇到了以下错误不知道为什么 IO 错误握手警报 u
如何通过php获取网页的Open Graph协议？

PHP 有一个简单的命令来获取网页的元标记 get meta tags 但这仅适用于具有名称属性的元标记然而开放图谱协议如今变得越来越流行从网页获取 opg 值的最简单方法是什么例如我看到的基本方法是通过 cURL 获取页面并使用
JavaScript 中数组的 HTML 数据列表值

我有一个简单的程序它必须从服务器上的文本文件中获取值然后将数据列表填充为输入文本字段中的选择为此我想要采取的第一步是我想知道如何动态地将 JavaScript 数组用作数据列表选项我的代码是
如何延迟加载嵌入在 iframe 上的 YouTube 视频？

如何将延迟加载应用于iframe嵌入视频我尝试添加loading eager loading auto and loading lazyload 您可以使用srcdoc你里面的属性iframe标签来加载图像请参阅以下示例作为参考
Google Chrome 106 可拖动导致元素消失

使用拖放元素时绝对定位元素中包含的大多数其他元素都会从屏幕上消失如果我调整窗口大小这些元素会出现但在开始拖动时会再次消失我在最新版本的 Google Chrome 106 和 Beta 版本 107 0 5304 18 以及现在的
在 Spring Boot Actuator 健康检查 API 中启用日志记录

我正在使用 Spring boot Actuator APIproject https imobilenumbertracker com 拥有一个健康检查端点并通过以下方式启用它 management endpoints web base
Espresso 和 Proguard 的 Java.lang.NoClassDefFoundError

我对 Espresso 不太有经验但我终于成功地运行了它我有一个应用程序需要通过 Proguard 缩小才能处于 56K 方法之下该应用程序以 3 秒的动画开始因此我需要等到该动画结束才能继续这就是我尝试用该方法做的事情waitF
逃离的正确方法是什么？使用 Oracle 12c MATCH_RECOGNIZE 时 JDBCPreparedStatement 中的字符？

以下查询在 Oracle 12c 中是正确的 SELECT FROM dual MATCH RECOGNIZE MEASURES a dummy AS dummy PATTERN a DEFINE a AS 1 1 但它不能通过 JDBC
解析输入，除了 System.in.read() 之外不使用任何东西

我很难找到具体的细节System in read 有效也许有人可以帮助我似乎扫描仪会更好但我不允许使用它我被分配了一个任务我应该以 Boolean Operator Boolean 的形式读取控制台用户输入例如T F 或 T T
如何将送货地址复制到帐单地址

我想知道是否可以将送货地址复制到帐单地址当用户单击与送货地址相同的复选框时送货地址值将被复制到账单输入字段我完成了大部分部分但我不确定如何将选择菜单状态值复制到帐单地址我真的很感谢任何帮助 My code document r
将图像添加到自定义 AlertDialog

我制作了一个 AlertDialog 让用户可以从我显示的 4 个选项中选择一个前 3 个让他们在单击号码时直接拨打号码第 4 个显示不同的视图现在看起来是这样的由于第四个选项的目的是不同的任务我想让它看起来不同因为用户可能会感
如何在 Quartz 调度程序中每 25 秒运行一次？

我正在使用 Java 的 Quartz Scheduling API 你能帮我使用 cron 表达式每 25 秒运行一次吗这只是一个延迟它不必总是从第 0 秒开始例如序列如下 0 00 0 25 0 50 1 15 1 40 2 0
JSON 到 hashmap (杰克逊)

我想将 JSON 转换为 HashMapJackson http jackson codehaus org 这是我的 JSON String json Opleidingen name Bijz trajecten zorg en welz
悬停时为 SVG 制作动画

我正在尝试在悬停时为 SVG 文件设置动画默认情况下它可以使用 svg 函数实现出色的动画效果例如
JAXB - 列表<可序列化>？

我使用 xjc 制作了一些课程 public class MyType XmlElementRefs XmlElementRef name MyInnerType type JAXBElement class required false
在哪里存储 Java 的 .properties 文件？

The Java教程 http download oracle com javase tutorial essential environment properties htmlon using Properties 讨论如何使用 Prop

随机推荐

无法从 Git Bash 推送：找不到 UI 助手“GitHub.UI”

全新安装后我可以克隆存储库进行更改并提交但是当我尝试推送时我收到以下警告警告找不到 UI 助手 GitHub UI After this the process seems to still be running but it
将视频流式传输到 gstreamer rtsp 服务器

我正在尝试构建一个基于gstreamer的rtsp视频服务器就我而言我需要客户端连接到服务器并开始将视频流传输到服务器我读过一些关于这个主题的教程尤其是这个 http www ip sense com linuxsense how
如何使用 Xcode UITests 点击特定点

我想使用 Xcode UI 测试快车道快照 https github com fastlane fastlane tree master snapshot制作 Cordova 应用程序的屏幕截图基本上由于我的整个应用程序只是一个 Web
如何获取守护程序或服务器到 C# ASP.NET Web API 的 Azure AD OAuth2 访问令牌和刷新令牌

我已经实现了 Azure AD OAuth2 守护程序或服务器到 ASP NET Web API 但是我只收到一个访问令牌它是 AuthenticationResult 上的属性请参阅下面的实现 public IHttpActionRe
Python - 使用日期时间将日期字符串从 YYYY-MM-DD 转换为 DD-MMM-YYYY？

所以我读了很多关于这个的帖子但仍然被难住了任何帮助将不胜感激我的数据框中有一列包含日期字符串或者什么也不包含字符串的格式如下 2017 10 17 i e YYYY MM DD 我想将这些转换为DD MMM YYYY 所以上面的内
ASP.NET Core Razor 页面 - 不绑定 POST 请求

我的 Login cshtml cs 代码文件中有以下内容登录 cshtml cs public class LoginModel PageModel public string ReturnUrl get set public bool
Inno Setup 卸载进度条更改事件

有没有类似的事件函数CurInstallProgressChanged对于进度条CurProgress and MaxProgressInno Setup 中卸载表单中的值对此没有本机支持您可以做的是设置一个计时器并观察时间的变化Un
如何在参数 $_GET 中使用变量？示例：($_GET[$my_var])

我正在开发一个WordPress插件 GET的参数根据用户的偏好通过Wordpress管理面板记录在数据库中以下验证必须通过 GET 进行这是函数 db url get option my get url returns the val
在Python中获取浮点数的“位”？ [复制]

这个问题在这里已经有答案了我正在寻找 Java 的 Python 等价物Float floatToBits 我找到了这个Python 获取和操作作为整数浮点数的位模式 https stackoverflow com questions
Java OpenCV - 从 knnMatch 中提取良好的匹配

我正在尝试实现一个非常简单的程序来查找两个图像之间的相似之处我正在使用 ORB 特征检测器和图像描述符来完成此任务并且我正在使用以下方法识别匹配knnMatch FeatureDetector detector FeatureDetec
PostgreSQL 排序时除以零

我需要在 postgres 中执行这个查询但我无法摆脱这个错误 ERROR division by zero SQL state 22012 这是查询 select id rates sum rates count from tbl no
悬停时隐藏 div 的子元素

有没有办法让这项工作发挥作用我想将鼠标悬停在外部div并隐藏子元素而不使用 javascript 这样的事情可能吗 fullwrap nth child 1 hover display none 要隐藏子元素您需要这样的结构 paren
Mac 上出现“SSL: CERTIFICATE_VERIFY_FAILED”错误

我本来想解决 SSL CERTIFICATE VERIFY FAILED 问题因为我使用 mac 和 python 3 很多人说我应该运行 Applications Python 3 6 Install Certificates comm
使用 PHP 格式化 API JSON 响应

我有一个 api 我想使用 php 解析其中的数据这就是回应 success true data medicineId 12 medicineName Abacavir medicineId 10 medicineName Alclome
python setuptools setup.cfg：在构建目录中包含主包和子包

我想使用以下命令为我的 python 软件创建一个 pip 包安装程序 cfg https setuptools pypa io en latest userguide declarative config html文件我的程序目前的结构
如何在Delphi 10.2中使用ToolsAPI获取当前项目的版本号

在 Delphi 2007 中我可以使用以下 ToolsAPI 调用轻松获取当前项目的版本信息 procedure Test var ProjectOptions IOTAProjectOptions Project IOTAProjec
我无法在 Netbeans 7.0 上创建 Rails 应用程序。挂在25%处

我的开发环境是 Win7旗舰版红宝石 1 9 2p180 铁轨3 0 9 宝石1 8 5 sqlite3 和 mysql2 gems 已安装我的IDE是netbeans 7 0 用于 netbeans 7 0 的 ruby 插件已安装
在移动 Safari 中检测 iOS5（首选 JavaScript）

iOS5 中引入的新固定定位损坏了我的网络应用程序我需要一种方法来检测 iOS5 用户如何检测iOS5 浏览器代理字符串是什么首选 JavaScript 谢谢从SO问题来看 iOS 5 用户代理字符串是什么 https stacko
将 int 转换为 size_t

当我传递一个时我想知道 clang 编译器的以下警告integer to an std initializer list lt size t gt non constant expression cannot be narrowed fr
使用boilerpipe提取非英文文章

我正在尝试使用锅炉管 http code google com p boilerpipe java 库用于从一组网站中提取新闻文章它非常适合英文文本但对于带有特殊字符的文本例如带有重音符号的单词 hist ria 无法正确提取这些特

使用boilerpipe提取非英文文章

使用boilerpipe提取非英文文章 的相关文章

随机推荐

热门标签

使用boilerpipe提取非英文文章的相关文章