使用 apach tika 解析器从 XML 文件中的 xml 标签中提取文本

2024-05-04

我正在尝试从各种文档中提取所有文本。为此，我使用 Apache Tika 1.4。

RecursiveTikaParser parser = new RecursiveTikaParser(new AutoDetectParser());
ParseContext parseContext = new ParseContext();
parseContext.set(Parser.class, parser);

这里的 RecursiveTikaParser 只是 AutoDetectParser 的包装器。

解析方法是这样的 -

ContentHandler content = new BodyContentHandler(-1);
Metadata metadata = new Metadata();
super.parse(stream, content, metadata, context);
System.out.println("Parsed text is " + content.toString());

现在，这段代码必须能够处理多个文件，这就是我使用 AutoDetectParser() 的原因

我在测试中注意到，给定一个 xml 文件 - 我只能提取标签之间的文本，而不能提取注释、标签。

是否可以使用我当前的方法从文本文件中提取所有内容？

尝试这样

    Metadata metadata = new Metadata();
    stream = TikaInputStream.get(stream, null);
    String mimtType = DETECTOR.detect(stream, metadata).toString();
    Parser parser;
    if (mimtType.equalsIgnoreCase("application/xml")) {
        parser = new TXTParser();
    } else {
        parser = new AutoDetectParser();
    }

    ContentHandler content = new BodyContentHandler();
    parser.parse(stream, content, metadata, new ParseContext());
    System.out.println(content.toString());

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

apachetika

使用 apach tika 解析器从 XML 文件中的 xml 标签中提取文本的相关文章

在 CollapsingToolbarLayout 中设置 minHeight 没有任何效果

我目前使用 CollapsingToolbarLayout 遇到的主要问题是无论我尝试什么工具栏的 minHeight 属性都没有任何效果我想要的结果是这样的 CollapsingToolbarLayout 具有一定的展开高度和一定的
用于冒号分隔标签的 XML 解析器？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用 JAXB 编组只能包含多种子节点类型之一的 XML 节点（SharePoint 查询）

我正在尝试创建 JAXB 带注释的类来生成基于 Microsoft SharePoint 的 XML查询模式 http msdn microsoft com en us library ms467521 28v office 14 29 a
如何在 Go 中解组具有多个项目的简单 xml？

我想从以下 xml 中获取人物 People 的一部分
我想使用对话框显示两个数字选择器

我试图仅使用 java 在对话框上显示两个数字选择器代码正在工作但我无法将其排列为相等的宽度这是我的代码 RelativeLayout relative new RelativeLayout mContext final Number
在工具栏下显示内容

您好我试图简单地将我的内容放在工具栏下方但是当我运行我的应用程序时某些内容本应位于工具栏下方却隐藏在工具栏后面我已经阅读了有关使用框架布局来尝试将其分离的内容但我有点卡住了我目前正在使用该软件提供的基本 android stu
使用 C# 编辑 XML 文档

我在解决如何将元素添加到 XML 文档中时遇到了一些麻烦我想将热点信息添加到 xml 中其中 Id 正确因此 id 2 添加热点信息这是我当前的 XML
在 XSD 中哪里放置版权信息？

将版权信息放入 XML 架构定义 XSD 时是否有官方或半官方普遍接受的位置基于在哪里将版本添加到 XSD 架构 https stackoverflow com questions 2138705 where to add a v
将 Access 数据库转换为 SQL Microsoft DTS - 数据类型“130”不在映射文件中

我正在尝试将大型 Access mdb 数据库导出到 SQL Server 数据库但遇到了 Microsoft DTS 无法识别 Access 数据库中特定类型字段的数据类型的问题我查看了相关的访问表它们被设置为长度为 1 的文本
有人可以推荐一个免费的 xslt 工具吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
主题以编程方式设置。如何重新加载 Activity 来应用

如何在不重新启动整个应用程序的情况下应用主题如果我这样做startActivity getIntent finish 活动退出并且不重新启动是否可以简单地重新启动重新创建活动来应用主题它的顺序不正确 finish intent ne
Booking.com酒店管理API

我拥有一家酒店并在 booking com 上查看了 API 因为我想创建自己的前端界面来更新我的酒店房价房间数以及通过该 API 上传图片更新酒店描述然而我唯一能找到的是一个 API 供联营公司以一定的价格获取特定位置的酒店等
如何在Android中解析xml类型的HTTPResponse

我有一个 Android 应用程序我使用 POST 方法来获取响应这是我的代码 HttpResponse httpResponse httpclient execute httppost HttpEntity resEntity htt
使用 XML 和 C# 创建 Word 文档

我已经为报告创建了一个 xml 模板用户应该能够通过我用 C 创建的程序添加信息以根据自己的需要个性化此报告如何根据用户输入文本框的内容编辑实体的内容然后将其显示在 Word 上网上有大量有关使用 XML 和 C 创建 Word 文
SpreadsheetML 文件扩展名被 IE 和 FF 更改 - 内容类型错误？

我正在 PHP 中生成 SpreadsheetML 文件当用户下载文件并保存时默认情况下文件会另存为 Report xml 并在 Excel 中打开但是如果选择在 Excel 中打开文件而不是保存文件则文件名将更改为 Report
使用 sed 更新 xml 属性（Windows + cygwin 和 Linux）？

我需要使用 sed 命令对 xml 文件进行更新但我在这方面遇到了麻烦它需要在 Windows 使用 cygwin 和 Linux 上运行 XML 具有以下元素
索引后文件被锁定

我的网络应用程序中有以下工作流程从存档下载 pdf 文件索引文件删除文件我的问题是对文件进行索引后它仍然处于锁定状态并且删除部分会引发异常这是我用于索引文件的代码片段 try ContentStreamUpdateReq
如何使用C#在asp.net中下载xml文件

我正在使用网络应用程序ASP NET 与 MVC3 我是 mvc3 的新手我的网页上有一个下载按钮当我要单击下载按钮时我希望能够打开该 XML 文件我尝试过一些代码更改动作结果但我没有打开文件通过使用下面提到的代码我收到一个下载
XSL字符串多重替换功能

如何让这个函数进行多重替换经验替换aaa with 111并替换bbb with 222 etc
dbms_xmlgen.getxml - 如何设置日期格式

我们使用 dbms xmlgen getxml 实用程序通过 SQL 查询生成 xml 该查询从几乎 10 15 个相关表中获取数据默认情况下日期格式生成于dd MMM yy格式有什么方法可以在 dbms xmlgen getxml

随机推荐

getView() 和 getActivity() 有什么区别？

有什么区别getView and getActivity 我已经使用了这两种方法但不明白基本的区别即使使用方法在android中也是相同的 ListView deliverItemList ListView getView findVi
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
使用 net/http 发送 Post 请求

我需要将 JSON 数据发送到同一台计算机上运行的另一个应用程序我像这样发送请求 rails 3 2 13 data some data hash url URI parse http localhost 6379 api plans r
Firebase 如何更新多个子项？

我有很多这样的孩子的父母 Parent childe1 data childe2 data childe3 data childe4 data childe5 data 我怎样才能更新孩子们的信息 childe1 childe2 child
使用箭头键滚动可滚动控件

我正在使用一个ScrollableControl在我的 C 项目中我想知道如何将箭头键映射到垂直水平滚动编辑我的图片框获得焦点并且我设法映射滚动键这里的问题是当我按下箭头键时它会滚动一次然后失去焦点将其交给滚动查看器旁边
“date $1”参数化查询中的 PostgreSQL 语法错误

尝试参数化我的 SQL 查询使用 libpq 函数PQexec参数 http www postgresql org docs current static libpq exec html 我陷入了语法错误 SELECT date 1 错误
使用Python有没有一种方法可以在mongodb中进行插入或更新时监听更改

我正在构建一个小型系统它从 mongodb 集合中抛出数据它已经工作正常但每次进行更改时我都必须重新启动它我已经有一个监视器可以检测更改并自动重新启动服务器但我想对 mongodb 更改执行类似的操作我当前使用 CentOs 5
JSP 通常是作为 .jsp 文件、预编译的 Java 文件还是预编译的类文件提供的？

在为生产环境准备 WAR 时是否有打包 JSP 的标准实践它们是否包含为 jsp 文件或者它们是否作为预编译的 Java 文件或预编译的类文件包含在内 Servelts JSP 规范没有提及预编译 JSP 来实现此功能具体到容器实
编译使用Basler相机的程序

我正在尝试使用 Basler 相机捕获图像的 C 程序来工作我拿到来自制造商的代码它应该非常容易使用但是链接它有成为一场噩梦我的 C 时代已经过去了最近只使用 Matlab 所以我可能会犯一些愚蠢的错误但请赐教代码如下
WordPress获取URL中查询类别的值

是否可以知道 WordPress URL 中查询的第一个类别是什么 Example http www mywebsite com category mycat mysubcat http www mywebsite com category
如何在Android（模拟器）中查找并清除SQLite db文件

我刚刚启动并运行了我的第一个 SQLite 数据库但是为了重现它我想要一种快速的方法来清除 db 文件这样我就可以调用我的openOrCreateDatabase再次方法第一个问题我在网上看到的 data data PKG dat
如何在 Pandas 中叠加“一天”内的数据进行绘图

我有一个数据框里面有一些更有意义数据格式如下 In 67 df Out 67 latency timestamp 2016 09 15 00 00 00 000000 0 042731 2016 09 15 00 16 24 3769
Javascript，检测触摸设备

我正在使用此函数来检测设备是否是触摸设备 function is touch device return ontouchstart in window onmsgesturechange in window 从这里得到这个功能使用 Jav
Samsung Tab2 中的 SQLite 数据库（外部 Micro SD 卡）

这些是我的 SAMSUNG TAB2 中的内存 1 Internal 2 Sdcard 3 Extrenal sdcard 可移动内存不要混淆sdcard and Extrenal sdcard Extrenal sdcard is mi
错误：重复的键值违反了 postgreSQL 中的唯一约束

我在更新表时遇到 postgresql 中的唯一约束问题我有一个包含 3 列的表并且对其中一列 internal state 有唯一约束该表只有两列 internal state 的值为 1 0 更新查询是 UPDATE backfe
C 预处理器“/Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/cpp”未通过完整性检查

在使用 Xcode 11 3 的 macOS Mojave 上我有一个基于 Autotool 的第三方库在终端中运行我的构建脚本时构建得很好但在 Xcode 中运行时失败Run Script步骤为 BuildScript Showin
如何使用基于令牌的访问获取虚拟机的 GCP 配额限制

我想使用基于令牌的访问来获取 GCP VM 限制下面是我的Python代码 from googleapiclient import discovery from oauth2client import AccessTokenCredent
如何使用 Flutter 获取 Firebase 存储目录中的所有文件

我有一个显示夜总会描述和图像的应用程序每个俱乐部大约有4张相关图像在 Firebase Storage 中我为每个俱乐部创建了目录然后将其图像存储在其中所以我想要做的是从俱乐部目录中获取所有图像以便我可以在我的应用程序中显示所有
为什么不能使用 C# 对象初始值设定项语法调用方法？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用 apach tika 解析器从 XML 文件中的 xml 标签中提取文本

我正在尝试从各种文档中提取所有文本为此我使用 Apache Tika 1 4 RecursiveTikaParser parser new RecursiveTikaParser new AutoDetectParser ParseCo

使用 apach tika 解析器从 XML 文件中的 xml 标签中提取文本

使用 apach tika 解析器从 XML 文件中的 xml 标签中提取文本 的相关文章

随机推荐

热门标签

使用 apach tika 解析器从 XML 文件中的 xml 标签中提取文本的相关文章