Apache Tika 能够提取中文、日语等外语吗？

2024-06-19

我有以下代码：

    Detector detector = new DefaultDetector();
    Parser parser = new AutoDetectParser(detector);
    InputStream stream = new ByteArrayInputStream(bytes);
    OutputStream outputstream = new ByteArrayOutputStream();
    ContentHandler textHandler = new BodyContentHandler(outputstream);
    Metadata metadata = new Metadata();
    // Set<String> langs = LanguageIdentifier.getSupportedLanguages();
    // metadata.set(Metadata.CONTENT_LANGUAGE, lang);
    // metadata.set(Metadata.FORMAT, hint);
    ParseContext context = new ParseContext();
    try {
        parser.parse(stream, textHandler, metadata, context);
        String extractedText = outputstream.toString();
        return extractedText;
    } catch (IOException e) {
        e.printStackTrace();
    } catch (SAXException e) {
        e.printStackTrace();
    } catch (TikaException e) {
        e.printStackTrace();
    }

如果输入的是包含汉字的doc文件，则每个汉字将被提取为“？”。

多谢！

Apache Tika 能够从其支持的文件格式中提取 unicode 文本。只要文件格式可以存储unicode文本（例如中文或日文字符），Apache Tika就可以提取它

Tika 还为此提供了许多单元测试，以验证其是否有效。其中一项测试使用这个中文电子邮件样本 http://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src/test/resources/test-documents/testMSG_chinese.msg。如果使用命令行 Tika 应用程序，并获取前几行，我们会看到它正在工作：

$ java -jar tika-app-1.4.jar --text testMSG_chinese.msg | head
Alfresco MSG format testing ( MSG 格式測試 )
    From
    Tests Chang@FT (張毓倫)
    To
    Tests Chang@FT (張毓倫)
    Recipients
    [email protected] /cdn-cgi/l/email-protection

或者用这个日语文件 https://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src/test/resources/test-documents/testRTFJapanese.rtf:

$ java -jar tika-app-1.4.jar --text testRTFJapanese.rtf | head -2
ゾルゲの処刑記録、
ゾルゲと尾崎、淡々と最期

您只需要确保您生成的任何文本输出都以合适的编码存储（例如utf8），并且您用来显示它的字体支持这些字形！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apache

apachetika

Apache Tika 能够提取中文、日语等外语吗？的相关文章

强制 Apache HTTPD 以 32 位运行

我通过从二进制文件以及 ppc 部分中剥离 32 位架构以 64 位模式运行 Apache HTTPD 我这样做是为了使其与 python 和 mysql 更加兼容然而我有另一台机器需要它以 32 位模式运行它仍然保留所有四种原
apache_request_headers() 与 $_SERVER

据我所知 apache request headers 提供与以下相同的信息 SERVER 但按键略有不同为什么有人应该使用apache request headers 而不仅仅是从那里获取这些信息 SERVER 我在 Centos 上使
将 http 和 https 请求重定向到新主机

在 Apache 2 4 6 中我想重定向来自http A org foo and https A org foo to https B org foo 我正在使用以下指令
通过 CMIS (dotCMIS) 连接到 SP2010：异常未经授权

我正在使用 dotCMIS 并且想要简单连接到我的 SP2010 服务器我尝试用 C 来做到这一点如下所示http chemistry apache org dotnet getting started with dotcmis htm
PHP 拒绝从 var_dump、print 等输出数据

我目前正在运行 WAMP 服务器并且在过去的 30 分钟内一直在尝试弄清楚我的项目如何以及为什么不会输出任何指定的 PHP 数据起初我以为是因为我有一个 htaccess文件的output buffering被禁用所以我删除了它仍然
如何让 mod_perl 在更改时重新加载源文件？

我正在开发一个带有 mod 的应用程序 perl 并在每次更改代码时重新启动服务器是一个巨大的阻力我还是想用mod perl 用于开发因为我计划将其用于实时服务器我在文档中没有看到有关如何执行此操作的任何内容想法我认为 Apach
CNAME 速度慢吗？

我将 CNAME 与 S3 CloudFront 一起使用来提供一些静态文件例如 js css 图像等我这样做是为了使存储桶的 URL 更漂亮因为我认为最好将所有内容都定位到我的网站以防万一将来我想移动这些文件更改应该是透明的今
通过 Java 连接 Apache Drill

在 Apache Drill 的 Wiki 中我只能看到通过 SqlLine 客户端运行的查询除了 REST API 之外是否有任何编程方式可以在 Drill 中运行查询有任何示例或指示吗或者它与使用 JDBC 驱动程序运行 SQ
从 Django 运行 shell 命令

我正在 Django 中开发一个网页使用 apache 服务器需要调用 shell 命令来启用禁用一些守护进程我尝试这样做 os system service httpd restart 1 gt HOME out 2 gt HOM
缺少依赖项 hive-builtins 会导致 Oozie 构建失败，错误代码为 410

我尝试从源代码构建 oozie 但安装失败我想安装 oozie 并热切地等待使用它我在这个阶段失败了当我从 oozie 3 3 3 目录给出 cmd 时 bin mkdistro sh DskipTests 我收到这个错误 INFO
在 apache docker 容器中运行虚拟主机

我在同一个 apache 容器中有两个 php 应用程序我试图在端口上运行其中一个应用程序因为它需要通过根域而不是子文件夹进行访问我想在端口 8060 上运行应用程序我尝试使用 apache 虚拟主机执行此操作但它不会加载页面 h
从 AJP 连接器请求中检索 Shibboleth 属性

当我在 Apache 上运行 Shibboleth 身份验证时遇到了一个奇怪的问题当 Tomcat7 在后端运行时 Apache 通过 mod proxy ajp 发送所有内容 Shibboleth 的参数也是如此 In the 文档 h
如何检测linux机器上是否安装了tomcat和ant

我正在尝试安装Tomcat and Ant在我的 Linux 机器上但在安装它们之前我只需要检查它们是否已经安装关于Tomcat 我用谷歌搜索了很多并在我的机器上的以下目录中搜索了 tomcat usr local opt usr s
防止 CSS URL 被 htaccess 重写

我正在创建一个标准重写 htaccess去做这个 http www myurl com post id RewriteRule post 0 9 post php id 1 NC L 现在它可以正常工作但所有其他外部 URL 例如 CS
使用 uWSGI 部署 Pylon

我们正在尝试将我们的内联网迁移到 Pylons 我的老板正在尝试设置 Pylons 以在 Apache 后面使用 uWSGI 以便他可以设置多个独立的应用程序然而他在设置方面遇到了困难 uWSGI 的 C 源代码中存在一些明显的代码问题
当 PHP 认为合适时让 apache 处理 404 错误？

我完全知道如何在 PHP 中创建自定义 404 页面但是我想知道是否有一种方法可以将控制权交还给 apache 并让它生成正确的 404 页面发送正确的标头等当我的逻辑是这样的时候我正在看一些apache特定的功能 http php
“child pid 10708 exit signal Segmentation failure (11)”错误的根本原因是什么？

我越来越child pid 10708 exit signal Segmentation fault 11 错误其根本原因是什么以及如何解决 php ini 内存与此有关吗我正在使用带有 php 的 apache2 服务器提前致谢完
Apache 未从 XAMPP 控制面板运行（错误：Apache 意外关闭。这可能是由于端口被阻止）

我已在 Windows 7 上成功安装 XAMPP xampp win32 1 8 2 0 VC9 installer exe 但不幸的是在从XAMPP控制面板运行Apache时发现以下错误 5 38 38 PM Apache Error
htaccess 文件中的动态重写

我正在我的 htaccess 文件中进行一些重写和重定向我这样做的原因是因为我正在为现有网站开发新的设计和布局因此我需要重定向以保持谷歌排名等所以旧的现有的 URL 看起来像这样 news internet shopper numb
VirtualHost 在 Ubuntu 14.04 上始终返回 Apache 的默认主机

我尝试设置默认虚拟主机之外的虚拟主机localhost 每当我尝试呼叫我的虚拟主机时http test我得到了位于目录中的默认 Apache2 索引文件http localhost 此外 apache 在禁用后仍然返回此页面 a2dissi

随机推荐

Spark EC2 SSH连接错误SSH返回代码255

每次我尝试通过 Spark ec2 spark ec2 py 文件在 AWS 上启动 Spark 集群时都会收到 SSH 连接错误最终解决了但是浪费了很多时间在您将其标记为重复之前我知道有很多类似的问题被问到但有两个关键区别 a
PHP - 如何将图像资源写入文件

我用了函数imagecopyresampled到裁剪图像我尝试使用file put contents和 fwrite 将 resized image 写入硬盘上的文件但所有尝试都失败了我可以将调整大小的图像写入磁盘而不是使用image
如何使用 withParam 引用在 DAG 外部创建的 sys.stdout 以在 DAG 内部使用？

我正在使用 Argo 工作流程我的中有一个 DAG 步骤entrypoint这遵循几个正常步骤其中一个步骤执行sys stdout 进入 DAG 步骤后我希望某些任务引用 DAG 步骤的结果sys stdout 我知道我们是否想参考s
如何更改SearchView默认图标？

我用过 Android 操作栏样式生成器 http jgilfelt github com android actionbarstylegenerator 以生成我自己的 Holo 主题然后我在操作栏中添加了两个图标一个用于搜索过滤器
C++ 程序员应该经常使用 std::flush 吗？ [复制]

这个问题在这里已经有答案了是否建议 C 程序员经常写这样的行 std cout lt lt output lt lt i lt lt and lt lt j lt lt std flush more std cout lt lt endi
OCaml 是否具有通过引用传递的能力？

在 C 中程序可以向函数传递引用而不是值 void incrementInt int x x OCaml 是否提供相同的功能不没有严格的等价物有refs 它们就像指向新分配的内存的指针还有其他复合数据类型的记录数组对象和值
ASP.NET Core 2.1 中的 UseStaticFiles、UseSpaStaticFiles 和 UseSpa 之间有什么区别？

ASP NET Core 2 1 1为appBuilder提供了几种看似相关的扩展方法 UseStaticFiles from Microsoft AspNetCore StaticFiles UseSpaStaticFiles from
发布时出错：System.DirectoryServices.DirectoryServicesCOMException

我在我的 asp net MVC 解决方案中使用 AD 身份验证它在本地服务器中工作但是当我发布它时我收到错误 System DirectoryServices DirectoryServicesCOMException 发生操作错误
从另一个弹出窗口打开弹出窗口

我正在尝试使用 window open 方法从另一个弹出窗口打开一个弹出窗口但它只是在前一个弹出窗口中打开第二个弹出窗口我目前使用的代码 win window open Window child top 250 left 310 Wid
Matlab Builder JA - 将 Matlab 编译成 Java jar - 免费版本？

请记住我对 Matlab 一无所知 Matlab Builder JA 允许开发人员构建 Matlab 应用程序并将其导出到 Java jar 中太棒了我只需要生成一个 jar 然后就可以从其他 java 代码中使用它有谁知道单罐包
将复杂对象传递到 WCF Rest 服务

我有一个接受复杂对象的操作合约并且我通过 jQuery 调用该操作如何使用 jQuery 传递像这样的复杂类型对象以下是操作签名 public Resolution CreateNewResolution Resolution New
将 JSON URL 转换为 R 数据帧

我在将 JSON 文件从 API 转换为 R 中的数据帧时遇到问题例如 URL 我尝试了 S O 的一些不同建议包括将json数据转换为R中的数据框 https stackoverflow com questions 28683769
iOS 4.0 contentScaleFactor 和比例 - 在 3.1.3 中如何处理？

我的任务是制作一个在 iOS 4 0 中运行的应用程序再次在 3 1 3 和 3 2 中运行大多数情况下它很简单但处理新 API 的扩展和其他必须传递返回值的情况很困难 respondsToSelector performSelec
为什么 XUnit 插件不能与 Jenkins 一起使用？

我从 jenkins 启动了测试 IDE selenium 并上传了 XUNIT 插件以获得一份不错的测试报告但最后我收到了这条 ERROR 消息测试失败请参阅结果文件了解详细信息 D FTP stm atos automatisat
使用 Gorilla 会话自定义后端有什么优势？

我想使用 Redis 进行会话管理但我不明白使用 Redis 作为 Gorilla 会话包的自定义后端比直接使用它有什么优势 Gorilla 会话包的链接 http www gorillatoolkit org pkg sessions
Github 操作错误地认为变量是秘密，因此不设置输出

我的工作流程文件中的一个步骤将返回我的 aws 账户中 EC2 实例的一些 ID 然后我将这些 ID 设置为 github 输出以便在我的工作流程文件中的其他作业中使用我在许多工作流程中都这样做了步骤将返回如下内容 i 0d945b0
部署架构问题

我也已将应用程序名称和命名空间从 FooXXX 更改为 FooYYY VS 将更改应用于所有文件我已经检查了所有命名空间名称等项目编译但是当我想将其部署到模拟器或设备时它会立即崩溃没有战争没有消息没有例外仅显示启动屏幕然
连接到 Facebook 并使用 api

有没有好的教程如何制作简单的控制台 Facebook 应用程序连接到 Facebook 并获取朋友列表用户照片状态或其他内容我查看了 facebook SDK 的 facebook 示例但如果我想在 facebook 上授权我必
如何在OpenGL ES中显示yuv格式的数据而不转换rgb？

我一直在研究 iOS 的 OpenGL ES 我想知道YUV格式的数据是否可以在不转换RGB的情况下显示大多数情况下 yuv 数据必须转换为 RGB 才能显示但是转换过程非常慢然后显示不流畅所以我想尝试在不转换为RGB的情况下
Apache Tika 能够提取中文、日语等外语吗？

Apache Tika 能够提取中文日语等外语吗我有以下代码 Detector detector new DefaultDetector Parser parser new AutoDetectParser detector Input

Apache Tika 能够提取中文、日语等外语吗？

Apache Tika 能够提取中文、日语等外语吗？ 的相关文章

随机推荐

热门标签

Apache Tika 能够提取中文、日语等外语吗？的相关文章