向 Apache Tika 添加语言配置文件

2024-01-08

请任何成功做到这一点的人解释一下如何做到这一点:-)

我是否需要获取我需要添加的语言的 n-gram 文件?

是创造的问题吗tika.language.override.properties,添加一些其他 lang 代码并在 classPath 上添加 lang-code.ngp n-gram 文件?在这种情况下,我从哪里得到它以及为什么 Tika 不支持更多语言,如果这只是一个问题?

目前支持这些语言进行语言检测

da,de,et,el,en,es,fi,fr,hu,is,it,lt,nl,no,pl,pt,ru,sv,th

tika 使用传统的 n-gram 表示法

er_ 132232
_de 103517
en_ 82666
et_ 80661
for 65286
_fo 57945
de_ 51382
der 44049
at_ 41915
det 41381
_og 40344
_at 39482
ing 38707
den 36795
og_ 36577
_me 34924
nde 34528

This 语言检测应用程序 http://code.google.com/p/language-detection/目前支持这些语言,但有一些不同的 n-gram 文件

af  bg  cs  de  en  fa  fr  he  hr  id  ja  ko  ml  ne  no  pl  ro  sk  sq  sw   te  tl  uk   vi     zh-tw ar  bn  da  el  es  fi   gu  hi  hu  it  kn  mk  mr   nl   pa  pt  ru  so   sv  ta  th   tr  ur  zh-cn

以 JSON 表示法

{"freq":{"D":9246,"E":2445,"F":2510,"G":3299,"A":6930,"B":3706,"C":2451,"L":2519,"M":3951,"N":3334,"O":2514,"H" ....

看起来像TIKA-490 https://issues.apache.org/jira/browse/TIKA-490,应该可以添加新的语言配置文件。TIKA-546 https://issues.apache.org/jira/browse/TIKA-546似乎表明它还没有想象的那么容易,同时您需要从 Nutch 的 NGramProfile 工具开始并调整输出。

我建议您尝试使用 Nutch 工具生成文件,然后查看 TIKA-490 上的评论以了解如何使用它们的详细信息。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

向 Apache Tika 添加语言配置文件 的相关文章

  • 从 java sdk 向对等方发送提案时出现访问被拒绝错误

    我正在尝试使用以下代码查询区块链并收到访问被拒绝错误 我也遇到同样的错误sendTransactionProposal方法也是如此 UserContext adminUserContext RegisterEnrollUser regist
  • 使用 Ant 将非代码资源添加到 jar 文件

    我正在将 java 应用程序打包成 jar 文件 我正在使用 ant 和 eclipse 我实际上需要在 jar 中直接在根文件夹下包含几个单独的非代码文件 xml 和 txt 文件 而不是与代码位于同一位置 我正在尝试使用includes
  • 打印星号的 ASCII 菱形

    我的程序打印出这样的钻石 但只有当参数或菱形的每一面为4 例如如果我输入6 底部三角形的间距是错误的 我一直在试图找出答案 当参数改变时 底部的三角形不会改变 只有顶部的三角形会改变 它只适用于输入4 public static void
  • 大数据使用什么数据结构

    我有一个包含一百万行的 Excel 工作表 每行有 100 列 每行代表一个具有 100 个属性的类的实例 列值是这些属性的值 哪种数据结构最适合在这里使用来存储数百万个数据实例 Thanks 这实际上取决于您需要如何访问这些数据以及您想要
  • 什么时候可以在 Java 中使用 Thead.stop() ?

    Thread stop 的 Java 文档听起来好像如果您调用 Thread stop 世界就会终结 已弃用 这种方法本质上是不安全的 停止线程 Thread stop 导致它解锁所有已锁定的监视器 作为未经检查的 ThreadDeath
  • 使用 JUnit 时,有没有办法验证测试方法中是否调用了 try/catch 指令的 Catch 部分?

    例如 如果我想测试以下课程 public class SomeClass public void someMethod try Some code where comething could go wrong catch Exception
  • Spring Security SAML2 使用 G Suite 作为 Idp

    我正在尝试使用 Spring Security 5 3 3 RELEASE 来处理 Spring Boot 应用程序中的 SAML2 身份验证 Spring Boot 应用程序将成为 SP G Suite 将成为 IDP 在我的 Maven
  • 需要使用 joda 进行灵活的日期时间转换

    我想使用 joda 解析电子邮件中的日期时间字符串 不幸的是我得到了各种不同的格式 例如 Wed 19 Jan 2011 12 52 31 0600 Wed 19 Jan 2011 10 15 34 0800 PST Wed 19 Jan
  • 如何检测 Java 字符串中的 unicode 字符?

    假设我有一个包含 的字符串 我如何找到所有这些 un icode 字符 我应该测试他们的代码吗 我该怎么做呢 例如 给定字符串 A X 我想将其转换为 AYXY 我想对其他 unicode 字符做同样的事情 并且我不想将它们存储在某种翻译映
  • 套接字的读写如何同步?

    我们创建一个套接字 在套接字的一侧有一个 服务器 在另一侧有一个 客户端 服务器和客户端都可以向套接字写入和读取 这是我的理解 我不明白以下事情 如果服务器从套接字读取数据 它在套接字中是否只看到客户端写入套接字的内容 我的意思是 如果服务
  • 内部存储的安全性如何?

    我需要的 对于 Android 我需要永久保存数据 但也能够编辑 并且显然是读取 它 用户不应访问此数据 它可以包含诸如高分之类的内容 用户不得对其进行编辑 我的问题 我会 并且已经 使用过Internal Storage 但我不确定它实际
  • GWT 2.3 开发模式 - 托管模式 JSP 编译似乎不使用 java 1.5 兼容性

    无法编译 JSP 类 生成的 servlet 错误 DefaultMessage 上次更新 0 日期 中 0 时间 HH mm ss z 语法 错误 注释仅在源级别为 1 5 时可用 在尝试以开发模式在 Web 浏览器中打开我的 gwt 模
  • 使用架构注册表对 avro 消息进行 Spring 云合约测试

    我正在查看 spring 文档和 spring github 我可以看到一些非常基本的内容examples https github com spring cloud samples spring cloud contract sample
  • 流中的非终结符 forEach() ?

    有时 在处理 Java Stream 时 我发现自己需要一个非终端 forEach 来触发副作用但不终止处理 我怀疑我可以用 map item gt f item 之类的方法来做到这一点 其中方法 f 执行副作用并将项目返回到流中 但这似乎
  • java库维护数据库结构

    我的应用程序一直在开发 所以偶尔 当版本升级时 需要创建 更改 删除一些表 修改一些数据等 通常需要执行一些sql代码 是否有一个 Java 库可用于使我的数据库结构保持最新 通过分析类似 db structure version 信息并执
  • JMenu 中的文本居中

    好吧 我一直在网上寻找有关此问题的帮助 但我尝试的任何方法似乎都不起作用 我想让所有菜单文本都集中在菜单按钮上 当我使用setHorizontalTextPosition JMenu CENTER 没有变化 事实上 无论我使用什么常量 菜单
  • 是否可以使用 Java Guava 将函数应用于集合?

    我想使用 Guava 将函数应用于集合 地图等 基本上 我需要调整 a 的行和列的大小Table分别使所有行和列的大小相同 执行如下操作 Table
  • 在 Google App-Engine JAVA 中将文本转换为字符串,反之亦然

    如何从字符串转换为文本 java lang String to com google appengine api datastore Text 反之亦然 Check Javadoc http code google com appengin
  • Hamcrest Matchers - 断言列表类型

    问题 我目前正在尝试使用 Hamcrest Matchers 来断言返回的列表类型是特定类型 例如 假设我的服务调用返回以下列表 List
  • 将 Apache Camel 执行器指标发送到 Prometheus

    我正在尝试转发 添加 Actuator Camel 指标 actuator camelroutes 将交换 交易数量等指标 发送到 Prometheus Actuator 端点 有没有办法让我配置 Camel 将这些指标添加到 Promet

随机推荐

  • GitHub - 如何从一个分支创建两个拉取请求

    我已经分叉了一个开源存储库 在我的分叉上编写了数千行代码 并在原始项目上创建了拉取请求 与此同时 我修复了另一个与我的第一个拉取请求完全无关的错误 我想专门针对此错误创建第二个拉取请求 它不包含第一个拉取请求中的任何工作 不需要我再次分叉存
  • 在Java中模拟鼠标在非活动窗口的某个位置单击?

    不管怎样 我正在构建一个在后台运行的机器人 这个机器人需要我点击 当然 我希望能够在机器人运行时做其他事情 所以我想知道是否可以在非活动窗口的某个位置模拟鼠标单击 如果可能的话 如果你们中有人能帮助我 我将不胜感激 java awt Rob
  • 在 Xamarin 中创建自定义控件

    我正在将我的应用程序从 Windows Phone 8 移植到 Android 并且我需要创建一些自定义 UI 控件 我尝试创建一个 XML 布局 在其中创建一个 LinearLayout 作为控件 然后动态添加它 根据用户的意愿 但这不起
  • 如何使用 PHP 实现工厂类 - 依赖注入

    以下面的代码作为我想要的示例 class SomethingController extends Factory private somethingRepository public function Construct ISomethin
  • 如何使用现有的 pom.xml 将 3rd 方文件发布到远程 Maven 存储库?

    我有一些第三方 jar 想要上传到我的 Nexus maven 存储库 到目前为止我已经找到了两种方法来做到这一点 使用 Nexus GUI 使用以下说明 http maven apache org guides mini guide 3r
  • 这是什么时间格式?如何将其转换为标准化的 dd/mm/yyyy 日期?

    我正在使用 YouTube Google API 对于特定视频的上传日期 将返回以下格式的时间 日期 2012 05 16T17 15 29 000Z 我不确定这是什么格式 但我想知道是否有一种简单的方法 例如使用DateTime 将其转换
  • 使用 folium 中的地理数据框绘制彩色多边形

    我正在尝试在 folium 中绘制雷达数据 而且我已经快完成了 我按照这个例子 在边界内绘制等高线图数据 纬度 经度 值 并导出 GeoJSON https stackoverflow com questions 34886899 cont
  • 在 Android 上解析 ~1 MB JSON 非常慢

    我的资产文件夹中存储了一个大约 1MB 的 JSON 文件 每次运行时我都需要在应用程序中加载该文件 我发现内置的 JSON 解析器 org json 解析文件的速度非常慢 但是一旦解析完成 我就可以非常快速地访问和操作数据 我计算出从我点
  • glib2 是否真的会使用 ALWAYS-MALLOC 泄漏内存?

    这个问题是not许多其他人的重复 因为我do use G DEBUG gc friendly and G SLICE always malloc这是源代码 include
  • 在 Laravel 中全局缓存表值

    我有一张表 模型的设置Setting class Setting extends Model protected fillable name value 我创建了一个服务提供SettingsServiceProvider并注册于app ph
  • “docker 容器运行”需要至少 1 个参数

    我正在尝试使用已创建的卷创建容器 但我的控制台显示错误 docker container run requires at least 1 argument 这是我试图运行的命令 docker container run name db v
  • 如何按指定顺序连接字符串

    尝试从这篇文章中对角连接字符串如何交替连接 3 个字符串 https stackoverflow com questions 24346355 how to alternatively concatenate 3 strings 但没有成功
  • 仅在模态窗格内保持 Tab 键切换

    在我当前的项目中 我们有一些在某些操作上打开的模式窗格 我试图获取它 以便当该模式窗格打开时 您无法使用 Tab 键切换到它之外的元素 jQuery UI 对话框和 Malsup jQuery 块插件似乎可以做到这一点 但我试图获得这一功能
  • 安装超集:错误:命令“gcc”失败,退出状态为 1

    我正在尝试在 CentOS 7 上安装 Superset 我已按照官方网站进行操作阿帕奇超级集 https superset incubator apache org installation html 我已经安装了所有必需的依赖项 sud
  • 将 MS Access 表拆分为多个部分并使用 VBA 导出到 Excel

    我有一个包含大约 50000 条记录的 Access 表 我需要将其最好分成 3 个部分 并使用 VBA 将这些部分导出到单独的 Excel 文件或工作表中 我需要这个 因为这些 Excel 文件在其他地方使用 文件中的最大记录数只能约为
  • 如何检测 DOMContentLoaded 是否被触发

    我正在尝试帮助开发一个库 并为此尝试处理页面加载 在这个过程中我想让库完全兼容 defer 和 async 的使用 我想要的很简单 我如何知道 DOMContentLoaded 在文件执行时被触发 为什么这么难 在 IE 中 documen
  • 关闭 Typeahead.js 的选项卡

    我正在我的一个文本框上使用预输入 typeahead js https github com twitter typeahead js blob master README md 我正在尝试关闭选项卡自动完成 我在文档中找不到这个 但也许有
  • constexpr 函数中的 Consteval 构造函数和成员函数调用

    struct A int i consteval A i 2 consteval void f i 3 constexpr bool g A a a f return true int main static assert g https
  • 如何从 couchdb 获取没有某些字段的文档?如果可能的话使用 Ektorp

    起初我误解了我的问题并发布了这个问题 有人可以解释一下 Ektorp 中的 Cascading 和 FetchType 惰性吗 https stackoverflow com questions 15970364 can someone e
  • 向 Apache Tika 添加语言配置文件

    请任何成功做到这一点的人解释一下如何做到这一点 我是否需要获取我需要添加的语言的 n gram 文件 是创造的问题吗tika language override properties 添加一些其他 lang 代码并在 classPath 上