请任何成功做到这一点的人解释一下如何做到这一点:-)
我是否需要获取我需要添加的语言的 n-gram 文件?
是创造的问题吗tika.language.override.properties
,添加一些其他 lang 代码并在 classPath 上添加 lang-code.ngp n-gram 文件?在这种情况下,我从哪里得到它以及为什么 Tika 不支持更多语言,如果这只是一个问题?
目前支持这些语言进行语言检测
da,de,et,el,en,es,fi,fr,hu,is,it,lt,nl,no,pl,pt,ru,sv,th
tika 使用传统的 n-gram 表示法
er_ 132232
_de 103517
en_ 82666
et_ 80661
for 65286
_fo 57945
de_ 51382
der 44049
at_ 41915
det 41381
_og 40344
_at 39482
ing 38707
den 36795
og_ 36577
_me 34924
nde 34528
This 语言检测应用程序 http://code.google.com/p/language-detection/目前支持这些语言,但有一些不同的 n-gram 文件
af bg cs de en fa fr he hr id ja ko ml ne no pl ro sk sq sw te tl uk vi zh-tw ar bn da el es fi gu hi hu it kn mk mr nl pa pt ru so sv ta th tr ur zh-cn
以 JSON 表示法
{"freq":{"D":9246,"E":2445,"F":2510,"G":3299,"A":6930,"B":3706,"C":2451,"L":2519,"M":3951,"N":3334,"O":2514,"H" ....