- 到处都坚持使用 Unicode 和 utf-8。
- 远离本地日语编码:euc-jp、shiftjis、iso-2022-jp,但请注意,如果继续,您可能会在某个时候遇到它们。
- 熟悉用于执行复杂操作(如词性分析、分词等)的分段器。大多数从事日语 NLP(自然语言处理)工作的人使用的标准工具按受欢迎程度/功能排列。
MeCab http://taku910.github.io/mecab/(原来在来源锻造 http://mecab.sourceforge.net/)太棒了:它允许您获取类似的文本,
「日本語は、とても難しいです。」
并获取各种重要信息
kettle:~$ echo 日本語は、難しいです | mecab
日本語 名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
、 記号,読点,*,*,*,*,、,、,、
難しい 形容詞,自立,*,*,形容詞・イ段,基本形,難しい,ムズカシイ,ムズカシイ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS
这基本上是词性、阅读、发音等的详细概述。它也有利于你分析动词时态,
kettle:~$ echo メキシコ料理が食べたい | mecab
メキシコ 名詞,固有名詞,地域,国,*,*,メキシコ,メキシコ,メキシコ
料理 名詞,サ変接続,*,*,*,*,料理,リョウリ,リョーリ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
たい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ
EOS
然而,文档都是日语的,设置和弄清楚如何按照您想要的方式格式化输出有点复杂。有适用于 ubuntu/debian 的软件包,以及一系列语言的绑定,包括 perl、python、ruby...
适用于 ubuntu 的 apt-repos:
deb http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all
deb-src http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all
要安装的软件包:$ apt-get install mecab-ipadic-utf8 mecab python-mecab
我认为应该做到这一点。
mecab 的其他替代品是,ChaSen http://chasen.naist.jp/hiki/ChaSen/,这是 MeCab 的作者(他现在在 google 工作)多年前写的,以及Kakasi http://kakasi.namazu.org/,其威力要小得多。
我肯定会尽量避免滚动你自己的结合例程。这样做的问题在于,它需要大量的工作,而其他人已经完成了这些工作,并且最终用规则覆盖所有边缘情况是不可能的。
MeCab 由统计数据驱动,并接受大量数据的训练。它采用了一种复杂的机器学习技术,称为条件随机场(CRF)并且结果确实非常好。
和日本人一起玩吧。我不确定您的日语水平如何,但如果您需要 mecab 文档或其他方面的帮助,也请随时询问。汉字一开始可能会非常令人生畏。