我想解析支持 hunspell 格式的开放办公室aff
and dic
files.
English aff
and dic
文件可以从这里下载,例如:http://extensions.openoffice.org/en/project/english-dictionaries-apache-openoffice
我想扫描给定的每一行.dic
文件并使用提供的生成每行的每个可能的单词.aff
file
我怎样才能做到这一点?
我已经安装了 NHunspell 框架,但它没有该功能:https://www.nuget.org/packages/NHunspell/
例如,对于英语,让我们考虑
make/UAGS
使可以make, made, makes, making
etc
现在我需要解析器来给我所有这些组合。我怎样才能获得它们?非常喜欢
所以基本上我想扫描字典的每一行并从该行的单词生成所有可能的单词,但我不知道该怎么做
我也可以编写自己的解析器,但在我看来规则相当复杂,并且没有关于此的详细且简单的文档
这基本上是我想要的。图片解释得很清楚
Giving analyze/ADSG
, en.dic
and en.aff
文件并获取以下所有单词
analyze, analyzes, analyzing, analyzed, reanalyze, reanalyzes, reanalyzing, reanalyzed