我试图理解雪球词干算法。该算法使用两个区域 R1 和 R2,定义如下:
R1 是元音后面的第一个非元音之后的区域,或者是
如果没有这样的非元音,则为单词末尾的空区域。
R2 是 R1 中元音后面的第一个非元音之后的区域,或者
是单词末尾的空区域(如果没有这样的区域)
非元音。
http://snowball.tartarus.org/texts/r1r2.html http://snowball.tartarus.org/texts/r1r2.html
例子是
b e a u t i f u l
|<------------->| R1
|<----->| R2
b e a u t y
|<->| R1
->|<- R2
a n i m a d v e r s i o n
|<----------------------------------------->| R1
|<--------------------------------->| R2
s p r i n k l e d
|<------------->| R1
->|<- R2
e u c h a r i s t
|<--------------------->| R1
|<--------->| R2
我的问题是,为什么 springkled 中的“kled”和圣体圣事中的“harist”定义为 R1?我认为正确的结果应该是“inkled”和“arist”?
您应该再次阅读定义,它说:
R1 是第一个非元音之后的区域下列的一个元音。
Not: 其次是一个元音。
In sprinkled
,元音后面的第一个非元音是n
,所以后面的区域是kled
.
同样对于eucharist
,元音后面的第一个非元音是c
,所以后面的区域是harist
.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)