雪球词干:定义区域

2023-12-31

我试图理解雪球词干算法。该算法使用两个区域 R1 和 R2,定义如下:

R1 是元音后面的第一个非元音之后的区域,或者是 如果没有这样的非元音,则为单词末尾的空区域。

R2 是 R1 中元音后面的第一个非元音之后的区域,或者 是单词末尾的空区域(如果没有这样的区域) 非元音。

http://snowball.tartarus.org/texts/r1r2.html http://snowball.tartarus.org/texts/r1r2.html

例子是

    b   e   a   u   t   i   f   u   l
                      |<------------->|    R1
                              |<----->|    R2

   b   e   a   u   t   y
                     |<->|    R1
                       ->|<-  R2

   a   n   i   m   a   d   v   e   r   s   i   o   n
        |<----------------------------------------->|    R1
                |<--------------------------------->|    R2

   s   p   r   i   n   k   l   e   d
                     |<------------->|    R1
                                   ->|<-  R2

    e   u   c   h   a   r   i   s   t
            |<--------------------->|    R1
                        |<--------->|    R2

我的问题是,为什么 springkled 中的“kled”和圣体圣事中的“harist”定义为 R1?我认为正确的结果应该是“inkled”和“arist”?


您应该再次阅读定义,它说:

R1 是第一个非元音之后的区域下列的一个元音。

Not: 其次是一个元音。

In sprinkled,元音后面的第一个非元音是n,所以后面的区域是kled.

同样对于eucharist,元音后面的第一个非元音是c,所以后面的区域是harist.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

雪球词干:定义区域 的相关文章

随机推荐

  • 为什么 JavaScript 中 (true > null) 总是返回 true?

    有人能告诉我为什么下面的代码在 JavaScript 中返回 true 吗 console log true gt null returns true null就好像false在这种情况下 即0作为一个数字 true is 1作为一个数字
  • C++自由实现“有界优先级队列”

    我正在寻找一个免费软件实现有界优先级队列C 中的抽象 基本上 我需要一个数据结构 其行为就像std priority queue但始终保持着 最好的 n最多元素 Example std vector
  • mysql 在where条件下使用按列分组

    我怎样才能使这个查询工作 SELECT column1 SUM Hits AS Hits FROM table WHERE SUM Hits gt 100 GROUP BY column1 问题出在where子句上 mysql显示错误 Er
  • 列出 git post-merge hook 中更改的文件

    有没有办法让合并后挂钩获取合并更改的所有文件的列表 即使它是快进 列出已更改文件的正确 Git 命令是diff tree https git scm com docs git diff tree 还有ORIG HEAD and HEAD 捷
  • Tensorboard(PyTorch)add_graph 中的错误

    我正在关注这个 Pytorch 的张量板 https pytorch org docs stable tensorboard html文档 我有以下代码 model torchvision models resnet50 False wri
  • 使用 SSIS 2008 将 Excel 导入 SQL 时跳过行

    我需要导入如下所示的工作表 March Orders Empty Row Week Order Date Cust 3 1 271356 3 3 10 010572 3 1 280353 3 5 10 022114 3 1 290822 3
  • 检测 Windows 进程和应用程序是否正在运行

    我正在调查是否有一种方法可以以编程方式检查某个进程是否作为进程运行 在运行的 exe 列表中 AND作为打开的应用程序 即在任务栏上 并根据结果采取行动 另外 有没有办法以编程方式终止进程OR正在运行的应用程序 我们正在该服务器上运行 WA
  • WordPress URL 不返回 404 页面

    在遭受黑客攻击后 我需要一些有关 WordPress 的帮助 我已经彻底清除了黑客攻击 谷歌也删除了 该网站可能被黑客入侵 flag 黑客向 Google 提交了大量 URL 其中每个有效 URL 的末尾都包含一个随机字符串 这些在谷歌搜索
  • 使用通用约束时如何使用继承

    当我尝试实现一个允许继承的库并希望有人可以提供帮助时 我正在努力解决一些通用约束问题 我正在尝试构建一个具有 3 种风格的类库 每种风格都构建在另一种之上 对我来说 这似乎是使用泛型的绝佳机会 因为我无法通过纯继承来做我想做的事情 代码如下
  • Linq & String.ToLower() 奇怪的行为

    我在服务器端有一个查询 它从邮政编码表中返回不同城市的列表 我正在使用 WCF RIA 服务 以下查询成功返回 228 个城市provincename public IQueryable
  • OS X 中的 GNU 链接器等效命令

    我正在阅读下面的书 http www cs bham ac uk exr lectures opsys 10 11 lectures os dev pdf关于操作系统 在第 43 页中 他们使用以下命令将带注释的机器代码转换为原始机器代码文
  • 如何将 3 个 DIV 彼此对齐?

    我需要在页脚容器 DIV 中创建 3 个 DIV 分别左对齐 中对齐和右对齐 我见过的所有 CSS 示例都像我一样使用了浮动 但是 由于某种原因 DotNetNuke 无法正确解析 CSS 我发现左侧窗格正确浮动 但右侧和中间窗格位于其正下
  • 验证可执行文件的 Authenticode 签名时内存泄漏?

    我在用Win验证信任 http msdn microsoft com en us library aa388208 v VS 85 aspx使用以下函数验证某些 Windows 可执行文件的有效性 该函数在循环中调用 tmain int s
  • Vue JS 将数据从父级传递给子级的子级

    在Vue js中 如何正确地将数据从父组件传递到多级子组件链 您有几个选择 Props https v2 vuejs org v2 guide components props html 活动总线 https css tricks com
  • 在 Python 中停止 Lambda 函数

    在某个函数内 我想停止整个 Lambda 进程 但不触发错误 我尝试查看上下文变量来阻止它或只是调用exit 但每次它都被视为我不想跟踪的错误 如何在 Python 中成功结束 Lambda 进程 在 AWS Lambda 中 您定义一个h
  • Vim 缓冲区已被修改[重复]

    这个问题在这里已经有答案了 我正在尝试实施一个AutoCmd在 Vim 中 需要在当前缓冲区被修改时执行 我已阅读所有可用的事件AutoCmd在文档中 但找不到有助于确定缓冲区何时被修改的内容 这并不一定意味着 写入缓冲区时 因为我需要触发
  • 分配器感知的容器分配是如何实现的?

    例如 从std deque 运算符 在 C 参考中 1 复制分配 const std deque 及其他 将内容替换为其他内容的副本 如果 std allocator traits propagate on container copy a
  • 如何创建接口的匿名实现?

    我有一个界面 interface TileSet fun contains x Int y Int Boolean 我希望能够创建瓦片集的并集 瓦片是一对 x 和 y 整数坐标 fun TileSet union another TileS
  • .pyc 文件何时刷新?

    据我所知 pyc 文件是纯文本 py 文件的编译版本 在运行时创建以使程序运行得更快 然而我观察到了一些事情 修改 py 文件后 程序行为会发生变化 这表明 py 文件已编译 或者至少经过某种哈希处理或比较时间戳 以便判断是否应该重新编译它
  • 雪球词干:定义区域

    我试图理解雪球词干算法 该算法使用两个区域 R1 和 R2 定义如下 R1 是元音后面的第一个非元音之后的区域 或者是 如果没有这样的非元音 则为单词末尾的空区域 R2 是 R1 中元音后面的第一个非元音之后的区域 或者 是单词末尾的空区域