雪球词干：定义区域

2023-12-31

我试图理解雪球词干算法。该算法使用两个区域 R1 和 R2，定义如下：

R1 是元音后面的第一个非元音之后的区域，或者是如果没有这样的非元音，则为单词末尾的空区域。

R2 是 R1 中元音后面的第一个非元音之后的区域，或者是单词末尾的空区域（如果没有这样的区域）非元音。

http://snowball.tartarus.org/texts/r1r2.html http://snowball.tartarus.org/texts/r1r2.html

例子是

    b   e   a   u   t   i   f   u   l
                      |<------------->|    R1
                              |<----->|    R2

   b   e   a   u   t   y
                     |<->|    R1
                       ->|<-  R2

   a   n   i   m   a   d   v   e   r   s   i   o   n
        |<----------------------------------------->|    R1
                |<--------------------------------->|    R2

   s   p   r   i   n   k   l   e   d
                     |<------------->|    R1
                                   ->|<-  R2

    e   u   c   h   a   r   i   s   t
            |<--------------------->|    R1
                        |<--------->|    R2

我的问题是，为什么 springkled 中的“kled”和圣体圣事中的“harist”定义为 R1？我认为正确的结果应该是“inkled”和“arist”？

您应该再次阅读定义，它说：

R1 是第一个非元音之后的区域下列的一个元音。

Not: 其次是一个元音。

In sprinkled，元音后面的第一个非元音是n，所以后面的区域是kled.

同样对于eucharist，元音后面的第一个非元音是c，所以后面的区域是harist.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

stemming

linguistics

porterstemmer

snowball

雪球词干：定义区域的相关文章

训练新的 AutoTokenizer 拥抱脸部

收到此错误 AttributeError GPT2Tokenizer 对象没有属性 train new from iterator 与拥抱面部文档非常相似我更改了输入就是这样不应该影响它有一次就成功了 2小时后回来查看发现并没有
如何获取与某个单词相关的相似单词？

我正在尝试解决一个 nlp 问题其中我有一个单词字典例如 list 1 phone android chair netflit charger macbook laptop sony 现在如果输入是 phone 我可以轻松地使用 in
日期自然语言解析器（.NET）？

我希望能够让用户使用自然语言例如下周五每个工作日输入日期包括重复日期很像以下的例子http todoist com Help timeInsert http todoist com Help timeInsert I found
为 postgresql 全文搜索添加新语言

有没有办法向 postgresql 全文搜索添加新语言我可以从哪里阅读或从哪里开始你可以看看这个a link http www postgresql org docs 9 4 static textsearch dictionaries
Keras 文本预处理 - 将 Tokenizer 对象保存到文件中以进行评分

我按照以下步骤大致使用 Keras 库训练了一个情感分类器模型使用 Tokenizer 对象类将文本语料库转换为序列使用 model fit 方法构建模型评估这个模型现在为了使用此模型进行评分我可以将模型保存到文件中并从文
word2vec gensim 多种语言

这个问题完全超出了我的想象我正在使用 gensim 训练 Word2Vec 模型我提供了多种语言的数据即英语和印地语当我试图找到最接近人的词时我得到的是 model wv most similar positive man O
波特词干算法实现问题？

我正在尝试实现波特词干算法但我陷入了这一点 Step 1b m gt 0 EED gt EE feed gt feed agreed gt agree v ED gt plastered gt plaster bled gt bled v
word2vec中单词的向量代表什么？

word2vec https code google com p word2vec 是 Google 的开源工具它为每个单词提供一个浮点值向量它们到底代表什么还有一篇论文关于段落向量 http cs stanford edu quoc
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
python 中单词的动名词形式

我想获得字符串的动名词形式我还没有找到调用库来获取动名词的直接方法我应用了以 ing 结尾的单词的规则但是因为异常导致我收到了一些错误然后我检查 cmu 单词以确保生成的动名词单词正确代码如下 import cmudict im
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
将单引号替换为双引号并排除某些元素

我想用双引号替换字符串中的所有单引号但出现的情况除外例如 n t ll m 等 input the stackoverflow don t said hey what output the stackoverflow don t sai
将 python NLTK 解析树保存到图像文件[重复]

这个问题在这里已经有答案了这可能会复制这个 stackoverflowquestion https stackoverflow com questions 23429117 saving nltk drawn parse tree to
实时跟踪每分钟/小时/天的前 100 个 Twitter 单词

我最近遇到这样一个面试问题 Given a continuous twitter feed design an algorithm to return the 100 most frequent words used at this min
python中的语音识别持续时间设置问题

我有一个 Wav 格式的音频文件我想转录我的代码是 import speech recognition as sr harvard sr AudioFile speech file wav with harvard as source
阻止斯坦福核心 NLP 服务器输出它收到的文本

我正在运行一个斯坦福核心自然语言处理 http stanfordnlp github io CoreNLP server java mx4g cp edu stanford nlp pipeline StanfordCoreNLPServe
如何在Python中使用多处理来加速循环执行

我有两个清单列表 A 包含 500 个单词列表 B 包含 10000 个单词我正在尝试为列表 A 找到与 B 相关的相似单词我正在使用 Spacy 的相似函数我面临的问题是计算需要很长时间我是多处理使用的新手因此请求帮助如何
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
除非 POS 显式，否则 WordNetLemmatizer 不会返回正确的引理 - Python NLTK

我正在对 Ted 数据集成绩单进行词形还原我注意到一些奇怪的事情并非所有单词都被词形还原要说的是 selected gt select 哪个是对的然而 involved gt involve and horsing gt horse

随机推荐

为什么 JavaScript 中 (true > null) 总是返回 true？

有人能告诉我为什么下面的代码在 JavaScript 中返回 true 吗 console log true gt null returns true null就好像false在这种情况下即0作为一个数字 true is 1作为一个数字
C++自由实现“有界优先级队列”

我正在寻找一个免费软件实现有界优先级队列C 中的抽象基本上我需要一个数据结构其行为就像std priority queue但始终保持着最好的 n最多元素 Example std vector
mysql 在where条件下使用按列分组

我怎样才能使这个查询工作 SELECT column1 SUM Hits AS Hits FROM table WHERE SUM Hits gt 100 GROUP BY column1 问题出在where子句上 mysql显示错误 Er
列出 git post-merge hook 中更改的文件

有没有办法让合并后挂钩获取合并更改的所有文件的列表即使它是快进列出已更改文件的正确 Git 命令是diff tree https git scm com docs git diff tree 还有ORIG HEAD and HEAD 捷
Tensorboard（PyTorch）add_graph 中的错误

我正在关注这个 Pytorch 的张量板 https pytorch org docs stable tensorboard html文档我有以下代码 model torchvision models resnet50 False wri
使用 SSIS 2008 将 Excel 导入 SQL 时跳过行

我需要导入如下所示的工作表 March Orders Empty Row Week Order Date Cust 3 1 271356 3 3 10 010572 3 1 280353 3 5 10 022114 3 1 290822 3
检测 Windows 进程和应用程序是否正在运行

我正在调查是否有一种方法可以以编程方式检查某个进程是否作为进程运行在运行的 exe 列表中 AND作为打开的应用程序即在任务栏上并根据结果采取行动另外有没有办法以编程方式终止进程OR正在运行的应用程序我们正在该服务器上运行 WA
WordPress URL 不返回 404 页面

在遭受黑客攻击后我需要一些有关 WordPress 的帮助我已经彻底清除了黑客攻击谷歌也删除了该网站可能被黑客入侵 flag 黑客向 Google 提交了大量 URL 其中每个有效 URL 的末尾都包含一个随机字符串这些在谷歌搜索
使用通用约束时如何使用继承

当我尝试实现一个允许继承的库并希望有人可以提供帮助时我正在努力解决一些通用约束问题我正在尝试构建一个具有 3 种风格的类库每种风格都构建在另一种之上对我来说这似乎是使用泛型的绝佳机会因为我无法通过纯继承来做我想做的事情代码如下
Linq & String.ToLower() 奇怪的行为

我在服务器端有一个查询它从邮政编码表中返回不同城市的列表我正在使用 WCF RIA 服务以下查询成功返回 228 个城市provincename public IQueryable
OS X 中的 GNU 链接器等效命令

我正在阅读下面的书 http www cs bham ac uk exr lectures opsys 10 11 lectures os dev pdf关于操作系统在第 43 页中他们使用以下命令将带注释的机器代码转换为原始机器代码文
如何将 3 个 DIV 彼此对齐？

我需要在页脚容器 DIV 中创建 3 个 DIV 分别左对齐中对齐和右对齐我见过的所有 CSS 示例都像我一样使用了浮动但是由于某种原因 DotNetNuke 无法正确解析 CSS 我发现左侧窗格正确浮动但右侧和中间窗格位于其正下
验证可执行文件的 Authenticode 签名时内存泄漏？

我在用Win验证信任 http msdn microsoft com en us library aa388208 v VS 85 aspx使用以下函数验证某些 Windows 可执行文件的有效性该函数在循环中调用 tmain int s
Vue JS 将数据从父级传递给子级的子级

在Vue js中如何正确地将数据从父组件传递到多级子组件链您有几个选择 Props https v2 vuejs org v2 guide components props html 活动总线 https css tricks com
在 Python 中停止 Lambda 函数

在某个函数内我想停止整个 Lambda 进程但不触发错误我尝试查看上下文变量来阻止它或只是调用exit 但每次它都被视为我不想跟踪的错误如何在 Python 中成功结束 Lambda 进程在 AWS Lambda 中您定义一个h
Vim 缓冲区已被修改[重复]

这个问题在这里已经有答案了我正在尝试实施一个AutoCmd在 Vim 中需要在当前缓冲区被修改时执行我已阅读所有可用的事件AutoCmd在文档中但找不到有助于确定缓冲区何时被修改的内容这并不一定意味着写入缓冲区时因为我需要触发
分配器感知的容器分配是如何实现的？

例如从std deque 运算符在 C 参考中 1 复制分配 const std deque 及其他将内容替换为其他内容的副本如果 std allocator traits propagate on container copy a
如何创建接口的匿名实现？

我有一个界面 interface TileSet fun contains x Int y Int Boolean 我希望能够创建瓦片集的并集瓦片是一对 x 和 y 整数坐标 fun TileSet union another TileS
.pyc 文件何时刷新？

据我所知 pyc 文件是纯文本 py 文件的编译版本在运行时创建以使程序运行得更快然而我观察到了一些事情修改 py 文件后程序行为会发生变化这表明 py 文件已编译或者至少经过某种哈希处理或比较时间戳以便判断是否应该重新编译它
雪球词干：定义区域

我试图理解雪球词干算法该算法使用两个区域 R1 和 R2 定义如下 R1 是元音后面的第一个非元音之后的区域或者是如果没有这样的非元音则为单词末尾的空区域 R2 是 R1 中元音后面的第一个非元音之后的区域或者是单词末尾的空区域

雪球词干：定义区域

雪球词干：定义区域 的相关文章

随机推荐

热门标签

雪球词干：定义区域的相关文章