R 中的基本词干提取代替根词干提取

2024-02-29

有没有什么方法可以在 R 中使用 NLP 来获取词干而不是根词？

Code:

> #Loading libraries
> library(tm)
> library(slam)
> 
> #Vector
> Vec=c("happyness happies happys","sky skies")
> 
> #Creating Corpus
> Txt=Corpus(VectorSource(Vec))
> 
> #Stemming
> Txt=tm_map(Txt, stemDocument)
> 
> #Checking result
> inspect(Txt)
A corpus with 2 text documents

The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
  create_date creator 
Available variables in the data frame are:
  MetaID 

[[1]]
happi happi happi

[[2]]
sky sky

>

我可以使用 R 获得“幸福快乐”的基本词“happy”（基本词）而不是“happy”（根词）吗？

您可能正在寻找词干分析器。这里有一些词干来自CRAN 任务视图：自然语言处理 http://cran.r-project.org/web/views/NaturalLanguageProcessing.html:

RWeka http://cran.r-project.org/web/packages/RWeka/index.html是 Weka 的接口，Weka 是用 Java 编写的用于数据挖掘任务的机器学习算法的集合。在自然语言处理环境中特别有用的是其标记化和词干提取功能。
Snowball http://cran.r-project.org/web/packages/Snowball/index.html提供 Snowball 词干分析器，其中包含 Porter 词干分析器和其他几种针对不同语言的词干分析器。有关详细信息，请参阅 Snowball 网页。
Rstem http://cran.r-project.org/web/packages/Rstem/index.html是波特词干算法的 C 版本的替代接口。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

NLP

stemming

R 中的基本词干提取代替根词干提取的相关文章

将第 N 行上的 NA 行插入 data.frames 列表，其中 N 来自列表

经过几个小时后我发现自己无法解决以下问题我有一个数据框列表我想分别向每个 DF 插入而不是替换一行或多行 NA 始终至少一行要插入的 NA 数量存储在单独的列表中为了说明这一点我有以下两个列表 list of datafra
如何在knitr和RStudio中为word和html设置不同的全局选项？

我正在使用 RStudio 0 98 932 和 knitr 1 6 想要为word和html设置不同的全局knitr选项例如想要将word的fig width和fig height设置为6 html的fig width和fig hei
一段 R 代码会影响 foreach 输出中的随机数吗？

我使用运行模拟foreach and doParallel并与随机数名为random在代码中简而言之我模拟一个足球联赛随机生成所有比赛的获胜者以及相应的结果在dt base没有比赛进行在dt ex1 and dt ex24场比赛
从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
如何在 R 中合并同名列表中的数据框？

我有一个包含很多数据框的列表如果它们具有相同的名称我想合并它们即合并所有具有相同名称 a 和 b 的数据框像这样 a lt aaaaa b lt bbbbb c lt ccccc g lt list df1 lt data fram
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
将字符串列拆分为多个虚拟变量

作为 R 中 data table 包的相对缺乏经验的用户我一直在尝试将一个文本列处理为大量指示符列虚拟变量每列中的 1 表示特定的子字符串是在字符串列中找到例如我想处理这个 ID String 1 a b 2 b c 3 c 进入
将 ftransform 与折叠 R 包中的 fgroup_by 一起使用

我正在尝试重现以下输出dplyr代码与R包裹collapse dplyr Code library tidyverse starwars gt select name mass species gt group by species gt
R - 计算 bin 中特定值的数量

我有一个如下所示的数据框 df Value lt c 1 1 0 2 1 3 4 0 0 1 2 0 3 0 4 5 2 3 0 6 Sl lt c 1 20 df lt data frame Sl Value gt df Sl Value
Quantmod 的简单功能不再起作用

我明天要交论文我收到了一条关于 quantmod 的非常奇怪的错误消息这是我在过去几周使用这个包时从未遇到过的我无法导入特定于道琼斯指数 DJI 的数据我收到以下错误消息 getSymbols DJI src yahoo from
purrr::可能函数可能无法与map2_chr函数一起使用

我怀疑这是 purrr 包中的错误但想先在 StackOverflow 中检查我的逻辑在我看来 possibly功能在内部不起作用map2 chr功能我正在使用 purrr 版本 0 2 5 考虑这个例子 library dplyr
正态分布平均值的贝叶斯推理玩具 R 代码 [降雪量数据]

我有一些降雪观测 x lt c 98 044 107 696 146 050 102 870 131 318 170 434 84 836 154 686 162 814 101 854 103 378 16 256 我被告知它遵循正态分布
R 闪亮仪表板中的动态重复条件面板

我正在尝试创建一个动态条件面板所以我的条件如下在用户界面中输入 selectInput inpt Input Number seq 1 50 1 selectize FALSE 我的条件面板 UI 输入是 conditionalPane
需要在R中按行绑定列表数据

我在 R 中按行绑定列表时遇到问题我的列表数据集是 id 1 data k 1 id k b c 1 1 1 3 data k 2 id k b c 1 2 1 4 id 2 data k 1 id k b c 2 1 1 6 data
如何按用户定义（例如非字母顺序）对数据框进行排序[重复]

这个问题在这里已经有答案了给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch
如何在 R 中执行近似（模糊）名称匹配

我有一个专门用于生物学期刊的大型数据集该数据集是由不同的人长时间编写的因此数据不采用单一格式例如在作者栏中我可以找到John Smith Smith John Smith J等但它们是同一个人我连最简单的动作都做不了例如
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
在r中的某个阈值处破坏 cumsum() 函数

例如我有以下代码 cumsum 1 100 我想打破它如果一个元素 i 1 大于3000 我怎样才能做到这一点因此而不是这个结果 1 1 3 6 10 15 21 28 36 45 55 66 78 91 105 120 136 15
在网格中制作一个矩形图例，并标记行和列

我有一个 ggplot 我将因子映射到填充和 alpha 如下所示 set seed 47 the data lt data frame value rpois 6 lambda 20 cat1 rep c A B each 3 cat2
使用选定因子水平的值向 ggplot-barchart 添加水平线

在这个情节中 df lt data frame factor as factor c rep A 3 rep B 3 Treatment c rep c A B C 2 values runif 6 0 1 ggplot df aes Tr

随机推荐

使用 JavaScript 调整图像大小并保存到磁盘

我试图将由 JavaScript 完成的调整大小的图像上传到服务器所以我尝试使用调整大小的图像设置文件输入后来我才知道除非用户选择文件否则我们无法更改文件输入 https stackoverflow com questions 169
如何在服务器上定位Sharepoint文档库源页面？

我正在使用 Sharepoint 文档库并且正在尝试查找文档库页面的源我正在 Sharepoint 服务器上工作我就是找不到它它应该存放在哪里谢谢你 SharePoint 不会将页面直接存储在文件系统中该机制有点不那么简单要了
多线程游戏 - 更新、渲染以及如何拆分它们

所以我正在开发一个游戏引擎并且已经取得了很好的进展然而我的引擎是单线程的将更新和渲染分成单独的线程的优点听起来是一个非常好的主意我该怎么做单线程游戏引擎概念上非常容易制作你有一个更新 gt 渲染 gt 睡眠 gt 重复的
Docker：b'json：无法将数字解组到字符串类型的 Go 结构字段 LogConfig.Config 中

我在 docker compose 中将我的应用程序配置为使用轮换日志遵循以下站点中的操作 https medium com Quigley Ja rotating docker logs keeping your overlay fol
Maven资源过滤

我想将构建信息写入属性文件我找到了 Maven 资源过滤插件这就是我的 pom 相关部分的样子
如何应用结构来对视图控制器操作的数据进行建模

我尝试在应用程序设计中更多地采用 Swift 的值类型但我遇到了一些初学者困难我知道那些基于意见的 StackOverflow 格式通常不太受欢迎但我认为这里有可能不是特别主观的最佳实践我理解结构的所有理论上的好处关于避免共享可变
无法绑定到“ngForOf”，因为它不是 Angular 9 中“tr”的已知属性

ngFor在我的应用程序中不起作用我将我的应用程序分成单独的模块并包含import CommonModule from angular common 进入我的子模块并import BrowserModule from angular pl
将常量呈现到 XML 文档中？

我有 2 个私有常量和一个公共方法 private const byte minAge 24 private const byte maxAge 29 public bool IsInAgeRange 我正在添加 XML 文档并且希望我的
TFSBuild 命令行 / vNext 2015

前提我认为这是 TFS 2015 中的错误缺失功能当我使用 TFS 网站创建新的构建非 xaml 定义时我无法使用命令行调用它TFSBuild start命令如果我创建标准 XAML 定义我可以使用命令行启动它知道命令行是否
Flyway并发迁移

我们有许多项目在许多服务器上运行并查找一个数据库我们正在考虑为每个项目设置 Flyway 来控制我们的数据库结构但是我们担心并发迁移问题如果某些项目在同一时间重新部署当然我们总是关心sql语法中的如果存在的事情当同一数据表
Laravel 更改输入值

在 Laravel 中我们可以通过以下方式获取输入值Input get inputname 我尝试通过这样做来改变值Input get inputname new value 但后来我收到错误消息说Can t use function
处理包含多行的 Excel 文件时出现错误 502

处理包含多行的 Excel 文件时出现错误 502 使用 Django Nginx 问题不在于文件的大小小于 1Mb 此页面可以正常处理 200 行的文件当文件有更多行时问题就会出现然后页面处理此文件的时间太长这是错误 2012 07
将图例移动到 ggplot2 的底部[重复]

这个问题在这里已经有答案了我创建了以下热图如果您注意到群组的图例位于右侧且垂直放置如何将图例移动到底部以便为 X 轴变量月份 M0 到 M55 提供更多空间此外您会注意到 X 轴元素重叠因此不清楚图表的输出 cohort c
拆分 pandas DataFrame 元素中的字符串并重新组合列表的一部分

我试图弄清楚如何在 pandas 元素中拆分字符串然后重新组合拆分字符串的一部分我有以下代码 import pandas as pd df pd DataFrame code PC001 S002 D CFI4 1 NN PC001 S
.NET 控制台应用程序中的 Thread.CurrentPrincipal

这是我在命令提示符下运行的一个简单的控制台应用程序 using System using System Threading namespace Test internal class Runner STAThread static void
如何在.Net core控制台应用程序中使用依赖注入

我必须使用控制台应用程序将数据添加到我的数据库中在 Main 方法中我添加了 var services new ServiceCollection var serviceProvider services BuildServiceProv
在android客户端中获取socket.io响应，但无法理解如何在回收器适配器中实现响应

我正在开发一个实时聊天 Android 应用程序我需要连接 socket io 以获得实时响应我按照这个教程进行操作 https socket io blog native socket io and android https soc
Node.js /express：立即响应客户端请求并继续 nextTick 中的任务

我想将服务器高消耗 CPU 任务与用户体验分开 main js var express require express var Test require resources test var http require http var ma
从 iCloud 下载 iPhone 备份

有谁知道如何以编程方式从 iCloud 下载 iPhone iPad 备份 None
R 中的基本词干提取代替根词干提取

有没有什么方法可以在 R 中使用 NLP 来获取词干而不是根词 Code gt Loading libraries gt library tm gt library slam gt gt Vector gt Vec c happyness

R 中的基本词干提取代替根词干提取

R 中的基本词干提取代替根词干提取 的相关文章

随机推荐

热门标签

R 中的基本词干提取代替根词干提取的相关文章