使用 R 将复数转换为单数

2024-02-07

如何使用 R 将语料库中的复数文本转换为单数 我正在尝试“tm”包,但我找不到任何功能。 我尝试过这个函数,但这不能应用于语料库。

aggregate.plurals <- function (v) {
  aggro_fen <- function(v, singular, plural) {

    if (! is.na(v[plural])) {
      v[singular] <- v[singular] + v[plural]
      v <- v[-which(names(v) == plural)]
    }
    return(v)
  }
  for (n in names(v)) {
    n_pl <- paste(n, 's', Sep='')
    v <- aggro_fen(v, n, n_pl)
    n_pl <- paste(n, 'es', Sep='')
    v <- aggro_fen(v, n, n_pl)
  }
  return(v)
}

如果您正在进行文本分析,您可能会在更广泛的上下文中寻找单词转换,而不仅仅是单数-复数。这将是词干提取,您可以通过“tm_map”函数直接在 tm 语料库上使用“SnowballC”中的“stemDocument”函数

reut21578 <- system.file("texts", "crude", package = "tm")
reuters <- VCorpus(DirSource(reut21578, mode = "binary"), readerControl = list(reader = readReut21578XMLasPlain))
tm_map(reuters, stemDocument)

来源:tm介绍论文https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 R 将复数转换为单数 的相关文章

  • R 中按时间划分的平均值

    我每秒测量一次化合物浓度 我想求 30 秒和 60 秒的平均值 我一直在阅读这里的帖子 我尝试过lubridate and dplyr 但没有运气 我正在努力完成这项工作 但我一直没能做到 我正在从 SAS 过渡到 R 所以请耐心等待 这是
  • dplyr 返回每个组的全局平均值,而不是每个组的平均值

    有人可以解释一下我在这里做错了什么 library dplyr temp lt data frame a c 1 2 3 1 2 3 1 2 3 b c 1 2 3 1 2 3 1 2 3 temp gt group by temp 1 g
  • 将第 N 行上的 NA 行插入 data.frames 列表,其中 N 来自列表

    经过几个小时后 我发现自己无法解决以下问题 我有一个数据框列表 我想分别向每个 DF 插入 而不是替换 一行或多行 NA 始终至少一行 要插入的 NA 数量存储在单独的列表中 为了说明这一点 我有以下两个列表 list of datafra
  • 如何在knitr和RStudio中为word和html设置不同的全局选项?

    我正在使用 RStudio 0 98 932 和 knitr 1 6 想要为word和html设置不同的全局knitr选项 例如 想要将word的fig width和fig height设置为6 html的fig width和fig hei
  • R 中两个时间戳之间的左连接

    我的目标是执行左连接intervals哪里的bike id比赛和created at时间戳在records在 之间start and end in the intervals table gt class records 1 data ta
  • 访问或解析 R 中的 summary() 中的元素

    我运行以下 R 命令来进行 Dunnett 测试并获取摘要 如何访问下面线性假设的每一行 这是摘要输出的一部分 基本上我不知道摘要的结构 我尝试使用名称 但它似乎不起作用 因为我没有看到任何命名属性来提供这一点 library multco
  • 需要在R中按行绑定列表数据

    我在 R 中按行绑定列表时遇到问题 我的列表数据集是 id 1 data k 1 id k b c 1 1 1 3 data k 2 id k b c 1 2 1 4 id 2 data k 1 id k b c 2 1 1 6 data
  • 在R中循环子文件夹

    我正在 R 环境中包含多个子文件夹的文件夹中工作 我想要循环遍历多个子文件夹 然后在每个子文件夹中调用 R 脚本来执行 我想出了下面的代码 但我的代码似乎添加了 到子文件夹列表 我收到错误 文件中的错误 文件名 r 编码 编码 无效的 描述
  • 如何在 Shiny 中提取动态生成的输入值?

    我正在创建一个闪亮的应用程序 它将根据客户的不同功能为客户生成分数 在我闪亮的应用程序中 我提供了 checkboxGroupInput 来选择所需的功能 根据所选功能 应用程序将动态地将 numericInput 添加到 Web ui 以
  • 如何按时间间隔匹配数据帧?

    这是我从数据记录器导入原始数据时经常出现的问题 温度记录仪设置为每十分钟记录一次温度 单独的气体记录仪设置为记录最后十分钟间隔内使用的气体 我想将这两个记录器的数据合并到一个数据框中进行绘图和分析 但时间并不完全一致 我希望每十分钟的时间段
  • 多个动态滤镜更新闪亮

    我希望能够让 UI 输入闪亮 并根据用户之前的选择进行自我更新 因此 在下面的示例中 预期的行为是用户选择cyl vsor carb那么这将 过滤数据集mtcars用于创建绘图 即用户根据过滤条件调整绘图并 更新其他过滤器中的剩余输入选择
  • 行对名称中具有特定模式的列求和

    我有一个像这样的数据表 DT lt ata table data table ref rep 3L 4L nb 12 15 i1 c 3 1e 05 0 044495 0 82244 0 322291 i2 c 0 000183 0 155
  • 更新 R6 对象实例中的方法定义

    如何更新 R6 类实例的方法定义 正如我所期望的 S3 使用当前的方法定义 对于 R5 参考类 我可以使用 myInstance myInstance copy 在 R6 中 我尝试了 myInstance myInstance clone
  • 在 Shiny 中显示反应式 htmlTable 表格

    我正在制作我的第一个 Shiny 应用程序 但找不到任何有关如何显示使用 htmlTable 包创建的表格的示例 我基本上想在按下按钮时创建一个表格并显示它 Shiny 显示 html 代码而不是表格 我不知道用什么替换服务器部分中的 re
  • R在Windows平台Rstudio上打印data.frames中的UTF-8代码

    当数据框中存在UTF 8字符时 将无法正常显示 例如 以下内容是正确的 gt U6731 1 朱 但是当我将其放入数据框中并打印出来时 它是 gt data frame x U6731 x 1
  • data.table 抛出“找不到对象”错误[重复]

    这个问题在这里已经有答案了 我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时 我可以让它工作 但当我在调试器中或在包测试中使用它时却无法工作 问题是我
  • dplyr:连接中的 NSE (by)

    我很难弄清楚如何使用 dplyr left join 和 NSE 连接两个表 问题是我无法为 by 提供正确的值 我想我现在已经找到了解决方案 但感觉我正在以一种额外复杂的方式来做 因此 如果您知道更简单 更优雅的解决方案 请告诉我 这就是
  • 要在子集中显示的非数字条目的维恩图

    我有以下数据框 SET1 SET2 SET3 par1 par2 par1 par2 par3 par2 par3 par4 par5 我想制作一个维恩图 其中所有这些 parX 元素都显示在各自的子集中 即作为标签 而不仅仅是重叠元素的数
  • 当将遗传算法与 lme4 一起使用时,glmulti 无限期运行

    我在 R 中使用 glmulti 进行模型平均 我的模型中有大约 10 个变量 使得详尽的筛选不切实际 因此我需要使用遗传算法 GA 调用 method g 我需要包含随机效应 因此我使用 glmulti 作为 lme4 的包装器 此处提供
  • ggplot:如何限制条形图中的输出,以便仅显示最频繁出现的情况?

    我几个小时以来一直在寻找这个简单的东西 但没有结果 我有一个数据框 其中一列为变量 国家 地区 我想要两件事以下 绘制最常见的国家 地区 最常见的位于顶部 找到部分解决方案EDIT找到完整的解决方案 gt gt 重点问题是根据频率限制条形图

随机推荐

  • 是否应该包装类型提供程序包含在类中具有副作用的值?

    我正在尝试在我的代码中实现以下出色的建议F coding conventions page https learn microsoft com en us dotnet fsharp style guide conventions http
  • 停止监听更多监听器事件

    我听onGlobalLayoutListener如下面的代码所示 我只想听一次 一次onGlobalLayout 叫做我不想再听了 我尝试使用removeOnGlobalLayoutListener 方法 但这会发出警告调用所需的 API
  • PostgreSQL:从列值添加时间间隔到时间戳

    我需要添加来自带有时间戳的整数列的分钟以与另一列进行比较 这是一个例子 SELECT t1 id liame t1 id table t1 periodicidade t3 data extracao CASE WHEN NOW lt e
  • 获取表的最大 ID 行

    我的问题是如何获取表的最大 id 行 我正在使用 max 函数 但给我一个错误 这是我的代码 public static long getLastIdQuotaAdded Context context long id Cursor cur
  • Linux 中的管道如何工作?

    管道如何工作 如果我通过 CLI 运行一个程序并将输出重定向到一个文件 我是否能够在写入该文件时将该文件通过管道传输到另一个程序中 基本上 当一行写入文件时 我希望它立即通过管道传输到我的第二个应用程序 我正在尝试从现有程序动态绘制图表 只
  • 在 Symfony2 的配置中动态设置 BaseUrl

    我知道在 Symfony2 的配置中 没有对基本 url 的引用 因为没有请求 该应用程序可以在 cli 中运行 也可以在 Web 服务器中运行 因此我们不能依赖请求 但是 我仍然有要求样式表或 javascript 基本 url 的配置
  • 向现有用户发送验证电子邮件

    我正在开发一个具有现有用户群的网络应用程序 电子邮件验证最初并未在登录流程中实现 我已经成功添加了为所有新注册发送验证电子邮件的代码 但我还想制作一个小页面 or modal 其中将向当前用户显示一个按钮 该按钮会将验证链接发送到他们的收件
  • 文件嵌套不适用于类或共享库项目

    在 Visual Studio 2019 Web 项目中 解决方案资源管理器中的文件嵌套就像一个魅力 如果您添加一个名为ClassA cs和另一个名为ClassA Custom cs它们按照应有的方式嵌套 但对于类或共享库项目它根本不起作用
  • 字符串的排列

    public class Permute public static void main String args throws IOException System out println Enter a string BufferedRe
  • 使用 Python 的 SES 附件

    我正在使用 python 2 7 和 boto3 我无法找到在 python 中向 SES 添加附件的方法 我发现的最接近的东西是这一页 https gist github com yosemitebandit 2883593 到目前为止我
  • React Native 中的倒置边框视角半径

    我尝试搜索与倒置边框半径相关的大量内容以在本机反应中查看 但没有找到任何内容 请找到下面的图片以供参考 尝试使用 2 个视图 一个视图包裹在另一个视图下并实现相同的效果 因为在 React Native 中仍然不支持倒置的 borderra
  • ajax html响应中的asp.net eval脚本

    我正在使用更新面板 我的回复有一些如下所示的 JavaScript 成功响应后 我需要评估它 加载它 使用外部脚本 例如 我的 html 响应 div test div div blah blah blah div 我不确定这个问题对您是否
  • Access 对于支持 unicode 的数据类型(例如 SQL Server 中的 nvarchar)是否有任何问题?

    我使用 Access 2003 作为 SQL Server 2008 数据库的前端 UI 在查看我的 SQL Server 数据库设计时 我想知道 nvarchar 是否是使用 varchar 的正确选择 我选择 nvarchar 是因为我
  • 如何更改GENYMOTION屏幕方向?

    是否可以更改 genymotion 模拟器的方向 是否有快捷方式或设置可以更改此设置 我尝试用谷歌搜索但没有找到 任何建议将不胜感激 谢谢 两种方式 侧边栏中的按钮 CTRL F11 编辑 如果它不起作用 那肯定是因为前台应用程序被方向锁定
  • 将 HTML 添加到 JQuery Isotope additems/insertitems 第 2 部分

    继自 将 HTML 添加到 JQuery Isotope additems insertitems https stackoverflow com questions 34595074 adding html to jquery isoto
  • Serilog - 如何自定义滚动文件名中的日期?

    在 Serilog 中 您可以轻松启用滚动日志文件 Log Logger new LoggerConfiguration WriteTo File log txt rollingInterval RollingInterval Day Cr
  • PostgreSQL 单个查询执行不是原子的吗? [复制]

    这个问题在这里已经有答案了 在我的 postgresql 数据库中 我有一个表 my table 其主键位于列 a b 上 我编写了下面的查询以插入到该表中 以确保永远不会违反主键约束 INSERT INTO my table a b c
  • 如何在 VSTS Graph api 组列表查询中使用scopeDescriptor 和 subjectTypes?

    我正在尝试按名称解析特定的 VSTS 组以检索 IdentityDescriptor 属性 我不想查询所有组和过滤器 而是想利用支持的查询参数 看着VSTS 组 列表 API https learn microsoft com en us
  • 多线程单例 WCF 服务

    Juval Lowry 在他的 WCF 服务编程 一书中表达了对使用单例服务的担忧 因为它会影响性能 在我的一个项目中 我使用的是无状态单例 WCF 服务 声明如下 ServiceBehavior InstanceContextMode I
  • 使用 R 将复数转换为单数

    如何使用 R 将语料库中的复数文本转换为单数 我正在尝试 tm 包 但我找不到任何功能 我尝试过这个函数 但这不能应用于语料库 aggregate plurals lt function v aggro fen lt function v