如何手动设置语料库中的文档ID？

2023-12-01

我正在从数据帧创建 Copus。我将其作为VectorSource因为我只想将一列用作文本源。这可以找到，但是我需要语料库中的文档 ID 来匹配数据帧中的文档 ID。文档 ID 存储在原始数据框中的单独列中。

df <- as.data.frame(t(rbind(c(1,3,5,7,8,10), 
                        c("text", "lots of text", "too much text", "where will it end",         "give peas a chance","help"))))
colnames(df) <- c("ids","textColumn")
library("tm")
library("lsa")
corpus <- Corpus(VectorSource(df[["textColumn"]]))

运行此代码会创建一个语料库，但文档 ID 的范围是 1-6。有没有办法创建文档 ID 为 1,3,5,7,8,10 的语料库？

我知道对于 @user1098798 来说可能已经晚了，但是有一种方法可以在创建语料库时直接指定 ids。您需要将数据加载为DataframeSource()并将映射添加到列：

corpus = VCorpus(DataframeSource(df), readerControl = list(reader = readTabular(mapping = list(content = "textColumn", id = "ids"))))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tm

如何手动设置语料库中的文档ID？的相关文章

R data.table fwrite 到 fread 空间分隔符并清空

我在使用 fread 以作为分隔符和散布的空白值时遇到问题例如这个 dt lt data table 1 5 1 5 1 5 make a simple table dt 3 V2 NA add a blank in the midd
rvest 和 NHL 统计数据的 CSS 选择器问题

我想从 hockey reference com 中抓取数据特别是从以下链接中抓取数据 https www hockey reference com leagues NHL 1991 html https www hockey refer
使用 RDCOMClient 搜索 Outlook 收件箱

我尝试使用 RDCOMClient 在 Outlook 收件箱中搜索电子邮件中的特定主题然后获取附件我在一封电子邮件上进行了这项工作但由于主题包含日期元素我需要搜索成为一个类似的子句但不太清楚这适合我的下面的查询 outlook
使用 pkg:sjPlot 函数创建一个生成部分斜体单元格的数据框

我正在尝试创建一个简单的数据表其中 Coral taxon 列中的属名称为斜体而 spp 列中的属名称为斜体属名后面的部分不大写我尝试使用 expression 函数对 Coral taxon 的每一行进行编码但没有成功 sum
如何在 R 中绘制一列与其余列的关系图

我有一个数据集其中 1 是时间接下来的 14 个是幅度我想在一张图表上散布所有大小与时间的关系其中每个不同的列都是网格化的分层在另一个之上我想使用原始数据来制作这些图表并单独制作它们但只想执行此过程一次数据集A 唯一的自变
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
R 中按时间划分的平均值

我每秒测量一次化合物浓度我想求 30 秒和 60 秒的平均值我一直在阅读这里的帖子我尝试过lubridate and dplyr 但没有运气我正在努力完成这项工作但我一直没能做到我正在从 SAS 过渡到 R 所以请耐心等待这是
跟踪循环迭代

抛硬币成功你赢100 否则你输50 你会一直玩直到你口袋里有钱a 的价值如何a在任何迭代中都被存储 a lt 100 while a gt 0 if rbinom 1 1 0 5 1 a lt a 100 else a lt a 50
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
如何添加链接以从我的 R闪亮应用程序在新窗口中打开 pdf 文件？

我可以使用 a 从我的 Shiny 应用程序添加到外部站点的超链接 a google href http www google com 但如何创建一个链接来打开 pdf 或类似文件看起来应该很简单但我找不到任何例子我的问题与此类似
从 n,k 维矩阵数组中减去 n,k 维矩阵

如果我有一个数组A A lt array 0 c 4 3 5 for i in 1 5 set seed i A i lt matrix rnorm 12 4 3 如果我有矩阵 B set seed 6 B lt matrix rnorm
将字符串列拆分为多个虚拟变量

作为 R 中 data table 包的相对缺乏经验的用户我一直在尝试将一个文本列处理为大量指示符列虚拟变量每列中的 1 表示特定的子字符串是在字符串列中找到例如我想处理这个 ID String 1 a b 2 b c 3 c 进入
将 ftransform 与折叠 R 包中的 fgroup_by 一起使用

我正在尝试重现以下输出dplyr代码与R包裹collapse dplyr Code library tidyverse starwars gt select name mass species gt group by species gt
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
R - 计算 bin 中特定值的数量

我有一个如下所示的数据框 df Value lt c 1 1 0 2 1 3 4 0 0 1 2 0 3 0 4 5 2 3 0 6 Sl lt c 1 20 df lt data frame Sl Value gt df Sl Value
使用officer R导出时如何提高ggplots的分辨率

我想将图表导出到 PPT 并使用Officer 包来实现相同的目的但是图表的默认分辨率较低我想更改它我目前正在使用以下电话 ph with gg p1 type chart res 1200 其中 p1 是 ggplot 对象运行
如何按时间间隔匹配数据帧？

这是我从数据记录器导入原始数据时经常出现的问题温度记录仪设置为每十分钟记录一次温度单独的气体记录仪设置为记录最后十分钟间隔内使用的气体我想将这两个记录器的数据合并到一个数据框中进行绘图和分析但时间并不完全一致我希望每十分钟的时间段
picker输入字体或背景颜色

我在闪亮的仪表板中使用 pickerInput 这很好除了一个问题背景颜色和字体颜色太相似使得过滤器选择难以阅读有什么办法可以改变背景或字体颜色吗如果可能的话我想继续使用 pickerInput 但如果有一个带有 selectI

随机推荐

如何枚举 IAsyncEnumerable 并为每个元素调用异步操作，从而允许每个迭代/操作对并发？

我有一个IAsyncEnumerable
在 ng-if/*ngIf 中使用函数调用是一个不好的做法吗？ [复制]

这个问题在这里已经有答案了在 ng if 中使用函数调用的返回值是一个不好的做法吗它会影响消化周期性能吗与视图中使用的任何表达式一样它将在每个摘要循环中重新评估以查看其值是否已更改从而确定是否必须删除该元素或将其添加到 DOM
在 React 中的组件之间共享数据

我正在开发一个使用 Meteor 和 React 作为视图引擎的应用程序考虑这个图 React 隐藏另一个示例中的组件当 C4 按钮单击事件被触发时我需要更改 C2 组件状态由于它们没有直接关系我无法直接从 C4 访问 C2 状态
寻找 FragmentStatePagerAdapter 的替代品

我想找到 FragmentStatePagerAdapter PagerFragment 的替代品因为我们都知道 FragmentStatePagerAdapter 至今仍处于崩溃状态我和 github 上已经进行了很多尝试来制作一些模
是否可以在 ARM (Android/Linux) 上的执行过程中更改字节序？

我想知道是否可以在 ARM 平台上更改正在运行的应用程序中间执行的字节序正如你们中的一些人所知 ARM 是双字节序支持大字节序和小字节序我想知道在 Android 或一般的 Linux 上是否可以设置单个应用程序在执行时使用不同的字节
启用适用于 Android 的 Places SDK 时出现问题 (google)

请帮忙当我单击 Places SDK For android 访问页面以启用时显示如下您没有足够的权限查看此页面追踪号码 4169288790274014457 有什么问题我应该怎么做才能启用这个API 谢谢无法启用 Place
HTML 和 XHTML 有什么区别？

注意这应该是这个问题的规范帖子已经存在许多答案但对各种差异的描述分散在各处而且通常他们还提供我应该使用哪一个的意见我将在这里避免这种情况如果您还有更多问题要问或者您知道更多差异请随时进行编辑 XHTML 和 HTML
如何让我的 Facebook 应用程序在安装后自动请求所需的权限

我正在使用 Facebook PHP SDK 2 1 2 我想做的就是几乎每个 Facebook 应用程序都具有req perms有安装时会弹出愚蠢的请求权限框我不想要用户必须按下的按钮我不希望出现弹出窗口我不想使用 FBML
将“this”和参数传递给 addEventListener 函数而不使用绑定

接下来禁用插件时引导插件中的删除事件监听器不起作用我正在探索其他可能性除了使用bind 并缓存绑定函数有没有办法使用 this 并传递参数 works fine but can t pass argeement contextMen
UITableView 滑动手势需要近乎完美的准确性

我正在为使用自定义 UITableViewCell 子类的 UITableView 开发自定义滑动事件我包括了UIGestureRecognizerDelegate在我的标题中并将其放入viewDidLoad UISwipeGestur
在 GNU 汇编器宏中引用操作数/参数

我目前正在尝试理解的概念汇编语言中的宏特别是在 GNU 汇编器中 IA 32 x86 的 AT T 语法我大学的幻灯片内容如下 How to define a macro macro write string movl string e
在 Magento 中通过 SOAP 将产品添加到购物车时设置自定义选项

我正在尝试使用购物车产品添加用于将具有自定义选项的产品添加到购物车的 SOAP API 下面是我为产品参数传递的数组我有一个自定义选项 id 1 下拉列表中的选定值 id 为 2 您可以查看产品在这里 array size 1 0 gt
Android 快捷方式位图启动器图标大小

我无法找到快捷方式的正确启动器图标大小在我的 Nexus 7 2 上 android R dimen app icon size 参见代码的值为 96 像素但如果我在我的主屏幕截图上测量其他应用程序的真实图标大小它是 120 像素
类型错误：$ 在 jquery 中未定义

我正在尝试在基于 WordPress 的网站上使用 jquery 中的 tabcordion 库 tabcordion javascript 文件正在排队并出现在 jquery 文件之后因此该位看起来不错 jquery 代码的开头是
SQL CLR - 从 2008 R2 迁移到 2012。

我在 SQL 2008 R2 上有一堆 SQL CLR 程序集这些程序集以 Net Framework 3 5 为目标鉴于 SQL 2008 支持 2 0 NET Framework 版本我假设 SQL 从系统 GAC 加载安全程序集
比较 mongo find 方法中的 2 个日期

我有 mongo 文档其中包含 last active 日期和创建日期我想搜索所有包含以下内容的文档daylast active 不等于day创建的但我不知道如何编写查询在 MySQL 中我会这样写 WHERE DATE FORMA
一键发布时：执行发布异常：已添加具有相同密钥的项目

我意识到有十亿人询问过这个错误但我已经查看了所有人我的好像不一样我没有收到任何类型的源代码错误没有堆栈跟踪也没有任何有用的信息因为在我的 MVC NET 项目上单击发布后立即发生错误它只是一个对话框仅此而已没有其他事情发
Powershell 可执行文件未输出到 STDOUT

来自 powershell 脚本带有nuget安装并在路径上我正在尝试执行可执行文件 net 如果这很重要但由于某种原因我无法在命令窗口中显示 STDOUT nuget install mdoc OutputDirectory pa
ES6 需要配置 webpack 吗？

我有一个 Angular 应用程序其中包含针对 ES6 的 tsconfig 文件 compileOnSave false compilerOptions allowJs true baseUrl outDir dist out tsc
如何手动设置语料库中的文档ID？

我正在从数据帧创建 Copus 我将其作为VectorSource因为我只想将一列用作文本源这可以找到但是我需要语料库中的文档 ID 来匹配数据帧中的文档 ID 文档 ID 存储在原始数据框中的单独列中 df lt as data fr

如何手动设置语料库中的文档ID？

如何手动设置语料库中的文档ID？ 的相关文章

随机推荐

热门标签

如何手动设置语料库中的文档ID？的相关文章