如何仅选择语料库术语的子集以在 tm 中创建 TermDocumentMatrix

2023-12-08

我有一个巨大的语料库，我只对我预先知道的少数术语的出现感兴趣。有没有办法使用以下方法从语料库创建术语文档矩阵tm包，其中只使用和包含我预先指定的术语？

我知道我可以对语料库的结果 TermDocumentMatrix 进行子集化，但由于内存大小限制，我想避免从构建完整的术语文档矩阵开始。

您可以通过构建自定义转换函数来修改语料库以仅保留所需的术语。请参阅小插图为tm package以及对的帮助content_transformer函数以获取更多信息：

library(tm)

# Create a corpus from the text listed below
corp = VCorpus(VectorSource(doc))

# Custom function to keep only the terms in "pattern" and remove everything else
(f <- content_transformer(function(x, pattern) 
  regmatches(x, gregexpr(pattern, x, perl=TRUE, ignore.case=TRUE))))

（仅供参考，上面的第二行代码改编自这个答案.)

# The pattern we'll search for
keep = "sleep|dream|die"

# Run the transformation function using the pattern above
tm_map(corp, f, keep)[[1]]

这是运行转换函数的结果：

<<PlainTextDocument (metadata: 7)>>
  c("die", "sleep", "sleep", "die", "sleep", "sleep", "Dream")

这是我用来创建语料库的原始文本：

doc = "To be, or not to be, that is the question—
Whether 'tis Nobler in the mind to suffer
The Slings and Arrows of outrageous Fortune,
Or to take Arms against a Sea of troubles,
And by opposing, end them? To die, to sleep—
No more; and by a sleep, to say we end
The Heart-ache, and the thousand Natural shocks
That Flesh is heir to? 'Tis a consummation
Devoutly to be wished. To die, to sleep,
To sleep, perchance to Dream; Aye, there's the rub"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tm

corpus

termdocumentmatrix

如何仅选择语料库术语的子集以在 tm 中创建 TermDocumentMatrix 的相关文章

从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
randomForest 包在删除一个预测类时的奇怪行为

我正在运行一个随机森林模型它产生的结果从统计角度来看对我来说完全没有意义因此我确信有些东西mustrandomForest 包的代码出现错误至少在模型的本次迭代中预测左侧变量是具有 3 种可能结果的政党 ID 民主党独立党共和
rpart“as.character(x) 中的错误：无法强制类型 'builtin' 为类型 'character' 的向量”消息是什么意思？

我一直在用头撞rpart几天了尝试为我拥有的这个数据集制作分类树我认为现在是时候询问生命线了我确信这是我没有看到的愚蠢的事情但这里是我一直在做什么 EuropeWater lt read csv file paste Users a
R中的字典数据结构

在 R 中我有例如 gt foo lt list a 1 b 2 c 3 如果我输入foo I get a 1 1 b 1 2 c 1 3 我怎样才能看透foo仅获取键列表在这种情况下 a b c R 列表可以具有命名元素因此可
尝试使用 JRI 将 R 与我的 Java 应用程序集成，但出现错误。谁能解释一下原因和解决办法吗？

我需要将 Java 与 R 集成来运行一些数学命令并使用 R 的功能进行绘图以下部分代码给出了错误 public static void main String args HelloRWorld r new HelloRWorld r h
Quantmod 的简单功能不再起作用

我明天要交论文我收到了一条关于 quantmod 的非常奇怪的错误消息这是我在过去几周使用这个包时从未遇到过的我无法导入特定于道琼斯指数 DJI 的数据我收到以下错误消息 getSymbols DJI src yahoo from
R 中两个时间戳之间的左连接

我的目标是执行左连接intervals哪里的bike id比赛和created at时间戳在records在之间start and end in the intervals table gt class records 1 data ta
如何按时间间隔匹配数据帧？

这是我从数据记录器导入原始数据时经常出现的问题温度记录仪设置为每十分钟记录一次温度单独的气体记录仪设置为记录最后十分钟间隔内使用的气体我想将这两个记录器的数据合并到一个数据框中进行绘图和分析但时间并不完全一致我希望每十分钟的时间段
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t
如何纠正 data.frame 上的字符编码

我有一个像这样的数据框 data names lt data frame DATA c 1 5 rownames data names lt c IV xc1N JOS xc9 LUC xcdA RAM xd3N TO xd1O data
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
如何在 R 中的 for 循环内将值存储在向量中

我正在开始使用 R 但我对以下问题感到非常沮丧我试图将 for 循环内完成的某些计算的值存储到我之前定义的向量中问题是如何进行索引因为for循环迭代代码的次数取决于用户的输入所以变量i不一定要从1开始它可以从80开始 for举个例
R Shiny：如何将无功值从闪亮模块返回到主服务器功能？

我有一个简单的玩具示例它使用 add removeBtn 模块在第一个模块中添加和删除 UI 我需要跟踪单击添加删除的次数如果我不使用模块这很容易但我试图在嵌套模块的上下文中执行此操作代码如下但基本上我似乎无法访问主
R，使用具有两种以上可能性的二项式分布

我知道这可能是基本的但我似乎有一个心理障碍假设您想要计算在一个骰子上掷出 4 5 或 6 的概率在 R 中这很简单 sum 1 6 1 6 1 6 这给出了 1 2 这是正确答案然而我内心深处可能应该保留的地方认为我应该能够
如何按定义的顺序将图像合并到一个文件中

我有大约 100 张图像 png 我不想手动执行此操作而是希望将它们按照定义的顺序基于文件名并排放置在一个 pdf 中每行 12 个图像有人有什么建议吗我按照下面托马斯告诉我的方法尝试了它把它们贴在旁边有一个黑边我怎样才能去
在 RMarkdown 输出到 PDF 时缩进而不添加项目符号点或编号

之前有人问过如何在没有项目符号的情况下缩进文本 RMarkdown 中的点但这是针对 HTML 输出的在 RMarkdown 中缩进而不添加项目符号点或数字 https stackoverflow com questions 47087
在包加载之前如何知道 R 中特定函数属于哪个包？

例如我知道许多流行的功能例如tbl df 我通常不记得它属于哪个包即data table or dplyr 所以我必须始终记住并加载一个包但我做不到 tbl df除非我加载了正确的包在 R 控制台本身加载或安装包之前有没有办法知
使用选定因子水平的值向 ggplot-barchart 添加水平线

在这个情节中 df lt data frame factor as factor c rep A 3 rep B 3 Treatment c rep c A B C 2 values runif 6 0 1 ggplot df aes Tr
如何为自定义 S3 类实现提取/取子集 ([ [<-, [[ [[<-)] 函数？

我有一个自定义的 S3 类foo 它在正常的基础上添加了一些自定义行为data frame foo object lt data frame class foo object lt c foo data frame 对于这个类还应该有一个
ggplot：如何限制条形图中的输出，以便仅显示最频繁出现的情况？

我几个小时以来一直在寻找这个简单的东西但没有结果我有一个数据框其中一列为变量国家地区我想要两件事以下绘制最常见的国家地区最常见的位于顶部找到部分解决方案EDIT找到完整的解决方案 gt gt 重点问题是根据频率限制条形图

随机推荐

用于 HTML 到 PDF 的 iTextSharp XMLWorkerHelper 和图像

底线是我正在使用 iTextSharp 将 HTML 写入 PDF 带有图像现在我使用的是 iTextSharp 的最新版本即 5 5 5 0 我可以访问Bruno s书我正在使用所阐述的方法demo iTextSupport co
Facebook - 通过 app_scoped_user_id 打开个人资料

我有一个 Facebook 用户的 app scoped user id 列表它存储在我们的数据库中并在应用程序请求查看个人资料的权限时由我们的应用程序返回我可以通过以下方式打开个人资料 http facebook com app s
cython;pyside2;RecursionError：调用 Python 对象时超出最大递归深度

以下非常简单的代码运行良好 python tmpmain py会给你一个带有帮助菜单的窗口帮助 gt 关于会给你一条消息但是一旦我将 tmp py 转换为扩展并将 tmp py 重命名为 tmp py bak 以确保 tmpmain
警告：道具“id”不匹配。服务器：“fc-dom-171” 客户端：在 Next.js 中使用 FullCalendar 时“fc-dom-2”

Context 我在用着FullCalendar v5 11 0 NextJS v12 0 7 React v17 0 2 and Typescript v4 3 5 我想创建一个简单的日历基于完整日历文档所以我创建了一个Calenda
Python：如果 while 条件在循环期间发生变化，如何结束 while 循环？

我需要一些关于我正在尝试制作的基于文本的游戏中的代码的帮助我的游戏使用生命值代码以 while health gt 0 开始在游戏的另一个点上当生命值最终 0时循环仍然继续如何在 health 0 时结束循环而不完成整个循环
如何从 powershell.exe 构建 t4 脚手架？

NuGet 的 PM 控制台非常棒但您必须在 Visual Studio 中才能使用它我之前曾问过这个问题但没有任何答案我很难相信没有关于该主题的文档我有两个用户用户 A 卖鞋用户 B 卖汽车每个人都有不同的财产需求如果我
解析 JSON 时 Unicode 字符不正确

这是 JSON 示例的链接我的样本JSON 这是样本 Title Close Up Year 1990 Rated NOT RATED Released 30 Oct 1991 Runtime 98 min Genre Documentar
如何防止 JOptionPane.showConfirmDialog 对话框关闭

我正在显示一个带有一些输入字段的确认对话框当保存失败验证失败时我想显示一个消息对话框但我不希望确认对话框消失我该怎么做呢下面是我打开ConfirmDialog的actionPerformed方法当我单击带有此方法的按钮作为事
如何将 ojdbc jar 添加到我的项目并使用它

我需要一些关于日食的帮助我有一个项目需要连接到 oracle 数据库所以我有 ojdbc jar 文件和一个简单的项目 try Class forName oracle jdbc driver OracleDriver Connecti
如何在 Heroku 上流式传输响应 Rails 应用程序

我有一个在heroku 上运行的rails 3 1 应用程序我需要为用户提供下载 csv 数据的能力我正在尝试传输数据但它都是一次性发送的对于较大的请求将会超时 Heroku 网站上有很多关于流式传输和分块的讨论但据我所知 thi
使用 SUM 和 Group BY 更新 T-SQL

我想用此查询中的值进行更新但它说它返回多个值 UPDATE PO HEADER SET TOTAL SELECT SUM LINE TOTAL AS NEW LINE TOTAL FROM PO LINE pl PO HEADER ph
在android中的一个请求中上传图像和音频

如何在android中同时上传图像和音频我成功地在一个请求中上传了图像和音频但如何添加多个文件我参考了这个链接Android 如何上传 mp3文件到http服务器它工作正常但我想在此请求中添加另一个文件请帮助我执行此操作为此我
将 JSON 对象转换为 html 字符串

我有一个 JSON const json name superman place universe pets id 1 type dog name Drogo id 2 type cat name Cindy 要求是将其更改为 html 字
在 codeigniter 查询中检索第二个表作为子数组

我有两个表 A 和 B B 与 A 具有多 1 关系当从 A 查询行时我还希望将相应的 B 记录作为数组返回并添加到 A 的结果数组中所以我最终得到如下结果 A ROW field field B ITEMS item1 item2
使用 OleDb 和 Access 处理 dd/mm/yyyy 日期格式

我在处理查询 SQL 代码中的日期时遇到问题我的区域设置格式为 dd mm yyyy 因此当插入日期访问数据库时它看起来像 dd mm yyyy 但使用选择查询时我得到 mm dd yyyy Query Select EmpEndDat
VBA ADODB-使用与数据库相同的工作簿的 Excel 工作表选择查询

我是 VBA 新手所以请不要介意问题是否级别较低我正在尝试运行 SQL 查询其中必须从同一工作簿的一张工作表中提取数据 SQL Select ProductNumber from sData where ProductSource p
linq-to-sql group by 带有计数和自定义对象模型

我希望用按键分组的 linq to sql 查询的计数来填充对象模型对象模型看起来有点像这样 public class MyCountModel int CountSomeByte1 get set int CountSomeByte2
在*现代* C++ 中，我应该如何管理*无主*指针？

In modernC 我应该如何管理unowned指点我在想类似的事情weak ptr for unique ptr 但这似乎并不存在 Example 例如如果我有一堂课A拥有一个指针我应该使用unique ptr
使用 plm() 和 vcovHC() 进行 Hausman-Taylor 估计器的稳健标准误差估计

假设我使用以下公式计算 Hausman Taylor 估计量plm带有选项的命令型号 ht 使用结果我喜欢获得一个稳健的方差协方差矩阵以使推理完全稳健为此目的vcovHC 使用命令 plm 包的一部分这是一个最小的例子 data
如何仅选择语料库术语的子集以在 tm 中创建 TermDocumentMatrix

我有一个巨大的语料库我只对我预先知道的少数术语的出现感兴趣有没有办法使用以下方法从语料库创建术语文档矩阵tm包其中只使用和包含我预先指定的术语我知道我可以对语料库的结果 TermDocumentMatrix 进行子集化但由于内存大

如何仅选择语料库术语的子集以在 tm 中创建 TermDocumentMatrix

如何仅选择语料库术语的子集以在 tm 中创建 TermDocumentMatrix 的相关文章

随机推荐

热门标签