在 R tm 包中，从 Document-Term-Matrix 构建语料库

2023-12-09

使用 tm 包从语料库构建文档术语矩阵非常简单。我想从文档术语矩阵构建一个语料库。

令 M 为文档集中的文档数。令 V 为该文档集词汇表中的术语数量。那么文档术语矩阵就是 M*V 矩阵。

我还有一个长度为 V 的词汇向量。词汇向量中是由文档术语矩阵中的索引表示的单词。

我想从 dtm 和词汇向量构建一个“语料库”对象。这是因为我想阻止我的文档集。我手动构建了 dtm 和 vocab - 即从来没有 tm“语料库”对象代表我的数据集，所以我无法使用该函数，

tm_map(corpus, stemDocument, language="english")

我一直在尝试构建一种解决方法，在其中限制词汇表并仅保留唯一的单词，但是尝试维护 dtm 和词汇向量之间的对应关系会变得有些复杂。

理想情况下，最终结果是我的词汇向量经过词干处理并且仅包含唯一条目，并且 dtm 索引对应于词干词汇向量。如果您能想到其他方法来做到这一点，我也将不胜感激。

如果我可以简单地从我的 dtm 和词汇向量构建一个 tm“语料库”，提取语料库，然后转换回 dtm 和词汇向量（我已经知道如何进行这些转换），那么我的麻烦就可以解决。

如果我可以进一步澄清问题，请告诉我。

这是我自己提供的方法最小可重复示例（作为新用户，您可能不知道这是您的责任）tm包裹：

## Minimal Reproducible Example
library(tm)
data("crude")
dtm <- DocumentTermMatrix(crude,
    control = list(weighting =
    function(x)
        weightTfIdf(x, normalize = FALSE),
        stopwords = TRUE))

## Convert tdm to a list of text
dtm2list <- apply(dtm, 1, function(x) {
    paste(rep(names(x), x), collapse=" ")
})

## convert to a Corpus
myCorp <- VCorpus(VectorSource(dtm2list))
inspect(myCorp)

## Stemming
myCorp <- tm_map(myCorp, stemDocument)
inspect(myCorp)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

textmining

tm

corpus

LDA

在 R tm 包中，从 Document-Term-Matrix 构建语料库的相关文章

R 中按时间划分的平均值

我每秒测量一次化合物浓度我想求 30 秒和 60 秒的平均值我一直在阅读这里的帖子我尝试过lubridate and dplyr 但没有运气我正在努力完成这项工作但我一直没能做到我正在从 SAS 过渡到 R 所以请耐心等待这是
R 将多个值与向量进行比较并返回向量[重复]

这个问题在这里已经有答案了我有一个向量 A 对于 A 的每个元素我想检查它是否等于第二个向量 Targets 中的任何元素我想要一个逻辑值向量其长度为 A 作为返回也提到了同样的问题here http r 789695 n4 na
将第 N 行上的 NA 行插入 data.frames 列表，其中 N 来自列表

经过几个小时后我发现自己无法解决以下问题我有一个数据框列表我想分别向每个 DF 插入而不是替换一行或多行 NA 始终至少一行要插入的 NA 数量存储在单独的列表中为了说明这一点我有以下两个列表 list of datafra
跟踪循环迭代

抛硬币成功你赢100 否则你输50 你会一直玩直到你口袋里有钱a 的价值如何a在任何迭代中都被存储 a lt 100 while a gt 0 if rbinom 1 1 0 5 1 a lt a 100 else a lt a 50
如何添加链接以从我的 R闪亮应用程序在新窗口中打开 pdf 文件？

我可以使用 a 从我的 Shiny 应用程序添加到外部站点的超链接 a google href http www google com 但如何创建一个链接来打开 pdf 或类似文件看起来应该很简单但我找不到任何例子我的问题与此类似
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
R - 计算 bin 中特定值的数量

我有一个如下所示的数据框 df Value lt c 1 1 0 2 1 3 4 0 0 1 2 0 3 0 4 5 2 3 0 6 Sl lt c 1 20 df lt data frame Sl Value gt df Sl Value
列出 R 数据文件的内容而不加载

我有时用print load myDataFile RData 当我加载数据文件时列出它的内容有没有办法列出内容而不加载数据文件中包含的对象我认为如果不加载对象就无法做到这一点解决方案可能是使用包装器将 R 对象保存到save 该函数
如何按时间间隔匹配数据帧？

这是我从数据记录器导入原始数据时经常出现的问题温度记录仪设置为每十分钟记录一次温度单独的气体记录仪设置为记录最后十分钟间隔内使用的气体我想将这两个记录器的数据合并到一个数据框中进行绘图和分析但时间并不完全一致我希望每十分钟的时间段
picker输入字体或背景颜色

我在闪亮的仪表板中使用 pickerInput 这很好除了一个问题背景颜色和字体颜色太相似使得过滤器选择难以阅读有什么办法可以改变背景或字体颜色吗如果可能的话我想继续使用 pickerInput 但如果有一个带有 selectI
如何按用户定义（例如非字母顺序）对数据框进行排序[重复]

这个问题在这里已经有答案了给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch
`as.matrix` 和 `as.data.frame` S3 方法与 S4 方法

我注意到定义as matrix or as data frame作为 S4 类的 S3 方法使例如lm formula objS4 and prcomp object 开箱即用如果它们被定义为 S4 方法则这不起作用为什么将方法定义
在 RcppArmadillo 中将列向量乘以数值标量

我在编译这个简单的程序时遇到一些麻烦c 代码使用Rcpp和RcppArmadillo包裹采用以下简单示例将矩阵的每一列乘以数值标量 code lt arma mat out Rcpp as
在 R 的 for 循环中创建动态命名对象并分配动态值

我正在尝试创建一套动态命名的新对象例如 temp2015 使用 for 循环并存储动态值具体来说其他对象的名称例如 Y2015 和 for 循环中使用的值例如 2015 在动态命名的新对象中我不确定为什么下面的代码不起作用 Y
R在Windows平台Rstudio上打印data.frames中的UTF-8代码

当数据框中存在UTF 8字符时将无法正常显示例如以下内容是正确的 gt U6731 1 朱但是当我将其放入数据框中并打印出来时它是 gt data frame x U6731 x 1
从数据框中绘制多条平滑线

我对 R 比较陌生我正在尝试绘制从 csv 文件加载的数据框数据由 6 列组成如下所示 xval col1 col2 col3 col4 col5 第一列 xval 由一系列单调递增的正整数例如 10 40 60 等组成其他列
增加雷达图中长轴标签的空间

我想创建一个雷达图ggirahExtra ggRadar 问题是我的标签很长并且被剪掉了我想我可以通过添加在标签和绘图之间创建更多空间margin margin 0 0 2 0 cm to element text in axis tex
R中IF函数的使用

我正在短跑ifR 中的函数但收到以下警告消息 In if runif 50 0 1 lt 0 69 the condition has length gt 1 and only the first element will be used

随机推荐

ORA-00936 缺少表达式

当用户投票时我需要更新我的表列 votecount 但我遇到此错误我不知道该怎么办 private void Vote string VoteId OracleCommand cmd new OracleCommand UPDATE A
project.cabal 文件的 build-depends 中的“stack install NAME”和“NAME”有什么区别？

添加和添加有什么区别package name在下面build depends 项目中的部分 cabal file 与做stack install package name在该项目的目录中 stack install只会将包安装到适当的位置
将格式化的 Excel 范围粘贴到 Outlook 邮件中

我想将一系列格式化的 Excel 单元格粘贴到 Outlook 邮件中以下代码我从各种来源获取运行时没有错误并发送一条空消息 Sub SendMessage SubjectText As String Importance As Ol
当依赖属性发生更改时是否有通知机制？

在 Silverlight 应用程序中我试图找出用户控件上的属性何时发生更改我对一个特定的 DependencyProperty 感兴趣但不幸的是该控件本身没有实现 INotifyPropertyChanged 还有其他方法可以确定值
如何在neo4j中按时间戳过滤边缘？

我有一个以下形式的图表产品产品 in stock 更新时间戳 gt stock items StockItem 数量 q stored at gt 位置位置显然更重要的是但你明白了要点 stock item 节点和 in sto
UITabBarController 的“更多”导航控制器在 UINavigationController 下消失

我在我的应用程序上使用 UITabBarController 和 UINavigationController 在我的 UITabBarController 中我使用了超过 5 个项目因此我会自动获取更多项目我已经设法添加一个保存
.net cf TextBox 在焦点上显示键盘

我的 UI 上有一些文本框我想在控件获得焦点时显示移动键盘然后消失注意对于这个特定的程序它是一个高屏幕并且设备上没有物理键盘将 InputPanel 添加到表单中连接 TextBox 的 GotFocus 和 LostFoc
将 LINQ to Entity Framework 与 DB2 结合使用

是否有 IBM 驱动程序以便我们可以使用 Linq to Entity 框架连接到 DB2 并在 desinger edmx 文件上生成 DB2 实体任何链接将不胜感激 7已经出来了您可以在PC上安装DB2 9 7客户端来连接任何DB2
抛出另一个异常：FormatException: Invalid number (at character 1)

为什么会出现错误Another exception was thrown FormatException Invalid number at character 1 在一切恢复正常之前我的屏幕上会出现几微秒有时甚至不会发生下面是我的
尝试通过 jQuery ajax 调用加载 Google 图表

最初发布在这里尝试通过 jQuery ajax 调用加载 Google 图表但对我的代码进行了一些修改但我仍然无法让它正常工作我正在尝试编写一个轮询函数来加载结果并将其显示在同一页面中而不刷新我正在使用谷歌图表 api 和 jque
在 VB.Net 中等待变量改变状态的更好方法

我有一个循环遍历多个值迭代每个值时都会将页面加载到 Web 浏览器控件中将值作为参数传递并且当加载和读取页面时循环应转到列表中的下一个值并继续直到处理完所有值我需要一种方法来在网站异步加载时暂停该过程然后在页面加载读取过程
Google Sheet：onChange 事件触发时如何获取实际更改？

the doc不是很有帮助不像onEdit onChange事件没有包含所做更改的属性我怎样才能得到它 function onChange e console log e 该事件对象中没有任何有用的信息我无法使用 onEdit 的原因
如何在d3js中制作分组堆积条形图？

我有以下 d3 图表它已分组并且每个分组都包含一个堆积条形图但不知何故我觉得这不是一个正确的实施方式而且有点复杂如果只有堆积条形图我会使用d3 stack 有人可以让我知道有没有更好的方法来做到这一点片段如下 var dat
git 变基基础知识

我已经开始使用git rebase最近我不能 100 确定我做得对为了问题起见起源有两个分支 master and next 它是从master 自从两者上次同步以来 master有 2 次提交并且next 6 git log one
在vhdl中生成随机整数

我需要在 vhdl 中生成 0 1023 之间的随机整数但是我在互联网上找不到这方面的好资源请问有人帮我吗下面是生成范围 0 1023 内均匀均匀分布的整数的示例请注意 floor必须在与最大值 1 相乘之后使用运算在本例中为
在asp.net中隐藏gridView行

我正在创建一个gridView允许通过添加插入所需的控件来添加新行FooterTemplate 但是当ObjectDataSource没有记录我添加一个虚拟行作为FooterTemplate仅当有数据时才显示我怎样才能隐藏这个虚拟行我
XML 数据提取，其中并非所有父节点都包含子节点

我有一个 xml 数据文件其中用户已开设帐户但在某些情况下该帐户已被终止数据没有列出帐户未终止时的值这使得提取信息非常困难以下是可重现的示例其中只有用户 1 和 3 的帐户被终止 library XML my xml lt xm
如何在 Activity 启动时滚动到 ScrollView 的底部

我正在 ScrollView 中显示一些数据在活动启动时方法 onCreate 我用数据填充 ScrollView 并希望滚动到底部我尝试使用getScrollView fullScroll ScrollView FOCUS DOWN
apache2 中的初始化模块

我曾经在apache 1 3中编写apache模块但这些天我愿意传递到apache2 出于性能目的我现在正在编写的模块有自己的二进制数据而不是数据库我需要将这些数据加载到共享内存中这样每个孩子都可以访问它而无需制作自己的副本并
在 R tm 包中，从 Document-Term-Matrix 构建语料库

使用 tm 包从语料库构建文档术语矩阵非常简单我想从文档术语矩阵构建一个语料库令 M 为文档集中的文档数令 V 为该文档集词汇表中的术语数量那么文档术语矩阵就是 M V 矩阵我还有一个长度为 V 的词汇向量词汇向量中是由文档术语

在 R tm 包中，从 Document-Term-Matrix 构建语料库

在 R tm 包中，从 Document-Term-Matrix 构建语料库 的相关文章

随机推荐

热门标签

在 R tm 包中，从 Document-Term-Matrix 构建语料库的相关文章