在 R tm 包中,从 Document-Term-Matrix 构建语料库

2023-12-09

使用 tm 包从语料库构建文档术语矩阵非常简单。 我想从文档术语矩阵构建一个语料库。

令 M 为文档集中的文档数。 令 V 为该文档集词汇表中的术语数量。那么文档术语矩阵就是 M*V 矩阵。

我还有一个长度为 V 的词汇向量。词汇向量中是由文档术语矩阵中的索引表示的单词。

我想从 dtm 和词汇向量构建一个“语料库”对象。这是因为我想阻止我的文档集。我手动构建了 dtm 和 vocab - 即从来没有 tm“语料库”对象代表我的数据集,所以我无法使用该函数,

tm_map(corpus, stemDocument, language="english")

我一直在尝试构建一种解决方法,在其中限制词汇表并仅保留唯一的单词,但是尝试维护 dtm 和词汇向量之间的对应关系会变得有些复杂。

理想情况下,最终结果是我的词汇向量经过词干处理并且仅包含唯一条目,并且 dtm 索引对应于词干词汇向量。如果您能想到其他方法来做到这一点,我也将不胜感激。

如果我可以简单地从我的 dtm 和词汇向量构建一个 tm“语料库”,提取语料库,然后转换回 dtm 和词汇向量(我已经知道如何进行这些转换),那么我的麻烦就可以解决。

如果我可以进一步澄清问题,请告诉我。


这是我自己提供的方法最小可重复示例(作为新用户,您可能不知道这是您的责任)tm包裹:

## Minimal Reproducible Example
library(tm)
data("crude")
dtm <- DocumentTermMatrix(crude,
    control = list(weighting =
    function(x)
        weightTfIdf(x, normalize = FALSE),
        stopwords = TRUE))

## Convert tdm to a list of text
dtm2list <- apply(dtm, 1, function(x) {
    paste(rep(names(x), x), collapse=" ")
})

## convert to a Corpus
myCorp <- VCorpus(VectorSource(dtm2list))
inspect(myCorp)

## Stemming
myCorp <- tm_map(myCorp, stemDocument)
inspect(myCorp)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 R tm 包中,从 Document-Term-Matrix 构建语料库 的相关文章

  • R 中按时间划分的平均值

    我每秒测量一次化合物浓度 我想求 30 秒和 60 秒的平均值 我一直在阅读这里的帖子 我尝试过lubridate and dplyr 但没有运气 我正在努力完成这项工作 但我一直没能做到 我正在从 SAS 过渡到 R 所以请耐心等待 这是
  • R 将多个值与向量进行比较并返回向量[重复]

    这个问题在这里已经有答案了 我有一个向量 A 对于 A 的每个元素 我想检查它是否等于第二个向量 Targets 中的任何元素 我想要一个逻辑值向量 其长度为 A 作为返回 也提到了同样的问题here http r 789695 n4 na
  • 将第 N 行上的 NA 行插入 data.frames 列表,其中 N 来自列表

    经过几个小时后 我发现自己无法解决以下问题 我有一个数据框列表 我想分别向每个 DF 插入 而不是替换 一行或多行 NA 始终至少一行 要插入的 NA 数量存储在单独的列表中 为了说明这一点 我有以下两个列表 list of datafra
  • 跟踪循环迭代

    抛硬币 成功 你赢100 否则你输50 你会一直玩 直到你口袋里有钱a 的价值如何a在任何迭代中都被存储 a lt 100 while a gt 0 if rbinom 1 1 0 5 1 a lt a 100 else a lt a 50
  • 如何添加链接以从我的 R闪亮应用程序在新窗口中打开 pdf 文件?

    我可以使用 a 从我的 Shiny 应用程序添加到外部站点的超链接 a google href http www google com 但如何创建一个链接来打开 pdf 或类似 文件 看起来应该很简单 但我找不到任何例子 我的问题与此类似
  • R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

    背景 来自 R 编程 我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换 以及一般的 C C 效果的实践练习 我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在 并
  • 如何对数字进行四舍五入并使其显示零?

    R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是 如果该数字的前两位小数位为零 则 R 会在显示中抑制零 gt a 14 0034 gt
  • R中的重叠矩阵

    我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵 它基本上是一个方阵 行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如 在上面的例子中 矩阵看起来像 a b
  • R - 计算 bin 中特定值的数量

    我有一个如下所示的数据框 df Value lt c 1 1 0 2 1 3 4 0 0 1 2 0 3 0 4 5 2 3 0 6 Sl lt c 1 20 df lt data frame Sl Value gt df Sl Value
  • 列出 R 数据文件的内容而不加载

    我有时用print load myDataFile RData 当我加载数据文件时列出它的内容 有没有办法列出内容而不加载数据文件中包含的对象 我认为如果不加载对象就无法做到这一点 解决方案可能是使用包装器将 R 对象保存到save 该函数
  • 如何按时间间隔匹配数据帧?

    这是我从数据记录器导入原始数据时经常出现的问题 温度记录仪设置为每十分钟记录一次温度 单独的气体记录仪设置为记录最后十分钟间隔内使用的气体 我想将这两个记录器的数据合并到一个数据框中进行绘图和分析 但时间并不完全一致 我希望每十分钟的时间段
  • picker输入字体或背景颜色

    我在闪亮的仪表板中使用 pickerInput 这很好 除了一个问题 背景颜色和字体颜色太相似 使得过滤器选择难以阅读 有什么办法可以改变背景或字体颜色吗 如果可能的话 我想继续使用 pickerInput 但如果有一个带有 selectI
  • 如何按用户定义(例如非字母顺序)对数据框进行排序[重复]

    这个问题在这里已经有答案了 给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch
  • `as.matrix` 和 `as.data.frame` S3 方法与 S4 方法

    我注意到定义as matrix or as data frame作为 S4 类的 S3 方法 使例如lm formula objS4 and prcomp object 开箱即用 如果它们被定义为 S4 方法 则这不起作用 为什么将方法定义
  • 在 RcppArmadillo 中将列向量乘以数值标量

    我在编译这个简单的程序时遇到一些麻烦c 代码使用Rcpp和RcppArmadillo包裹 采用以下简单示例 将矩阵的每一列乘以数值标量 code lt arma mat out Rcpp as
  • 在 R 的 for 循环中创建动态命名对象并分配动态值

    我正在尝试创建一套动态命名的新对象 例如 temp2015 使用 for 循环 并存储动态值 具体来说 其他对象的名称 例如 Y2015 和 for 循环中使用的值 例如 2015 在动态命名的新对象中 我不确定为什么下面的代码不起作用 Y
  • R在Windows平台Rstudio上打印data.frames中的UTF-8代码

    当数据框中存在UTF 8字符时 将无法正常显示 例如 以下内容是正确的 gt U6731 1 朱 但是当我将其放入数据框中并打印出来时 它是 gt data frame x U6731 x 1
  • 从数据框中绘制多条平滑线

    我对 R 比较陌生 我正在尝试绘制从 csv 文件加载的数据框 数据由 6 列组成 如下所示 xval col1 col2 col3 col4 col5 第一列 xval 由一系列单调递增的正整数 例如 10 40 60 等 组成 其他列
  • 增加雷达图中长轴标签的空间

    我想创建一个雷达图ggirahExtra ggRadar 问题是我的标签很长并且被剪掉了 我想我可以通过添加在标签和绘图之间创建更多空间margin margin 0 0 2 0 cm to element text in axis tex
  • R中IF函数的使用

    我正在短跑ifR 中的函数 但收到以下警告消息 In if runif 50 0 1 lt 0 69 the condition has length gt 1 and only the first element will be used

随机推荐

  • ORA-00936 缺少表达式

    当用户投票时 我需要更新我的表列 votecount 但我遇到此错误 我不知道该怎么办 private void Vote string VoteId OracleCommand cmd new OracleCommand UPDATE A
  • project.cabal 文件的 build-depends 中的“stack install NAME”和“NAME”有什么区别?

    添加和添加有什么区别package name在下面build depends 项目中的部分 cabal file 与做stack install package name在该项目的目录中 stack install只会将包安装到适当的位置
  • 将格式化的 Excel 范围粘贴到 Outlook 邮件中

    我想将一系列格式化的 Excel 单元格粘贴到 Outlook 邮件中 以下代码 我从各种来源获取 运行时没有错误并发送一条空消息 Sub SendMessage SubjectText As String Importance As Ol
  • 当依赖属性发生更改时是否有通知机制?

    在 Silverlight 应用程序中 我试图找出用户控件上的属性何时发生更改 我对一个特定的 DependencyProperty 感兴趣 但不幸的是该控件本身没有实现 INotifyPropertyChanged 还有其他方法可以确定值
  • 如何在neo4j中按时间戳过滤边缘?

    我有一个以下形式的图表 产品 产品 in stock 更新 时间戳 gt stock items StockItem 数量 q stored at gt 位置 位置 显然更重要的是 但你明白了要点 stock item 节点和 in sto
  • UITabBarController 的“更多”导航控制器在 UINavigationController 下消失

    我在我的应用程序上使用 UITabBarController 和 UINavigationController 在我的 UITabBarController 中 我使用了超过 5 个项目 因此我会自动获取 更多 项目 我已经设法添加一个保存
  • .net cf TextBox 在焦点上显示键盘

    我的 UI 上有一些文本框 我想在控件获得焦点时显示移动键盘 然后消失 注意 对于这个特定的程序 它是一个高屏幕 并且设备上没有物理键盘 将 InputPanel 添加到表单中 连接 TextBox 的 GotFocus 和 LostFoc
  • 将 LINQ to Entity Framework 与 DB2 结合使用

    是否有 IBM 驱动程序 以便我们可以使用 Linq to Entity 框架连接到 DB2 并在 desinger edmx 文件上生成 DB2 实体 任何链接将不胜感激 7已经出来了您可以在PC上安装DB2 9 7客户端来连接任何DB2
  • 抛出另一个异常:FormatException: Invalid number (at character 1)

    为什么会出现错误Another exception was thrown FormatException Invalid number at character 1 在一切恢复正常之前 我的屏幕上会出现几微秒 有时甚至不会发生 下面是我的
  • 尝试通过 jQuery ajax 调用加载 Google 图表

    最初发布在这里 尝试通过 jQuery ajax 调用加载 Google 图表但对我的代码进行了一些修改 但我仍然无法让它正常工作 我正在尝试编写一个轮询函数来加载结果并将其显示在同一页面中而不刷新 我正在使用谷歌图表 api 和 jque
  • 在 VB.Net 中等待变量改变状态的更好方法

    我有一个循环遍历多个值 迭代每个值时 都会将页面加载到 Web 浏览器控件中 将值作为参数传递 并且当加载和读取页面时 循环应转到列表中的下一个值并继续 直到处理完所有值 我需要一种方法来在网站异步加载时暂停该过程 然后在页面加载 读取过程
  • Google Sheet:onChange 事件触发时如何获取实际更改?

    the doc不是很有帮助 不像onEdit onChange事件没有包含所做更改的属性 我怎样才能得到它 function onChange e console log e 该事件对象中没有任何有用的信息 我无法使用 onEdit 的原因
  • 如何在d3js中制作分组堆积条形图?

    我有以下 d3 图表 它已分组 并且每个分组都包含一个堆积条形图 但不知何故 我觉得这不是一个正确的实施方式 而且有点复杂 如果只有堆积条形图 我会使用d3 stack 有人可以让我知道有没有更好的方法来做到这一点 片段如下 var dat
  • git 变基基础知识

    我已经开始使用git rebase最近 我不能 100 确定我做得对 为了问题起见 起源有两个分支 master and next 它是从master 自从两者上次同步以来 master有 2 次提交并且next 6 git log one
  • 在vhdl中生成随机整数

    我需要在 vhdl 中生成 0 1023 之间的随机整数 但是我在互联网上找不到这方面的好资源 请问有人帮我吗 下面是生成范围 0 1023 内均匀 均匀 分布的整数的示例 请注意 floor必须在与最大值 1 相乘之后使用运算 在本例中为
  • 在asp.net中隐藏gridView行

    我正在创建一个gridView允许通过添加插入所需的控件来添加新行FooterTemplate 但是当ObjectDataSource没有记录 我添加一个虚拟行作为FooterTemplate仅当有数据时才显示 我怎样才能隐藏这个虚拟行 我
  • XML 数据提取,其中并非所有父节点都包含子节点

    我有一个 xml 数据文件 其中用户已开设帐户 但在某些情况下该帐户已被终止 数据没有列出帐户未终止时的值 这使得提取信息非常困难 以下是可重现的示例 其中只有用户 1 和 3 的帐户被终止 library XML my xml lt xm
  • 如何在 Activity 启动时滚动到 ScrollView 的底部

    我正在 ScrollView 中显示一些数据 在活动启动时 方法 onCreate 我用数据填充 ScrollView 并希望滚动到底部 我尝试使用getScrollView fullScroll ScrollView FOCUS DOWN
  • apache2 中的初始化模块

    我曾经在apache 1 3中编写apache模块 但这些天我愿意传递到apache2 出于性能目的 我现在正在编写的模块有自己的二进制数据 而不是数据库 我需要将这些数据加载到共享内存中 这样每个孩子都可以访问它 而无需制作自己的副本 并
  • 在 R tm 包中,从 Document-Term-Matrix 构建语料库

    使用 tm 包从语料库构建文档术语矩阵非常简单 我想从文档术语矩阵构建一个语料库 令 M 为文档集中的文档数 令 V 为该文档集词汇表中的术语数量 那么文档术语矩阵就是 M V 矩阵 我还有一个长度为 V 的词汇向量 词汇向量中是由文档术语