R文本挖掘-如何将R数据框列中的文本更改为具有词频的多个列？

2023-12-14

我有一个 4 列的数据框。第 1 列由 ID 组成，第 2 列由文本组成（每列约 100 个单词），第 3 列和第 4 列由标签组成。

现在我想从文本列中检索词频（最常见的词），并将这些频率作为额外列添加到数据框中。我希望列名称是单词本身，并且列中填充了它们在文本中的频率（范围从 0 到...每个文本）。

我尝试了 tm 包的一些功能，但到目前为止还不满意。有谁知道如何处理这个问题或从哪里开始？有没有一个包可以完成这项工作？

id  texts   label1    label2

好吧，让我们解决这些问题......

我猜你的 data.frame 看起来像这样：

       person sex adult                                 state code
1         sam   m     0         Computer is fun. Not too fun.   K1
2        greg   m     0               No it's not, it's dumb.   K2
3     teacher   m     1                    What should we do?   K3
4         sam   m     0                  You liar, it stinks!   K4
5        greg   m     0               I am telling the truth!   K5
6       sally   f     0                How can we be certain?   K6
7        greg   m     0                      There is no way.   K7
8         sam   m     0                       I distrust you.   K8
9       sally   f     0           What are you talking about?   K9
10 researcher   f     1         Shall we move on?  Good then.  K10
11       greg   m     0 I'm hungry.  Let's eat.  You already?  K11

该数据集来自qdap包。获得 qdap 使用install.packages("qdap").

现在，为了制作我正在谈论的数据集的可重现示例，请执行我在这里所做的操作DATA数据集来自 qdap。

DATA
dput(head(DATA))

好吧，我想现在对于你原来的问题wfm会做你想做的事：

freqs <- t(wfm(DATA$state, 1:nrow(DATA)))
data.frame(DATA, freqs, check.names = FALSE)

如果您只想要顶部那么多单词，请使用我在这里使用的排序技术：

freqs <- t(wfm(DATA$state, 1:nrow(DATA)))
ords <- rev(sort(colSums(freqs)))[1:9]      #top 9 words
top9 <- freqs[, names(ords)]                #grab those columns from freqs  
data.frame(DATA, top9, check.names = FALSE) #put it together

结果如下：

> data.frame(DATA, top9, check.names = FALSE)
       person sex adult                                 state code you we what not no it's is i fun
1         sam   m     0         Computer is fun. Not too fun.   K1   0  0    0   1  0    0  1 0   2
2        greg   m     0               No it's not, it's dumb.   K2   0  0    0   1  1    2  0 0   0
3     teacher   m     1                    What should we do?   K3   0  1    1   0  0    0  0 0   0
4         sam   m     0                  You liar, it stinks!   K4   1  0    0   0  0    0  0 0   0
5        greg   m     0               I am telling the truth!   K5   0  0    0   0  0    0  0 1   0
6       sally   f     0                How can we be certain?   K6   0  1    0   0  0    0  0 0   0
7        greg   m     0                      There is no way.   K7   0  0    0   0  1    0  1 0   0
8         sam   m     0                       I distrust you.   K8   1  0    0   0  0    0  0 1   0
9       sally   f     0           What are you talking about?   K9   1  0    1   0  0    0  0 0   0
10 researcher   f     1         Shall we move on?  Good then.  K10   0  1    0   0  0    0  0 0   0
11       greg   m     0 I'm hungry.  Let's eat.  You already?  K11   1  0    0   0  0    0  0 0   0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

textmining

tm

R文本挖掘-如何将R数据框列中的文本更改为具有词频的多个列？的相关文章

多个动态滤镜更新闪亮

我希望能够让 UI 输入闪亮并根据用户之前的选择进行自我更新因此在下面的示例中预期的行为是用户选择cyl vsor carb那么这将过滤数据集mtcars用于创建绘图即用户根据过滤条件调整绘图并更新其他过滤器中的剩余输入选择
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
R ggplot 中的柯尔莫哥洛夫-斯米尔诺夫图

我正在尝试在 r 中绘制 KS 图一切似乎都很顺利除了我只能使用颜色来可视化两个不同的样本而不是线型这一事实我已经尝试过以下方法 sample1 lt SD13009 sample2 lt SD13009PB group lt c r
如何声明包含 M 个元素的列表对象

我想声明一个包含 M 3 x 3 矩阵的列表如果我事先知道数字 M 那么我可以通过以下方式声明这样的列表 elm lt matrix NA 3 3 Say M 7 myList lt list elm elm elm elm elm el
如何按定义的顺序将图像合并到一个文件中

我有大约 100 张图像 png 我不想手动执行此操作而是希望将它们按照定义的顺序基于文件名并排放置在一个 pdf 中每行 12 个图像有人有什么建议吗我按照下面托马斯告诉我的方法尝试了它把它们贴在旁边有一个黑边我怎样才能去
增加雷达图中长轴标签的空间

我想创建一个雷达图ggirahExtra ggRadar 问题是我的标签很长并且被剪掉了我想我可以通过添加在标签和绘图之间创建更多空间margin margin 0 0 2 0 cm to element text in axis tex
需要在R中跳过不同数量的行

我正在使用以下代码来处理我的数据但最近我意识到使用skip 27 在数据开始之前跳过存储在我的文件中的信息不是一个好的选择因为每个文件中要跳过的行数不同我的目标是读取存储在多个文件夹中的各种txt文件并非所有文件都有相同的列数列的
使用数据帧的 R 中的 EWMA 波动性

我正在尝试从一系列股票每日收益中获取 EWMA 波动性这些收益来自一个名为base retorno diario Data IBOV ABEV3 AEDU3 ALLL3 BBAS3 BBDC3 BBDC4 1 2000 01 04 0 0
R 中 SVG 图形的最佳设备？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想从 R 导出 SVG 图形似乎有两种选择 RSvgDevice 和 Cairo 有人可以对这些包发表评论吗是默认的还是明显比另一个
R：单纯形错误：在下标赋值中不允许使用 NA

对于以下具有目标函数和约束的最小化 boot simplex返回错误 Error in tab pr lt tab pr tab pr pc pv o tab pr NAs are not allowed in subscripted as
如何像在facet_grid中一样在facet_wrap中定位条带标签

我想在使用时删除多余的条带标签facet wrap 并用两个变量进行分面并且都是自由尺度的例如这个facet wrap下图的版本 library ggplot2 dt lt txhousing txhousing year in 20
rvest 函数 html_nodes 返回 {xml_nodeset (0)}

我正在尝试抓取以下网站的数据框 http stats nba com game 0041700404 playbyplay http stats nba com game 0041700404 playbyplay 我想创建一个表格其中包
更改 R 中 ggplot geom_polygon 的颜色方案

我正在使用地图库和 ggplot 的 geom polygon 创建地图我只是想将默认的蓝色红色紫色配色方案更改为其他颜色我对 ggplot 非常陌生所以如果我没有使用正确的数据类型请原谅我使用的数据如下所示 gt head
条件和分组 mutate dplyr

假设我有以下每个抽屉库存增加的数据 gt socks year drawer nbr sock total 1990 1 2 1991 1 2 1990 2 3 1991 2 4 1990 3 2 1991 3 1 我想要一个二进制变量来标
在闪亮的数据表中为每个单元格显示工具提示或弹出窗口？

有没有什么方法可以为 r闪亮数据表中的每个单元格获取工具提示有很多方法可以获取悬停行或列但我找不到一种方法来获取行和列索引并为每个单元格显示不同的悬停工具提示任何人都可以修改以下代码吗 library shiny library DT
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5
使用“assign()”为列表项分配值

首先了解一些背景我写了一个中缀函数本质上取代了这个习惯用法 x length x 1 lt y 或者简单地说x lt append x y 对于向量这里是 lt function x y xcall lt substitute x x
将 Excel 文件读入 R 并锁定单元格

我有一个 Excel 电子表格要读入 R 它受密码保护并锁定了单元格我可以使用 excel link 导入受密码保护的文件但我不知道如何解锁取消保护单元格 excel link 给了我这个错误 gt
如何使用plotmath更新ggplot图例标签

我正在尝试更新ggplot要使用的图例标签plotmath但是当我这样做时它将之前组合的图例分成两部分通过一个例子可能更容易理解 test data and the default plot gives the correct col
闪亮井板宽度

library shiny library shinydashboard ui lt dashboardPage dashboardHeader dashboardSidebar dashboardBody wellPanel tags d

随机推荐

如何使用 ZipKit 在 iOS 中压缩目录？

我需要在 iOS 应用程序中压缩文档文件夹的子目录在咨询了 Google 和其他 SO 帖子后我发现 ZipKit 和 ZipArchive 作为两个提供此功能的开源项目此时我选择实现 ZipKit 因为它目前似乎比 ZipArch
用 Java 找出您网站访问者的 IP 地址

有没有简单可靠的方法来使用 Java 检测您的网站访问者 IP 地址我正在尝试利用 Akismet 来检测我的博客文章评论中的垃圾邮件 API 要求我指定评论者的 IP 地址谢谢致电ServletRequest getRemoteA
如何在我的 Android 应用程序的可视化 C# Web 服务中调用 LINQ 中的用户定义函数？

我目前正在开发一个应用程序该应用程序将根据距离检索其他用户的位置我有一个数据库以纬度和经度存储所有用户位置信息由于这两对经纬度之间距离的计算相当复杂所以我需要一个函数来处理它 from a in db Location Where
单击 #-links 时避免窗口跳转到顶部

我有一个包含一些问题和答案的页面默认情况下答案是折叠的当他们单击问题时我展开隐藏的答案 div 问题是当我点击这些问题时窗口跳到屏幕顶部这不是一个大问题但我觉得很烦人因为我必须再次向下滚动到问题链接看起来就像这样 a hr
如何获取iPhone应用隐藏状态栏区域的触摸事件？

我有一个隐藏状态栏的 iPhone 应用程序但是当我点击状态栏区域时我的主视图没有收到任何触摸事件我可以做些什么来解决这个问题吗以下是我的应用程序设置的一些详细信息如果重要的话它是一个基于 OpenGL 的应用程序该应用程序
如何从 PHP 连接 Jms？

我正在尝试在我的网站上实现像 Facebook 使用的小聊天功能我使用了 Html PHP JQuery 和 Apache 我之前用 JMS 做了一些例子但我不知道如何用 PHP 向 JMS 服务器发送消息对于 JMS 我使用 Web
将 BigInteger 二进制转换为 BigInteger 数字

目前我正在使用Long整数类型我使用以下命令来转换二进制数字 Convert ToInt64 BinaryString 2 Convert binary string of base 2 to number Convert ToStri
java.util.Date 和 java.time.Instant 之间转换古代日期时出现差异

我有使用 java util Date 创建古代日期 0002 年 11 月 30 日的遗留代码我正在尝试更新我可以更新的代码但这需要在 Date 和 LocalDate 等之间进行转换我无法完全摆脱使用 Date 或古老的日期选择
Spring Integration / JSch：身份验证失败

我正在尝试使用 Spring Integration 的 SFTP 入站通道适配器但我被困在这里 20 29 30 458 INFO com jcraft jsch task scheduler 6 Connecting to deplo
在基于 Flask 的应用程序中获取客户端 IP

我在服务器中部署了 Flask 应用程序我们正在使用 Nginx nginx 设置如下 proxy set header X Forward For proxy add x forwarded for proxy set header H
在 Windows x86-64 下，发生异常时，有多少内容被推送到 32 位堆栈上？

In this 这个问题我给出了一些我已经实现的并行语言的背景知识编译器生成本机 x86 32 代码一个关键的实现决策是为每个函数调用从堆中分配堆栈空间这允许递归直到你用完虚拟机并为词法范围启用仙人掌堆栈甚至对于嵌套的并行子
使用 Jenkins 管道脚本从 Windows 到 Linux 的 SCP

我想要做SCP从 Windows Jenkins 节点到 Linux 服务器在此设置中 Windows 计算机是 Jenkins 从机我要复制的目标服务器是 Linux 下面是我的 Jenkins 管道脚本在运行下面的脚本之前我将克
无法将 dbt cloud 或 dbt core 连接到 databricks

我在将 dbt cloud 和 dbt core 连接到 databricks 时遇到问题我已阅读这 4 个链接但仍然无法连接 https docs databricks com integrations prep dbt html h
GridView无法显示图像

我获取所有应用程序的图标并在 GridView 中显示图标 GridView 很好地显示了它们但是当我非常快地向下滑动 GridView 时有时 GridView 缺少两个图标这种情况不常出现您能给我一些建议吗 EDIT 这个问题
Google c# Api，从 v2.3 更改为 v3

我有以下代码使用 C v2 3 api 查询谷歌分析 string username email protected string pass PASS string gkey key XXXXXXXXXXXXXXXXXXXXXXXXXXX
SkiaSharp Tiff 支持

目前 SkiaSharp 不支持 tiff 图像它支持 jpg gif bmp png 和其他一些格式如何将 tiff 图像转换为 SKBitmap 对象一个想法也许有一种有效的方法来转换 tiff 流 gt png 流 gt SK
Descendants 在 Word 文档中获取零个元素

我在更新 Word 文档中的超链接时遇到问题 Q如何更新 Word 文档中的正文和超链接并放大Descendants
ORA-00907: 创建外键 Oracle 12c 时缺少右括号

我想制作一张包含一个自动生成的主键和两个外键的表但我遇到了这个错误 create table answers id number generated by default on null as identity primary key q
可变参数宏：粘贴标记的扩展

我想知道是否可以嵌套可变参数宏调用我只真正关心 GCC 和 Clang 我的宏定义如下 brief Invoke an instance method define obj method typeof obj obj obj obj
R文本挖掘-如何将R数据框列中的文本更改为具有词频的多个列？

我有一个 4 列的数据框第 1 列由 ID 组成第 2 列由文本组成每列约 100 个单词第 3 列和第 4 列由标签组成现在我想从文本列中检索词频最常见的词并将这些频率作为额外列添加到数据框中我希望列名称是单词本身并且列

R文本挖掘-如何将R数据框列中的文本更改为具有词频的多个列？

R文本挖掘-如何将R数据框列中的文本更改为具有词频的多个列？ 的相关文章

随机推荐

热门标签

R文本挖掘-如何将R数据框列中的文本更改为具有词频的多个列？的相关文章