将语料库转换为R中的data.frame

2024-04-03

我正在使用 tm 包来应用词干提取,并且需要将结果数据转换为数据框。 可以在这里找到解决方案R tm包vcorpus:将语料库转换为数据帧时出错 https://stackoverflow.com/questions/24703920/r-tm-package-vcorpus-corpus-to-dataframe,但就我而言,我的语料库内容为:

[[2195]]
i was very impress

代替

[[2195]]
"i was very impress"

正因为如此,如果我申请

data.frame(text=unlist(sapply(mycorpus, `[`, "content")), stringsAsFactors=FALSE)

结果将是

<NA>.

任何帮助深表感谢!

下面以代码为例:

sentence <- c("a small thread was loose on the sandals, otherwise it looked good")
mycorpus <- Corpus(VectorSource(sentence))
mycorpus <- tm_map(mycorpus, stemDocument, language = "english")

inspect(mycorpus)

[[1]]
a small thread was loo on the sandals, otherwi it look good

data.frame(text=unlist(sapply(mycorpus, `[`, "content")), stringsAsFactors=FALSE)

 text
1 <NA>

通过应用

gsub("http\\w+", "", mycorpus)

输出具有 class = 字符,因此它适用于我的情况。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将语料库转换为R中的data.frame 的相关文章

随机推荐

  • 协议中的公共默认初始化

    我有这个代码 public protocol MyProtocol init public extension MyProtocol public init self init public final class MyClass MyPr
  • 如何处理“intrin.h:没有这样的文件或目录”?

    include
  • 深层路由的 webpack HistoryApiFallback 配置

    webpack dev server 可以设置为将您发送回 index html 并找到单个路由的脚本 例如http localhost 4301 sdr http localhost 4301 sdr但是当您放入更深的路线 或末尾带有 的
  • Mercurial 和 Notepad++ 集成

    Notepad 是否有插件可以与 Mercurial 和 TortoiseHg 集成 如果将以下内容添加到我们的配置文件中 您可以使用 Notepad 打开文件 tortoisehg editor
  • 在用户交互之前,GoogleMap 不会加载详细地图

    我正在 android 上编写一个应用程序 它将显示谷歌地图的地图 当我启动应用程序时 地图以当前位置为中心 当我使用animateCamera 我可以看到整个世界的放大动画 直到它聚焦于当前位置 问题是我需要触摸地图才能使地图以我期望的缩
  • 将 scipy 稀疏矩阵存储为 HDF5

    我想以 HDF5 格式压缩和存储一个巨大的 Scipy 矩阵 我该怎么做呢 我尝试过以下代码 a csr matrix dat row col shape 947969 36039 f h5py File foo h5 w dset f c
  • pyenv install 3.6.3 发生错误:为什么?

    user syyun pyenv install 3 6 3 Downloading Python 3 6 3 tar xz gt https www python org ftp python 3 6 3 Python 3 6 3 tar
  • 应用程序可以在通知中心同时使用警报和横幅吗?

    我正在创建一个 Mac OS X 应用程序来使用通知中心 一些通知应保留在屏幕上 直到用户与它们交互 而其他通知应在显示后不久消失 The NSUserNotificationAlertStyle键和更改系统偏好设置允许在横幅和警报之间进行
  • 无法理解通过引用传递

    我发现理解 C 中的引用传递真的很令人困惑 在我的代码中 我有一个带有两个参数的函数 private bool SerialUnEscape byte serialData ref byte serialResult if SerialPr
  • JAVA数组内不重复的随机数

    我想在一个数组中生成 6 个数字 同时对其进行比较 这样它们就不会相同或没有重复的数字 例如 我想以任意顺序生成 1 2 3 4 5 6 最重要的是不重复 所以我的想法是将生成的数组中的当前数组一一比较 如果数字重复 它将重新运行该方法并再
  • 在 Python 中用多边形计算 Pi

    我在精确计算 Pi 时遇到问题 我使用的方法是 我得到一个半径为 1 的圆 并在其内部放置具有 8 16 32 64 角的多边形 在每个步骤后将它们加倍 但问题是结果只有前15位小数是正确的 这是程序 import math import
  • 如何在reason-react组件中添加版权符号?

    我是理性反应新手 我正在尝试将版权符号放入反应原因组件中 我试过了 span ReasonReact stringToElement copy span 但这并没有给我 符号 简单的说 copy 如果你不放 不起作用
  • 为什么要将对象的副本作为函数的参数?为什么 const ref 不是参数的默认方式?

    尽管我非常喜欢 C 编程 但有一件事我确实不明白 对我来说 最常见的函数编程方式似乎是这样的 some function a variable do something according to the data in the variab
  • Xcode 10、sourcery 和 swiftlint 构建阶段顺序

    更新到 Xcode 10 后 初始项目配置存在一些问题 步骤如下所示 使用生成一些文件Sourcery https github com krzysztofzablocki Sourcery 棉绒与SwiftLint https githu
  • 我的特殊字符在 WordPress 中显示为 ’

    如何让我的特殊字符在 WordPress 上正确显示 My are being converted to 8217 所有特殊字符都会发生这种情况 有什么功能或者插件可以修复吗 您可以使用htmlspecialchars decode htt
  • Visual Studio C# 语句崩溃

    当编辑很长的代码块时 无论如何肯定应该重构 但这超出了这个问题的范围 我经常渴望能够折叠语句块 就像折叠功能块一样 也就是说 如果减号图标出现在大括号内的所有内容的代码大纲上 那就太好了 它似乎出现在函数 类 区域 命名空间 使用中 但不适
  • 中包含子包的语法是什么?

    我正在使用Spring并且我有一个很长的子包列表 我是否必须在包中一一指定它们
  • Android上批量获取大量位图资源

    我有一长串图形 icon1 0 png icon1 1 png icon1 2 png icon12 0 png icon12 1 png icon12 2 png 我想将它们打包到我的android应用程序中 理想情况下 我认为我应该能够
  • 如何从 C++ DLL 中的 C# 简单函数调用

    我在 C 中有一个简单的函数 不是类的方法 declspec dllexport extern C void stdcall TestFunc 我尝试从 C 调用它 DllImport ImportTest dll public stati
  • 将语料库转换为R中的data.frame

    我正在使用 tm 包来应用词干提取 并且需要将结果数据转换为数据框 可以在这里找到解决方案R tm包vcorpus 将语料库转换为数据帧时出错 https stackoverflow com questions 24703920 r tm