使用短语构建语料库

2024-04-05

我的文件如下：

 doc1 = very good, very bad, you are great
 doc2 = very bad, good restaurent, nice place to visit

我想让我的语料库与,这样我的最后DocumentTermMatrix变成：

      terms
 docs       very good      very bad        you are great   good restaurent   nice place to visit
  doc1       tf-idf          tf-idf         tf-idf          0                    0
  doc2       0                tf-idf         0                tf-idf             tf-idf

我知道了，怎么计算DocumentTermMatrix单个单词但不知道如何制作语料库separated for each phrase在 R 中的一个解决方案R是首选，但解决方案是Python也受到欢迎。

我尝试过的是：

> library(tm)
> library(RWeka)
> BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 3))
> options(mc.cores=1)
> texts <- c("very good, very bad, you are great","very bad, good restaurent, nice place to visit")
> corpus <- Corpus(VectorSource(texts))
> a <- TermDocumentMatrix(corpus, control = list(tokenize = BigramTokenizer))
> as.matrix(a)

我正进入（状态：

                         Docs
  Terms                   1 2
  bad good restaurent   0 1
  bad you are           1 0
  good restaurent nice  0 1
  good very bad         1 0
  nice place to         0 1
  place to visit        0 1
  restaurent nice place 0 1
  very bad good         0 1
  very bad you          1 0
  very good very        1 0
  you are great         1 0

我想要的不是单词的组合，而是我在矩阵中显示的短语。

这是一种使用的方法qdap + tm套餐：

library(qdap); library(tm); library(qdapTools)

dat <- list2df(list(doc1 = "very good, very bad, you are great",
 doc2 = "very bad, good restaurent, nice place to visit"), "text", "docs")

x <- sub_holder(", ", dat$text)

m <- dtm(wfm(x$unhold(gsub(" ", "~~", x$output)), dat$docs) )
weightTfIdf(m)

inspect(weightTfIdf(m))

## A document-term matrix (2 documents, 5 terms)
## 
## Non-/sparse entries: 4/6
## Sparsity           : 60%
## Maximal term length: 19 
## Weighting          : term frequency - inverse document frequency (normalized) (tf-idf)
## 
##       Terms
## Docs   good restaurent nice place to visit very bad very good you are great
##   doc1       0.0000000           0.0000000        0 0.3333333     0.3333333
##   doc2       0.3333333           0.3333333        0 0.0000000     0.0000000

你也可以一举返回DocumentTermMatrix但这可能更难理解：

x <- sub_holder(", ", dat$text)

apply_as_tm(t(wfm(x$unhold(gsub(" ", "~~", x$output)), dat$docs)), 
    weightTfIdf, to.qdap=FALSE)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

matrix

tfidf

corpus

phrase

使用短语构建语料库的相关文章

devtools::test() 有效，但 devtools::check() 无效。为什么？

我正在测试this https github com beanumber etlR 包以下三件事就可以正常工作 devtools test devtools test file tests testthat R Travis CI 与 R
使用非标准评估公式

我正在创建一个使用的包非标准评价 http adv r had co nz Computing on the language html跟踪列的含义该包在函数之间传递数据框这些函数执行同一组列的各种操作非标准评估对此非常有用 my s
上传到 Shiny 服务器后在 R 中解压文件

我正在尝试在我们的本地服务器上使用 Shiny 来构建一个应用程序允许用户上传包含 ESRI shapefile 和关联文件的 zip 文件 Shiny 服务器的 fileInput 可以获取数据并且当它这样做时它会将其存储在临时目录
将文件名附加到 R 中的数据框

我想将文件名附加到我的表中但它似乎并没有真正起作用我正在做的是迭代文件名列表打开它们将所有数据附加到一个数据帧对于每个附加文件我想添加其文件名我希望将其附加到每一行以便稍后当我查看数据时我会知道给定行源自哪个文件但似乎并
rPlot 工具提示问题

我有一个使用 rCharts 工具提示的简单示例但似乎不起作用 set seed 1 test lt data frame x rnorm 100 y rnorm 100 rPlot y x data test type point to
使用行内 r 代码作为 R markdown 标头的一部分

我希望使用行 R 代码作为 r markdown 文件中标头的一部分然而当我编织文件时标题上使用的字体是不同的如何确保字体相同下面是一个简单的例子 r 1 1 Header 您可以将内容括在反引号中以表示内联 r 代码如下所示
如何绘制 Voronoi 曲面细分的多边形而不是线段？

我找到了一种使用 ggplot2 绘制 Voronoi 曲面细分的分段的方法 library deldir library ggplot2 library ggthemes set seed 123 df lt data frame lat
ggplot2 的 fortify 函数出错

我在 ggplot2 中使用 fortify 方法时收到此错误 Error in function classes fdef mtable unable to find an inherited method for function pr
根据列中的部分字符串匹配选择数据框行

我想根据列中字符串的部分匹配从数据框中选择行例如列 x 包含字符串 hsa 使用sqldf if它有一个like语法我会做类似的事情 select from lt gt where x like hsa 很遗憾 sqldf不支持该语法
如何在R中生成六角形网格

我希望能够创建一个覆盖另一个 SpatialPolygon 的 SpatialPolygons 对象这是一个六角形网格我希望所有六边形的直径为 1 公里理想情况下我可以改变这个并且所有六边形一起覆盖整个物体下面的方法似乎只涵盖了一
如何从 ISI Web of Knowledge 检索有关期刊的信息？

我正在从事一些预测文章引用计数的工作我遇到的问题是我需要 ISI Web of Knowledge 中有关期刊的信息他们逐年收集这些信息期刊影响因子特征因子但无法一次下载所有一年期期刊信息只有标记全部选项该选项始终标记列表
R 中的卡方拟合优度检验

我有一个观察值向量还有一个用模型计算的值向量 actual lt c 1411 439 214 100 62 38 29 64 expected lt c 1425 3 399 5 201 6 116 9 72 2 46 3 30 4 6
如何使用“NA”作为字符串

我有一个 csv 文件其中一列是字符类型该变量的很少有值是 NA 字符串但是当我使用 read csv 读取 R 中的 csv 文件时 NA 字符串存储为 NA 我该如何修复它您可以使用na strings论证中read csv r
单击 hPlot 图表中闪亮的数据点时打印组名称

我有一个闪亮的应用程序它使用 rCharts 中的 highcharts 库显示一些图表在某些情况下我在单个图表上有多个图表这些图表是使用 hPlot 中的组选项创建的我希望在单击图表时打印单个数据点的所有参数 x y 和组值我
如何根据另一列的条件语句将因子列添加到数据框？

我有一个数据框我需要根据条件语句添加一个因子列这里是data https www dropbox com s hujiacus8ek5o5z MoroccoCGE CC Stats csv Code morstats agri f lt
使用格式表过滤数据框

样本数据修改自formattablegithub 文档 df lt data frame id 1 10 name c Bob Ashley James David Jenny Hans Leo John Emily Lee age c
使用 Rgraphviz 中的 pos 参数来固定节点位置

基于这个问题当弧与另一弧重叠时自动弯曲 https stackoverflow com questions 45721802 automatically curving an arc when it is overlapping with
尝试使用 movie3d 制作 3D PCA 图（rgl）的电影

我已经使用 pca3d 包在 R 中制作了 rgl 3D PCA 图并且我正在尝试使用 movie3d 制作一个包含旋转图电影的 gif 文件 pca3d 包 makeMoviePCA 中有一个函数它将其参数传递给 movie3d 这是
写入抓取数据的 csv 文件时如何拆分项目名称

我有兴趣使用 R 从网上抓取的数据创建 csv 或类似的 Excel 兼容文件到目前为止我通过执行以下操作来存储数据 require textreadr spiegel lt read html http www spiegel de
使用 r 以周为单位对数据进行分组

I have a CVS file which has data for different countries at different weeks of this year I want to create a summary data

随机推荐

C 如何计算没有浮点精度的百分比（千）

如何将 2 个 int 值的百分比计算为表示百分比的 int 值更精确的是千分之一背景目的使用没有 FPU 的处理器浮点计算所需的时间要长 100 倍 int x 25 int y 75 int resultPercentage
Ionic APP 中的 Disqus

我正在尝试在我的 ionic 应用程序中实现 disqus 评论我知道我必须将其托管在其设置的域上我相信我已正确配置该域欢迎任何帮助这是我的 app js 中离子应用程序的代码 scope showComments function
为什么我可以使用 bot.get_user 函数获取一些用户，但不能获取其他用户？ [不和谐.py]

我当时正在忙着一天的事情并做学校作业我去了我的不和谐服务器来检查一天中声誉和排行榜进度如何变化当我使用该命令时我收到错误 Nonetype object has no attribute display name 所以我很自然地转到运
从另一个类访问静态成员函数

我在 C 类中有一个静态 stl 映射并且有另一个静态成员函数来返回指向映射中对象的常量指针该映射对于该类中的所有对象都是通用的唯一的问题是我需要搜索这个映射并从另一个类位于不同的 cpp h 文件中设置它当我尝试在 vs20
是否有一种无点方法将条件检查转换为输入的 Maybe 类型？

我只是在 haskell 中完成一些简单的练习想知道是否有一种无点的方法将 if then else 语句转换为Maybe type Nothing如果条件为假则返回并且Just如果条件为真则输入简而言之给出一些 maybeIf a
将我现有的富文本 UI 与 CKEditor API 结合使用

我有一个现有的富文本 UI 我想将其与 CKEditor 一起使用基本上我希望 CKEditor 能够处理应用样式格式过滤和规范化插入内容的复杂部分我现有的 UI 需要驱动交互并根据选择显示状态即选择粗体文本应反映在 UI 中
如何在不使用 Github 的情况下使用 Git 在项目中进行协作？

我是 Git 和 Github 的初学者但仍然对它们感到困惑据说我们在与其他人协作时可以不用Github而使用Git 然而也有人说 Git 可以在本地计算机上运行如果我们不使用 Github Git 只能在本地运行我们如何进行协作
比较字符串的瓶颈

这是一个后续问题C 中的 Char 与 String Speed https stackoverflow com q 3989111 363829 我声明了以下变量 std vector
在 BroadcastReceiver 扩展类中使用 getContentResolver

我必须在扩展 BroadcastReceiver 的类中使用 getContentResolver 方法并且我发现 getContentResolver 只能在扩展 Activity 的类中使用我尝试在扩展活动的类中执行静态方法但无法
错误 CS7036 没有给出与“SpecflowBaseTest.SpecflowBaseTest(IWebDriver)”所需的形式参数“driver”相对应的参数

我正在创建一个新框架因为 PageFactory 已被弃用我收到错误 Error CS7036 There is no argument given that corresponds to the required formal par
录制视频时将动态文本渲染到 CVPixelBufferRef 上

我正在使用录制视频和音频AVCaptureVideoDataOutput and AVCaptureAudioDataOutput并在captureOutput didOutputSampleBuffer fromConnection 委托
当线程数超过 32705 时 boost::thread_resource_error

我正在实现消息传递算法消息通过图的节点传播阻塞直到它们收到足够的信息来自其他邻居来发送消息如果我将每条消息放入其自己的线程中并使用 boost condition 来暂停线程直到所有必需的信息可用则该算法很容易编写我创建了数
Laravel - 何时使用 ->get()

我很困惑什么时候 gt get 在拉拉维尔 E G DB table users gt find 1 不需要 gt get 来检索结果也不需要User find 1 laravel 文档说使用 get 或第一个方法执行查询我已阅读 F
使用 Javascript 跨浏览器处理“Enter”键按下

我有以下示例可以轻松检测到 Enter 键按下并正确处理它这里是
bookshelf.js 计数方法

我一直在寻找如何使用 Bookshelf js 进行基本计数例如 SELECT COUNT something FROM table 但无济于事我有什么遗漏的吗或者它只是与手动选择查询一起使用 Thanks 目前这是一个手动查询例如
通过 Powershell 关闭时无法停止所有 Excel 进程

使用此代码我打开 excel 使用visible false 以便用户看不到它写入工作簿然后在脚本结束后打开 excel 使其可见或完全关闭它而不保存当我保存 Excel 使其保持打开状态结束脚本然后稍后手动关闭 Excel
如何将 JavaScript 中的数字除以任意精度（例如小数点后 28 位）

我知道https floating point gui de https floating point gui de 事实上有许多库可以帮助处理大数但令人惊讶的是我找不到任何可以处理除法运算结果中小数点后 19 位以上的库我花了几个
在 Windows 中批量将 cp1252 转换为 utf-8

所以我一直在尝试使用我在网上找到的提示和矩阵将大型java源代码树从cp1252转换为Windows中的UTF 8 特别是here https stackoverflow com a 9310774 问题是我在 Windows 上我
将 Select 语句放在 Hibernate 事务上

我已经阅读了一段时间有关 Hibernate 的内容但我似乎无法理解有关 Hibernate 的一个概念Transaction 在我访问过的一些网站上 Select语句处于事务模式是这样的 public List
使用短语构建语料库

我的文件如下 doc1 very good very bad you are great doc2 very bad good restaurent nice place to visit 我想让我的语料库与这样我的最后DocumentT

使用短语构建语料库

使用短语构建语料库 的相关文章

随机推荐

热门标签

使用短语构建语料库的相关文章