在 text2vec R 包中准备词嵌入

2024-03-25

基于text2vec包的小插图，提供了一个创建词嵌入的示例。对wiki数据进行标记，然后创建术语共现矩阵（TCM），该矩阵用于使用包中提供的glove函数创建词嵌入。我想为包中提供的电影评论数据构建词嵌入。我的问题是：

我是否需要将所有电影评论折叠成一长串，然后进行标记化。

这将导致 2 个评论之间的边界标记同时出现，这是没有意义的。

**vignettes code:**
library(text2vec)
library(readr)
temp <- tempfile()
download.file('http://mattmahoney.net/dc/text8.zip', temp)
wiki <- read_lines(unz(temp, "text8"))
unlink(temp)
# Create iterator over tokens
tokens <- strsplit(wiki, split = " ", fixed = T)
# Create vocabulary. Terms will be unigrams (simple words).
vocab <- create_vocabulary(itoken(tokens))
vocab <- prune_vocabulary(vocab, term_count_min = 5L)
# We provide an iterator to create_vocab_corpus function
it <- itoken(tokens)
# Use our filtered vocabulary
vectorizer <- vocab_vectorizer(vocab, 
                               # don't vectorize input
                               grow_dtm = FALSE, 
                               # use window of 5 for context words
                               skip_grams_window = 5L)
tcm <- create_tcm(it, vectorizer)
fit <- glove(tcm = tcm,
             word_vectors_size = 50,
             x_max = 10, learning_rate = 0.2,
             num_iters = 15)

我有兴趣开发词嵌入的数据可以通过以下方式获得：

library(text2vec)
data("movie_review")

不，您不需要串联评论。你只需要构建tcm来自令牌上的正确迭代器：

library(text2vec)
data("movie_review")
tokens = movie_review$review %>% tolower %>%  word_tokenizer
it = itoken(tokens)
# create vocabulary
v = create_vocabulary(it) %>% 
  prune_vocabulary(term_count_min = 5)
# create co-occurrence vectorizer
vectorizer = vocab_vectorizer(v, grow_dtm = F, skip_grams_window = 5)

现在我们需要重新初始化（对于稳定的0.3版本。对于dev 0.4不需要重新初始化迭代器）：

it = itoken(tokens)
tcm = create_tcm(it, vectorizer)

适配型号：

fit <- glove(tcm = tcm,
             word_vectors_size = 50,
             x_max = 10, learning_rate = 0.2,
             num_iters = 15)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

text2vec

在 text2vec R 包中准备词嵌入的相关文章

从 R 到 C 处理列表并访问它

我想使用从 R 获得的 C 列表我意识到这个问题与此非常相似使用 call 在 R 和 C 之间传递数据帧 https stackoverflow com questions 6658168 passing a data frame f
将天气 iframe 嵌入到 Shiny Dashboard 中

我正在尝试将 Forecast io 的天气预报嵌入到闪亮的仪表板中我最初在使用符号时遇到了麻烦但看到一篇文章提供了如何使用特殊字符格式化 HTML 代码的示例但是当我运行该应用程序时我看到一个简单的未找到即使我知道该链接有
有没有一种简单的方法可以根据多个标准进行排名，从而保留 R 中的联系？

当单个标准排序良好时 rank 函数会返回明显的结果 rank c 2 4 1 3 5 1 2 4 1 3 5 当单个标准具有联系时排名函数默认情况下将平均排名分配给联系 rank c 2 4 1 1 5 1 3 0 4 0 1 5
warnings() 在函数内不起作用？如何解决这个问题？

op lt options warn 0 although doesn t work for any value of warn assign last warning NULL envir baseenv thisDoesntWork l
R：编写抛硬币的随机采样程序

假设我们有以下情况有一枚硬币如果它正面朝上那么下一次抛掷正面的概率是 0 6 如果是反面那么下一次抛掷反面的概率也是 0 6 一个班有100名学生每个学生随机抛掷硬币几次 Student n 的最后一次抛硬币不会影响 Studen
R：为什么 boxplot(x,log="y") 与 boxplot(log(x)) 不同？

delme lt exp rnorm 1000 1 5 0 3 boxplot delme log y boxplot log10 delme 为什么这两个图中的胡须不同谢谢阿古斯我想说的是在您的第一个图中您只是将 y 轴更改为对
从向量中删除元素在 R 中出现的时间量

我想从一个向量中删除元素在另一个向量中出现的时间就像我要减去它们一样鉴于我想要删除的元素向量中的每个元素也存在于我想要从中删除的主向量中 a lt c A B B C C C b lt c A B C C a a in b return
jupyter 中的 r 图形 - 无法启动 png() 设备

我在 Jupyter 中使用 R 但无法在笔记本本身中绘制图表这是一个可重现的示例 set seed 123 mat as matrix x rnorm 100 y rnorm 100 plot mat 在朱皮特中 Error in pn
如何从R中的日期中提取月份

我正在使用lubridate封装并应用month从日期中提取月份的函数我在日期字段上运行了 str 命令得到了 Factor w 9498 levels 01 01 1979 01 01 1980 5305 1 1 1 1 1 1 1
如何使用 R 中的函数 sqlSave() 将数据附加到具有 IDENTITY 主键的 SQL Server 表？

我在SQL Server中创建了一个表如下所示 CREATE TABLE testPK ID INT NOT NULL IDENTITY 1 1 PRIMARY KEY NumVal NUMERIC 18 4 现在我想使用 RODBC 函
美人鱼图：调整图表周围的空白

我在用 Rstudio 编译的 Rmd 报告中使用了美人鱼图在 HTML PDF 输出中图表上方和下方有大量空白请参见下面的示例 Header Text r library DiagrammeR mermaid graph TD cl
如何有效地将多个光栅 (.tif) 文件导入 R

我是 R 新手尤其是在空间数据方面我正在尝试找到一种方法来有效地将多个 600 单波段栅格 tif 文件导入到 R 中所有文件都存储在同一文件夹中不确定这是否重要但请注意在我的 Mac 和 Windows 并行 VM 上的文件夹
改进R中从google获取股票新闻数据的功能

我已经编写了一个函数来从 Google 获取和解析给定股票代码的新闻数据但我确信有一些方法可以改进它对于初学者来说我的函数返回一个 GMT 时区的对象而不是用户当前的时区如果传递的数字大于 299 它就会失败可能是因为 goog
如何在基数 R 中进行分组

我想使用以下 SQL 查询来表达base R 没有任何特定的包 select month day count as count avg dep delay as avg delay from flights group by month d
RStudio 不会通过 rPython 调用加载所有 Python 模块

我从 Bash 和 RStudio 中运行相同的脚本时出现一些意外行为请考虑以下事项我有一个文件夹 rpython 包含两个脚本 test1 R library rPython setwd rpython python load tes
zsh：未找到命令：使用 Big Sur Mac 的终端上的 R

我从官方 cran 网站安装了 R 我可以从 Rstudio 运行 R 但是当我尝试从终端使用 R 时我得到以下结果 base ege Eges MBP R zsh command not found R base ege Eges MB
函数“[<-”将_替换_一个元素，但不会追加_元素_

我在使用时注意到以下几点 lt 我成功于替换元素但不位于追加向量的一个元素例子 VarX lt integer VarX 1 lt 11 lt VarX 2 22 VarX 1 11 Expected the value of VarX
通过 r markdown 中的循环创建代码片段

如同如何使用R中的knitr创建一个包含代码块和文本的循环 https stackoverflow com questions 36373630 how to create a loop that includes both a code
通过 Shiny 中的串扰将 Plotly 与 DT 结合使用

我正在编写一个应用程序来将 csv 文件读取为闪亮的并将散点图与 DT 表链接起来我几乎遵循了 Plotly 网站上 DT 数据表上的示例 https plot ly r datatable https plot ly r datatab
R Leaflet Legend：colorBin-删除中断之间的小数

我正在使用 Leaflet 库在 R 中创建交互式 HTML 地图传说中采用的是colorBin用于创建将数据分为 6 个类别的方法使用min values and max values 我已经定义了美国社区调查收入数据的特定范围可能落

随机推荐

TensorFlow 优化器中的 _get_hyper 和 _set_hyper 是什么？

我看到它在 init 例如Adam https github com tensorflow tensorflow blob r2 2 tensorflow python keras optimizer v2 adam py L145优化器
如何在 Jetpack Compose 中使用 Coil 制作缩写图标

所以我使用 Coil 库进行图像处理我注意到在占位符中它只需要一个 int 但是如果用户没有头像或出现任何错误显示缩写我想显示缩写如下图所示问题是我是 jetpack compose 的新手不确定如何实现这一目标请参阅下面的
当操作系统只是进程之一时，抢占式多任务处理如何工作？

我现在正在阅读有关先发制人的多任务处理的材料但我忘记了一件事所有材料都暗示操作系统以某种方式从外部中断了CPU上正在运行的进程从而导致了上下文切换等然而我无法想象当操作系统的内核只是 CPU 上的另一个进程时这将如何工作
在 IE 中 XML 未通过响应对象正确发送到客户端

我有一个上传控件它从客户端调用处理程序并将 xml 字符串发送回客户端下面的代码在 Chrome 中工作正常但在 IE 中将奇怪的 xml 发送回客户端处理程序代码 public void ProcessRequest HttpC
使用类似字典的结构访问 Pandas 数据框中的嵌套元素

我有一个数据框如下 In 19 data frame Out 19 id hero 0 55c97138e5fecec26959f3b0 u info u id u 0001 u name u superman 为了过滤掉条目的名称字段我
分发 .pyc 文件有哪些限制？

我已经开始使用 Python 开发商业应用程序并且正在权衡如何分发该应用程序的选择除了显而易见的使用适当的商业许可证分发源代码之外我正在考虑仅分发 pyc文件没有对应的 py来源但我对 Python 的兼容性保证还不够熟悉不知
如何设置事件的EventTarget

如何设置事件目标 https developer mozilla org en docs Web API EventTarget一个事件的 var myObj foo bar var event new Event eventName ev
PEG规则识别函数原型

我正在尝试创建一个可以解析 C 代码的解析器我的用例是解析可能包含函数原型的缓冲区我想将此函数名称推入符号表中我是 Spirit 和 PEG 的新手我正在尝试弄清楚如何编写可以识别函数原型的规则这是我当前的实现 auto name
CancellationToken.ThrowIfCancellationRequested 之后出现故障与取消的任务状态

通常我不会发布带有答案的问题但这次我想引起一些注意我认为这可能是一个晦涩但常见的问题它是由这个问题 https stackoverflow com q 24346706 1768303 从那时起我回顾了自己的旧代码发现其中一些也受到
UITextview打字属性不起作用

我有 UITextView 我想将其行高设置为 50 0f 所以我使用打字属性但没有任何效果我的代码在 ViewDidAppear 方法中像这样 UITextView textView UITextView alloc initWith
java中RGB转灰度、bmp图像

我的老师给我们布置了一个任务要制作一个采用 640x480 bmp 彩色图像的课程将其转换为灰度图像我找到了一些有想法的资源所以我做到了但是有一个问题因为它似乎使它不会给我错误但输出没有出现我认为这是我的代码我的代码是 i
IntelliJ IDEA：ClassNotFoundException 如果运行调试，执行/运行确实有效

我在 Eclipse 中启动了一个 Java Maven 项目处理了几天然后将其导入到 IntelliJ IDEA 中再次处理了几天 IDEA 和 shell 中的正常运行执行确实有效但调试无效当我单击调试的 Bug 图标时它
Java 的反射器？

Java 有没有相当于 NET反射器 http www red gate com products reflector 编辑更具体地说反编译是我所追求的 See 如何反编译Java类文件 https stackoverflow com
有人将 Node.js 与 Amazon SNS 和 Apple 推送通知一起使用吗？

我正在寻找将 node js 与 Amazon SNS 和 Apple APN 推送通知结合使用的示例我们使用 Amazon 进行托管我以前也使用过 SNS 这非常简单但他们提供的推送通知示例是针对 java 的没有针对 Node
Cython：（为什么/何时）使用 Py_ssize_t 进行索引是否更好？

这是后续这个问题 https stackoverflow com questions 20978938 cython should i use np float t rather than double for typed memory v
更改 UpdatePanel 外部 TextBox 中的文本

我在 UpdatePanel 中有一个 gridview gridview 显示在弹出窗口中单击该网格中的选择按钮后我尝试在页面中设置文本框文本但它不起作用如果我删除更新面板那么它就会工作这是我在 aspx 中的代码 div di
Spring security：注销后重定向到上一个网址

我有一个使用 spring security 的网络应用程序我想在用户注销时将用户重定向回他们注销之前所在的同一页面是否有捷径可寻不确定这个问题指的是哪个 Spring 版本但有一个useReferer标准属性org springf
XmlWriter 编码问题

我有以下代码 MemoryStream ms new MemoryStream XmlWriter w XmlWriter Create ms w WriteStartDocument true w WriteStartElement da
如何捕获 Room 持久性库中未处理的异常

背景我在 Android Java 项目中使用 Room 持久性库来支持本地数据缓存查询或保存数据时 Room 在专用线程上运行 Problem 如果 Room 管理的这些线程之一引发异常则整个应用程序将崩溃如果数据不一致例如数据
在 text2vec R 包中准备词嵌入

基于text2vec包的小插图提供了一个创建词嵌入的示例对wiki数据进行标记然后创建术语共现矩阵 TCM 该矩阵用于使用包中提供的glove函数创建词嵌入我想为包中提供的电影评论数据构建词嵌入我的问题是我是否需要将所有电影评论

在 text2vec R 包中准备词嵌入

在 text2vec R 包中准备词嵌入 的相关文章

随机推荐

热门标签

在 text2vec R 包中准备词嵌入的相关文章