H2O 是否或将会提供任何与 h2o word2vec 一起使用的预训练向量？

2024-04-17

H2O 最近在其 API 中添加了 word2vec。能够在您自己提供的语料库上轻松训练自己的词向量真是太好了。

然而，使用大数据和大型计算机存在更大的可能性，由于网络带宽和计算能力的限制，谷歌或 H2O.ai 等软件供应商可能无法访问这种类型的 H2O 最终用户。

词嵌入可以被视为一种无监督学习。因此，通过使用在非常大的语料库上构建的预训练词向量作为特定应用程序的基础设施，可以在数据科学管道中获得巨大的价值。使用通用预训练词向量可以被视为迁移学习的一种形式。重用词向量类似于计算机视觉深度学习通用最低层，学习检测照片中的边缘。较高层检测由其下面的边缘层组成的特定类型的对象。

例如，Google 通过其 word2vec 包提供了一些预训练的词向量。对于无监督学习来说，例子越多越好。此外，有时对于个人数据科学家来说，下载一个巨大的文本语料库来训练自己的词向量实际上是很困难的。并且没有充分的理由让每个用户通过在维基百科等相同的通用语料库（corpi？）上训练词向量来重新创建相同的轮子。

词嵌入非常重要，有可能成为众多可能应用的基础。 TF-IDF 是许多自然语言数据科学应用的旧基础，如果使用词嵌入，它将会变得过时。

三个问题：

1 - H2O 目前是否提供任何通用的预训练词嵌入（词向量），例如对在合法或其他公共（政府）网站、维基百科、twitter 或 craigslist，或其他免费或开放共享资源中找到的文本进行训练人类书写的文字？

2 - 是否有一个社区网站，H2O 用户可以分享他们训练有素的 word2vec 词向量，这些词向量建立在更专业的语料库（例如医学和法律）上？

3 - H2O 可以从其 word2vec 包中导入 Google 的预训练词向量吗？

谢谢你的提问。

您是完全正确的，在很多情况下您不需要自定义模型，预训练模型就可以很好地工作。我假设人们大多会针对特定领域的较小问题构建自己的模型，并使用预先训练的模型来补充自定义模型。

您可以将第 3 方预训练模型导入 H2O，只要它们采用类似 CSV 的格式即可。对于许多可用的 GloVe 型号来说都是如此。

为此，将模型导入到框架中（就像任何其他数据集一样）：

w2v.frame <- h2o.importFile("pretrained.glove.txt")

然后将其转换为常规的 H2O word2vec 模型：

w2v.model <- h2o.word2vec(pre_trained = w2v.frame, vec_size = 100)

请注意，您需要提供嵌入的大小。

据我所知，H2O 并不打算为 w2v 模型提供模型交换/模型市场。您可以使用在线提供的模型：https://github.com/3Top/word2vec-api https://github.com/3Top/word2vec-api

我们目前不支持导入 Google 的二进制格式的词嵌入，但是我们的路线图上已经提供了支持，因为它对我们的用户来说很有意义。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

H2O 是否或将会提供任何与 h2o word2vec 一起使用的预训练向量？的相关文章

通过@leader@model访问automlleader时返回空列表

Running h2o automl 返回排行榜中的单个模型但是当尝试通过访问实际模型时 leader model 出现以下错误 is H2OFrame x 中的错误尝试从对象获取槽指标没有槽的基本类 NULL 另外打电话时h2
无法运行 H2o 功能

我能够很好地安装 h2o 在 R 中但是当我运行 h2o init 时出现以下错误 h2o init H2O 尚未运行现在开始值错误 3L 您有 32 位版本的 Java H2O 在 64 位 Java 上运行效果最佳请从以下网址下
如何从句子中标记的 word2vec 中获取句子的向量

我已经使用 word2vec 从大型文档中生成了标记列表的向量给定一个句子是否可以从句子中标记的向量得到该句子的向量有不同的方法来获取句子向量 Doc2Vec 您可以使用 Doc2Vec 训练数据集然后使用句子向量 Word2Vec
如何知道 R 完成了多少个深度学习 epoch？

默认情况下提前停止处于启用状态h2o deeplearning 但是从 R 中我如何知道它是否确实提前停止了以及它停止了多少个纪元我试过这个 model h2o deeplearning print model 它告诉我有关层 M
为什么word2Vec使用余弦相似度？

我一直在阅读有关 Word2Vec 的论文例如this one https papers nips cc paper 5021 distributed representations of words and phrases and th
根据相似度对图像进行聚类

我面临着基于相似性的图像聚类问题而不知道聚类的数量理想情况下我想实现类似这样的目标http cs231n github io assets cnnvis tsne jpeg http cs231n github io assets c
如何在 Weka 中计算聚类评估的准确性

我们如何使用 Weka 计算集群的准确性我可以使用这个公式 Accuracy A tp tn Total samples 但我如何知道Weka工具中实验输出的真阳性假阳性真阴性和假阴性是什么 Weka中有几种不同的聚类模式使用训练集
错误：“utf8”编解码器无法解码位置 0 中的字节 0x80：起始字节无效

我正在尝试执行以下操作Kaggle作业 https www kaggle com c word2vec nlp tutorial 我正在使用 gensim 包来使用 word2vec 我能够创建模型并将其存储到磁盘但是当我尝试加载文件时
H2O 中带有西里尔字母的字符串 UTF-8 编码

我使用西里尔字符串加载 utf 8 编码的 csv 文件在 Flow 界面中解析后我看不到西里尔字母但看不到可读的符号例如如何在 H2O 中使用 utf 8 西里尔字母字符串这似乎是 Flow 界面中的一个错误但仅限于 set
如何使用：H2O ddply、R 中的函数？

考虑下面的代码 library h2o library plyr h2o init data1x lt x row1 1 1 1 2 1 3 1 4 2 1 2 2 2 3 3 1 4 2 data1x lt read table text
gensim 错误：导入错误：没有名为“gensim”的模块

我尝试导入 gensim import gensim 但出现以下错误 ImportError Traceback most recent call last
什么是 doc2vec 训练迭代？

我是 doc2vec 的新手我最初试图理解 doc2vec 下面提到的是我使用 Gensim 的代码正如我想要的那样我得到了两个文档的训练模型和文档向量但是我想知道在几个时期重新训练模型的好处以及如何在 Gensim 中做到这一点
在 Spark 中加载 Word2Vec 模型

是否可以加载预训练二进制模型来 Spark 使用 scala 我尝试加载由谷歌生成的二进制模型之一如下所示 import org apache spark mllib feature Word2Vec Word2VecModel va
如何在 R 中使用 H2o 从 SQL Server 加载表？

我尝试使用 h2o 将表加载到 R 中但出现以下错误 my data lt h2o import sql table my sql conn table username password 错误意外的 HTTP 状态代码 500 服务器
Rand Index函数（聚类性能评估）

据我所知 python 中没有可用于 Rand Index 的软件包而对于调整后的 Rand Index 您可以选择使用sklearn metrics adjusted rand score labels true labels pred
如何安装特定版本的 H2O

我需要安装旧版本的 H2O 因为即使版本只有一个 3 26 0 2 与 3 26 0 3 模型加载也不起作用我正在努力寻找可以找到下载链接的页面为什么它不存在所有软件都有一个存档或旧版本页面我还尝试使用当前版本的链接但没有运气因
H2O 和 Scikit-Learn 指标评分之间有什么区别吗？

我尝试使用H2O创建一些用于二元分类问题的机器学习模型测试结果非常好但后来我查了一下发现了一些奇怪的事情出于好奇我尝试打印测试集模型的预测我发现我的模型实际上一直预测为 0 负但 AUC 在 0 65 左右并且精度不是 0
H2O R api：从网格搜索中检索最佳模型

我正在使用h2oR 中的包 v 3 6 0 并且我构建了一个网格搜索模型现在我正在尝试访问最小化验证集上的 MSE 的模型在Python中sklearn 这在使用时很容易实现RandomizedSearchCV Pseudo code
将 word2vec 模型查询的结果保存在 csv 文件中？

我正在语料库上训练 word2vec 模型然后查询该模型这工作正常但我正在运行一个实验需要针对不同的条件调用模型保存每个条件的模型查询每个条件的模型然后将查询的输出保存到 csv 文件中例如进一步分析所有条件我研究了 ge
Python 在 anaconda 中找不到 h2o 包

当我尝试导入 h2o 时我被告知该包不存在当我尝试安装它时它告诉我它已经存在我尝试将其从计算机中删除并重新安装但没有成功此时我能想到的只是一些环境变量 C Users Lanier Anaconda2 C Users Lanie

随机推荐

使用 JS 将 Windows-1252 转换为 UTF-8

我有一些荷兰语的字符串我知道如何使用 PHP 对它们进行编码 str iconv Windows 1252 UTF 8 str Javascript 中的等价物是什么 Windows 1252 是单字节编码非常方便您只需构建一个查找表
使用 Picasso 加载并链接到布局文件后，ImageView 图像不显示

我想显示一个单选按钮并在其旁边显示一个 ImageView 其中包含 Picaso 加载的图像我尝试在相对布局中将 ImageView 对象加载到单选按钮旁边但只显示单选按钮但不显示图像我是 Android 新手非常感谢任何帮助
C++ 字符串字面量相等检查？

不是我们比较两个数组的方式因为那只会比较地址 include
如果反序列化出现错误，是否有一种简单的方法可以使 Gson 跳过该字段？

我正在尝试使用 Gson Java 反序列化一些数据而我从中提取数据的 API 有时在字段中包含错误类型的数据 IE 如果我期待一个数组String类型它可能会遇到Boolean 现在我意识到这些是我当前的选择始终忽略反序列化中的字段
使用 ehcache 的集群 Hibernate 缓存：非严格与严格读写

两者之间真正的区别是什么nonstrict read write and read write 我可以阅读 ehcache 和 Hibernate 文档但据我所知他们只说如果进行更新读写会更好我觉得不太令人满意我可能对长期缓存集
Github 多个帐户 - globalUserName 拒绝访问 individualUserName/repoName.git

更新 2018 年 5 月 14 日我更新了我的操作系统并不得不重新启动我的机器所以这显然搞乱了我对这个问题的修复这似乎是暂时的为了再次暂时解决这个问题我必须执行以下操作 ran eval ssh agent s ssh add s
无法安装 pygraphviz

我在 macOS Mojave 10 14 1 上安装 pygraphviz 时遇到问题我使用的Python版本是3 6 7 执行命令时pip install pygraphviz 我收到以下冗长的错误消息 Collecting pygr
意象。将颜色更改为透明

我想更改此图像的黑色边框 http dev loungeup net im http dev loungeup net im 使用 PHP 中的 Imagick 实现透明结果图像应该具有可见的灰色边框灰色边框内的图像可见灰色边框之外的
如何以编程方式更改 ListView 内 TextView 的背景颜色？

我有一个包含多个 TextView 项目的 ListView 该列表是在运行时创建的并且大小可能会有所不同我想根据运行时生成的浮点值设置 TextView 项目的背景我正在使用 ArrayAdapter setListAdapter
包含所需部分的最大长度字符串的正则表达式？

我不完全是正则表达式专家所以我在为以下情况找到正则表达式时遇到一些困难我想匹配以下形式的字符串
DropzoneJS 上传后隐藏了 dropzone 区域，如何恢复？

我在用着angular2 dropzone wrapper我几乎按照我的需要工作了我有这样的配置 this dropZoneConfig server this url maxFilesize 50 acceptedFiles xml p
红宝石来整理单词[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在尝试编写一个 ruby 脚本来解读排列的单词生成所有排列并在 txt 目录中搜索该单词我遇到了问题这是我所拥有的简单概述 pr
如何在 GEOS 中制作矩形？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案如何使用 GEOS 库的 C API 制作矩形以下实现完成了工作GEOS http trac osg
来自 WEBVTT 的 RDF/JSON Javascript 解析器

晚上好开门见山我需要一个脚本来从 WEBVTT 文件中的特定时间间隔获取 RDF JSON 结构这样的事情存在吗 RDF JSON 是 Talis 指定的文件结构如下所示 S P O WEBVTT 实现上述结构如下 0 00 00
将有状态 LSTM 称为功能模型？

我有一个状态 LSTM 定义为顺序模型 model Sequential model add LSTM stateful True 后来我将其用作功能模型 input 1 input 2 Input Input output 1 mode
使用 ruby-install/ruby-build 在 Archlinux 上安装 Ruby 2.1.x 和 2.3.x 时出现 OpenSSL 错误

我在 Archlinux 上使用 ruby install 构建旧版本的 Ruby 时遇到了一些问题我怀疑 ruby build 也会发生同样的情况尝试安装 Ruby 2 1 5 2 1 6 2 3 0 2 3 1 2 3 4 后我看
ArgumentError：写入密钥必须初始化 Rails

您好我是 Rails 新手我使用 nitrous io 作为我的 IDE 我刚刚使用 Rails 生成了一个模型generate model Micropost content text user references 当我跑步时bun
如何删除 DataGrid 中焦点上的轮廓

我试图删除当您关注 Material UI 的 DataGrid 组件中的单元格时出现的轮廓这些方法都不起作用 const useStyles makeStyles theme gt Method 1 global MuiDataGrid
Java 中的字符串到 Clob？

我在java中有一个字符串但数据库中的数据类型是Clob 如何从 String 中获取 Clob clob setString position string 将 String 写入 Clob 对象 http download oracl
H2O 是否或将会提供任何与 h2o word2vec 一起使用的预训练向量？

H2O 最近在其 API 中添加了 word2vec 能够在您自己提供的语料库上轻松训练自己的词向量真是太好了然而使用大数据和大型计算机存在更大的可能性由于网络带宽和计算能力的限制谷歌或 H2O ai 等软件供应商可能无法访问这种类

H2O 是否或将会提供任何与 h2o word2vec 一起使用的预训练向量？

H2O 是否或将会提供任何与 h2o word2vec 一起使用的预训练向量？ 的相关文章

随机推荐

热门标签

H2O 是否或将会提供任何与 h2o word2vec 一起使用的预训练向量？的相关文章