H2O 是否或将会提供任何与 h2o word2vec 一起使用的预训练向量?

2024-04-17

H2O 最近在其 API 中添加了 word2vec。能够在您自己提供的语料库上轻松训练自己的词向量真是太好了。

然而,使用大数据和大型计算机存在更大的可能性,由于网络带宽和计算能力的限制,谷歌或 H2O.ai 等软件供应商可能无法访问这种类型的 H2O 最终用户。

词嵌入可以被视为一种无监督学习。因此,通过使用在非常大的语料库上构建的预训练词向量作为特定应用程序的基础设施,可以在数据科学管道中获得巨大的价值。使用通用预训练词向量可以被视为迁移学习的一种形式。重用词向量类似于计算机视觉深度学习通用最低层,学习检测照片中的边缘。较高层检测由其下面的边缘层组成的特定类型的对象。

例如,Google 通过其 word2vec 包提供了一些预训练的词向量。对于无监督学习来说,例子越多越好。此外,有时对于个人数据科学家来说,下载一个巨大的文本语料库来训练自己的词向量实际上是很困难的。并且没有充分的理由让每个用户通过在维基百科等相同的通用语料库(corpi?)上训练词向量来重新创建相同的轮子。

词嵌入非常重要,有可能成为众多可能应用的基础。 TF-IDF 是许多自然语言数据科学应用的旧基础,如果使用词嵌入,它将会变得过时。

三个问题:

1 - H2O 目前是否提供任何通用的预训练词嵌入(词向量),例如对在合法或其他公共(政府)网站、维基百科、twitter 或 craigslist,或其他免费或开放共享资源中找到的文本进行训练人类书写的文字?

2 - 是否有一个社区网站,H2O 用户可以分享他们训练有素的 word2vec 词向量,这些词向量建立在更专业的语料库(例如医学和法律)上?

3 - H2O 可以从其 word2vec 包中导入 Google 的预训练词向量吗?


谢谢你的提问。

您是完全正确的,在很多情况下您不需要自定义模型,预训练模型就可以很好地工作。我假设人们大多会针对特定领域的较小问题构建自己的模型,并使用预先训练的模型来补充自定义模型。

您可以将第 3 方预训练模型导入 H2O,只要它们采用类似 CSV 的格式即可。对于许多可用的 GloVe 型号来说都是如此。

为此,将模型导入到框架中(就像任何其他数据集一样):

w2v.frame <- h2o.importFile("pretrained.glove.txt")

然后将其转换为常规的 H2O word2vec 模型:

w2v.model <- h2o.word2vec(pre_trained = w2v.frame, vec_size = 100)

请注意,您需要提供嵌入的大小。

据我所知,H2O 并不打算为 w2v 模型提供模型交换/模型市场。您可以使用在线提供的模型:https://github.com/3Top/word2vec-api https://github.com/3Top/word2vec-api

我们目前不支持导入 Google 的二进制格式的词嵌入,但是我们的路线图上已经提供了支持,因为它对我们的用户来说很有意义。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

H2O 是否或将会提供任何与 h2o word2vec 一起使用的预训练向量? 的相关文章

  • 通过@leader@model访问automlleader时返回空列表

    Running h2o automl 返回排行榜中的单个模型 但是 当尝试通过访问实际模型时 leader model 出现以下错误 is H2OFrame x 中的错误 尝试从对象获取槽 指标 没有槽的基本类 NULL 另外 打电话时h2
  • 无法运行 H2o 功能

    我能够很好地安装 h2o 在 R 中 但是当我运行 h2o init 时出现以下错误 h2o init H2O 尚未运行 现在开始 值错误 3L 您有 32 位版本的 Java H2O 在 64 位 Java 上运行效果最佳 请从以下网址下
  • 如何从句子中标记的 word2vec 中获取句子的向量

    我已经使用 word2vec 从大型文档中生成了标记列表的向量 给定一个句子 是否可以从句子中标记的向量得到该句子的向量 有不同的方法来获取句子向量 Doc2Vec 您可以使用 Doc2Vec 训练数据集 然后使用句子向量 Word2Vec
  • 如何知道 R 完成了多少个深度学习 epoch?

    默认情况下 提前停止处于启用状态h2o deeplearning 但是 从 R 中 我如何知道它是否确实提前停止了 以及它停止了多少个纪元 我试过这个 model h2o deeplearning print model 它告诉我有关层 M
  • 为什么word2Vec使用余弦相似度?

    我一直在阅读有关 Word2Vec 的论文 例如this one https papers nips cc paper 5021 distributed representations of words and phrases and th
  • 根据相似度对图像进行聚类

    我面临着基于相似性的图像聚类问题 而不知道聚类的数量 理想情况下 我想实现类似这样的目标http cs231n github io assets cnnvis tsne jpeg http cs231n github io assets c
  • 如何在 Weka 中计算聚类评估的准确性

    我们如何使用 Weka 计算集群的准确性 我可以使用这个公式 Accuracy A tp tn Total samples 但我如何知道Weka工具中实验输出的真阳性 假阳性 真阴性和假阴性是什么 Weka中有几种不同的聚类模式 使用训练集
  • 错误:“utf8”编解码器无法解码位置 0 中的字节 0x80:起始字节无效

    我正在尝试执行以下操作Kaggle作业 https www kaggle com c word2vec nlp tutorial 我正在使用 gensim 包来使用 word2vec 我能够创建模型并将其存储到磁盘 但是当我尝试加载文件时
  • H2O 中带有西里尔字母的字符串 UTF-8 编码

    我使用西里尔字符串加载 utf 8 编码的 csv 文件 在 Flow 界面中解析后 我看不到西里尔字母 但看不到可读的符号 例如 如何在 H2O 中使用 utf 8 西里尔字母字符串 这似乎是 Flow 界面中的一个错误 但仅限于 set
  • 如何使用:H2O ddply、R 中的函数?

    考虑下面的代码 library h2o library plyr h2o init data1x lt x row1 1 1 1 2 1 3 1 4 2 1 2 2 2 3 3 1 4 2 data1x lt read table text
  • gensim 错误:导入错误:没有名为“gensim”的模块

    我尝试导入 gensim import gensim 但出现以下错误 ImportError Traceback most recent call last
  • 什么是 doc2vec 训练迭代?

    我是 doc2vec 的新手 我最初试图理解 doc2vec 下面提到的是我使用 Gensim 的代码 正如我想要的那样 我得到了两个文档的训练模型和文档向量 但是 我想知道在几个时期重新训练模型的好处以及如何在 Gensim 中做到这一点
  • 在 Spark 中加载 Word2Vec 模型

    是否可以加载预训练 二进制 模型来 Spark 使用 scala 我尝试加载由谷歌生成的二进制模型之一 如下所示 import org apache spark mllib feature Word2Vec Word2VecModel va
  • 如何在 R 中使用 H2o 从 SQL Server 加载表?

    我尝试使用 h2o 将表加载到 R 中 但出现以下错误 my data lt h2o import sql table my sql conn table username password 错误 意外的 HTTP 状态代码 500 服务器
  • Rand Index函数(聚类性能评估)

    据我所知 python 中没有可用于 Rand Index 的软件包 而对于调整后的 Rand Index 您可以选择使用sklearn metrics adjusted rand score labels true labels pred
  • 如何安装特定版本的 H2O

    我需要安装旧版本的 H2O 因为即使版本只有一个 3 26 0 2 与 3 26 0 3 模型加载也不起作用 我正在努力寻找可以找到下载链接的页面 为什么它不存在 所有软件都有一个存档或旧版本页面 我还尝试使用当前版本的链接 但没有运气 因
  • H2O 和 Scikit-Learn 指标评分之间有什么区别吗?

    我尝试使用H2O创建一些用于二元分类问题的机器学习模型 测试结果非常好 但后来我查了一下 发现了一些奇怪的事情 出于好奇 我尝试打印测试集模型的预测 我发现我的模型实际上一直预测为 0 负 但 AUC 在 0 65 左右 并且精度不是 0
  • H2O R api:从网格搜索中检索最佳模型

    我正在使用h2oR 中的包 v 3 6 0 并且我构建了一个网格搜索模型 现在 我正在尝试访问最小化验证集上的 MSE 的模型 在Python中sklearn 这在使用时很容易实现RandomizedSearchCV Pseudo code
  • 将 word2vec 模型查询的结果保存在 csv 文件中?

    我正在语料库上训练 word2vec 模型 然后查询该模型 这工作正常 但我正在运行一个实验 需要针对不同的条件调用模型 保存每个条件的模型 查询每个条件的模型 然后将查询的输出保存到 csv 文件中 例如进一步分析所有条件 我研究了 ge
  • Python 在 anaconda 中找不到 h2o 包

    当我尝试导入 h2o 时 我被告知该包不存在 当我尝试安装它时 它告诉我它已经存在 我尝试将其从计算机中删除并重新安装 但没有成功 此时我能想到的只是一些环境变量 C Users Lanier Anaconda2 C Users Lanie

随机推荐