H2O 最近在其 API 中添加了 word2vec。能够在您自己提供的语料库上轻松训练自己的词向量真是太好了。
然而,使用大数据和大型计算机存在更大的可能性,由于网络带宽和计算能力的限制,谷歌或 H2O.ai 等软件供应商可能无法访问这种类型的 H2O 最终用户。
词嵌入可以被视为一种无监督学习。因此,通过使用在非常大的语料库上构建的预训练词向量作为特定应用程序的基础设施,可以在数据科学管道中获得巨大的价值。使用通用预训练词向量可以被视为迁移学习的一种形式。重用词向量类似于计算机视觉深度学习通用最低层,学习检测照片中的边缘。较高层检测由其下面的边缘层组成的特定类型的对象。
例如,Google 通过其 word2vec 包提供了一些预训练的词向量。对于无监督学习来说,例子越多越好。此外,有时对于个人数据科学家来说,下载一个巨大的文本语料库来训练自己的词向量实际上是很困难的。并且没有充分的理由让每个用户通过在维基百科等相同的通用语料库(corpi?)上训练词向量来重新创建相同的轮子。
词嵌入非常重要,有可能成为众多可能应用的基础。 TF-IDF 是许多自然语言数据科学应用的旧基础,如果使用词嵌入,它将会变得过时。
三个问题:
1 - H2O 目前是否提供任何通用的预训练词嵌入(词向量),例如对在合法或其他公共(政府)网站、维基百科、twitter 或 craigslist,或其他免费或开放共享资源中找到的文本进行训练人类书写的文字?
2 - 是否有一个社区网站,H2O 用户可以分享他们训练有素的 word2vec 词向量,这些词向量建立在更专业的语料库(例如医学和法律)上?
3 - H2O 可以从其 word2vec 包中导入 Google 的预训练词向量吗?
谢谢你的提问。
您是完全正确的,在很多情况下您不需要自定义模型,预训练模型就可以很好地工作。我假设人们大多会针对特定领域的较小问题构建自己的模型,并使用预先训练的模型来补充自定义模型。
您可以将第 3 方预训练模型导入 H2O,只要它们采用类似 CSV 的格式即可。对于许多可用的 GloVe 型号来说都是如此。
为此,将模型导入到框架中(就像任何其他数据集一样):
w2v.frame <- h2o.importFile("pretrained.glove.txt")
然后将其转换为常规的 H2O word2vec 模型:
w2v.model <- h2o.word2vec(pre_trained = w2v.frame, vec_size = 100)
请注意,您需要提供嵌入的大小。
据我所知,H2O 并不打算为 w2v 模型提供模型交换/模型市场。您可以使用在线提供的模型:https://github.com/3Top/word2vec-api https://github.com/3Top/word2vec-api
我们目前不支持导入 Google 的二进制格式的词嵌入,但是我们的路线图上已经提供了支持,因为它对我们的用户来说很有意义。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)