如何在Spacy中为OOV术语指定词向量?

2023-12-06

我有一个预训练的 word2vec 模型,我将其加载到spacy对新单词进行矢量化。给定我执行的新文本nlp('hi').vector获取单词“hi”的向量。

最终,需要对一个新单词进行向量化,该新单词不存在于我的预训练模型的词汇表中。在这种情况下spacy默认为用零填充的向量。我希望能够为 OOV 术语设置此默认向量。

Example:

import spacy
path_model= '/home/bionlp/spacy.bio_word2vec.model'
nlp=spacy.load(path_spacy)
print(nlp('abcdef').vector, '\n',nlp('gene').vector)

此代码输出单词“gene”的密集向量和单词“abcdef”的全 0 向量(因为它不存在于词汇表中):

enter image description here

我的目标是能够指定缺失单词的向量,因此您可以获得(例如)一个充满 1 的向量,而不是为单词“abcdef”获取充满 0 的向量。


如果您只想使用插件向量而不是 SpaCy 默认的全零向量,则可以添加一个额外的步骤,用您的向量替换任何全零向量。例如:

words = ['words', 'may', 'by', 'fehlt']
my_oov_vec = ...  # whatever you like
spacy_vecs = [nlp(word) for word in words]
fixed_vecs = [vec if vec.any() else my_oov_vec 
              for vec in spacy_vecs]

我不确定你为什么要这样做。许多关于词向量的工作只是简单地删除了词汇表之外的词。使用任何插头值,包括 SpaCy 的零向量,可能只会增加无用的噪音。

如果更好地处理 OOV 单词很重要,请注意,其他一些单词向量模型(如 FastText)可以通过使用在训练期间为子单词片段学习的向量来合成 OOV 单词的猜测向量。这类似于人们通常可以从熟悉的词根中找出单词的主旨。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在Spacy中为OOV术语指定词向量? 的相关文章

随机推荐

  • 没有名为 ogr 的模块

    我正在尝试使用ogr模块 我尝试使用 pip 安装它 但出现错误 找不到满足要求的版本ogr 来自版本 找不到匹配的分布ogr 尝试安装包括 GDAL 在内的所有软件包 但仍然出现错误 没有名为的模块ogr 在谷歌上没有找到可行的解决方案
  • Highcharts 在 IE 中向 SVG 元素添加重复的 xmlns 属性

    我正在使用 Highcharts 在 PHP Web 应用程序中创建图表 问题是 在 IE 中 创建的 SVG 元素最终会出现重复的 xmlns 属性 在F12开发者工具 HTML选项卡中可以看到 click for larger vers
  • 表单提交后/表单提交错误时填写文件输入

    我有一个多部分表单 其中包含默认输入 文本 选择等 和文件上传
  • 使用 jspdf 时转换/规范化特殊字符

    尝试使用jspdf 库 1 4 1将文本转换为 pdf 时 输出有时会变得非常丑陋且难以阅读 因为文本包含一些特殊字符 例如 左边的单引号U 2018 或者正确的一个U 2019 或类似的符号 或者 in Kad k y 我如何清理 规范此
  • 如何在RecyclerView之间随机放置广告?

    我在用着快速适配器在我的应用程序中 我想在其中随机放置广告RecyclerView 例如 就像 3 点之后的广告RecyclerView然后是 4 之后的项目 然后是 2 之后的项目 依此类推 这就是我使用 FastAdapter 的方式
  • 如何获得使用System.Diagnostics.Process.GetProcess(string)的权限?

    我正在使用 Microsoft Visual Studio 制作一个简单的远程任务管理器以供体验 我想用Process GetProcesses string 但存在访问被拒绝的异常 不允许我获取远程计算机进程 事实上这是正常的 因为我们应
  • CertPathBuilderException:无法找到有效的证书路径是 8.5 网络部署

    我在 Websphere 8 5 上部署的 Web 应用程序 java 中有一个 Web 服务客户端 当我在 Web 服务的调用中将协议从 http 更改为 https 后 使用自签名证书部署 出现以下错误 javax net ssl SS
  • 使用 SHA1 和 RSA 与 java.security.Signature 对比 MessageDigest 和 Cipher

    我试图理解Java是什么java security Signature类确实如此 如果我计算 SHA1 消息摘要 然后使用 RSA 加密该摘要 我会得到与询问不同的结果签名类来签署相同的东西 Generate new key KeyPair
  • 仅创建过程权限

    我在开发数据库中有 SQL Server 2008 的需求 只有 DBA 数据库所有者 才能创建 更改表 开发人员不应创建或更改表 开发人员可以创建 更改存储过程 用户定义函数 在 dbo 模式中并且可以执行 SP UDF 开发人员应该对表
  • SQL 中按日期排序

    我有一个资源表 其中一个字段是数据类型为日期的日期字段 我想要以下输出 当前月份记录 比如五月 年份并不重要 然后是以下内容 再次假设五月是当月 六月记录 七月记录 八月唱片 九月记录 十月记录 十一月记录 十二月记录 一月记录 二月记录
  • 我可以只为 div 的背景图像设置不透明度吗?

    假设我有 div class myDiv Hi there div 我想放一个background image并给它一个opacity of 0 5 但我希望我写的文字完全不透明 1 如果我像这样写CSS myDiv opacity 0 5
  • java中的叠加图像

    我希望你能给我一些建议来解决我的问题 我需要在按钮上叠加许多图像 但问题是 这是基础图像 牙齿 http i imgur com 7tIcP gif 我的第一张图片是这样的 https i stack imgur com zPaH9 gif
  • 如何在 JavaScript 中第一次出现多个子字符串之一时分割字符串?

    给定字符串 s1 abcfoodefbarghi and s2 abcbardefooghi 如何将 s1 拆分为 abc 和 defbarghi 和 s2 到 abc 和 defooghi 即 在字符串 foo 或 bar 第一次出现时将
  • 如何对相机图像应用效果?

    我们如何将棕褐色滤镜等效果应用于相机图像 在此网址中了解基本想法http www riagora com 2010 07 android air and the camera 然后参考android Graphics 它可以帮助您了解Blu
  • 进行媒体查询的最佳方式[关闭]

    Closed 这个问题是基于意见的 目前不接受答案 在 HTML 中放置媒体查询的最佳方式是什么 在同一个 CSS 文件中 例如 my text font size 30px media only screen and max width
  • 使 GridView 页脚在没有数据绑定时可见

    当gridview中没有数据时如何显示页脚以从页脚插入数据 最简单的方法是绑定一个长度为 1 的数组 您可以在其中添加任何您喜欢的内容来标识这是一个虚拟行 在 GridViews RowDataBound 方法中检查数据项是否为虚拟行 在尝
  • PHP:使用外部数据执行 ORDER BY?

    嘿大家 长话短说 如果您不介意向这位 PHP 新手伸出援手的话 我有一个名为 类别 的数据库字段 其中存储了以下内容 Fruit People Place Animals Landscape 我在数据库中还有一个单独的表 其中每个项目的字段
  • Mac OS 上的 Java 随机变慢

    我有一个 Java 程序 用于跨多个处理器进行一组科学计算 方法是将其分成多个部分并在不同的线程中运行每个部分 该问题是可以简单划分的 因此线程之间不存在争用或通信 他们访问的唯一公共数据是一些不需要同步访问的共享静态缓存 以及硬盘驱动器上
  • 使用批处理文件修改文件内容

    我需要创建一个批处理文件 使用它我们可以修改文件的内容 例如 Testing txt 文件包含一行 描述 MAN Human 改成 描述 MAN Human V2 仅在 MAN 末尾添加 V2 因此 当我们打开文件时 我们会看到描述名称 M
  • 如何在Spacy中为OOV术语指定词向量?

    我有一个预训练的 word2vec 模型 我将其加载到spacy对新单词进行矢量化 给定我执行的新文本nlp hi vector获取单词 hi 的向量 最终 需要对一个新单词进行向量化 该新单词不存在于我的预训练模型的词汇表中 在这种情况下