使用 word2vec 嵌入句子

2024-01-06

我想比较不同句子中提到的相同单词的差异，例如“旅行”。我想做的是：

将提及“旅行”一词的句子视为纯文本；
在每个句子中，将“旅行”替换为travel_sent_x。
在这些句子上训练 word2vec 模型。
计算 Travel_sent1、travel_sent2 和其他重新标记的“旅行”提及之间的距离所以每个句子的“旅行”都有自己的向量，用于比较。

我知道 word2vec 需要的不仅仅是几个句子来训练可靠的向量。官方页面推荐的数据集包含数十亿个单词，但我的数据集中没有这样的数字（我有数千个单词）。

我试图用以下几句话来测试模型：

    Sentences
    Hawaii makes a move to boost domestic travel and support local tourism
    Honolulu makes a move to boost travel and support local tourism
    Hawaii wants tourists to return so much it's offering to pay for half of their travel expenses

我构建向量的方法是：

from gensim.models import Word2Vec

vocab = df['Sentences']))
model = Word2Vec(sentences=vocab, size=100, window=10, min_count=3, workers=4, sg=0)
df['Sentences'].apply(model.vectorize)

然而，我不知道如何可视化结果以查看它们的相似性并获得一些有用的见解。欢迎任何帮助和建议。

更新：我将使用主成分分析算法来可视化 3 维空间中的嵌入。我知道如何处理每个单词，但我不知道如何处理句子。

请注意，word2vec 本质上并不是一种对句子进行建模的方法，而只是对单词进行建模。因此，没有单一的官方方法来使用 word2vec 来表示句子。

一次快速而粗略的方法是通过对所有词向量进行平均来为句子（或其他多词文本）创建一个向量。它速度快，总比没有好，并且可以完成一些简单的（广泛主题的）任务 - 但不能很好地捕捉文本的完整含义，特别是任何依赖于语法、一词多义的含义，或复杂的上下文提示。

尽管如此，您仍然可以使用它来获取每个短文本的固定大小的向量，并计算这些向量之间的成对相似度/距离，并将结果输入到降维算法中以用于可视化或其他目的。

其他算法实际上为较长的文本创建向量。与 word2vec 密切相关的浅层算法是“段落向量”，在 Gensim 中可用作为Doc2Vec班级。但它仍然不是很复杂，并且仍然不具备语法意识。许多更深层次的网络文本模型（例如 BERT、ELMo 等）可能是可行的。

Word2vec 及相关算法非常需要数据：它们的所有有益品质都源于同一个单词的许多不同用法示例之间的拉锯战。因此，如果您有一个玩具大小的数据集，您将不会获得一组具有有用相互关系的向量。

而且，较大数据集中的稀有单词不会获得良好的向量。在训练中，通常会丢弃出现在某些单词下面的单词，就好像它们根本不存在一样。min_count频率 - 因为它们的向量不仅会因为一个或几个特殊的样本使用而变得很差，而且因为总共有很多这样的代表性不足的单词，所以保留它们往往会使other词向量也更糟。它们是噪音。

所以，你提出的采取的想法个人的实例travel用单一外观标记替换它们很可能会产生有趣的结果。降低你的min_count到 1 将为您提供每个变体的向量 - 但它们的质量会比其他单词向量差得多（并且更加随机），与其他单词相比，它们受到的训练关注相对较少，并且每个变体都完全受到他们周围的几个单词（而不是所有周围上下文的整个范围）都有助于对统一的有用定位做出贡献travel token).

（你也许可以通过（1）保留句子的原始版本来稍微抵消这些问题，所以你仍然得到travel向量; (2) 多次重复你的标记损坏的句子，并重新排列它们以出现在整个语料库中，以在某种程度上模拟你的合成上下文的更真实的情况。但如果没有真正的多样性，此类单上下文向量的大多数问题仍将存在。）

另一种可能的比较方法travel_sent_A, travel_sent_B等将忽略确切的向量travel or travel_sent_X完全，而是为该单词周围的 N 个单词编译一个摘要向量。例如，如果您有 100 个该词的示例travel，创建 100 个向量，分别代表 N 个单词around旅行。这些向量可能会显示一些模糊的簇/邻域，特别是在单词具有非常不同的替代含义的情况下。（一些研究采用 word2vec 来解决一词多义问题，使用这种context vector影响/选择替代词义的方法。）

您可能还会发现这项关于将单词建模为从话语的替代“原子”中提取的研究很有趣：词义的线性代数结构 http://www.offconvex.org/2016/07/10/embeddingspolysemy/

如果您有类似标题的短文本，并且只有词向量（没有进行更深入建模的数据或算法），您可能还需要研究“词移动器距离”计算来比较文本。它不是将单个文本简化为单个向量，而是将其建模为“词向量包”。然后，它将距离定义为将一个包转换为另一个包的成本。（更多相似的单词比不太相似的单词更容易相互转换，因此非常相似的表达方式，仅替换了几个同义词，报告为非常接近。）

计算较长的文本可能会非常昂贵，但对于短语和小标题/推文/等可能效果很好。它可以在 Gensim 上使用KeyedVector类为wmdistance() https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.FastTextKeyedVectors.wmdistance。本文中的一个示例说明了它可能有助于发现相关性：使用 Word Mover’s Distance 导航餐厅评论中的主题 http://tech.opentable.com/2015/08/11/navigating-themes-in-restaurant-reviews-with-word-movers-distance/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 word2vec 嵌入句子的相关文章

如何在 Windows 64 上安装 NumPy？

NumPy 安装程序在注册表中找不到 python 路径无法安装需要 Python 2 5 版本但在注册表中未找到该版本 OK 我必须修改注册表吗我已经修改了 PATH 以指向Python25安装目录我可以检查一下您使用的是什么安
Python 3 os.urandom

在哪里可以找到完整的教程或文档os urandom 我需要获得一个随机 int 来从 80 个字符的字符串中选择一个字符如果你只需要一个随机整数你可以使用random randint a b 来自随机模块 http docs pytho
Sublime Text 插件开发中的全局 Python 包

一总结我不知道 Sublime Text 插件开发人员如何使用 Sublime Text 查找全局 Python 包而不是 Sublime Text 目录的 Python 包 Sublime Text使用自己的Python环境而不是
如何检查python xlrd库中的excel文件是否有效

有什么办法与xlrd库来检查您使用的文件是否是有效的 Excel 文件我知道还有其他库可以检查文件头我可以使用文件扩展名检查但为了多平台性我想知道是否有任何我可以使用的功能xlrd库本身在尝试打开文件时可能会返回类似 false 的内
删除 Django 1.7 中的应用程序（和关联的数据库表）

是否可以使用 Django 1 7 迁移来完全删除卸载应用程序及其所有跟踪主要是其所有数据库表如果没有在 Django 1 7 中执行此操作的适当方法是什么 python manage py migrate
Python 2.7 中的断言对我来说不起作用示例assertIn

我的 Mac 上安装了 python 2 7 通过在终端中运行 python v 进行验证当我尝试使用任何新的 2 7 断言方法时我收到 AtributeError 我看过http docs python org 2 library u
Mac OS X 中文件系统的 Unicode 编码在 Python 中不正确？

在 OS X 和 Python 中处理 Unicode 文件名有点困难我试图在代码中稍后使用文件名作为正则表达式的输入但文件名中使用的编码似乎与 sys getfilesystemencoding 告诉我的不同采取以下代码 usr b
Python 中的流式传输管道

我正在尝试使用 Python 将 vmstat 的输出转换为 CSV 文件因此我使用类似的方法转换为 CSV 并将日期和时间添加为列 vmstat 5 python myscript py gt gt vmstat log 我遇到的问题是
工作日重新订购 Pandas 系列

使用 Pandas 我提取了一个 CSV 文件然后创建了一系列数据来找出一周中哪几天崩溃最多 crashes by day bc DAY OF WEEK value counts 然后我将其绘制出来但当然它按照与该系列相同的排名顺序绘制
搜索多个字段

我想我没有正确理解 django haystack 我有一个包含多个字段的数据模型我希望搜索其中两个字段 class UserProfile models Model user models ForeignKey User unique
在 matplotlib 中的极坐标图上移动径向刻度标签

From matplotlib 示例 http matplotlib org examples pylab examples polar demo html import numpy as np import seaborn as sbs
从扫描文档中提取行表 opencv python

我想从扫描的表中提取信息并将其存储为 csv 现在我的表提取算法执行以下步骤应用倾斜校正应用高斯滤波器进行去噪使用 Otsu 阈值进行二值化进行形态学开局 Canny 边缘检测进行霍夫变换以获得表格行去除重复行 10像素范围内相
Django 的 request.FILES 出现 UnicodeDecodeError

我在视图调用中有以下代码 def view request body u for filename f in request FILES items body body Filename filename n f read n 在某些情况下
使用 python 绘制正值小提琴图

我发现小提琴图信息丰富且有用我使用 python 库 seaborn 然而当应用于正值时它们几乎总是在低端显示负值我发现这确实具有误导性尤其是在处理现实数据集时在seaborn的官方文档中https seaborn pydata
如何在 pandas 中使用 read_fwf 跳过空行？

I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读
返回表示每组内最大值的索引的一系列数字位置

考虑一下这个系列 np random seed 3 1415 s pd Series np random rand 100 pd MultiIndex from product list ABDCE list abcde One Two T
Mac OSX 10.6 上的 Python mysqldb 不工作

我正在使用 Python 2 7 并尝试让 Django 项目在 MySQL 后端运行我已经下载了 mysqldb 并按照此处的指南进行操作 http cd34 com blog programming python mysql pyth
在系统托盘中隐藏 tkinter 窗口 [重复]

这个问题在这里已经有答案了我正在制作一个程序来提醒我朋友的生日这样我就不会忘记祝福他们为此我制作了两个 tkinter 窗口 1 First one is for entering name and birth date 2 Sec
Django Admin 中的反向内联

我有以下 2 个型号现在我需要将模型 A 内联到模型 B 的页面上模型 py class A models Model name models CharField max length 50 class B models Model n
使用ssl和socket的python客户端身份验证

我有一个 python 服务器需要客户端使用证书进行身份验证我如何制作一个客户端脚本使用客户端证书由 python 中的服务器使用 ssl 和套接字模块进行身份验证有没有仅使用套接字和 ssl 而不扭曲的示例 from OpenSS

随机推荐

是否可以在 php 中更改 $_['http_referer'] ？ [复制]

这个问题在这里已经有答案了可能的重复 PHP 引用重定向脚本 https stackoverflow com questions 857427 php referer redirect script 例如我希望制作改变浏览器 http
为什么android sdk中默认的proguard配置使用keep *注释*

android sdk默认的proguard配置中有一行 keepattributes Annotation 根据 Proguard 手册这一行等于 keepattributes RuntimeVisibleAnnotations Run
Excel VBA 工作表和文本框中的日期出现错误

我住在澳大利亚我们使用 d mm yyyy 日期格式我正在尝试在 Excel 中使用 VBA 创建一个用户窗体它将读取单元格 A1 并将其显示在文本框中然后用户可以在另一个文本框中输入日期并将该日期设置回单元格 A1 我遇到的问题
用于管理推送通知的 iOS API

这个可能性不大但是是否有任何公共或私有 API 允许我们读取 iOS 设备上现有的推送通知例如在后台运行的应用程序是否可以每隔 X 秒轮询一次系统以确定设备是否已收到来自 Stack Exchange 应用程序的推送通知并获取其内
boost::program_options - 如何处理 INI 文件中具有相同名称的多个部分

在如下配置中有没有办法处理各个部分我正在寻找一种以可靠的方式验证下面各个服务器部分的方法 basic number of servers 3 server ip 10 20 30 40 password sdfslkhf serve
在 AngularJS 中对 ui.router 的解析执行 $http get 请求可以吗？

我有以下代码如下它们非常适合我并且至少满足我的需要但我对此有点怀疑我有一种感觉这太好了令人难以置信因为我正在挣扎 http的异步行为这对我使用来自的响应对象有很大帮助 http在控制器上全局请求我只是想知道它是否是正确的方法
InkWell 小部件需要 Material 小部件祖先

我在 Row 中添加 InkWell 作为小部件但它抛出了一个错误 flutter EXCEPTION CAUGHT BY WIDGETS LIBRARY flutter The following assertion was throw
在 eclipse 的 toplink 中显示生成的 SQL

我在 eclipse 中使用 EclipseLink 库在开发时并部署在 TopLink 上我需要显示生成的 sql 语句我正在使用以下 persistence xml
在 ASP.NET Razor 中格式化字符串

我目前正在 ASP NET 中编写一个小型模板系统以允许用户添加内容例如用户可以输入字符串变量类型为字符串 topHeader x They think it s all over It is now 但是需要进行的一项更改是能够
“Using”语句如何从 C# 转换为 VB？

例如 BitmapImage bitmap new BitmapImage byte buffer GetHugeByteArray from some external source using MemoryStream stream n
强制作曲家符号链接本地包

我正在尝试找到一种适当的方法来迫使作曲家符号链接本地包我知道有一个问题如何强制 Composer 下载本地包 https stackoverflow com questions 41782242 how to force compose
Pandas 损益汇总至下一个工作日

我很难有效地做到这一点我的数据框中有一些股票和每日损益信息实际上我有数百万行数据因此效率非常重要数据框看起来像 Date Security P L 2016 01 01 AAPL 100 2016 01 02 AAPL 200 2
扫描仪提前终止

我正在尝试用 Go 编写一个扫描器它可以扫描连续行并在返回之前清理该行以便您可以返回逻辑行因此给出以下 SplitLine 函数 Play http play golang org p 1HqqyvvcTJ func ScanLo
Google Apps 脚本错误 - 提取旧数据 - 不提取工作表中的当前数据 - Google 表格缓存问题

我遇到过这样一种情况将数据从一个 Google 工作表移动到另一个 Google 工作表的 Google Apps 脚本并未提取工作表中的当前数据我可以通过检查两张表中的版本历史记录来验证这一点当脚本从 Google Trigger
如何从外部文件运行函数作为表单的操作？

描述目前我有一个 html 文件其形式如下
只模糊背景中的重复图像？

我有一个带有背景图像的 div 背景图片css设置如下 resPic1 background url css images residentialpic1 jpeg center background size contain What i
剖析 Maven

是否有工具可以分析 Maven 构建过程本身以便我可以看到构建花费最多时间的地方我们在工作中遇到了 Maven 3 0 3 和 3 0b1 的问题与 3 0 3 9m00s 相比我们的项目在 3 0b1 3m30s 下的构建速度要快
找不到“firebase_messaging/FirebaseMessagingPlugin.h”文件

我正在尝试在 ios 上运行我的 flutter 应用程序但是我收到此错误 ios Runner GeneratePluginRegistrant m 6 9 找不到 firebase messaging FirebaseMessagin
如何将文本样式从粗体更改为正常

我可以将文本从正常更改为粗体但无法从粗体更改为正常我不知道我错过了什么 boldtext setOnClickListener new View OnClickListener Override public void onClick
使用 word2vec 嵌入句子

我想比较不同句子中提到的相同单词的差异例如旅行我想做的是将提及旅行一词的句子视为纯文本在每个句子中将旅行替换为travel sent x 在这些句子上训练 word2vec 模型计算 Travel sent1 trav

使用 word2vec 嵌入句子

使用 word2vec 嵌入句子 的相关文章

随机推荐

热门标签

使用 word2vec 嵌入句子的相关文章