如何在text2vec中对齐两个GloVe模型？

2023-12-27

假设我已经训练了两个独立的 GloVe 向量空间模型（使用text2vec in R）基于两个不同的语料库。这样做可能有不同的原因：例如，两个基础语料库可能来自两个不同的时间段，或者两个非常不同的流派。我有兴趣比较这两个语料库之间单词的用法/含义。如果我简单地将两个语料库及其词汇表连接起来，这是行不通的（具有不同用法的单词对在向量空间中的位置将位于“中间”的某个位置）。

我最初的想法是只训练一个模型，但是在准备文本时，为每个单词添加后缀（_x，_y）（其中 x 和 y 代表语料库 x/y 中单词 A 的用法），并保留每个语料库的单独副本，不带后缀，因此最终串联训练语料库的词汇表将包括：A、A_x、A_y、B、B_x、B_y ...等，例如：

this is an example of corpus X
this be corpus Y yo
this_x is_x an_x example_x of_x corpus_x X_x
this_y be_y corpus_y Y_y yo_y

我认为 A 和 B 的“平均”用法可以作为空间的“坐标”，并且我可以测量同一空间中 A_x 和 A_y 之间的距离。但后来我意识到，由于 A_x 和 A_y 永远不会出现在同一上下文中（由于所有单词的后缀，包括它们周围的单词），这可能会扭曲空间并且不起作用。我还知道有一个叫做正交普鲁斯特问题，它与对齐矩阵有关，但我不知道如何在我的情况下实现它。

适合两个 GloVe 模型的合理方法是什么（最好是在R以便他们与text2vec）进入一个公共向量空间，如果我的最终目标是测量单词对的余弦相似度，这些单词对在拼写上相同，但出现在两个不同的语料库中？

我看到两种可能的解决方案：

尝试使用第一个模型的解决方案初始化第二个手套模型，并希望坐标系在第二个模型拟合期间不会发生太大变化
拟合两个模型并得到词向量矩阵 A、B。然后找到最小化 A 和 B 行之间的角度之和的旋转矩阵（还不知道如何做到这一点）

另请检查http://nlp.stanford.edu/projects/histwords/ http://nlp.stanford.edu/projects/histwords/，mb它将有助于方法论。

看来这是一个很好的问题https://math.stackexchange.com/ https://math.stackexchange.com/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在text2vec中对齐两个GloVe模型？的相关文章

在Matlab中将矩阵中的元素i,j设置为i*j

我想生成一个矩阵其中 i j 元素等于 i j 其中 i j e g 0 2 3 2 0 6 3 6 0 到目前为止我已经发现我可以使用这个索引矩阵访问非对角线元素 idx 1 eye 3 但我还没有弄清楚如何将矩阵单元的索引合并到计算
Node2vec 的工作原理

我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法我有点困惑它是如何工作的作为参考 node2vec 由 p 和 q 参数化并通过模拟来自节点的
从 Julia 中的文本文件读取数据矩阵

我有一个包含矩阵的文本文件我想在朱莉娅中将其作为矩阵来阅读文本文件如下 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 1 0 在 matlab 中您可以执行以下操作来创建矩阵M
BERT 输出不确定

BERT 输出是不确定的当我输入相同的输入时我希望输出值是确定性的但我的 bert 模型的值正在变化听起来很尴尬同一个值返回两次一次也就是说一旦出现另一个值就会出现相同的值并重复如何使输出具有确定性让我展示我的代码片段
快速NLTK解析成语法树

我正在尝试将数百个句子解析为语法树我需要快速完成问题是如果我使用 NLTK 那么我需要定义一个语法而我不知道我只知道它会是英语我尝试使用this https github com emilmont pyStatParser统计解析器
Java俄罗斯方块旋转

我知道这个问题已经被问了很多但我想知道如何旋转俄罗斯方块我已经做了一个又长又糟糕的解决方案大约 170 行代码但应该有更简单的方法来做到这一点我的俄罗斯方块由 4 个块组成它们都知道它们在矩阵中的位置行和列 Matrix本身是
指向二维数组的指针和手动内存管理 - C

我认为用纯 C 语言构建一个库来处理各种矩阵计算将是一个很好的挑战现在尽管我在 Objective C 和 Cocoa 方面有一些很好的经验但我对 C 的了解正是我所需要的与 Objective C 一起工作仅此而已例如我熟悉
将 3d 矩阵重塑为 2d 矩阵

我有一个 3d 矩阵 n by m by t 在 MATLAB 中表示n by m一段时间内网格中的测量值我想要一个二维矩阵其中空间信息消失了只有n m随着时间的推移测量t剩下即 n m by t 我怎样才能做到这一点你需要命令r
快速 shell 命令删除文本文件中的停用词

我有一个 2GB 的文本文件我正在尝试从此文件中删除经常出现的英语停用词我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令例如 tr sed 或 awk 执行此操作的快速方法是什
opencv中矩阵的超快中值（与matlab一样快）

我正在 openCV 中编写一些代码想要找到一个非常大的矩阵数组单通道灰度浮点数的中值我尝试了几种方法例如对数组进行排序使用 std sort 和选择中间条目但与 matlab 中的中值函数相比它非常慢准确地说在 ma
从 1D 列表创建 2D 列表

我对 Python 有点陌生我想将一维列表转换为二维列表给定width and length这个的matrix 说我有一个list 0 1 2 3 我想做一个2 by 2该列表的矩阵我怎样才能得到matrix 0 1 2 3 widt
在 C# 中存储矩阵值的快速且有用的方法

我需要用 C 为 3D 引擎创建一个 4x4 矩阵类我见过一些其他引擎将矩阵值存储在单个浮点成员变量字段中如下所示 float m11 m12 m13 m14 float m21 m22 m23 m24 float m31 m32 m
将四元数旋转转换为旋转矩阵？

基本上给定一个四元数 qx qy qz qw 我如何将其转换为OpenGL旋转矩阵我也对哪个矩阵行是向上向右向前等感兴趣我有一个四元数的相机旋转我需要在向量中以下代码基于四元数 qw qx qy qz 其中顺序基于 Boo
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
无法在 Document-Term-Matrix 中看到 `RTextTools::toLower()` 文本的结果

我尝试创建一个矩阵为此我想降低文本为此我使用此 R 指令 matrix create matrix tweets 1 toLower TRUE language english removeStopwords FALSE remove
指向特征矩阵的指针数组

我在代码中使用 Eigen 的 MatrixXd 矩阵在某个时刻我需要一个 3D 矩阵由于 Eigen 没有三维矩阵类型因为它仅针对线性代数进行了优化因此我创建了一个 MatrixXd 类型的指针数组 Eigen MatrixXd
矩阵到数组 C#

这将是转换方阵的最有效方法例如 1 2 3 4 5 6 7 8 9 into 1 2 3 4 5 6 7 8 9 in c 我在做 int array2D new int 1 2 3 4 5 6 7 8 9 int array1D new
如何从连接矩阵绘制图像？

我想编写一个脚本来从连接矩阵创建图像基本上只要矩阵中有 1 我就希望该区域在图像中被着色对于例如我使用 Photoshop 创建了这张图像但我有一个很大的数据集所以我必须自动化这个过程如果有人能指出我正确的方向那将非常有帮助
融化R中的下半矩阵

如何融化下半三角形加对角矩阵 11 NA NA NA NA 12 22 NA NA NA 13 23 33 NA NA 14 24 34 44 NA 15 25 35 45 55 A lt t matrix c 11 NA NA NA NA
斯坦福 CoreNLP：使用部分现有注释

我们正在尝试利用现有的代币化句子分割和命名实体标记同时我们希望使用斯坦福 CoreNlp 额外为我们提供词性标注词形还原和解析目前我们正在尝试以下方式 1 为 pos lemma parse 创建一个注释器 Propert

随机推荐

Proguard 和 R8 有什么区别？

新版本的 Android Studio 3 4 刚刚发布默认支持 R8 而不是 Proguard 有人可以解释一下两者之间的主要区别以及使用 R8 的任何明显好处吗 Android 构建过程的历史不断变化开发人员不断尝试使其在构建时间和
如何强制 iOS 立即更改背景颜色？

有什么方法可以立即更改窗口的背景颜色吗我需要一个闪烁的背景即红绿以一秒的间隔闪烁正如我所见背景颜色不会立即改变而是仅在功能保留时才改变有没有办法强制系统立即更改它并重绘窗口背景 void viewDidLoad super v
@将较少文件导入到有限范围内

我想从另一个 less 文件导入所有样式但范围有限我正在尝试这个我的网站 less wrapper class import path to styles less 但这根本不起作用我使用基于浏览器的 less js 选项并且可以
php 全局修剪 $_post

你能修剪所有 POST 变量吗因为我现在有一个很长的清单来修剪每个变量看起来很不专业我认为修剪 POST 也许会起作用但没有你可以这样做array map http php net array map POST array map
如何修复 Android Studio 中的 VectorDrawableCompat 配置错误？

我在 Android studio 中创建了一个项目即使不修改项目中的任何单个字符我也无法运行它它给出以下错误 java lang RuntimeException 无法启动活动组件信息 com kk myapplication c
交集完成后，数组中的顺序是否保留？

当我对两个数组进行交集时是否可以保证结果顺序基于第一个数组的顺序例如如果我有 a 1 2 3 b 3 2 1 could a b return 3 2 1 代替 1 2 3 这是我所期望的我在 RDoc 或 Pickaxe 的 Ar
如何以编程方式调用 maven-resources-plugin

我正在编写一个自定义 Maven 插件该插件的部分工作是过滤复制一些资源我写的代码如下所示 CopyResourcesMojo rm new CopyResourcesMojo rm setOutputDirectory outputD
如何查找 Linux 上 Java Desktop API 需要哪些库？

我正在尝试找到一种方法来确定 Java 需要哪些库才能使 Desktop API 工作特别是BROWSE功能我读了一些指南错误报告和解决方法但它们都不起作用我可以通过安装使其在 Debian 上运行libgnome2 0 and
将 C++ LPCWSTR 打印到文件

我正在尝试将 LPCWSTR 值打印到文件中但它只打印地址而不打印值我尝试过取消引用变量使用来获取 value 但这也不起作用如何打印该值 void dump LPCWSTR text ofstream myfile C myf
用于自定义图例的 Angular ngx-charts 选项？

我目前正在使用 Angular2 的 ngx charts 我想自定义一些图例例如将图例放在图表下方或重命名图例字段或使图例更宽部分文本被截断等有什么好的选项来自定义图例吗或者这通常是不可能的或者最好的方法是什么目前我的
添加 FFmpegMediaMetadataRetriever 后 Apk 大小增加

我将依赖项 com github wseemann FFmpegMediaMetadataRetriever 1 0 3 添加到我的Android Studio中的应用程序 build gradle 中 apk从2 MB跳到16 MB 我只
嘿，如何从 laravel 中的 klaviyo php-sdk 收集 laravel 中的短信同意

嘿伙计们有谁知道如何在 klaviyo 中添加短信内容吗 laravel 中的这个包 https github com klaviyo php klaviyo or just add a property to someone 基本上我
什么时候应该在 Material-UI 中使用 Typography？

我正在使用 Material UI 但我有点困惑有这个组件Typography https material ui com components typography typography但我真的不明白何时使用它以及它的目的是什么什么时
禁用 ScrollView 中包含的 ListView 的滚动

我想为我的用户显示个人资料屏幕它必须具有三个视图 2Buttons and a ImageView and a ListView显示该用户制作的内容但是我不想要ListView滚动相反我希望它尽可能大并将我所有的观点放在一个Sc
大写 utf8 字符与其小写变体的字节数始终相同吗？

显然对于拉丁字母来说也是如此但我是从概念意义上跨语言和 Unicode 规范来问这个问题的实际上这是为了比较两个字符串而出现的如果您已经知道它们在所有语言中的字节数不同您是否可以认为足以保证它们不是同一字符串的不同大小写版本
Android IME，在EditText中设置光标位置

我正在使用软键盘需要在 IME 编辑文本中设置光标位置如上图所示我创建了软键盘我们可以看到在编辑文本和当前光标位置由蓝色指示器显示中输入了一些文本我需要将光标位置设置在当前行的末尾在我们的例子中在图像中首先以红色显示的行的
如何在 Ruby 应用程序中找到未使用的方法？

我有一个 Ruby 应用程序其中有很多类模块其中一些未使用有没有一种简单的方法可以找出哪个我正在考虑做一个配置文件然后使用它的输出还有其他想法吗像 rcov 这样的覆盖工具可能会有所帮助 https github com r
如何在二维图像中的不规则形状上应用纹理？

我正在尝试从 UIColor 图案图像在 CALayer 上应用纹理纹理正在应用但未正确透视转换看起来我的绘图逻辑存在问题即我需要使用纹理图像并将其映射到不规则形状我做了一些研究发现这件事可以通过 OpenGL 或 Metal
TypeORM 选择不区分大小写的不同

我正在尝试创建一个连接到 postgresql 数据库的 TypeORM 查询生成器以获取数据库中的所有唯一名称我的查询看起来像这样 names await this context manager getRepository Names
如何在text2vec中对齐两个GloVe模型？

假设我已经训练了两个独立的 GloVe 向量空间模型使用text2vec in R 基于两个不同的语料库这样做可能有不同的原因例如两个基础语料库可能来自两个不同的时间段或者两个非常不同的流派我有兴趣比较这两个语料库之间单词的用法

如何在text2vec中对齐两个GloVe模型？

如何在text2vec中对齐两个GloVe模型？ 的相关文章

随机推荐

热门标签

如何在text2vec中对齐两个GloVe模型？的相关文章