使用 t-sne 可视化从 gensim 生成的 word2vec

2024-02-05

我使用 gensim 在我自己的语料库上训练了 doc2vec 和相应的 word2vec。我想使用 t-sne 和单词来可视化 word2vec。如图所示，图中的每个点也带有“单词”。

我在这里看了一个类似的问题：word2vec 上的 t-sne https://stackoverflow.com/questions/40581010/how-to-run-tsne-on-word2vec-created-from-gensim

接下来，我有这个代码：

导入gensim 将 gensim.models 导入为 g

from sklearn.manifold import TSNE
import re
import matplotlib.pyplot as plt

modelPath="/Users/tarun/Desktop/PE/doc2vec/model3_100_newCorpus60_1min_6window_100trainEpoch.bin"
model = g.Doc2Vec.load(modelPath)

X = model[model.wv.vocab]
print len(X)
print X[0]
tsne = TSNE(n_components=2)
X_tsne = tsne.fit_transform(X[:1000,:])

plt.scatter(X_tsne[:, 0], X_tsne[:, 1])
plt.show()

这给出了一个带有点但没有文字的图形。也就是说我不知道哪个点代表哪个单词。如何显示带点的单词？

答案分为两部分：如何获取单词标签，以及如何在散点图上绘制标签。

gensim 的 word2vec 中的单词标签

model.wv.vocab是 {word: 数值向量的对象} 的字典。将数据加载到X对于 t-SNE，我做了一处更改。

vocab = list(model.wv.key_to_index)
X = model.wv[vocab]

这完成了两件事：（1）它为您提供了一个独立的vocab要绘制的最终数据帧的列表，以及 (2) 当您建立索引时model，您可以确定您知道单词的顺序。

像以前一样继续

tsne = TSNE(n_components=2)
X_tsne = tsne.fit_transform(X)

现在让我们把X_tsne与vocab列表。这对于 pandas 来说很容易，所以import pandas as pd如果你还没有的话。

df = pd.DataFrame(X_tsne, index=vocab, columns=['x', 'y'])

词汇是indices现在的数据框。

我没有你的数据集，但在other SO https://stackoverflow.com/questions/40581010/how-to-run-tsne-on-word2vec-created-from-gensim你提到的一个例子df使用 sklearn 的新闻组看起来像

                        x             y
politics    -1.524653e+20 -1.113538e+20
worry        2.065890e+19  1.403432e+20
mu          -1.333273e+21 -5.648459e+20
format      -4.780181e+19  2.397271e+19
recommended  8.694375e+20  1.358602e+21
arguing     -4.903531e+19  4.734511e+20
or          -3.658189e+19 -1.088200e+20
above        1.126082e+19 -4.933230e+19

散点图

我喜欢 matplotlib 的面向对象方法，所以这开始有点不同。

fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)

ax.scatter(df['x'], df['y'])

最后，annotate方法将标记坐标。前两个参数是文本标签和二元组。使用iterrows()，这可以非常简洁：

for word, pos in df.iterrows():
    ax.annotate(word, pos)

[感谢里卡多在评论中提出的建议。]

Then do plt.show() or fig.savefig()。根据您的数据，您可能不得不搞乱ax.set_xlim and ax.set_ylim看到浓密的云层。这是没有任何调整的新闻组示例：

您也可以修改点的大小、颜色等。祝微调愉快！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 t-sne 可视化从 gensim 生成的 word2vec 的相关文章

scikit-learn：SVC 和 SGD 有什么区别？

SVM http scikit learn org stable modules svm html classification http scikit learn org stable modules svm html classific
类型错误：fit_transform() 需要 2 个位置参数，但给出了 3 个

我有熊猫数据框df 我想对连续和分类特征进行编码df使用不同的编码器我觉得用起来很舒服make column transformer 但是下面显示的代码失败了LabelEncoder 但可以很好地与OneHotEncoder handle
R/ggplot2：在执行 ylim 上限的同时平滑整个数据集

更新我找到了答案包含在下面我有一个包含以下变量和类似值的数据集 COBSDATE CITY RESPONSE TIME 2011 11 23 A 1 1 2011 11 23 A 1 5 2011 11 23 A 1 2 2011 1
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
将 word2vec 模型查询的结果保存在 csv 文件中？

我正在语料库上训练 word2vec 模型然后查询该模型这工作正常但我正在运行一个实验需要针对不同的条件调用模型保存每个条件的模型查询每个条件的模型然后将查询的输出保存到 csv 文件中例如进一步分析所有条件我研究了 ge
sklearn pipeline + keras顺序模型-如何获取历史记录？

Keras https keras io模型当 fit被调用时返回一个历史对象如果我将此模型用作 sklearn 管道的一步是否可以检索它顺便说一句我正在使用 python 3 6 提前致谢 History 回调记录每个时期的训
Scikit Learn - K-Means - 肘部 - 标准

今天我想学习一些关于 K means 的知识我已经了解该算法并且知道它是如何工作的现在我正在寻找正确的 k 我发现肘部准则作为检测正确的 k 的方法但我不明白如何将它与 scikit learn 一起使用在 scikit learn
mlflow 如何使用自定义转换器保存 sklearn 管道？

我正在尝试使用 mlflow 保存 sklearn 机器学习模型这是一个包含我定义的自定义转换器的管道并将其加载到另一个项目中我的自定义转换器继承自 BaseEstimator 和 TransformerMixin 假设我有 2 个项
在 Python 中使用 mca 包

我正在尝试使用MCA 套餐 https github com esafak mca blob master docs usage rst在Python中进行多重对应分析我对如何使用它有点困惑和PCA我希望fit一些数据即找到这些数据的
在 Seaborn 中为 python 创建箱线图 FacetGrid

我正在尝试在seaborn中为4个箱线图创建一个4x4 FacetGrid 每个箱线图根据虹膜数据集中的虹膜种类分为3个箱线图目前我的代码如下所示 sns set style whitegrid iris vis sns load da
在 Google 表格中创建每周/每月/每年折线图，以汇总同一周/月/年范围内的金额

我想创建一个代表两列数据的折线图 F 输入日期和 H 美元金额 X 轴应为日期 Y 轴应为美元金额问题是我希望折线图上的日期代表给定周月或年输入的所有金额的总和这张照片是 YouTube 分析的它创建了一个与我想在工作表中创建的类
如何在sklearn管道中通过特征消除选择特征名称？

我在 sklearn 管道中使用递归特征消除管道看起来像这样 from sklearn pipeline import FeatureUnion Pipeline from sklearn import feature selection
如何在Python中使用克里格法对二维空间数据进行插值？

我有一个空间 2D 域例如 0 1 0 1 在此域中有 6 个点观察到了一些感兴趣的标量例如温度机械应力流体密度等如何预测未观察点的兴趣量换句话说如何在 Python 中插入空间数据例如考虑 2D 域中的点输入的以下
在sklearn中将文本列转换为数字

我是数据分析新手我正在尝试 python Sklearn 中的一些模型我有一个数据集其中某些列具有文本列就像下面这样 Dataset 有没有办法将这些列值转换为 pandas 或 Sklearn 中的数字为这些值分配数字是对的吗
sklearn LogisticRegressionCV 是否使用最终模型的所有数据

我想知道sklearn中LogisticRegressionCV的最终模型即决策边界是如何计算的假设我有一些 Xdata 和 ylabels Xdata shape of this is n samples n features yl
从 scikit_learn 反转 MinMaxScaler

为了为我的生成神经网络提供数据我需要将一些数据标准化在 1 和 1 之间我用MinMaxScaler来自 Sklearn 效果很好现在我的生成器将输出 1 到 1 之间的数据如何恢复MinMaxScaler获得真实数据让我们首先
sklearn 中的 pca.inverse_transform

将我的数据拟合后 X 我的数据 pca PCA n components 1 pca fit X X pca pca fit transform X 现在 X pca 具有一维当我根据定义执行逆变换时它不是应该返回原始数据即 X 二维
混淆矩阵不支持多标签指示符

multilabel indicator is not supported是我在尝试运行时收到的错误消息 confusion matrix y test predictions y test is a DataFrame其形状为 Horse
GridSearchCV.best_score 与 cross_val_score 不同（GridSearchCV.best_estimator_）

考虑以下网格搜索 grid GridSearchCV clf parameters n jobs 1 iid True cv 5 grid fit grid fit X train1 y train1 根据 Sklearn 的资源 grid
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不

随机推荐

多用户角色环回

我正在尝试使用 Loopback 作为后端来制作一个应用程序我以前已经使用过环回但现在我想做一些我以前从未做过的事情我想要的很简单我将有 3 种类型的用户管理员服务者和默认用户但是我需要限制每种类型用户的访问控制管理员可以
Rust 从 fn 返回结果错误：类型不匹配

我希望这个函数返回一个错误结果 fn get result gt Result
对图像进行积分的有效方法

我有一个 2D 数组典型大小约为 400x100 如图所示它看起来像一个梯形因为右下角的元素是 nan 对于数组中的每个元素我想对多个元素大约 10 个元素沿列执行数值积分在物理语言中将颜色视为力的大小我想找到通过计算 F
Material Design lite sidenav onhide 仅显示图标

我正在尝试制作一个侧导航当切换时它不会完全隐藏侧导航并会显示代表每个选项卡的图标我的代码在这里 header mdl layout drawer border right 0 header mdl layout drawer mdl
脚本通过 CentOS 安装 mysql-server，无需密码提示

我的操作系统是 CentOS 6 6 我想知道如何通过 shell 脚本自动安装 mysql server 我发现有一个主题讨论了同样的问题但在 CentOS 6 上失败了 ubuntu安装mysql无密码提示 https stackov
长时间运行任务的视觉反馈

我有一个长时间运行的 for each 循环并且想知道是否有一种惯用的方法来添加一些视觉用户反馈以便用户不会认为应用程序崩溃了 private void btnRunLongRunningTask Click object sender
Hazelcast Jet 查询

我对 Hazelcast Jet 有以下疑问用例如下有一个应用程序应用程序 A 部署在集群中使用 Hazelcast IMDG 并将数百万条记录事务放入 hazelcast IMap 中已为此 IMap 配置事件日志还有另一个
如何获取 SwiftUI 中 TextEditor 的光标位置？

因此在我的文本编辑器中我想知道光标的几何位置我还计划在该位置之后附加一些文本那么我该怎么做呢好吧所以我想出了一个方法来做到这一点首先我创建了一个struct存储光标位置 import foundation struct Cu
Docker - Node.js + MongoDB - “错误：无法连接到 [localhost:27017]”

我正在尝试为我的容器创建一个容器Node应用程序这个应用程序使用MongoDB以确保一些数据的持久性所以我创建了这个Dockerfile FROM ubuntu latest Installing MongoDB Add 10gen o
如何在第三方库中的Eclipse中设置断点？

我在第三方库的类中收到 NullPointerException 现在我想调试整个事情我需要知道该类是从哪个对象中保存的但在我看来我无法在第三方的班级中设置断点有谁知道摆脱我的麻烦的方法吗当然我使用 Eclipse 作为我的 I
C# Networkstream.read()

read buffer offset length 实际上是如何工作的如果我将读取的长度传递为 32 这是否意味着它会一直阻塞直到收到 32 个字节我知道如果出现套接字异常或连接关闭它将分别返回异常或 0 如果发送方只发送 31 个
如何使用 Rspec 测试 google Analytics (garb) API？

我正在使用garb gem https github com vigetlabs garb从 Google Analytics 中获取一些基本统计数据例如页面浏览量一切正常但我无法找出测试 API 调用的最佳方法这是我的 Analy
如何计算提交、树和 blob 的哈希值？

我对如何计算提交树和 blob 的 SHA 1 哈希值感到困惑按照本文 https gist github com masak 2415865 提交哈希值是根据以下因素计算的提交的源树分解为所有子树和 blob 父提交 sha1 作
存储及其锁定文件已被另一个进程锁定：/var/lib/neo4j/data/databases/graph.db/store_lock

我做了什么 neo4j console 工作正常 ctrl C 重新启动后我收到上面的消息我删除 var lib neo4j data databases graph db store lock 那么我有 Externally locke
如何在where条件下使用case语句？

我需要在 WHERE 子句中使用 CASE 语句例如 WHERE p resource qry seq b resource qry seq AND p resource id b resource id AND CASE WHEN b
在服务器端 Blazor 中使用 SignInManager

是否可以使用SignInManager没有一些HTTPContext 我正在制作 Blazor 服务器端应用程序我需要让最终用户使用以下方式登录PasswordSignInAsync 的方法SignInManager 如果有其他方法可以用
使用特定顺序序列化映射

我有一个使用字符串作为键和值的地图我有一个键数组用于指定映射值的顺序我想将该映射序列化为 JSON 但保持数组上定义的顺序这里有一个示例代码 http play golang org p A52GTDY6Wx http play g
MSBuild 未从导入的项目运行 BuildDependsOn 任务

我有一个导入的 MSBuild 项目 appconfig transformation targets 它定义了一些任务并将它们放入 BuildDependsOn 属性中我已将此文件放置在解决方案的顶级文件夹中 Projects Libr
单击不同的按钮将不同的 HTML 加载到相同的 #Content DIV 中

我有一个包含多个选项的菜单我想知道如何将不同的 HTML 加载到相同的菜单中div 称为 content 取决于您按下的菜单按钮我有这个菜单代码 div ul li a href Accueil a li li a href Qui s
使用 t-sne 可视化从 gensim 生成的 word2vec

我使用 gensim 在我自己的语料库上训练了 doc2vec 和相应的 word2vec 我想使用 t sne 和单词来可视化 word2vec 如图所示图中的每个点也带有单词我在这里看了一个类似的问题 word2vec 上的 t

使用 t-sne 可视化从 gensim 生成的 word2vec

使用 t-sne 可视化从 gensim 生成的 word2vec 的相关文章

随机推荐

热门标签