如何在 gensim 创建的 word2vec 上运行 tsne？

2023-11-25

我想可视化从 gensim 库创建的 word2vec。我尝试了 sklearn 但似乎我需要安装开发人员版本才能获得它。我尝试安装开发人员版本，但这在我的机器上不起作用。是否可以修改此代码以可视化 word2vec 模型？

tsne_python

您不需要 scikit-learn 的开发人员版本 - 只需安装 scikit-learn通常的方式通过pip or conda.

要访问由 word2vec 创建的词向量，只需使用词词典作为模型的索引：

X = model[model.wv.vocab]

以下是一个简单但完整的代码示例，它加载一些新闻组数据，应用非常基本的数据准备（清理和分解句子），训练 word2vec 模型，使用 t-SNE 减少维度，并可视化输出。

from gensim.models.word2vec import Word2Vec
from sklearn.manifold import TSNE
from sklearn.datasets import fetch_20newsgroups
import re
import matplotlib.pyplot as plt

# download example data ( may take a while)
train = fetch_20newsgroups()

def clean(text):
    """Remove posting header, split by sentences and words, keep only letters"""
    lines = re.split('[?!.:]\s', re.sub('^.*Lines: \d+', '', re.sub('\n', ' ', text)))
    return [re.sub('[^a-zA-Z]', ' ', line).lower().split() for line in lines]

sentences = [line for text in train.data for line in clean(text)]

model = Word2Vec(sentences, workers=4, size=100, min_count=50, window=10, sample=1e-3)

print (model.wv.most_similar('memory'))

X = model.wv[model.wv.vocab]

tsne = TSNE(n_components=2)
X_tsne = tsne.fit_transform(X)

plt.scatter(X_tsne[:, 0], X_tsne[:, 1])
plt.show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scikitlearn

gensim

Word2Vec

如何在 gensim 创建的 word2vec 上运行 tsne？的相关文章

Scikit-learn 具有使用“特征”的自定义评分函数

我正在尝试使用一种名为 SERA 平方误差相关区域的新指标作为本文中提到的不平衡回归的自定义评分函数 https link springer com article 10 1007 s10994 020 05900 9 https lin
无法在 OS X 上安装 scikit-learn

我无法安装scikit学习 http scikit learn org stable 我可以通过从源代码构建或通过 pip 来安装其他软件包没有任何问题对于 scikit learn 我尝试在 GitHub 上克隆项目并通过 pip 安
使用基于 ConvLSTM2D 的 Keras 模型从较低分辨率图像估计高分辨率图像

我正在尝试使用以下内容ConvLSTM2D从低分辨率图像序列估计高分辨率图像序列的架构 import numpy as np scipy ndimage matplotlib pyplot as plt from keras models
导入错误：无法导入名称“_print_elapsed_time”

你好我正在尝试使用 sklearn 中的 make pipeline 模块但是当我尝试使用以下命令导入它时 from sklearn pipeline import make pipeline 我收到此错误 ImportError ca
如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？

我开发了一个用于多标签分类的文本模型这OneVsRest分类器 http scikit learn org stable modules generated sklearn multiclass OneVsRestClassifier h
sklearn pipeline + keras顺序模型-如何获取历史记录？

Keras https keras io模型当 fit被调用时返回一个历史对象如果我将此模型用作 sklearn 管道的一步是否可以检索它顺便说一句我正在使用 python 3 6 提前致谢 History 回调记录每个时期的训
在 SciKit-Learn 中使用 Pipeline 计算排列重要性

我正在使用来自的确切示例SciKit https scikit learn org stable auto examples inspection plot permutation importance html sphx glr auto
AttributeError：类型对象“Word2Vec”没有属性“load_word2vec_format”

我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
如何使用 Scikit-Learn 和 Python 找到最佳簇数

我正在学习聚类Pythons scikit learnlib 但我找不到找到最佳簇数的方法我试图制作一个集群数量列表并将其传递进去for loop 并看到elbow但我想找到更好的解决方案只有当我这样做时这种方法才有效range 1
使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
在 Windows 中更新/安装 Python scikit learn 最新开发版本

我正在尝试在 Windows 中使用 0 18 dev0 最新开发版本替换安装我的 Python scikit learn 0 17 0 以便我可以尝试sklearn neural network MLPClassifier 阅读并尝试此
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
具有定制损失函数的随机森林

我是机器学习领域的初学者对于一个项目我必须在随机森林分类中使用自定义损失函数到目前为止我一直使用 scikit 通过 scikit 实现这一点的建议会更有帮助损失函数分类树中的基尼杂质和熵在 scikit 的 tree pyx
从 scikit_learn 反转 MinMaxScaler

为了为我的生成神经网络提供数据我需要将一些数据标准化在 1 和 1 之间我用MinMaxScaler来自 Sklearn 效果很好现在我的生成器将输出 1 到 1 之间的数据如何恢复MinMaxScaler获得真实数据让我们首先
混淆矩阵不支持多标签指示符

multilabel indicator is not supported是我在尝试运行时收到的错误消息 confusion matrix y test predictions y test is a DataFrame其形状为 Horse
使用 SciKit-learn 和大型数据集进行文本分类

首先我昨天开始学习Python 我正在尝试使用 SciKit 和大型数据集 250 000 条推文进行文本分类对于该算法每条推文都将表示为 4000 x 1 向量因此这意味着输入为 250 000 行和 4000 列当我尝试在
高维数据的ELKI Kmeans聚类任务失败错误

我有 60000 个文档我在其中处理过gensim得到一个60000 300的矩阵我将其导出为csv文件当我导入这个时ELKI环境和运行Kmeans聚类我遇到以下错误 Task failed de lmu ifi dbs elki
float() 参数必须是字符串或数字，而不是“时间戳”

我无法使 scilearn 与日期时间系列一起工作找到了这篇文章但对我没有帮助 Pandas 类型错误 float 参数必须是字符串或数字 https stackoverflow com questions 41256626 panda
X 和 y 具有不兼容的形状

我试图在 1997 个训练示例的一维特征向量上拟合一个分类器其中包含包含我的 y 的相同大小的样本 clf svm SVC j 0 a 0 listX listY while a lt 1996 ath X join linesplit
敏感性特异性图 python

我正在尝试重现类似于此的灵敏度特异性图其中 X 轴是阈值但我还没有找到如何做到这一点一些 skalern 指标如 ROC 曲线会返回真阳性和假阳性但我还没有找到任何选项来制作此图我试图将概率与实际标签进行比较以保持计数我得到

随机推荐

如何将依赖项注入动态加载的程序集

我有一个管理器类它通过反射加载单独程序集中包含的各种插件模块该模块用于与外界通信 WebAPI 各种其他网络协议 public class Manager public ILogger Logger Modules need to ac
服务器端仅接受 FileField 中的某种文件类型

我该如何限制FileField服务器端以一种优雅的方式只接受某种类型的文件视频音频 pdf 等一种非常简单的方法是使用自定义验证器在您的应用程序中validators py def validate file extension v
通过Android Studio更改应用程序包名称

我知道这个问题在 SO 中被问过好几次我已经检查了下面发布的答案但对我不起作用解决方案1 解决方案2 目前我的应用程序的包名称是 com example test 我想把它改成 com example test test1 所以我
基于内容的水平居中 UICollectionView

我有一个水平 UICollectionView 工作正常但我想在不需要滚动时将单元格居中 IE if所有单元格都能够适合视图宽度并且用户不需要滚动then将单元格居中 if所有单元格都无法适合视图宽度并且用户需要滚动then不要将单元格居
语句前的感叹号 (!) 有何作用？ [复制]

这个问题在这里已经有答案了我试图通过在笔记本中输入以下内容来在 Jupyter 笔记本中安装深色主题 pip install jupyterthemes jt t chesterish 第一个命令有效但第二个命令出现一些错误然后我写了
Bash for 带有空格的循环

我想做这样的事情 COMMANDS ls df du hs Devel for i in COMMANDS do echo i done 结果将是 ls df du hs Devel 但我找不到空格的正确语法 COMMANDS ls df
EclipseLink/Maven 存储库去了哪里？（再次）

是的我知道主题之前被问过但存储库又移动了有人看过吗我将非常感激 A 快速搜索显示一长串镜像其中大多数返回 404 但它们的缓存条目仍然可见目前因此这些文件似乎确实已从源头删除而且是最近才删除的以下是一些仍具有文件的镜像
iOS：是否可以同时从多个麦克风录音

所有最新的 iPhone 都有 2 个以上麦克风是否可以同时从所有麦克风进行录音如果可能的话最好的 iOS 音频库是什么 AudioKit EzAudio AudioUnits CoreAudio AudioKit 和 EzAudio
eclipse ini 配置

实际上我和我的朋友正在尝试学习和使用 eclipse 3 4 我们在工作时遇到一些堆内存问题我的朋友建议增加 eclipse ide 的内存分配因为他有 4GB RAM 并且他想分配足够的堆分配合适的烫发大小并启用并行垃圾收集到这个
是否可以向 ELB 后面的所有实例发送广播消息？

我想将更新发送到 ELB 后面的所有实例我更喜欢发送更新而不是从实例端轮询是否可以向 ELB 发送一条消息该消息将广播到所有实例不直接不一种编程解决方法是查询 ELB API 以发现运行状况良好的实例的身份然后查询 EC2 A
SpVoice 和 SpeechSynthesizer 之间有什么区别

在 C 中使用语音 API 或的这两种方法有什么区别SAPI using SpeechLib SpVoice speech new SpVoice speech Speak text SpeechVoiceSpeakFlags SVSFla
Mysql查询中的除法

我有 2 个不同的查询将返回值 1502 00 和 6 SELECT replace CURRENT VALUE curVal FROM form attributes values WHERE TEST ID 2 AND ATTRIBUT
获取数据：image/png;base64,{{image}} net::ERR_INVALID_URL

我想使用 Angular js 转换从服务器获取的图像数据用于 ionic framework 我使用了以下代码 http post link token token reservationCode reservationCode suc
每当在 wpf 中滚动任何一个 ScrollViewer 时，两个 ScrollViewer 就会同步滚动

我已经浏览过该线程将两个垂直滚动条相互绑定它几乎帮助实现了目标但仍然缺少一些东西左右或上下移动滚动条可以在我的两个滚动查看器中提供预期的滚动行为但是当我们尝试使用单击滚动查看器中这些滚动条末端的箭头按钮进行滚动时只有一个滚动查
Python监控串口（RS-232）握手信号

我需要监控串口信号 RI DSR CD CTS 的状态使用串行库进行循环和轮询例如使用函数 getRI 的 CPU 强度太大并且响应时间不可接受有没有用python的解决方案在 Linux 上可以通过阻塞系统调用 TIOCM
如何在单个语句中定义多个变量

在Python中我可以在一行中用一个数组定义两个变量 gt gt gt a b 1 2 gt gt gt a 1 gt gt gt b 2 我如何在 Java 中做同样的事情我在 PCT 类中有几个变量其类型是最终的有没有一种方法可
UpdateModel 前缀 - ASP.NET MVC

我遇到麻烦了TryUpdateModel 我的表单字段以前缀命名但我使用作为分隔符而不是默认的点
Kotlin 1.2.10 和 Java 9 对于自动模块有相反的规则吗？

我有一个使用 Kotlin Gradle 插件的 Gradle 项目我想构建一个 Java 9 模块所以我的目录结构如下所示 src main java module info java src main kotlin Foo kt B
设置隐藏导航栏，具体取决于视图控制器的显示方式

我有一个选项卡栏其中一个选项卡中有一个导航控制器目前导航控制器的根视图没有显示导航栏并且通过以下方式很好地动画到子视图中 void viewDidLoad self navigationController setNavigatio
如何在 gensim 创建的 word2vec 上运行 tsne？

我想可视化从 gensim 库创建的 word2vec 我尝试了 sklearn 但似乎我需要安装开发人员版本才能获得它我尝试安装开发人员版本但这在我的机器上不起作用是否可以修改此代码以可视化 word2vec 模型 tsne pyt

如何在 gensim 创建的 word2vec 上运行 tsne？

如何在 gensim 创建的 word2vec 上运行 tsne？ 的相关文章

随机推荐

热门标签

如何在 gensim 创建的 word2vec 上运行 tsne？的相关文章