如何绘制文本簇？

2024-01-20

我已经开始使用 Python 学习聚类sklearn图书馆。我编写了一个用于聚类文本数据的简单代码。我的目标是找到相似句子的组/簇。我曾尝试绘制它们，但失败了。

问题是文本数据，我总是收到此错误：

ValueError: setting an array element with a sequence.

同样的方法适用于数字数据，但不适用于文本数据。有没有办法绘制相似句子的组/簇？另外，有没有办法查看这些组是什么，这些组代表什么，我如何识别它们？我打印了labels = kmeans.predict(x)但这些只是数字列表，它们代表什么？

import pandas as pd
import re

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt


x = ['this is very good show' , 'i had a great time on my school trip', 'such a boring movie', 'Springbreak was amazing', 'You are wrong', 'This food is so tasty', 'I had so much fun last night', 'This is crap', 'I had a bad time last month',
    'i love this product' , 'this is an amazing item', 'this food is delicious', 'I had a great time last night', 'thats right',
     'this is my favourite restaurant' , 'i love this food, its so good', 'skiing is the best sport', 'what is this', 'this product has a lot of bugs',
     'I love basketball, its very dynamic' , 'its a shame that you missed the trip', 'game last night was amazing', 'Party last night was so boring',
     'such a nice song' , 'this is the best movie ever', 'hawaii is the best place for trip','how that happened','This is my favourite band',
     'I cant believe that you did that', 'Why are you doing that, I do not gete it', 'this is tasty', 'this song is amazing']

cv = CountVectorizer(analyzer = 'word', max_features = 5000, lowercase=True, preprocessor=None, tokenizer=None, stop_words = 'english')  
x = cv.fit_transform(x)
#x_test = cv.transform(x_test)


my_list = []

for i in range(1,11):

    kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 0)
    kmeans.fit(x)
    my_list.append(kmeans.inertia_)
    labels = kmeans.predict(x) #this prints the array of numbers
    print(labels)

plt.plot(range(1,11),my_list)
plt.show()



kmeans = KMeans(n_clusters = 5, init = 'k-means++', random_state = 0)
y_kmeans = kmeans.fit_predict(x)

plt.scatter(x[y_kmeans == 0,0], x[y_kmeans==0,1], s = 15, c= 'red', label = 'Cluster_1')
plt.scatter(x[y_kmeans == 1,0], x[y_kmeans==1,1], s = 15, c= 'blue', label = 'Cluster_2')
plt.scatter(x[y_kmeans == 2,0], x[y_kmeans==2,1], s = 15, c= 'green', label = 'Cluster_3')
plt.scatter(x[y_kmeans == 3,0], x[y_kmeans==3,1], s = 15, c= 'cyan', label = 'Cluster_4')
plt.scatter(x[y_kmeans == 4,0], x[y_kmeans==4,1], s = 15, c= 'magenta', label = 'Cluster_5')

plt.scatter(kmeans.cluster_centers_[:,0], kmeans.cluster_centers_[:,1], s = 100, c = 'black', label = 'Centroids')
plt.show()

这个问题有几个令人感动的部分：

如何将文本向量化为 kmeans 聚类可以理解的数据
如何在二维空间中绘制簇
如何按源句子标记图

我的解决方案遵循一种非常常见的方法，即使用 kmeans 标签作为散点图的颜色。（拟合后的kmeans值只是0,1,2,3,4，表示每个句子被分配到哪个任意组。输出与原始样本的顺序相同。）关于如何将点分成两个维空间，我使用主成分分析（PCA）。请注意，我对完整数据执行 kmeans 聚类，而不是对降维输出进行聚类。然后，我使用 matplotlib 的 ax.annotate() 用原始句子来装饰我的绘图。（我还使图表更大，以便点之间有空间。）我可以根据要求进一步评论。

import pandas as pd
import re
from sklearn.decomposition import PCA
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

x = ['this is very good show' , 'i had a great time on my school trip', 'such a boring movie', 'Springbreak was amazing', 'You are wrong', 'This food is so tasty', 'I had so much fun last night', 'This is crap', 'I had a bad time last month',
    'i love this product' , 'this is an amazing item', 'this food is delicious', 'I had a great time last night', 'thats right',
     'this is my favourite restaurant' , 'i love this food, its so good', 'skiing is the best sport', 'what is this', 'this product has a lot of bugs',
     'I love basketball, its very dynamic' , 'its a shame that you missed the trip', 'game last night was amazing', 'Party last night was so boring',
     'such a nice song' , 'this is the best movie ever', 'hawaii is the best place for trip','how that happened','This is my favourite band',
     'I cant believe that you did that', 'Why are you doing that, I do not gete it', 'this is tasty', 'this song is amazing']

cv = CountVectorizer(analyzer = 'word', max_features = 5000, lowercase=True, preprocessor=None, tokenizer=None, stop_words = 'english')  
vectors = cv.fit_transform(x)
kmeans = KMeans(n_clusters = 5, init = 'k-means++', random_state = 0)
kmean_indices = kmeans.fit_predict(vectors)

pca = PCA(n_components=2)
scatter_plot_points = pca.fit_transform(vectors.toarray())

colors = ["r", "b", "c", "y", "m" ]

x_axis = [o[0] for o in scatter_plot_points]
y_axis = [o[1] for o in scatter_plot_points]
fig, ax = plt.subplots(figsize=(20,10))

ax.scatter(x_axis, y_axis, c=[colors[d] for d in kmean_indices])

for i, txt in enumerate(x):
    ax.annotate(txt, (x_axis[i], y_axis[i]))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何绘制文本簇？的相关文章

行未从树视图复制

该行未在树视图中复制我在按行并复制并粘贴到未粘贴的任何地方后制作了弹出复制 The code popup tk Menu tree opportunity tearoff 0 def row copy item tree opportun
为什么 .setGeometry() 不改变 QWidget 实例的大小？

我想使用 QWidget 更改 QPushButton 的大小 setGeometry https doc qt io qtforpython 5 PySide2 QtWidgets QWidget html PySide2 QtWidge
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
在python中将文本文件解析为列表

我对 Python 完全陌生我正在尝试读取包含单词和数字组合的 txt 文件我可以很好地读取 txt 文件但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
Python BeautifulSoup XML 解析

我编写了一个简单的脚本来使用 BeautifulSoup 模块解析 XML 聊天日志标准 soup prettify 工作正常只是聊天日志中有很多绒毛您可以在下面看到我正在使用的脚本代码和一些 XML 输入文件 Code import
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
如何从 Dockerfile 安装 Python 3.7 和 Pip

我正在尝试构建基于 Ubuntu 18 04 的自定义 Docker 映像 Ubuntu 预装了 Python 3 6 但我想 1 安装 Python 3 7 2 将其设置为默认 Python 版本这样就可以使用python代替pytho
Python igraph：从图中删除顶点

我正在使用安然电子邮件数据集并尝试删除没有 enron com 的电子邮件地址即我只想拥有安然电子邮件当我尝试删除那些没有 enron com 的地址时一些电子邮件由于某些原因被跳过下面显示了一个小图其中顶点是电子邮件地址这是
如何使用 matplotlib 将 3d 数据单位转换为显示单位？

这可能有点疯狂但我正在尝试使用 matplotlib v1 1 0 创建 3d 散点图的可点击图像图我已经阅读了如何对二维图进行操作参见这个博客 http hackmap blogspot com 2008 06 pylab matp
创建一个类似于 Tkinter 的表

我希望创建类似于 Tkinter 中的表格的东西但它不一定是这样的例如我想创建标题 Name1 Name2 Value 并在每个标题下面有几个空白行然后我希望稍后用我计算的值或名称的字符串值填充这些行因此是标签对于 Name2
如何使用Python的super()来更新父值？

我对继承很陌生之前所有关于继承和 Python 的 super 函数的讨论都有点超出我的理解我当前使用以下代码来更新父对象的值 usr bin env python test py class Master object mydata
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
select() 可以在 Windows 下使用 Python 中的文件吗？

我正在尝试在 Windows 下运行以下 python 服务器 An echo server that uses select to handle multiple clients at a time Entering any line o
Scipy 稀疏 Cumsum

假设我有一个scipy sparse csr matrix代表下面的值 0 0 1 2 0 3 0 4 1 0 0 2 0 3 4 0 我想就地计算非零值的累积和这会将数组更改为 0 0 1 3 0 6 0 10 1 0 0 3 0 6
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏

随机推荐

如何自定义 Google 表格中答案为“是”时连接的标头值的顺序

我怎样才能修改这个方程谷歌电子表格 https docs google com spreadsheets d 1tHL2IdijLaAD5my7m4a1uaiXNleb6Z1bI7x HPXfAVI edit usp sharing我发现这
Jar 签名者和 Apk 签名者有什么区别？

由于 ApkSigner 在 Android SDK 构建工具的修订版 24 0 3 及更高版本中可用我有一个问题 ApkSigner 和 JarSigner 之间有什么区别为什么我们需要 ApkSigner 我可以在命令行中为两个签名
Swift：什么是 .swift-version 文件？

我看到很多项目的根目录中有这个文件 swift 版本以下是一些示例 https github com hackiftekhar IQKeyboardManager https github com hackiftekhar IQKeybo
如何获取数字形式的单选按钮值

有没有办法以整数形式获取单选按钮的值我正在提交一个表单但我从单选按钮获得的值始终是一个字符串我尝试了很多解决方案但没有一个有效 div class form check form check inline div
Firebase 数据不显示在 flutter 应用程序中

我正在尝试在使用 flutter 制作的应用程序中使用 Firebase 显示数据这一直有效直到几个小时前之后尽管我的代码没有发生任何变化它仍然停止工作我收到以下警告 W DynamiteModule 3174 Local modu
jquery mobile url 参数未在浏览器中更新，但使用“data-url”获取正确的参数

我创建了以下示例来展示我所经历的情况如果我使用 Page 2a 按钮从第 1 页导航到第 2 页则 URL 将按预期为 page2 is a 当我单击按钮返回第 1 页然后导航到第 2b 页时 URL 仍会显示 page2 id a
如何将 Tomcat 的 context.xml 中的属性注入到 Seam 组件中？

Seam 文档会让您相信如果您在 web xml 中定义一个属性或者通过 D 参数它会找到它并自动在您的 bean 上设置它因此如果您有一个名为 gateway 的 bean 带有属性登录和 setter 则可以在 seam pr
人体全身检测：轮廓而不是矩形

我必须使用 opencv 实现整个人体的轮廓检测从脚到头多种姿势例如举手等我设法编译并运行我在这里找到的代码https gist github com yoggy 1470956 https gist github com yogg
按返回类型重载

我在这里读到了一些关于这个主题的问题这对我来说似乎仍然令人困惑我刚刚开始学习C 还没有学习模板或运算符重载等现在有没有简单的方法来重载 class My public int get int char get int 没有模板或奇怪的
预览版无法在 MobileFirst Platform Foundation Server 7.0 上运行

在 MobileFirst Server Platform Foundation 7 0 上预览版在控制台中不起作用在 Eclipse 开发方面一切运行良好 The error message is the following 这是日
Winform 菜单条和隐藏选项卡

您好我正在考虑创建一个选项卡控件该选项卡页将通过菜单条中的点击进行过滤 For ex 我的菜单条采用表格 1 我的选项卡控件采用表格 2 我的选项卡控件由 7 个选项卡组成我希望一次只显示 1 个选项卡例如如果我单击菜单条中的名称
ARM 汇编：存储上的自动递增寄存器

是否可以使用 STR 自动递增寄存器的基地址 Rn 我仔细阅读了文档但未能找到明确的答案主要是因为命令语法同时适用于 LDR 和 STR 理论上它应该适用于两者但我找不到任何 auto 的示例在商店上递增加载正常我编写了一个小程
使用 ng-repeat 内使用的 ng-click 更改布尔值

我使用 ng repeat 在 div 内的 html 页面上显示一些数据在的里面div我有一个按钮来隐藏每个内容的内容div单独这是我的 html 文件的简化版本 div p x text p div
MVVM Light & WPF - 将窗口的多个实例绑定到 ViewModel

我正在 MVVM 中开发我的第一个项目并且我选择使用 MVVM Light Toolkit 我有一个GameViewModel在我的游戏主屏幕上处理业务我需要了解如何打开一个新窗口 AdventurerView 与一个实例Adventu
Alt + 空格 + 自动热键中的键

我怎样才能创建一个Alt Space C自动热键中的快捷方式 Alt 空格键是 space但我不知道如何添加第三个键而不出现错误您可以使用 If指令需要 AHK L 与GetKeyState 功能 If GetKeyState Alt
Connection、Statement 等预定义接口的抽象方法如何在没有主体的情况下执行某些任务？

java中有很多预定义的接口比如ResultSet Connection Statement等等接口只能有抽象方法未实现的方法那么为什么我们不先定义它们就使用这些方法呢例如下面的 jdbc 代码 public class JDBC
将 Git bash 作为外部工具嵌入到 PyCharm 中，并在 PyCharm 窗口 (windows xp) 中使用它

我在 PyCharm 中添加了 cmd 作为外部工具它在 PyCharm 控制台查看 gt 运行中运行良好 Here https stackoverflow com questions 17302977 how to launch g
嵌套（结构）数据的哈希

假设我们有以下数据 from pyspark sql types import StructType StructField StringType data James None Smith OH M Anna Rose NY F Juli
Asp.net 丢失变量值

我正在尝试在 ASP NET 中编写我的第一个 Web 应用程序这是我的代码 Public Class WebForm2 Inherits System Web UI Page Public n As Integer Public zet
如何绘制文本簇？

我已经开始使用 Python 学习聚类sklearn图书馆我编写了一个用于聚类文本数据的简单代码我的目标是找到相似句子的组簇我曾尝试绘制它们但失败了问题是文本数据我总是收到此错误 ValueError setting an a

如何绘制文本簇？

如何绘制文本簇？ 的相关文章

随机推荐

热门标签

如何绘制文本簇？的相关文章