使用 UMAP 和 HDBScan 进行集群

2024-01-26

我有大量的文本数据，大约有 5000 人输入。我使用 Doc2vec 为每个人分配了一个向量，使用 UMAP 缩减为二维，并使用 HDBSCAN 突出显示其中包含的组。目的是突出具有相似主题相似性的组。这导致了如下所示的散点图。

这看起来可以接受。然而，当我在 Bokeh 中使用相同的数据（为了创建交互式图表）时，输出看起来非常不同。尽管使用与以前相同的坐标和组，但以前看到的清晰分组消失了。相反，图表一片混乱，颜色全部混合在一起。

当应用过滤器来选择随机组时，这些点在整个图中分布得相当均匀，并且无论如何都不像一个有凝聚力的“组”。例如，第 41 组在图的每个角附近都有点。

使用以下代码将文档向量简化为 X、Y 坐标：

clusterable_embedding = umap.UMAP(
n_neighbors=150,
min_dist=0,
n_components=2,
random_state=42,
repulsion_strength=1.0,).fit_transform(model.dv.vectors)

并使用此代码分配组：

labels = hdbscan.HDBSCAN(
min_samples=1,
min_cluster_size=10,
).fit_predict(clusterable_embedding)

使用以下代码生成的具有清晰组的 Matplotlib 图：

clustered = (labels >= 0)
from matplotlib.pyplot import figure
figure(figsize=(10, 10), dpi=80)
plt.scatter(clusterable_embedding[~clustered, 0],
            clusterable_embedding[~clustered, 1],
            c=(0.5, 0.5, 0.5),
            s=10,
            alpha=0.5)
plt.scatter(clusterable_embedding[clustered, 0],
            clusterable_embedding[clustered, 1],
            c=(labels[clustered]),
            s=20,
            cmap='Spectral');

然后将其插入到 Pandas Dataframe 中：

for item in list(clusterable_embedding[clustered]):
    x = item[0]
    y = item[1]
    group = labels[int(len(all_data))]
    topic = topiclist(group)
    all_data.loc[len(all_data)] = [x, y, group, topic]

并创建了散景图：

datasource = ColumnDataSource(all_data)

yfig = figure(
    plot_width=600,
    plot_height=600,
    tools=('pan, wheel_zoom, reset')
)

yfig.add_tools(HoverTool(tooltips="""
<div>
    <div>
        <span style='font-size: 16px; color: #224499'>Group: </span>
        <span style='font-size: 18px'>@group</span>
    </div>
    <div>
        <span style='font-size: 16px; color: #224499'>Topic: </span>
        <span style='font-size: 18px'>@topic</span>
    </div>
</div>
"""))

color_mapper = LinearColorMapper(palette='Magma256', low=min(groups), high=max(groups))
    
yfig.circle(
    'x',
    'y',
    source=datasource,
    color={'field': 'group', 'transform': color_mapper},
    line_alpha=0.6,
    fill_alpha=0.6,
    size=4
)
show(yfig)

我在这里做错了什么吗？或者这是技术或数据的限制？初始图中的彩色组是否真的按其组进行分组，如果是这样，为什么散景图中的彩色组没有按组分组？

任何帮助都将不胜感激。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 UMAP 和 HDBScan 进行集群的相关文章

Cython 函数中的字符串

我想这样做将字符串传递给 Cython 代码 test py s Bonjour myfunc s test pyx def myfunc char mystr cdef int i for i in range len mystr err
如何读取通过追加行不断更新的文件？

在我的终端中我正在运行 curl user dhelm 12345 https stream twitter com 1 1 statuses sample json gt raw data txt curl 的输出是实时流式 Twitte
如何让Python的socket服务器永远运行

我有这段代码创建了一个简单的Python套接字服务器但是每次客户端断开连接时它都会关闭如何让它永远运行 import socket HOST PORT 8000 s socket socket socket AF INET socket
管理 Tweepy API 搜索

如果这是对之前在其他地方回答过的问题的粗略重复请原谅我但我不知道如何使用 tweepy API 搜索功能是否有任何有关如何使用搜索推文的文档api search 功能有什么方法可以控制返回的推文数量结果类型等功能由于某种原因结
向 polls urls.py 添加额外的过滤器会导致测试失败

按照 djangoproject 的教程我尝试让 urls py 过滤掉没有选择下面 urlpattern 的民意调查 urlpatterns patterns url r ListView as view queryset Poll o
如何充分释放函数中使用的GPU内存

我在用着cupy在接收一个函数numpy数组将其推到 GPU 上对其进行一些操作并返回cp asnumpy它的副本问题函数执行后内存没有被释放如ndidia smi 我知道内存的缓存和重用cupy 但是这似乎仅适用于每个用户当
Highcharts 奇怪的分组行为

我正在使用延迟加载 http www highcharts com stock demo lazy loading加载 OHLC 数据的方法在服务器端我使用 Python MySQL 并有 4 个包含 OHLC 数据的表时间间隔为 5
导入错误：没有名为“wordcloud”的模块

我正在努力将 wordcloud 安装到我的环境中这是我正在运行的代码 import os import matplotlib pyplot as plt from wordcloud import WordCloud 我收到以下错误 I
比较两个文本文件并计算差异

我一直在尝试在Python中比较两个文本文件本质上我想打开它们并一次比较一个字符如果字符不同则向计数器添加1 然后显示该值这是我到目前为止所拥有的 usr bin env python diff 0 import random im
获取 HTML 代码的结构

我正在使用 BeautifulSoup4 我很好奇是否有一个函数可以返回 HTML 代码的结构有序标签这是一个例子 h1 Simple example h1 p This is a simple example of html page
如何将 pip 指向 Mercurial 分支？

我正在尝试通过 pip 将我的应用程序安装到 virtualenv 进行测试安装时效果很好default or tip像这样 pip install e hg https email protected cdn cgi l email p
Numpy 通过一个数组的值总结另一个数组

我正在尝试找到一种矢量化方法来完成以下任务假设我有一个 x 和 y 值的数组请注意 x 值并不总是整数并且可以为负数 import numpy as np x np array 1 1 1 3 2 2 2 5 4 4 dtype flo
如何在 Python 中将 EXR 文件的 float16 转换为 uint8

我正在使用 OpenEXR 读取 Python 中的 EXR 文件我有带有半数据 float16 的 R G 和 B 通道我尝试使用 Numpy 将数据从 float16 转换为 uint8 0 255 颜色但没有成功 rCh get
如何使用 Selenium Webdriver (Python) 在上下文菜单中选择“将图像另存为...”来保存图像

我正在尝试使用 selenium webdriver 将特定图像保存到目录中我希望通过模拟右键单击 img 元素并选择将图像另存为来实现此目的使用以下代码我可以打开上下文菜单但无法选择正确的选项 browser WebDriver
与 GNU Make 等 Python 相关的并行任务并发

我正在寻找一种方法或者可能是一种哲学方法来如何在 python 中执行类似 GNU Make 的操作目前我们使用 makefile 来执行处理因为 makefile 非常擅长通过更改单个选项 j x 进行并行运行此外 gnu mak
Django 迁移错误 'TypeError: 序列项 1: 需要一个类似字节的对象，在 mysql-connector-pythoncursor_cent.py 文件上找到 str'

我正在 Django 项目中使用 mysql connector 来处理 mysql 请求问题是我正在使用 django admin startproject project 设置一个简单的项目当我尝试进行简单的管理 py 迁移时这是
如何有效地计算另一列中每个元素的较大元素的数量？

我有以下内容df name created utc 0 t1 cqug90j 1430438400 1 t1 cqug90k 1430438400 2 t1 cqug90z 1430438400 3 t1 cqug91c 143043840
使用 Python 进行 Google 搜索网页抓取 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近为了工作中的一些项目学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取我发现几
将字典写入 csv 时遇到问题，其中键作为标题，值作为列

我有一本字典看起来像 mydict foo 1 2 bar 3 4 asdf 5 6 我正在尝试将其写入 CSV 文件使其看起来像 foo bar asdf 1 3 5 2 4 6 我花了最后一个小时寻找解决方案我发现的最接近的解决方
使用Python的线程模块调用ctypes函数比使用多处理更快？

我一生都无法找出这个问题的答案我编写了一个可以执行数百次繁重计算的脚本我有一个绝妙的主意将这些计算任务编写为 C 然后使用 Python 的 ctypes 与它们交互我心想我什至可以使用并行性进一步优化它我最初的方法是使用线程

随机推荐

Koa 发送响应后运行代码

为了优化响应延迟需要执行以下工作after响应已发送回客户端但是我似乎可以在发送响应后运行代码的唯一方法是使用setTimeout 有没有更好的办法也许在发送响应后在某个地方插入代码或者在某个地方异步运行代码这是一些代码 koa
实体框架 4：继承和关联

我确实从提供跟踪的基类派生出我的实体 Since User源自于TrackableBase and TrackableBase与关联User 我收到错误无法确定相关操作的有效顺序由于外键约束模型可能存在依赖关系要求或存储生成的值
OData分页与skip和top - 如何知道没有更多数据？

我有 OData 源它实现了 skip and top参数返回的实体数量为 x 假设我只有 250 个实体然后我尝试像这样进行分页 https example com EntitySet top 30 skip 220 如果我的跳过超
使用 jaxb 验证复杂对象中的嵌套对象

我有一个像这样的对象的 xml 表示 OrderList has list of 订单每个订单都有一个商品列表我想验证我的商品如果无效我想将它们从订单中删除如果所有商品都无效那么我会从订单列表中删除该订单我已经能够验证订单列表
将包含 JSON 对象数组的 Spark 数据帧列转换为多行

我有一个流式 JSON 数据其结构可以用下面的案例类来描述 case class Hello A String B Array Map String String 相同的示例数据如下 A B ABC C 1 D 1 C 2 D 4 XYZ
Spritekit - 不从 SKTextureAtlas 加载 @3x 图像

由于我的示例项目被删除我认为这会更容易测试我将发布一些代码和图像来说明我的观点这是示例图像我的图集设置我的启动图像设置我将这些精灵添加到场景中的代码 override func didMoveToView view SKView
如何在 Blazor Hybrid 中的 muddatagrid 列中增加模型的值

如何增加 muddatagrid 列中模型的值如果我按 olus 图标它将增加所有数量建议我一种可以与 onclick eventcallback 一起使用的方法我还需要将其增加 0 5
如何模拟 URLSession.DataTaskPublisher

我该如何嘲笑URLSession DataTaskPublisher 我有课Proxy需要注入一个URLSessionProtocol protocol URLSessionProtocol func loadData from url U
如何将密码从文件传递到mysql命令？

我有一个 shell 脚本它使用外部文件中的一个参数调用 mysql 命令它看起来像这样我也在其他资源中看到了这个示例 mysql user root password cat root mysql 有点不工作无法连接到 MySQL
Android 操作栏（如 Twitter 示例）

实现 Twitter 示例 UI 模式等操作栏的最佳方法是什么 Android 版 Twitter 深入了解 Android 不断演变的 UI 模式模式4 操作栏http android developers blogspot com 2
在 Powershell 中写入十六进制转义字符

有没有办法在Powershell中写这样的东西 Linux 将与 Perl 一起使用 char foo x41 我需要在我的一个程序中输入一些不可打印的字符你可以这样做将 int 转换为 char 带十进制数 foo 65 as char
HttpClient GetAsync 方法 403 错误

我正在尝试简单地显示 github 存储库网址 https api github com search repositories q pluralsight https api github com search repositories
使用cmd命令打开pwsh而不退出

我正在尝试启动一个 Powershell 窗口使用以下命令启动 ssh 会话 pwsh exe noexit Command ssh
如何在 LINQ 中对单个联接中的多个字段进行左联接

我正在尝试对 LINQ 执行这个简单的 sql 查询但它给了我错误这是需要转换为 LINQ 的 SQL 查询 DECLARE groupID int SET groupID 2 SELECT FROM dbo Person p LEFT
C++ 中两个向量的逐元素乘法

我试图用两个向量进行以下数学运算 v1 a1 a2 a3 a4 a5 v2 b1 b2 b3 b4 b5 想要计算 v a2 b2 a3 b3 a4 b4 a5 b5 请注意我不想要新向量中的第一个元素我想知道是否有一种比 for 循环
Mongo shell 中的 NumberLong 算术

如何在 Mongo shell 中对 NumberLong 值执行精确算术据我了解 Javascript 只有一种数字类型 number 通常限制为 54 位浮点精度使用例如标准加法的直接算术显示将强制转换为较低精度类型 gt Nu
向 geom_bar() / geom_col() 条添加图案或纹理？

有时我需要某种用于 geom bar geom col 条的图案或纹理即用于黑白打印例如以下内容对于某些人来说可能很难查看 library ggplot2 library dplyr warn conflicts FALSE lib
设置标头并使用 $http POST 发送数据到 pocket api 返回 CORS

无法向 pocket api 发送 http post 请求以获取请求令牌我已经拿到消费者密钥了问题似乎出在设置标头和发送请求中的数据在浏览器中查看请求时不会显示任何标头和数据配置请求 var req method POST ur
从整数的商中获取双精度值

int velMperMin 667 int distM 70 double movT distM velMperMin 60 movtT必须等于6 30 但它是0 您需要将除法的操作数之一转换为双精度值像这样 double movT d
使用 UMAP 和 HDBScan 进行集群

我有大量的文本数据大约有 5000 人输入我使用 Doc2vec 为每个人分配了一个向量使用 UMAP 缩减为二维并使用 HDBSCAN 突出显示其中包含的组目的是突出具有相似主题相似性的组这导致了如下所示的散点图这看起来可以

使用 UMAP 和 HDBScan 进行集群

使用 UMAP 和 HDBScan 进行集群 的相关文章

随机推荐

热门标签

使用 UMAP 和 HDBScan 进行集群的相关文章