文本聚类主题建模效率低下

2024-01-09

我尝试使用 LDA 进行文本聚类，但它没有给我不同的聚类。下面是我的代码

#Import libraries
from gensim import corpora, models
import pandas as pd
from gensim.parsing.preprocessing import STOPWORDS
from itertools import chain

#stop words
stoplist = list(STOPWORDS)
new = ['education','certification','certificate','certified']
stoplist.extend(new)
stoplist.sort()

#read data
dat = pd.read_csv('D:\data_800k.csv',encoding='latin').Certi.tolist()
#remove stop words
texts = [[word for word in document.lower().split() if word not in stoplist] for document in dat]
#dictionary
dictionary = corpora.Dictionary(texts)
#corpus
corpus = [dictionary.doc2bow(text) for text in texts]
#train model
lda = models.LdaMulticore(corpus, id2word=dictionary, num_topics=25, workers=4,minimum_probability=0)
#print topics
lda.print_topics(num_topics=25, num_words=7)
#get corpus
lda_corpus = lda[corpus]
#calculate cutoff score
scores = list(chain(*[[score for topic_id,score in topic] \
                      for topic in [doc for doc in lda_corpus]]))


#threshold
threshold = sum(scores)/len(scores)
threshold
**0.039999999971137644**

#cluster1
cluster1 = [j for i,j in zip(lda_corpus,dat) if i[0][1] > threshold]

#cluster2
cluster2 = [j for i,j in zip(lda_corpus,dat) if i[1][1] > threshold]

问题是 cluster1 中存在重叠元素，这些元素往往出现在 cluster2 等中。

我还尝试手动将阈值增加到 0.5，但是它给了我同样的问题

这只是现实的。

文档或单词通常都不能唯一地分配给单个集群。

如果您手动标记某些数据，您也会很快发现一些无法明确标记为其中之一的文档。所以就是good我希望算法不会假装有一个很好的独特分配。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

clusteranalysis

gensim

LDA

文本聚类主题建模效率低下的相关文章

通过 add_subplot 添加子图后如何共享轴？

我有一个像这样的数据框 df pd DataFrame A 0 3 0 2 0 5 0 2 B 0 1 0 0 0 3 0 1 C 0 2 0 5 0 0 0 7 D 0 6 0 3 0 4 0 6 index list abcd A B
sklearn 估计器管道的参数无效

我正在实现 O Reilly 书中的一个示例 Python 机器学习简介使用 Python 2 7 和 sklearn 0 16 我正在使用的代码 pipe make pipeline TfidfVectorizer LogisticRe
将 JSON 发布到 Python CGI

我已经安装了 Apache2 并且 Python 可以工作但我有一个问题我有两页一个是 Python 页面另一个是带有 JQuery 的 Html 页面有人可以告诉我如何让我的 ajax 帖子正常工作吗
str.translate 与 str.replace - 何时使用哪一个？

何时以及为什么使用前者而不是后者反之亦然目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者它们有不同的目的 translate只能用任意字符串替换单个字符但一次调用可以执行多次替换它的参数是一个特殊的表它将单个字符映射
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
为什么在访问 Python 对象属性时使用 getattr() 而不是 __dict__ ？

在具有一定程度的 Python 对象自省的源代码示例和 SO 答案中常见的模式是 getattr some object attribute name string 是否有理由优先选择这种模式 some object dict attri
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
更改 Matplotlib 投影轴的背景颜色

我正在尝试使用 Cartopy 创建一个图形该图形需要在未投影的轴上绘制投影轴这是一个尽可能简单的代码版本它将轴上的内容替换为背景颜色 import matplotlib pyplot as plt import cartopy cr
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org

随机推荐

数据表中的条件差异计算

我有一百万行长data table大约有20个柜台式的柱子这些列显示各种存储系统操作的计数器随时间的增加然而有时受监控系统上的计数器会重置并且单个观测值低于前一个观测值我需要计算一个opsdiff列其中包含基于列的相同类型的后
iOS MKMapView 缩放以显示所有标记

我正在与MKMapView并在地图上标出了几个点我已经用过MKCoordinateRegion and MKCoordinateSpan围绕其中一个点启用缩放等但这不是我想要的我正在尝试使用类似于 Javascript 缩放到边界功能
如何在 Go 中编写多行字符串？

Go 是否有类似于 Python 的多行字符串的东西 line 1 line 2 line 3 如果不是那么编写跨多行字符串的首选方式是什么根据语言规范 http golang org doc go spec html String l
如何在 Scala/Spark 中从多个 DataFrame 创建包含多个工作表的 Excel 文件？

In Scala Spark应用程序我创建了两个不同的DataFrame 我的任务是为每个 DataFrame 创建一个包含两个工作表的 Excel 文件我决定使用火花Excel https github com crealytics s
包含非托管对象的 ConcurrentBag 的完成

我在正确处理 Dispose Finalization 时遇到问题ConcurrentBag包含非托管对象运行下面的代码通常会产生一个ObjectDisposedException Cannot access a disposed o
在 SwiftUI 中切换视图的最佳方式是什么？

我尝试了几种在 SwiftUI 中切换视图的选项然而每一个都存在一些问题比如多次来回切换时会出现时间滞后等问题我正在尝试找到使用 SwiftUI 切换视图的最佳和最干净的方法我只是想制作一个多视图用户界面 In View1 swi
预定的网络作业

我正在创建一个新的 Azure WebJob 项目它似乎是可以作为 Web 作业运行的控制台应用程序的优化版本我希望这项工作根据时间表运行但在Main 方法见下文微软为您提供了host RunAndBlock 使作业能够连续运行
在 iOS 中创建 RTF 、 DOC 或 DOCX

我想使用 iOS 应用程序创建以下文件类型之一 RTF DOC 或 DOCX 用户应该能够写文字并且添加图像到它 UI 的构建不是问题问题只是文件的创建有没有最佳实践可以做到这一点第三方框架是一种选择但我想自己做 Thanks 我可
即使捕获了鼠标，如何才能获取鼠标位置的元素？

有没有办法获取鼠标位置的元素我正在使用 Mouse DirectlyOver 仅当鼠标未被捕获时它才能正常工作如果鼠标被捕获它会获取鼠标捕获的元素该元素不一定是鼠标所在位置的元素事实上 MSDN 文档说如果某个元素具有鼠标捕获功
哪个是好的开源用户管理系统？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
将 UIView 中的位置转换为 SKScene

我想在 UIView 中使用 touchBegan 功能并且应该触发 SKScene 方法一切都几乎正常除了我的 SKNode 的起始位置与 UIView 中的触摸不同之外我在这里读到 Swift 中令人困惑的反向触摸事件 http
查找 3 个输入的最大值 VBA

我正在尝试找到最多 3 个输入问题不在于算法因为当我在 python 中制作相同的脚本时它工作得很好问题是它没有按预期工作我将写一些场景以及结果 8 5 12 最多 125 8 12 最多 1212 5 8 最多 812 8 5
用于选择首选糖果的高效 SQL 2000 查询

我希望我能想出一个更具描述性的标题如果您能说出我要询问的查询类型请建议一个或编辑这篇文章数据库 SQL Server 2000 示例数据假设 500 000 行 Name Candy PreferenceFactor Jim Cho
获取 XPath 中标签后面的文本

我正在尝试使用 Selenium 进行一些测试但遇到了一些问题假设我有以下内容 div class itemize row p class subText span class item label Card Color span Ma
Action 到子动作的链接

我已经调用了另一个视图Html Action方法当用户单击操作链接时我想在子视图内使用参数调用相同的操作当我编写此代码时我收到此错误消息 Html ActionLink link Configure new id 2 配置操作只能
Cron 不将参数传递给 PHP 脚本

我有一个 cron 作业集例如 php home novinarb public html index php uri cron 24satahr 但 uri 参数根本没有到达 php 脚本我也尝试过在 uri 前面没有但仍然没有有
Swing：JTable 结构更改后 JScrollPane 不刷新

我有一个 JTable 与 DefaultTableModel 关联位于 JPanel 中 SpringLayout 位于 JScrollPane 中当我使用下面的方法修改 DefaultTableModel 的结构时 JTable 会
Hibernate createNativeQuery 返回 Clob 的代理对象

我被迫陷入使用 hibernate createNativeQuery 返回对象数组列表的情况我的查询返回值的许多列之一是 CLOB 返回的对象是 com sun Proxy 对象我看到一个问题here https stackove
如何通过XML在Spring bean中设置XmlAdapters的Jaxb2Marshaller列表？

我正在尝试定义一个Jaxb2MarshallerSpring WS 中的 bean 使用扩展的自定义适配器XmlAdapter 我的 XML 文件中有以下内容
文本聚类主题建模效率低下

我尝试使用 LDA 进行文本聚类但它没有给我不同的聚类下面是我的代码 Import libraries from gensim import corpora models import pandas as pd from gensim

文本聚类主题建模效率低下

文本聚类主题建模效率低下 的相关文章

随机推荐

热门标签

文本聚类主题建模效率低下的相关文章