从 Pyspark LDA 模型中提取文档主题矩阵

2024-04-24

我已经通过 Python API 在 Spark 中成功训练了 LDA 模型：

from pyspark.mllib.clustering import LDA
model=LDA.train(corpus,k=10)

这工作得很好，但我现在需要document-LDA模型的主题矩阵，但据我所知，我能得到的是word-主题，使用model.topicsMatrix().

是否有某种方法可以从 LDA 模型中获取文档主题矩阵，如果没有，Spark 中是否有替代方法（除了从头开始实现 LDA 之外）来运行 LDA 模型，从而为我提供所需的结果？

EDIT:

经过一番挖掘后，我找到了文档分布式LDA模型 https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/mllib/clustering/DistributedLDAModel.html在Java api中，有一个topicDistributions()我认为这正是我所需要的（但我 100% 确定 Pyspark 中的 LDAModel 是否实际上是一个 DistributedLDAModel ...）。

无论如何，我都可以像这样间接调用此方法，而不会出现任何明显的失败：

In [127]: model.call('topicDistributions')
Out[127]: MapPartitionsRDD[3156] at mapPartitions at PythonMLLibAPI.scala:1480

但如果我真正查看结果，我得到的只是字符串，告诉我结果实际上是一个 Scala 元组（我认为）：

In [128]: model.call('topicDistributions').take(5)
Out[128]:
[{u'__class__': u'scala.Tuple2'},
 {u'__class__': u'scala.Tuple2'},
 {u'__class__': u'scala.Tuple2'},
 {u'__class__': u'scala.Tuple2'},
 {u'__class__': u'scala.Tuple2'}]

也许这通常是正确的方法，但是有没有办法得到实际的结果呢？

经过大量研究，在当前版本的 Spark (1.5.1) 上通过 Python api 绝对不可能实现这一点。但在 Scala 中，它相当简单（给定一个 RDDdocuments进行训练）：

import org.apache.spark.mllib.clustering.{LDA, DistributedLDAModel}

// first generate RDD of documents...

val numTopics = 10
val lda = new LDA().setK(numTopics).setMaxIterations(10)
val ldaModel = lda.run(documents)

# then convert to distributed LDA model
val distLDAModel = ldaModel.asInstanceOf[DistributedLDAModel]

然后获取文档主题分布就很简单：

distLDAModel.topicDistributions

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

LDA

从 Pyspark LDA 模型中提取文档主题矩阵的相关文章

在 Python 3.5 64 位上通过 pip 安装 OpenCV

我尝试安装 OpenCV 但找不到任何合适的 pip 软件包我决定上网查找有关如何安装它的官方文档并发现this https opencv python tutroals readthedocs io en latest py tuto
Python，将CSV文件转换为SQL表

我有一个没有标题的 CSV 文件并尝试从文件中的某些列创建 SQL 表我尝试了这里给出的解决方案使用 Python 将 CSV 文件导入 sqlite3 数据库表 https stackoverflow com questions 2
python 线程是如何工作的？

我想知道 python 线程是并发运行还是并行运行例如如果我有两个任务并在两个线程中运行它们它们是同时运行还是计划同时运行我知道GIL并且线程仅使用一个 CPU 核心这是一个复杂的问题需要大量解释我将坚持使用 CPython
使用另一个索引数组正确索引多维 Numpy 数组

我正在尝试索引多维数组P与另一个数组indices 它指定我想要沿最后一个轴的哪个元素如下所示 import numpy as np M N 20 10 P np random rand M N 2 9 index into the la
Python 中意外的缩进错误[重复]

这个问题在这里已经有答案了我有一段简单的代码我不明白我的错误来自哪里解析器在第 5 行 if 语句上用意外的缩进向我咆哮有人看到这里的问题吗我不 def gen fibs a b 0 1 while True a b b a b
tf.keras.utils.image_dataset_from_directory，但标签来自 csv？

请告诉我哪里出错了我正在研究 Kaggle 狗品种分类挑战我想尝试 one hot 编码与标签编码图像未在图像目录中拆分因此我无法将推断与 tf keras utils image dataset from directory
Pymacs 助手在 30 秒后未启动

我见过其他关于此的问题但没有一个得到真正的回答而且没有一个是我的问题我有一个新系统 emacs 23 1 Centos 6 2 我认为我下载了最新的 pymacs 并安装了它但是我得到 error Pymacs helper d
使用 PyQt4 在 QWidget 上进行 eventFilter

我有一个 QMainWindow 其中包含DrawingPointsWidget 该小部件随机绘制红点我通过使用以下命令为 MouseHovering 事件安装事件过滤器在 QMainWindow 的状态栏中显示鼠标坐标self ins
Apache2 mod_wsgi 403 禁止错误

我已经正确配置了它但后来我决定重新安装我的 Debian 顺便从 wheezy 切换到 jessie 版本问题是这样的我有一个 python mod wsgi 应用程序 mnt doc Python www index py ls l
使用请求和多处理时的奇怪问题

请检查这个Python代码 usr bin env python import requests import multiprocessing from time import sleep time from requests import
如何在 Ubuntu 上通过 pip 安装 python3 版本的软件包？

我两者都有python2 7 and python3 2安装在Ubuntu 12 04 符号链接python链接到python2 7 当我输入 sudo pip install package name 它将默认安装python2的版本pa
dataframe KeyError，尽管它存在

鉴于数据 rows x 1 y 2 z 3 x 2 y 2 z 3 如果我尝试构建这样的数据框 frame pd DataFrame from records rows index x 效果很好然而这 frame pd DataFram
Pytest - 如何将参数传递给 setup_class？

我有一些代码如下所示我得到了too few args当我运行它时出错我没有打电话setup class明确地所以不确定如何向它传递任何参数我尝试用以下方法装饰该方法 classmethod 但仍然看到相同的错误我看到的错误是这样
tweepy 计数限制为 200？

我目前正在尝试检索一些拥有大量关注者的大帐户的关注者我正在使用 Tweepy 和这段代码带光标 follower cursors tweepy Cursor api followers id id var count 5000 for
Python：使用 FOR 循环插入字典

我已经在论坛中进行了搜索但不明白是否可以使用以下构造将新条目插入到我的 Python 字典中而不将其转换为列表 for x in range 3 pupils dictionary new key input Enter new key
Python Shutil.copy 如果我有重复文件，它会复制到新位置吗

我正在与shutil copypython 中的方法我找到了下面列出的定义 def copyFile src dest try shutil copy src dest eg src and dest are the same file
将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
Python：从 apache authnz_ldap 获取用户

我正在通过 Apache2 的 authnz ldap 模块成功验证 ldap 用户我不清楚如何在他们登录后获取他们的用户名以便我可以通过任何以下表单网页与他们交互我尝试过典型的方法 os getenv os environ get
Seaborn 分组条形图，使用总值而不是平均值

我有一个关于如何组织数据以使用 seaborn 制作条形图的问题我的数据输入如下所示 influencer platform reach person a instagram 10000 person b instagram 5000 p
使用按钮从 Django 项目根下载文件

So this is the webpage I m creating atm with Django 1 8 希望用户能够将数据导出为 csv 当用户在框中写下 Reddit 子版块名称按下获取数据按钮会发生什么它创建了一个

随机推荐

如何从 Objective-C 中的方法返回 C 数组？

我有一个返回变量的函数我想知道如何返回一个数组问题是它不是 NSArray 它只是一个像这样的平均 C 数组 b2Fixture addFixturesToBody b2Body body forShapeName NSString s
在CXF中使用javax.ws.rs.client.ClientBuilder创建客户端，任何路由都能够使用本地传输？

我正在开发一个使用标准的代码库 javax ws rs client ClientBuilder 类来自 CXF 发行版用于配置和创建 javax ws rs client Client 这已经足够好了我现在正在尝试编写使用的测试JA
如何使用 gnu cp 命令将文件复制到多个目录

是否可以使用 cp 命令将单个文件复制到多个目录我尝试了以下方法但没有成功 cp file1 foo bar cp file1 foo bar 我知道可以使用 for 循环或 find 但是可以使用 gnu cp 命令吗你不能这样做c
将字符串中第 N 次出现的字符替换为其他字符

考虑a paste 1 10 collapse 这导致 a 1 2 3 4 5 6 7 8 9 10 我想替换每第 n 次比如第 4 次出现的并将其替换为其他内容比如 n 期望的输出是 1 2 3 4 n 5 6 7 8 n 9 1
PHP CodeIgniter 框架中的命名空间

CodeIgniter 支持命名空间吗如何让命名空间在 Codeigniter 中工作实际上您可以让命名空间与应用程序模型中的相对路径结合使用此修改使加载模型变得更加容易并且还允许您拥有接口将其添加到 application c
Akka HTTP 连接池在几个小时后挂起

我有一个 HTTP 连接池在运行几个小时后挂起 private def createHttpPool host String SourceQueue HttpRequest Promise HttpResponse val pool Ht
图像中土壤颗粒分水岭以外的替代分割技术

我正在寻找一种替代方法来分割以下土壤颗粒图像中的颗粒而不是Python中的分水岭分割因为它可能会误导对颗粒的正确检测此外我正在研究边缘检测图像使用HED算法作为附加我希望找到一种更好的方法来分割颗粒以进行进一步处理因为我想获
如何根据 Pandas 中的间隔分配值

我试图根据另一个数据帧的两个值之间的值向数据帧列分配一个值 intervals pd DataFrame columns From To Value data 0 100 A 100 200 B 200 500 C print interv
如何知道之前的位置和新的位置？

我有一个水平布局的回收视图一次只有一个视图可见 mRecyclerView findViewById R id rvmain mRecyclerView setOnFlingListener null final SnapHelper s
如何在Python 3.7中使用Pygame显示用Pillow加载的图像？

我使用以下命令将图像导入到我的项目中 from PIL import Image myImage Image open myImageDirectory png 所以 myImage 现在作为 png 文件导入但我想使用 Pygame 将
通过 PHP cURL 获取文件内容 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我有一个网站我们就这样称呼它吧ht
flash、connect-flash 和express-flash 之间的区别

我仍然对 flash connect flash 和 express flash 之间的区别感到有点困惑安装 flashnpm install flash 快速闪存 npm install express flash 连接闪存 npm i
Symfony YAML 格式转换

我有一些服务定义如下所示 MyService class Some Class Here factory SomeFactoryHere method calls add service AnotherService1 create se
从 CSV 文件读取数据并将其显示在 JTable 中

我正在尝试从 CSV 文件读取数据并将其显示在 JTable 上但遇到一些问题我是菜鸟所以请耐心等待我查看并合并了多个来源的示例代码但无济于事该表显示但它是空白的我知道我正在读取数据因为我可以打印它我怀疑我的 ModelTa
使用 require 与 fs.readFile 读取 json 文件内容

假设对于来自 API 的每个响应我需要将响应中的值映射到 Web 应用程序中的现有 json 文件并显示 json 中的值在这种情况下读取 json 文件的更好方法是什么 require 或 fs readfile 请注意可能有数
当两个脚本实例同时写入日志时，为什么 Monolog 写入的日志行不会混乱/混合？

当使用 Monolog 时StreamHandler 这是正常情况 PHP 脚本的多个实例会并行写入同一个日志文件例如在我的 Symfony 应用程序中当多个用户同时打开登录页面时会导致我的应用程序脚本出现多个实例 app ph
在 GCP API 网关上使用 Google 访问令牌进行身份验证

我正在尝试使用 Google 在 GCP API Gateway 上执行身份验证访问令牌 ya29 OAuth2 但是那文档 https cloud google com api gateway docs authenticating u
如何安装 Haskell 控制镜头

我注意到 Control Lens 不是 Haskell 平台的一部分所以我可能需要安装它谁能解释一下如何安装吗它不是 Haskell 平台的一部分吗编辑我正在使用 GHCi 它使用 prelude 警告此答案仅适用于版本 3
隐藏 primefaces 表列标题

我有一个 p treeTable 树内容都在一列中该树是一个共享组件因此我的某些页面需要列标题而有些则不需要在列标题为空的页面中它为列标题创建一个空行这是我不想要的我确实想要列内容只是没有列标题时不需要标题我怎样才能解决这
从 Pyspark LDA 模型中提取文档主题矩阵

我已经通过 Python API 在 Spark 中成功训练了 LDA 模型 from pyspark mllib clustering import LDA model LDA train corpus k 10 这工作得很好但我现在需

从 Pyspark LDA 模型中提取文档主题矩阵

从 Pyspark LDA 模型中提取文档主题矩阵 的相关文章

随机推荐

热门标签

从 Pyspark LDA 模型中提取文档主题矩阵的相关文章