Spark MLlib LDA，如何推断新的未见过文档的主题分布？

2024-03-26

我对使用 Spark MLlib 应用 LDA 主题建模感兴趣。我已经检查了代码和解释here http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-lda但我找不到如何使用该模型在新的看不见的文档中查找主题分布。

从 Spark 1.5 开始，此功能尚未实现DistributedLDAModel。您需要做的是将您的模型转换为LocalLDAModel使用toLocal方法，然后调用topicDistributions(documents: RDD[(Long, Vector])方法其中documents是新的（即训练外的）文档，如下所示：

newDocuments: RDD[(Long, Vector)] = ...
val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments)

这将不如 EM 算法准确建议，但它会起作用。或者，您可以使用新的在线变分 EM 训练算法，该算法已经产生了LocalLDAModel。除了更快之外，这种新算法也更受欢迎，因为它与旧的 EM 拟合算法不同DistributedLDAModels，正在先于文档的主题混合权重优化狄利克雷的参数（alpha）。根据瓦拉赫等。等人。 http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2009_0929.pdf，alpha 的优化对于获得好的主题非常重要。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark MLlib LDA，如何推断新的未见过文档的主题分布？的相关文章

线程“main”中的异常 java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)

我收到此错误的原因是什么最初 Scala 的 IDE 插件是 2 12 3 但由于我使用的是 Spark 2 2 0 所以我手动将其更改为 Scala 2 11 11 Using Spark s default log4j profile
如何解决错误“AttributeError：‘SparkSession’对象没有属性‘序列化器’？

我正在使用 pyspark 数据框我有一些代码试图在其中转换dataframe to an rdd 但我收到以下错误 AttributeError SparkSession 对象没有属性序列化器可能是什么问题 training tes
如何找到两个数组列之间的共同元素？

我有两个以逗号分隔的字符串列 sourceAuthors and targetAuthors val df Seq Author1 Author2 Author3 Author2 Author3 Author1 toDF source ta
找出分区号/id

Spark中有没有一种方法方法可以找出分区ID 编号在这里举这个例子 val input1 sc parallelize List 8 9 10 3 val res input1 reduce x y gt println Insid
为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。（即使使用 uber-jar）？

我使用 HDP 2 6 3 0 和 Spark2 包 2 2 0 我正在尝试使用结构化流 API 编写 Kafka 消费者但将作业提交到集群后出现以下错误 Exception in thread main java lang ClassN
非时间戳列上的 Spark 结构化流窗口

我收到以下形式的数据流 id timestamp val xxx 1 12 15 25 50 1 2 12 15 25 30 1 3 12 15 26 30 2 4 12 15 27 50 2 5 12 15 27 30 3 6 12 15
TaskSchedulerImpl：初始作业尚未接受任何资源；

这就是我正在尝试做的事情我创建了DataStax企业集群的两个节点在其上创建了一个java程序来获取一张表 Cassandra数据库表的计数该程序是在 eclipse 中构建的实际上是来自 windows 盒子从 Windows
Spark数据框中过滤的多个条件

我有一个包含四个字段的数据框其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件我尝试了以下查询但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
在Spark的客户端模式下，驱动程序需要网络访问远程执行程序？

使用火花时在客户端模式例如yarn client 运行驱动程序的本地计算机是否直接与运行远程执行程序的集群工作节点通信如果是是否意味着机器运行驱动程序需要具有对工作节点的网络访问权限那么master节点向集群请求资源并将wor
如果为 null 则替换为 0，否则在同一列中使用默认值

在SparkR shell 1 5 0中创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
scala.collection.Seq 不适用于 Java

Using 阿帕奇火花2 0 1 Java 7 在 Apache Spark Java API 文档中 DataSet 类出现了一个example http spark apache org docs latest api java org
Twitter API 与 Scala 2.12 一起使用

我正在使用 Scala 2 12 使用 SBT 构建构建 Spark 3 0 0 流应用程序鉴于所有用于执行此操作的库均适用于 Scala EDIT 我尝试使用库构建时得到的示例输出 object twitter is not a me
如何使用 Spark 执行插入覆盖？

我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据基本上创建一个临时表其中的数
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q

随机推荐

C# Nhibernate 保存列表

今天我有一个包含 40 000 个寄存器的列表我需要将其保存在我的 MSSQL 数据库中当我尝试保存它时我检查了控制台显示我意识到它正在逐项保存并且消耗了大量时间即使我尝试使用下面的命令插入整个列表也是如此 List
允许 UIWebView 内的位置访问

我有一个基于 webview 的应用程序当我访问时http maps google com http maps google com 我的 webview 没有像 Safari 那样传递位置我知道需要 CLLocationManager
检测显卡性能-JS

这是一个远景有没有办法通过 JS 插件来检测显卡性能的强弱我们为客户构建了一个视差站点它在性能较低的机器上出现卡顿我们可以调整性能以使其全面更好地工作但这当然会降低使用较高性能机器的用户的体验我们也可以检测浏览器版本但相同的浏
如何在 Swift 中消除警告？

我有一段代码会生成大量警告已弃用的 API 使用 clang 我可以这样做 pragma clang diagnostic push pragma clang diagnostic ignored Wdeprecated declarat
这个 Groovy 构造有什么问题？

这是一个简短的 Groovy 脚本 import org apache commons io FileUtils def dir new File mydir def files FileUtils listFiles dir new St
无法在 Qt 中设置几何图形

我收到错误setGeometry在 Qt5 中的一个非常简单的程序中 int main int argc char argv QApplication a argc argv QLabel m photo new QLabel m phot
自定义抛出异常javascript的错误消息

我正在尝试自定义 javascript 中异常抛出的错误消息到目前为止我的尝试都失败了我正在尝试这个但它不起作用 function abc sender args alert ex2 throw error new alert 你需要
切换到 mysqli 后 LOCAL INFILE 出现问题

任何了解在 PHP 中使用 LOCAL INFILE 的问题的人都会理解我对此的沮丧我之前通过在连接调用中使用 128 标志使 LOCAL INFILE 在所有 PHP 脚本中正常工作 mysql connect DB SERVER D
我的 Qt 应用程序中收到了 WM_DEVICECHANGE，但未收到 DBT_DEVICEARRIVAL

我正在按照一个示例来检测 Windows 7 中的 USB 闪存驱动器插件和拔出检测我确实收到了通知WM DEVICECHANGE但不是DBT DEVICEARRIVAL这是插入USB设备时的情况我的代码如下 WINDOWS EVENT
使用 SystemJS 模块系统时 WebStorm 从索引文件导入

假设我有以下源结构 home home component ts shared domain car domain ts house domain ts person domain ts index ts 所有域文件都包含类似的内容 exp
是否可以在不与ios集成的情况下下载Google Drive文件

是否可以从 google 驱动器下载文件而不集成它的 sdk 类文件或身份验证考虑以下场景我在我的示例应用程序中使用了 UIWebView 我通过 UIWebView 登录 Google Drive 就像登录 Google Drive
svg转png时添加css样式

I have the following problem I am converting the svg plot created by d3 js but the png is completely different from svg
如何将 MIME 类型添加到 .htaccess？

我想将以下 MIME 类型添加到由以下人员运行的网站Apache
在 pandas 中添加时间戳偏移量

我有一个数据框 df 当我运行 print df index 时我得到 DatetimeIndex 2011 08 05 00 00 00 04 00 2011 08 05 01 00 00 04 00 2011 08 05 02 00
Rake on Rails 3 问题

我将 Rails 2 3 应用程序移至 Rails 3 该应用程序实际上运行得很好但我对 rake 任务有问题看起来环境文件中的配置未正确初始化我得到的错误是 rake aborted undefined method cache c
从源代码构建 Android 时如何查看实际的 gcc 选项？

我正在尝试调试我的 android 源构建环境 Android mk 文件默认情况下 make 系统在构建过程中不显示 gcc 命令行实现这一点的最佳方法是什么对于提出请求的人来说可能为时已晚但对于其他提出请求的人来说可能已经太晚了
如何使用返回键关闭 UITextView 的键盘？

想要改进这篇文章吗提供此问题的详细答案包括引用和解释为什么你的答案是正确的不够详细的答案可能会被编辑或删除 In IB s library the introduction tells us that when the return
sqrt(1.0 - pow(1.0,2)) 返回 -nan [重复]

这个问题在这里已经有答案了我发现了一个有趣的浮点问题我必须在代码中计算几个平方根表达式如下 sqrt 1 0 pow pos 2 其中 pos 循环从 1 0 到 1 0 1 0 对于 pow 来说很好但是当 pos 1 0 时我
为什么递归 grep 显示“没有这样的文件或目录”错误？

我正在 grep 本地 svn 目录当我跑步时grep r pattern 我收到一些错误例如 grep Data test 没有这样的文件或目录谁问的grep寻找不存在的文件 gt grep version grep GNU gre
Spark MLlib LDA，如何推断新的未见过文档的主题分布？

我对使用 Spark MLlib 应用 LDA 主题建模感兴趣我已经检查了代码和解释here http spark apache org docs latest mllib clustering html latent dirichlet

Spark MLlib LDA，如何推断新的未见过文档的主题分布？

Spark MLlib LDA，如何推断新的未见过文档的主题分布？ 的相关文章

随机推荐

热门标签

Spark MLlib LDA，如何推断新的未见过文档的主题分布？的相关文章