Spark 中的潜在狄利克雷分配 (LDA) - 复制模型

2024-01-31

我想从 pyspark ml-clustering 包中保存 LDA 模型，并在保存后将该模型应用于训练和测试数据集。然而，尽管设定了种子，结果还是存在差异。我的代码如下：

1）导入包

from pyspark.ml.clustering import LocalLDAModel, DistributedLDAModel
from pyspark.ml.feature import CountVectorizer , IDF

2）准备数据集

countVectors = CountVectorizer(inputCol="requester_instruction_words_filtered_complete", outputCol="raw_features", vocabSize=5000, minDF=10.0)
cv_model = countVectors.fit(tokenized_stopwords_sample_df)
result_tf = cv_model.transform(tokenized_stopwords_sample_df)
vocabArray = cv_model.vocabulary
idf = IDF(inputCol="raw_features", outputCol="features")
idfModel = idf.fit(result_tf)
result_tfidf = idfModel.transform(result_tf)
result_tfidf = result_tfidf.withColumn("id", monotonically_increasing_id())    
corpus = result_tfidf.select("id", "features")

3）训练LDA模型

lda = LDA(k=number_of_topics, maxIter=100, docConcentration = [alpha], topicConcentration = beta, seed = 123)
model = lda.fit(corpus)
model.save("LDA_model_saved")
topics = model.describeTopics(words_in_topic)  
topics_rdd = topics.rdd
modelled_corpus = model.transform(corpus)

4）复制模型

#Prepare the data set
countVectors = CountVectorizer(inputCol="requester_instruction_words_filtered_complete", outputCol="raw_features", vocabSize=5000, minDF=10.0)
cv_model = countVectors.fit(tokenized_stopwords_sample_df)
result_tf = cv_model.transform(tokenized_stopwords_sample_df)
vocabArray = cv_model.vocabulary
idf = IDF(inputCol="raw_features", outputCol="features")
idfModel = idf.fit(result_tf)
result_tfidf = idfModel.transform(result_tf)   
result_tfidf = result_tfidf.withColumn("id", monotonically_increasing_id())
corpus_new = result_tfidf.select("id", "features")

#Load the model to apply to new corpus
newModel = LocalLDAModel.load("LDA_model_saved")
topics_new = newModel.describeTopics(words_in_topic)  
topics_rdd_new = topics_new.rdd
modelled_corpus_new = newModel.transform(corpus_new)

尽管我假设是相同的，但以下结果是不同的：topics_rdd != topics_rdd_new and modelled_corpus != modelled_corpus_new（此外，在检查提取的主题时，它们以及数据集上的预测类别都是不同的）

所以我觉得很奇怪，即使我在模型生成中设置了种子，同一模型在同一数据集上预测不同的类（“主题”）。有复制 LDA 模型经验的人可以提供帮助吗？

谢谢：）

我在 PYSPARK 中实现 LDA 时遇到了类似的问题。尽管我使用了种子，但每次我在具有相同参数的相同数据上重新运行代码时，结果都是不同的。

在尝试了多种方法后，我想出了以下解决方案：

Saved cv_model运行一次并在下一次迭代中加载它之后，而不是重新安装它。
这和我的数据集比较相关。我使用的语料库中的一些文档的大小非常小（每个文档大约 3 个单词）。我过滤掉了这些文档并设置了限制，这样只有那些至少包含 15 个单词的文档才会包含在语料库中（您的语料库可能更高）。我不确定为什么这个有效，可能与强调模型复杂性的某些事情有关。

总而言之，即使经过几次迭代，我的结果也是相同的。希望这可以帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

LDA

Spark 中的潜在狄利克雷分配 (LDA) - 复制模型的相关文章

如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
带有 pySpark 的 GraphFrames

我想将 GraphFrames 与 PySpark 一起使用目前在 Google Dataproc 上使用 Spark v2 3 3 安装 GraphFrames 后 pip install graphframes 我尝试运行以下代码 f
如何并行运行多个Spark作业？

一个 Spark 有一个 Oracle 查询所以我必须并行运行多个作业以便所有查询同时触发如何并行运行多个作业引用官方文档作业调度 http spark apache org docs latest job scheduling h
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
使用空/空字段值创建新的数据框

我正在从现有数据帧创建一个新数据帧但需要在这个新 DF 中添加新列下面代码中的 field1 我该怎么做工作示例代码示例将不胜感激 val edwDf omniDataFrame withColumn field1 callUDF v
pyspark中的函数input()

我的问题是当我输入 p 的值时没有任何反应它不执行请问有办法修复它吗 import sys from pyspark import SparkContext sc SparkContext local simple App p inp
Pyspark 数据框逐行空列列表

我有一个 Spark 数据框我想创建一个新列其中包含每行中具有 null 的列名称例如原始数据框是 col 1 col 2 col 3 62 45 null 62 49 56 45 null null null null null
Scala：如何获取数据框中的行范围

我有一个DataFrame通过运行创建sqlContext readParquet 文件的一个 The DataFrame由 300 M 行组成我需要使用这些行作为另一个函数的输入但我想以较小的批次进行操作以防止 OOM 错误目前
K均值||用于 Spark 上的情感分析

我正在尝试编写基于Spark的情感分析程序为此我使用了 word2vec 和 KMeans 聚类从 word2Vec 我在 100 维空间中得到了 20k 个单词向量集合现在我正在尝试对这个向量空间进行聚类当我使用默认并行实现运
Python / Pyspark - 计数 NULL、空和 NaN

我想计算列中的 NULL 空和 NaN 值我尝试过这样的 df filter df ID df ID isNull df ID isnan count 但我总是收到此错误消息 TypeError Column object is not
Spark Driver 内存和 Application Master 内存

我是否正确理解客户端模式的文档客户端模式与驱动程序在应用程序主机中运行的集群模式相反在客户端模式下驱动程序和应用程序主机是单独的进程因此spark driver memory spark yarn am memory一定小于机器内存
用于在 pyspark 中处理大数的数据类型

我将 Spark 与 python 一起使用上传 csv 文件后我需要解析 csv 文件中的一列其中包含 22 位数字长的数字为了解析我使用的列长类型我使用 map 函数来定义列以下是我在 pyspark 中的命令 gt gt
为什么 Apache Spark 会读取嵌套结构中不必要的 Parquet 列？

我的团队正在构建一个 ETL 流程以使用 Spark 将原始分隔文本文件加载到基于 Parquet 的数据湖中 Parquet 列存储的承诺之一是查询将仅读取必要的列条带但我们看到意外的列被读取以获取嵌套模式结构为了进行演示下
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
Spark UDF 错误 - 不支持 Any 类型的架构

我正在尝试创建一个 udf 它将列中的负值替换为 0 我的数据框名为 df 包含一列名为 avg x 这是我创建 udf 的代码 val noNegative udf avg acc x Double gt if avg acc x lt
如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

这可能是一个愚蠢的问题源于我的无知我已经在 PySpark 上工作了几个星期并没有太多的编程经验我的理解是在 Spark 中 RDD 数据帧和数据集都是不可变的我再次理解这意味着您无法更改数据如果是这样为什么我们能够使用编
Spark中DataFrame、Dataset、RDD的区别

我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花你能将其中一种转换为另一种吗首先是DataFrame是从SchemaRDD 是的
Zeppelin：如何在 zeppelin 中重新启动 SparkContext

我正在使用 zeppelins Spark 解释器的隔离模式在这种模式下它将为 Spark 集群中的每个笔记本启动一项新工作我想在笔记本执行完成后通过 zeppelin 终止该作业为此我做了sc stop这停止了 sparkCont
使用 Scala 在 Apache Spark 中拆分字符串

我有一个数据集其中包含以下格式的行制表符分隔 Title lt t gt Text 现在对于每个单词Text 我想创建一个 Word Title 一对例如 ABC Hello World gives me Hello ABC Worl

随机推荐

Unity - 依赖关系解析失败（未注册）

我在这行代码上遇到错误 using IMaterialClient rawMaterialServiceProxy ServerUtility Container Resolve
如何强制两个进程在同一个CPU上运行？

Context 我正在编写一个由多个进程组成的软件系统它是在Linux下用C 编写的它们之间使用 Linux 共享内存进行通信通常在软件开发中性能优化是在最后阶段进行的在这里我遇到了一个大问题该软件对性能要求较高但在 4 或
AccessDeniedException：无法确定要授权的服务/操作名称

使用 AWS CLI aws version aws cli 1 11 21 Python 2 7 12 Darwin 15 3 0 botocore 1 4 78 为 API Gateway 创建 POST 方法如下所述https gi
Odoo - 如何翻译 javascript 文件中的字符串

我因对 Javascript 缺乏了解而苦苦挣扎 Odoo 文档非常糟糕我还有关于这个主题的另一个问题但这里没有答案 Odoo10 如何执行 JavaScript https stackoverflow com questions 42
如何在编辑器中禁用 wysihtml5 HTML 清理？

如何在编辑器模式下禁用 HTML Clean Up 我需要在代码中允许 css 格式和内联 html 这个想法是在粘贴代码并进入编辑器进行编辑时禁用解析器和 html 清理操作谢谢您可以在初始化 wysihtml5 编辑器时提供标识函数
如何从 Flutter 中的 UploadTaskSnapshot 获取完整的 downloadUrl？

我正确接收UploadTaskSnapshot 并且 downloadUrl 字段包含一个实例Uri解析上传文件的下载链接如何获取字符串形式的 storage 和 downloadUrl old final uploadTask imag
pandas 中的 axis 是什么意思？

这是我生成数据框的代码 import pandas as pd import numpy as np dff pd DataFrame np random randn 1 2 columns list AB 然后我得到了数据框 A B 0
等待函数完成

我有2个功能第二个比第一个快该函数怎么可能等待完成第一个的工作 function1 slow function2 fast JavaScript 是命令式的单线程的它只是works像这样 function2 不会开始直到functi
从 JSON 到 NSObjects 的对象映射库

我正在尝试构建一个解析器 objectMapper 它将为我从 REST 服务使用的 JSON 构建 Objective C 对象我从 RestKit 中获得了一些灵感让我的实体都包含一个解码列表它告诉映射器哪些 JSON 键与哪些
使用 jQuery 阻止 onclick 操作

有一些带有 onclick 事件操作的链接 a href Let s panic a a href I can t panic no more a 我需要防止事件动作在链接上执行disabled属性而不删除 onclick 操作 a dis
实体框架 - 预加载两个多对多关系

很抱歉这么长但至少我认为我获得了所有信息以便能够理解并可能有所帮助我想使用预加载从数据库加载数据数据设置在五个表中设置两个级别的 m n 关系因此存在三个包含数据的表以从上到下的层次结构方式排序 CREATE TABLE db
如何在 C 语言中使用文件的输入重定向？ [复制]

这个问题在这里已经有答案了我的编码水平非常初级 C 是我一直在学习的唯一语言我已经对文件的输入重定向进行了彻底的研究试图弄清楚它是如何工作的但我不明白在哪里使用该命令或到底如何使用它我的问题是我应该将重定向命令行到底放在程序中的
如何实现 if(x >= '0' && x <= '9') 范围检查，如 MIPS 中的 isdigit ？

我编写了以下函数来检查字符是否是数字 IsDigit tests a if a character a digit or not arguments a0 character byte return value v0 1 digit 0 n
在 Visual Studio 中对控制台应用程序进行单元测试

我在 Visual Studio 中有一个测试项目我想用它来测试我的控制台应用程序在同一解决方案中我正在尝试设置使用特定参数调用控制台应用程序的测试并将实际输出与我的预期进行比较然后执行我通常的 Assert 语句以适当地通过失
在“选择”选项上添加 :after 元素[重复]

这个问题在这里已经有答案了我必须在选择的每个选项的右侧添加彩色边框框我的html代码是
Unity & WPF - 通过属性注入将 DataContext 注入子控件

我遵循 Jason Dollinger 的 MVVM 示例Lab49 http blog lab49 com archives 2650了解将 Unity 与 MVVM WPF 应用程序结合使用的基础知识我按照他的基本架构构建了一个简单的
正则表达式和xpath查询

我有以下代码
当混合数据类型相乘时，float 是否总是自动转换为 double？

在Steven Prata的 C Primer Plus 一书中有一节是关于类型转换的其中基本规则是一节在规则1中指出在 K R C 下但在当前 C 下 float 会自动转换为 double http www 9wy net
bash 陷阱后恢复

I ve a bash script with some file manipulations and I would like to process a loop until the end of the block after pres
Spark 中的潜在狄利克雷分配 (LDA) - 复制模型

我想从 pyspark ml clustering 包中保存 LDA 模型并在保存后将该模型应用于训练和测试数据集然而尽管设定了种子结果还是存在差异我的代码如下 1 导入包 from pyspark ml clustering i

Spark 中的潜在狄利克雷分配 (LDA) - 复制模型

Spark 中的潜在狄利克雷分配 (LDA) - 复制模型 的相关文章

随机推荐

热门标签

Spark 中的潜在狄利克雷分配 (LDA) - 复制模型的相关文章