K均值||用于 Spark 上的情感分析

2024-06-22

我正在尝试编写基于Spark的情感分析程序。为此，我使用了 word2vec 和 KMeans 聚类。从 word2Vec 我在 100 维空间中得到了 20k 个单词/向量集合，现在我正在尝试对这个向量空间进行聚类。当我使用默认并行实现运行 KMeans 时，该算法运行了 3 个小时！但如果采用随机初始化策略，大约需要 8 分钟。我究竟做错了什么？我有 mac book pro 机器，带有 4 内核处理器和 16 GB RAM。

K ~= 4000 最大Interation为20

var vectors: Iterable[org.apache.spark.mllib.linalg.Vector] =
      model.getVectors.map(entry => new VectorWithLabel(entry._1, entry._2.map(_.toDouble)))
    val data = sc.parallelize(vectors.toIndexedSeq).persist(StorageLevel.MEMORY_ONLY_2)
    log.info("Clustering data size {}",data.count())
    log.info("==================Train process started==================");
    val clusterSize = modelSize/5

    val kmeans = new KMeans()
    kmeans.setInitializationMode(KMeans.K_MEANS_PARALLEL)
    kmeans.setK(clusterSize)
    kmeans.setRuns(1)
    kmeans.setMaxIterations(50)
    kmeans.setEpsilon(1e-4)

    time = System.currentTimeMillis()
    val clusterModel: KMeansModel = kmeans.run(data)

Spark上下文初始化在这里：

val conf = new SparkConf()
      .setAppName("SparkPreProcessor")
      .setMaster("local[4]")
      .set("spark.default.parallelism", "8")
      .set("spark.executor.memory", "1g")
    val sc = SparkContext.getOrCreate(conf)

关于运行该程序的更新也很少。我在 Intellij IDEA 中运行它。我没有真正的 Spark 集群。但我以为你的个人机器可以是Spark集群

我看到该程序挂在 Spark 代码 LocalKMeans.scala 的循环内：

// Initialize centers by sampling using the k-means++ procedure.
    centers(0) = pickWeighted(rand, points, weights).toDense
    for (i <- 1 until k) {
      // Pick the next center with a probability proportional to cost under current centers
      val curCenters = centers.view.take(i)
      val sum = points.view.zip(weights).map { case (p, w) =>
        w * KMeans.pointCost(curCenters, p)
      }.sum
      val r = rand.nextDouble() * sum
      var cumulativeScore = 0.0
      var j = 0
      while (j < points.length && cumulativeScore < r) {
        cumulativeScore += weights(j) * KMeans.pointCost(curCenters, points(j))
        j += 1
      }
      if (j == 0) {
        logWarning("kMeansPlusPlus initialization ran out of distinct points for centers." +
          s" Using duplicate point for center k = $i.")
        centers(i) = points(0).toDense
      } else {
        centers(i) = points(j - 1).toDense
      }
    }

初始化使用KMeans.K_MEANS_PARALLEL那么就更复杂了random。然而，它不应该产生这么大的差异。我建议调查一下，是否是并行算法花费了很多时间（它实际上应该比 KMeans 本身更有效）。

有关分析的信息，请参阅：http://spark.apache.org/docs/latest/monitoring.html http://spark.apache.org/docs/latest/monitoring.html

如果不是初始化占用了时间，那么就存在严重错误。然而，使用随机初始化对于最终结果来说应该不会更差（只是效率较低！）。

其实当你使用KMeans.K_MEANS_PARALLEL初始化时，您应该通过 0 次迭代获得合理的结果。如果情况并非如此，则数据分布中可能存在一些规律性，导致 KMeans 偏离轨道。因此，如果您没有随机分发数据，您也可以更改它。然而，如果迭代次数固定，这样的影响会让我感到惊讶。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

K均值||用于 Spark 上的情感分析的相关文章

使用值类参数的 Mockito 存根方法失败并出现 NullPointerException

使用类型化值类作为 ID 是 Scala 中的常见模式然而在存根以值类作为参数的方法时 Mockito 似乎遇到了问题在下面的示例中第一个具有实际值的存根工作得很好但第二个使用参数匹配器的存根会抛出 NullPointerExce
登录模块控制标志在 JAAS 配置中不可用 - Scala Kafka

尝试使用 kerberos 身份验证连接到 Kafka 时遇到问题使用 scala 和我的jaas config看起来像这样 KafkaClient com sun security auth module Krb5LoginModule
这个错误是什么意思（SimpleHttpConnectionManager 被错误使用）？

我正在尝试从 ElasticSearch 中读取数据到 Spark conf es resource sflow sflow es nodes ES01 es query some query rdd sc newAPIHadoopRDD
在机器学习中使用 Scikit 对邮政编码进行特征哈希

我正在研究一个机器学习问题我的数据集中有很多邮政编码 8k 唯一值因此我决定将这些值散列到更小的特征空间中而不是使用 OHE 之类的东西我遇到的问题是我的哈希中唯一行的比例非常小 20 这基本上意味着根据我的理解我有很多重复冲
在 Pandas UDF PySpark 中传递多列

我想计算 PySpark DataFrame 两列之间的 Jaro Winkler 距离 Jaro Winkler 距离可通过所有节点上的 pyjarowinkler 包获得 pyjarowinkler 的工作原理如下 from pyjar
从单个字符串创建 Spark DataFrame

我正在尝试采用硬编码字符串并将其转换为 1 行 Spark DataFrame 具有单列类型StringType 这样 String fizz buzz 将得到一个 DataFrame 其 show 方法如下 fizz buzz 迄今为止我
Spark中DataFrame、Dataset、RDD的区别

我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花你能将其中一种转换为另一种吗首先是DataFrame是从SchemaRDD 是的
Zeppelin：如何在 zeppelin 中重新启动 SparkContext

我正在使用 zeppelins Spark 解释器的隔离模式在这种模式下它将为 Spark 集群中的每个笔记本启动一项新工作我想在笔记本执行完成后通过 zeppelin 终止该作业为此我做了sc stop这停止了 sparkCont
使用 Scala 的解析器组合器时如何忽略不匹配的前面文本？

我真的很喜欢解析器组合器但是当我不关心相关文本之前的文本时我对我提出的提取数据的解决方案并不满意考虑这个小型解析器来获取货币金额 import scala util parsing combinator case class Amou
如何避免简单前馈网络的过度拟合

使用皮马印第安人糖尿病数据集 https archive ics uci edu ml datasets pima indians diabetes我正在尝试使用 Keras 构建准确的模型我编写了以下代码 Visualize train
使用 Scala 在 Apache Spark 中拆分字符串

我有一个数据集其中包含以下格式的行制表符分隔 Title lt t gt Text 现在对于每个单词Text 我想创建一个 Word Title 一对例如 ABC Hello World gives me Hello ABC Worl
如何使用 monocle 修改嵌套映射和 scala 中的另一个字段

我第一次尝试单片眼镜这是案例类 case class State mem Map String Int pointer Int 当前的修改使用标准 scala 我想做 def add1 s State gt s copy mem s m
如何列出 scikit-learn 中的所有分类/回归/聚类算法？

类比于如何列出所有支持 Predict proba 的 scikit learn 分类器 https stackoverflow com questions 30056331 how to list all scikit learn cla
为什么流式聚合总是延迟到两批数据？

我使用 Spark 2 3 0 我的问题是每当我在输入目录中添加第三批数据时第一批数据就会被处理并打印到控制台为什么 val spark SparkSession builder appName micro1 enableHiveSu
将arm_compute::Image 转换为cv::Mat

我有很多基于 open cv 的代码但是 Arm 计算库可以通过多种方式提高性能因此我想将一些 arm 计算库代码集成到我的项目中有没有人尝试过在两个相应的图像结构之间进行转换如果是这样你做了什么或者有没有一种方法可以共享指向底
Scala 中的逆变和协变

abstract class Bhanu A val m List A gives error contravariant type A occurs in covariant position in type gt List A of v
如何准备图像分类的训练数据

我是机器学习新手在图像分类方面遇到一些问题使用简单的分类器技术 K 最近邻居我试图区分猫和狗到目前为止我的代码 import pandas as pd import numpy as np import seaborn as sns
如何创建独立的电梯 Web 应用程序？

如何制作独立的电梯应用程序使用哪些工具库与在某些应用程序服务器中使用 lift 应用程序作为战争相比性能如何使用 onejar maven 插件http onejar maven plugin googlecode com svn
如何拦截 Play 2 + Scala 中的所有控制器请求？

在 Play 2 的 Java 风格中有全局设置 onRequest http www playframework org documentation 2 0 4 JavaGlobal 可用于拦截所有传入控制器的请求但在Scala 等效
识别文本中的多个类别和相关情感

如果您有一个文本语料库如何识别所有类别来自预定义类别列表以及与之相关的情绪正面负面写作我将在 Python 中执行此操作但现阶段我不一定要寻找特定于语言的解决方案让我们用一个例子来看看这个问题试图澄清我的问题如果我有一整

随机推荐

数据类型与 UiHint

我已经使用 mvc2 一段时间了当我需要设置模板时我使用 DataType 属性 DataType DropDown public int Field get set 我看到其他人使用 UiHint 来达到相同的结果 UiHint Dr
Backbone.js - 在模型默认值中使用 new() - 循环引用

采用以下模型 MyModel Backbone Model extend defaults myNestedModel undefined initialize function this set myNestedModel new MyN
CRAN 可接受的链接到 OpenMP 的方式，某些从 Rcpp 调用的 C 代码

我正在构建一个 R 包其中包含一些 c包含使用 OpenMP 的代码的文件并且这些 C 函数是从 cpp文件但是 cpp文件本身不使用 OpenMP e g cfile c int parallel function double x
Django 管理：JSONField 默认空字典不会保存在管理中

在我的模型中我有 from django contrib postgres fields import JSONField media data JSONField default dict 我创建了一个默认管理员当我尝试在不接触字段的情
缓冲区为空，但 IdTCPClient.IOHandler.InputBufferIsEmpty 为 false

我在使用 idTCPClient 从 telnet 服务器读取缓冲区的以下代码中遇到问题 procedure TForm2 ReadTimerTimer Sender TObject var S String begin if IdTCPC
CLR 是否执行“锁省略”优化？如果不是为什么不呢？

JVM 执行一个巧妙的技巧称为锁省略以避免锁定仅对一个线程可见的对象的成本这里有一个关于这个技巧的很好的描述 http www ibm com developerworks java library j jtp10185 http ww
如何在Java注释中标记代码的逻辑部分？

Java 类通常被划分为逻辑块是否有标记这些部分的约定理想情况下主要 IDE 都支持它我个人使用这个方法 Section name here 然而一些编辑似乎对此有疑问例如在 Objective C 代码中您可以使用此方法
对于生成 json 以外的内容类型的操作，Swagger UI 会导致 HTTP 406 不可接受的响应

我有一个用 Jersey 发布并用 Swagger 记录的 REST API 我还有一个使用该 API 的 Swagger UI 安装我的几乎所有操作都会生成 application json 并按预期工作除了一个 GET 操作会生成
将复杂数据类型从纯 c 插件传递到 Unity C# 脚本

我目前正在 Objective C 中为 Unity 编写一个应用内购买插件使用纯 C 作为 Unity 和 Objective C 代码之间的 API 介绍我面临的问题基本功能已经可以使用了也就是说我的插件中已经有一个非常基本的函
如何在Android中获取铃声名称？

我允许我的用户在我的应用程序中选择通知铃声我想存储声音的 URI 以及人类可读的声音标题到目前为止 URI 代码运行良好 Uri uri intent getParcelableExtra RingtoneManager EXTRA R
WPF C# 获取TreeView的根节点

我有一个通过 HierarchicalDataTemplate 绑定的 TreeView
为什么 git 删除 `directory/*` 下的忽略文件而不是 `directory/` 下的文件

正如中提到的这个帖子 http blog icefusion co uk git stash can delete ignored files git stash u 换句话说如果 gitignore 中有以下内容 my ignored
每次我想在基本类型之间进行转换时，我真的应该使用 static_cast 吗？

是什么让这 long l 1 char c static cast
MongoDB 连接错误：MongoTimeoutError：服务器选择在 30000 毫秒后超时

我正在尝试创建一个全栈应用程序阅读以下教程 https medium com javascript in plain english full stack mongodb react node js express js in one s
使用 Java 查询 MongoDB 中数组元素的文档

我是 MongoDB 新手我的样本文档是 Notification date from ISODate 2013 07 08T18 30 00Z date too ISODate 2013 07 30T18 30 00Z descript
Spring安全盐

我试图在添加新用户密码时添加盐但文档似乎缺少如何执行此操作这是一个基本示例
UNIX 查找：与 -newer 选项相反的选项是否存在？

我知道unix的find命令有这个选项 find version GNU find version 4 1 newer file Compares the modification date of the found file with t
Websocket 适用于 EC2 url，但不适用于 ElasticBeanstalk URL

背景我有反向代理 nginx 指向 ElasticBeanstalk ELB 是 singleInstance 环境类型并创建 EC2 实例 EC2 我正在使用 Dockerized Nodejs 应用程序 nginx是我们基础设施的入口
访问三个静态数组比访问一个包含 3 倍数据的静态数组更快？

我有 700 个项目我循环遍历这 700 个项目为每个项目获取项目的三个属性并执行一些基本计算我使用两种技术实现了这一点 1 三个 700 元素的数组三个属性各一个数组所以 item0 a array1 0 item0 b arr
K均值||用于 Spark 上的情感分析

我正在尝试编写基于Spark的情感分析程序为此我使用了 word2vec 和 KMeans 聚类从 word2Vec 我在 100 维空间中得到了 20k 个单词向量集合现在我正在尝试对这个向量空间进行聚类当我使用默认并行实现运

K均值||用于 Spark 上的情感分析

K均值||用于 Spark 上的情感分析 的相关文章

随机推荐

热门标签

K均值||用于 Spark 上的情感分析的相关文章