Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间

2024-04-29

我正在尝试从（大）文本文档集合（TF-IDF 向量）在 MLLib 上运行 KMeans。文档通过 Lucene 英语分析器发送，稀疏向量由 HashingTF.transform() 函数创建。无论我使用的并行程度如何（通过合并函数），KMeans.train 总是返回下面的 OutOfMemory 异常。关于如何解决这个问题有什么想法吗？

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at scala.reflect.ManifestFactory$$anon$12.newArray(Manifest.scala:138)
at scala.reflect.ManifestFactory$$anon$12.newArray(Manifest.scala:136)
at breeze.linalg.Vector$class.toArray(Vector.scala:80)
at breeze.linalg.SparseVector.toArray(SparseVector.scala:48)
at breeze.linalg.Vector$class.toDenseVector(Vector.scala:75)
at breeze.linalg.SparseVector.toDenseVector(SparseVector.scala:48)
at breeze.linalg.Vector$class.toDenseVector$mcD$sp(Vector.scala:74)
at breeze.linalg.SparseVector.toDenseVector$mcD$sp(SparseVector.scala:48)
at org.apache.spark.mllib.clustering.BreezeVectorWithNorm.toDense(KMeans.scala:422)
at org.apache.spark.mllib.clustering.KMeans$$anonfun$initKMeansParallel$1.apply(KMeans.scala:285)
at org.apache.spark.mllib.clustering.KMeans$$anonfun$initKMeansParallel$1.apply(KMeans.scala:284)
at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)
at org.apache.spark.mllib.clustering.KMeans.initKMeansParallel(KMeans.scala:284)
at org.apache.spark.mllib.clustering.KMeans.runBreeze(KMeans.scala:143)
at org.apache.spark.mllib.clustering.KMeans.run(KMeans.scala:126)
at org.apache.spark.mllib.clustering.KMeans$.train(KMeans.scala:338)
at org.apache.spark.mllib.clustering.KMeans$.train(KMeans.scala:348)

经过一番调查，发现这个问题与new HashingTF().transform(v)方法。尽管使用哈希技巧创建稀疏向量确实很有帮助（特别是当特征数量未知时），向量must保持稀疏。 HashingTF 向量的默认大小为 2^20。给定 64 位双精度，理论上每个向量在转换为密集向量时需要 8MB - 无论我们可以应用何种维度缩减。

遗憾的是，KMeans 使用toDense方法（至少对于聚类中心），因此导致 OutOfMemory 错误（想象一下 k = 1000）。

  private def initRandom(data: RDD[BreezeVectorWithNorm]) : Array[Array[BreezeVectorWithNorm]] = {
    val sample = data.takeSample(true, runs * k, new XORShiftRandom().nextInt()).toSeq
    Array.tabulate(runs)(r => sample.slice(r * k, (r + 1) * k).map { v =>
      new BreezeVectorWithNorm(v.vector.toDenseVector, v.norm)
    }.toArray)
  }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间的相关文章

在scala / play框架中构建Json文件

我正在使用 Play 框架和 Scala 我需要提供一个如下所示的输入 id node37 name 3 7 data children 如何使用 json 获取该格式以下是 Play 框架网站上的示例 val JsonObject Js
设置 MetaspaceSize 的指南 - java 8

64 位服务器的 MetaspaceSize 默认值是多少我在官方文档中没有找到它我观察到在服务器 JVM 进程中 GC 频率有时会变高并持续增长如果我重新启动服务几次它就会恢复稳定我认为这是由于 JRE 升级造成的 JVM 堆
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
IntelliJ IDEA 13：新的 Scala SBT 项目尚未生成 src 目录结构

我按照 Jetbrains 网站上的入门视频设置 IntelliJ IDEA 13 1 Community Edition 以与 Scala 配合使用 Scala 插件 v0 36 431 已安装当我使用向导创建一个新的 Scala SB
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何在Gradle中支持多种语言（Java和Scala）的多个项目？

我正在尝试将过时的 Ant 构建转换为 Gradle 该项目包含约50个Java子项目和10个Scala子项目 Java 项目仅包含 Java Scala 项目仅包含 Scala 每个项目都是由 Java 和 Scala 构建的这大大减慢
Scala（或 Java）中泛型函数的特化

是否可以在 Scala 中专门化泛型函数或类例如我想编写一个将数据写入 ByteBuffer 的通用函数 def writeData T buffer ByteBuffer data T buffer put data 但由于 put
Swift 5 MacOS 图像调整大小内存问题

我是使用 Swift 进行 Mac OS 应用程序开发的新手但我尝试制作简单的 ImageResizer 应用程序我必须调整 50k 图像的大小 10个小时后内存已增加到近120GB 我以为 Swift 也有垃圾收集器为什么它可以增
在 Akka 中配置嵌套 Router

我有一些嵌套的路由器应创建它FromConfig 我想要的是这样的 test akka actor deployment worker router round robin nr of instances 5 slave router b
多个 scala 库导致 intellij 出错？

我正在使用 intellij 14 和 scala 2 11 6 使用 homebrew 安装并使用符号链接 ln s usr local Cellar scala 2 11 6 libexec src usr local Cellar s
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
Scala：如何将可变参数指定为类型？

代替 def foo configuration String String 我希望能够写 type Configuration String String def foo configuration Configuration 主要用例是
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
可选择将项目添加到 Scala 映射

我正在寻找这个问题的惯用解决方案我正在构建一个valScala 不可变 Map 并希望有选择地添加一项或多项 val aMap Map key1 gt value1 key2 gt value2 if condition key3 gt
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
理解 Scala FP 库

只是为了让那些想要开始使用 Scala FP 库在纯 FP 方面变得更好的人快速清晰地了解有人能澄清猫和猫效应猫效应 IO 之间的区别关系吗最重要的是齐奥和莫尼克斯对此有何看法最后与 ScalaZ 7 8 有何关系到目前为
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
在 Scala 中将元素追加到列表末尾

我无法添加 type 元素T到一个列表中List T 我尝试过myList myElement但它似乎创建了一个奇怪的对象并访问myList last始终返回放入列表中的第一个元素我怎么解决这个问题 List 1 2 3 4 Result

随机推荐

获取自分离父分支以来的提交日志，包括父分支的最新提交

我正在尝试创建一个快速的 bash 函数该函数返回 oneline自当前分支从其父分支分支以来的每次提交的日志以及包括先前提交的行这是我到目前为止所拥有的 stolen from another Stack Overflow ques
如何获取一维标量数组作为学说 dql 查询结果？

我想从拍卖表的 id 列中获取一组值如果这是一个原始 SQL 我会写 SELECT id FROM auction 但是当我在 Doctrine 中执行此操作并执行时 em gt createQuery SELECT a id FROM
为什么 Java Swing html 字体渲染看起来这么糟糕？

为了显示具有多种样式的复杂多行标签我使用了 Swing 的 html 渲染功能但最终得到了非常糟糕的字体渲染我尝试明确设置字体系列 infoLabel setText span style font family Tahoma My
Json.NET：将嵌套数组反序列化为强类型对象

我正在编写客户端应用程序它应该处理服务器响应响应采用 JSON 格式我决定使用 Json NET 来反序列化它们我无法简化或修改这些响应在服务器端此特定 JSON 响应的特殊困难在于不同的对象类型位于同一数组中哈希值和文件数组
Numpy 提取网格数据的子集

在我的应用程序中我有一个从 meshgrid 命令获得的值矩阵及其坐标经度纬度我想根据经度和纬度限制提取该矩阵的特定子区域我已经尝试过这个解决方案但它不起作用我需要三个矩阵作为输出一个用于数据另外两个用于网格 Lons L
应用程序突然崩溃 - 致命执行引擎错误 (7A0BC59E) (80131506)

完全随机我们的应用程序突然在其生产环境中崩溃该应用程序在 Windows XP 和 net Framework 3 5 sp1 上运行在应用程序中我们提供 WCF 服务并使用串行端口当应用程序崩溃时它会在应用程序日志中留下消息
React Native 中的平台特定组件

我很确定这很简单但我不太明白如何将它们结合在一起目前我的应用程序在 iOS 中运行良好但我使用了一些与 Android 不兼容的控件
java中的引用传递[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我是java新手我尝试搜索很多我的
OpenCV 的 findHomography 产生无意义的结果

我正在制作一个程序使用 OpenCV 2 43 中的 ORB 跟踪功能我遵循并使用了建议从这里 https stackoverflow com questions 9919505 how can i extract fast featu
如何解决发布 .NET Core 时出现的 PFX 签名不支持错误

我一直在尝试使用 PFX 文件对程序集进行签名一切正常我在 Visual Studio 中访问了属性签名但每当我运行点网发布命令我收到此错误 C Program Files dotnet sdk 2 1 201 Microsoft
如何查看合并到合并提交中的提交？

If my feature branch被合并到my main branch 我怎样才能看到合并了哪些提交my feature branch git log abc123 abc123显示合并到合并提交中的提交abc123 创建一个git
在 Java Web 应用程序中处理 X-FORWARDED-PROTO 标头

任何人都可以指导我与X 转发原型 https developer mozilla org en US docs Web HTTP Headers X Forwarded Proto部署到 Apache Tomcat 的 Java Web
React Redux 在 Modal 中的使用

我正在 React 中学习 Redux 我在 React 中使用 Redux 进行 Modal 开发我的代码如下 render return
如何解析kotlin代码？

我需要分析 kotlin 文件代码以检测关键字 data 和问题是我没有找到任何像 JavaParser 这样的库我不需要强大的工具只需要能够返回行数的东西任何想法我使用antlr4来做到这一点我创建了一个开源库 https
hibernate - Postgres - 目标列表最多可以有 1664 个条目

我们正在使用 hibernate postgres 8 3x 我们的实体是通过急切获取进行多对一映射的我们与多对一映射有多个关联当我们向任何其他现有实体添加新列时我们收到以下错误目标列表最多可以有 1664 个条目我搜索了互联网
有没有办法在 Gmail 插件中显示模式对话框

有没有办法在 Gmail 插件中显示模式对话框类似于电子表格插件 SpreadsheetApp getUi showModalDialog html title 看起来不行向用户显示一些 UI 的唯一方法是使用Cards https d
R: eval(parse()) 错误消息：即使在解析中指定了“text=”也无法打开文件

我多次对国家地区列表进行分析在每次迭代期间结果应添加到向量中下面我展示了一个简化的示例仅针对一个国家地区没有循环尽管我彻底寻找解决方案但我找不到答案 this is my simplified country vector
python 进程占用 100% CPU

我正在尝试运行 python 应用程序并根据指定的时间间隔执行操作下面的代码持续消耗 100 的 CPU def action print print hello there interval 5 next run 0 while Tru
使用Android 11给出了大量有关访问SQLiteDatabase接口的输出日志

我在模拟器中使用 API 30 Android 11 0 每当我运行应用程序时我都会在日志中收到 200 多行以下消息 Accessing hidden method Landroid database sqlite SQLiteData
Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间

我正在尝试从大文本文档集合 TF IDF 向量在 MLLib 上运行 KMeans 文档通过 Lucene 英语分析器发送稀疏向量由 HashingTF transform 函数创建无论我使用的并行程度如何通过合并函数 KMea

Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间

Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间 的相关文章

随机推荐

热门标签

Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间的相关文章