应用 pyspark ALS 的“recommendProductsForUsers”时出现 StackOverflow 错误（尽管可用 >300GB RAM 的集群）

2024-02-29

寻找专业知识来指导我解决以下问题。

背景：

我正在尝试使用受启发的基本 PySpark 脚本这例子 https://github.com/GoogleCloudPlatform/spark-recommendation-engine/blob/master/pyspark/app_collaborative.py
作为部署基础设施，我使用 Google Cloud Dataproc 集群。
我的代码中的基石是记录的函数“recommendProductsForUsers”here https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/mllib/recommendation/MatrixFactorizationModel.html#recommendProductsForUsers(int)这为我返回了模型中所有用户的前 X 个产品

我遇到的问题

ALS.Train 脚本在 GCP 上运行流畅且扩展良好（轻松超过 100 万客户）。
然而，应用预测：即使用函数“PredictAll”或“recommendProductsForUsers”，根本无法扩展。我的脚本对于小型数据集（ 50k 客户和 > 10k 产品）

我得到的错误如下：

 16/08/16 14:38:56 WARN org.apache.spark.scheduler.TaskSetManager:
   Lost task 22.0 in stage 411.0 (TID 15139,
   productrecommendation-high-w-2.c.main-nova-558.internal):
   java.lang.StackOverflowError
        at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1942)
        at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1808)
        at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1353)
        at java.io.ObjectInputStream.readObject(ObjectInputStream.java:373)
        at scala.collection.immutable.$colon$colon.readObject(List.scala:362)
        at sun.reflect.GeneratedMethodAccessor11.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at java.io.ObjectStreamClass.invokeReadObject(ObjectStreamClass.java:1058)
        at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1909)
        at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1808)
        at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1353)
        at java.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:2018)
        at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1942)
        at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1808)
        at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1353)
        at java.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:2018)
        at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1942)
        at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1808)
        at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1353)
        at java.io.ObjectInputStream.readObject(ObjectInputStream.java:373)
        at scala.collection.immutable.$colon$colon.readObject(List.scala:362)

我什至获得了一个 300 GB 集群（1 个 108 GB 主节点 + 2 个 108 GB RAM 节点）来尝试运行它；它适用于 50,000 名客户，但不适用于更多客户
我的目标是拥有一个可以为超过 80 万客户运行的设置

Details

失败的代码行

predictions = model.recommendProductsForUsers(10).flatMap(lambda p: p[1]).map(lambda p: (str(p[0]), str(p[1]), float(p[2])))
pprint.pprint(predictions.take(10))
schema = StructType([StructField("customer", StringType(), True), StructField("sku", StringType(), True), StructField("prediction", FloatType(), True)])
dfToSave = sqlContext.createDataFrame(predictions, schema).dropDuplicates()

您建议如何进行？我觉得脚本末尾的“合并”部分（即当我将其写入 dfToSave 时）导致了错误；有没有办法绕过这个并逐部分保存？

从堆栈跟踪来看，这似乎与以下问题相同使用 ALS 训练时 Spark 给出 StackOverflowError https://stackoverflow.com/questions/31484460/spark-gives-a-stackoverflowerror-when-training-using-als

基本上，Spark 以递归方式表达 RDD 谱系，因此，当在迭代工作负载过程中未对事物进行惰性评估时，您最终会得到深度嵌套的对象。调用 sc.setCheckpointDir 并调整检查点间隔将减少此 RDD 谱系的长度。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

应用 pyspark ALS 的“recommendProductsForUsers”时出现 StackOverflow 错误（尽管可用 >300GB RAM 的集群）的相关文章

如何在ubuntu中安装最新版本的prometheus/promtool？

我下载的prometheus版本是2 3 2 wget https github com prometheus prometheus releases download v2 3 2 prometheus 2 3 2 linux amd64
如何将敏感数据从视图传递到控制器

为了构造一个包含大量信息的实体我需要执行一系列表单提交每次我从控制器返回视图时我都需要传递一些有关尚未建立的实体的 id 现在我将这些信息注入隐藏字段并在发回服务器时继续构建实体这样的场景持续了好几次我对这种传递敏感信息的方式
“while(true) { Thread.Sleep }”的原因是什么？

我有时会遇到以下形式的代码 while true do something Thread Sleep 1000 我想知道这是否被认为是好的做法还是坏的做法以及是否有任何替代方案通常我在服务的主函数中找到这样的代码我最近在 Windo
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
获取一个 jar 及其源代码和 javadoc

随着以下内容在ivy xml
我收到错误：rest_framework.request.WrappedAttributeError：'CSRFCheck'对象没有属性'process_request'

urls py from django conf urls import url from django contrib import admin from django conf import settings from django c
如何检测 URL 映射中的片段标识符？

In a Grails http www grails org 项目我正在尝试根据是否存在来映射 Url片段标识符 http en wikipedia org wiki Fragment identifier 片段标识符不是 URL 的一部
如何从角度资源 $save() 读取响应并保留原始数据

我是 Angular 的新手我确信我在这里缺少一些基本的东西我有一个对象我将其发布到服务器来创建它服务器返回对象 ID 我需要读取并更新客户端中的对象服务器只会返回对象 ID 但是在客户端我有其他数据当我执行回调时我无法使用
我应该为每个 Web 请求使用静态缓存的 ResourceManager 还是一个新实例？有关系吗？

创建新的 NET 对性能或其他有何影响如果有 ResourceManager根据每个请求new ResourceManger myResourceType FullName myResourceType Assembly 与在 Des
如何让JS变量在页面刷新后保留值？ [复制]

这个问题在这里已经有答案了是否可以永久更改 JavaScript 变量例如如果我设置变量 X 并使其等于 1 然后按钮的 onClick 将该变量更改为 2 如何使该变量在刷新页面时保持为 2 这是可能的window localSto
Swing：如何创建事件并将其分派给组件？

我需要将一些事件发送到 Swing 中的组件因此它的处理方式就像任何用户生成的标准 Swing 事件一样基本上类似于宏记录器然后是 JEditorPane 的执行器但我需要对生成的事件有更多的控制所以假设我有一个编辑我想捕
InvalidOperationException：没有为方案“CookieSettings”注册身份验证处理程序

我正在使用 ASP Net MVC core 2 1 开发一个应用程序其中不断出现以下异常 InvalidOperationException 没有为方案 CookieSettings 注册身份验证处理程序注册的方案有 Identity
Bootstrap $('#myModal').modal('show') 不起作用

我不知道为什么但所有模态功能都不适用于我我检查了版本和负载它们都很好我不断收到此错误消息 Uncaught TypeError modal is not a function 对于隐藏我已经找到了替代方案代替 myModal mo
无法将类型“X”的值转换为预期参数类型“X”

Xcode 8 和 Swift 3 今天让我非常难过请看一下并告诉我您是否遇到过类似的问题以及是否可以解决它我一直在尝试不同的解决方案其中 Cmd Shift K Cmd Shift Option K 删除派生数据更改使用的结构它
Google Hangouts 扩展程序如何创建面板窗口？

The Doc http code google com chrome extensions windows html说如果你想创建一个面板窗口你应该使用 chrome windows create type panel function
将环境变量传递给子shell CMD

我的系统有问题gitlab ci yml在 Windows 上我发射phpunit与环境变量所以我有一个像这样的变量 PHPUNIT SOURCE PATH cgi bin php exe PHPUNIT PATH 之前声明了一些变量
E/libEGL: validate_display:99 错误 3008 (EGL_BAD_DISPLAY) API 24 或更高版本

当我使用 API 为 24 或更高版本的设备时我收到此错误 E libEGL validate display 99 错误 3008 EGL BAD DISPLAY XML 代码 activity main xml
java 更新进度条

我有一个 JFrame 和以下组件 JButton jButton1 Progress Bar ProgressBar 及其公共静态 JLabel 状态及其公共静态单击按钮时会执行不同的语句我想在每个语句后更新我的进度条这是我的代码
从 Oracle 获取包方法和参数

我正在寻找 Oracle 查询来获取 Oracle 包过程的所有参数我知道有一个视图或表可以提供此功能但我似乎不记得它是什么注意我并不是要从 user objects 获取包列表而是要获取包中每个过程的数据类型和参数名称 Th
ReactJS 无效校验和

尝试使用 ReactJS 和 Node js 进行服务器端渲染时我不断收到以下错误 React attempted to use reuse markup in a container but the checksum was inval

随机推荐

opencv：将标量转换为浮点或双精度类型

谁能帮我将 openCV 的标量类型转换为 float 或 double 等基本类型 Scalar Sum1 sum arg1 Sum2 sum arg2 theta at
包装单张 - 地图未显示

我对 Rstudio 中使用的传单包有一些疑问我的问题是底图没有显示但在查看器的底部写着 OpenStreeMap 并且还显示了放大和缩小的选项有人知道这个问题吗 library leaflet m lt leaflet m l
自定义验证器不显示错误消息

我有一个要求需要多个字段之一使用自定义验证器偶数会触发返回 false 但不会显示错误消息并且表单会验证我缺少什么我尝试过使用和不使用 ValidationSummary Thanks
更新 JList

我现在制作了一个基于数组列表的 JList 并由 defaultlistmodel 填充该列表会在连接到服务器时添加人员但不会显示连接的人员或之后连接的人员所以我必须更新 JList 我的问题是我应该更新什么是否可以使用运行更新
带标签的维基数据 SPARQL 查询不起作用

我不明白为什么通过这个查询我无法获得运动和流派标签 SELECT DISTINCT item itemLabel value inception creatorLabel image group concat genreLabel sepa
如何动态导入 python 模块函数？

假设my function 位于 my apps views 我想导入my function动态地不使用类似的东西exec or eval 有什么办法可以实现这一点吗我想做类似的事情 my function import func my
如何在msbuild文件中给出相对路径？

我正在编写一个 msbuild 文件来使用 galio 运行测试现在我需要给出
如何在汇编中通过字符串进行索引

给定变量 var1 db abcdefg NULL 我将如何执行循环来导航每个字母在 C 中您可以在循环内执行类似 var x 的操作然后每次递增 x 有任何想法吗在 C 和 C 中字符串以 NUL 结尾这意味着将 ASCII
我可以向量化这个Python代码吗？

我编写了这段 python 代码来获取标签的邻居一组共享一些公共属性的像素标签的邻居被定义为位于边界另一侧的其他标签相邻标签共享边界所以我写的代码可以工作但速度非常慢 segments It is a 2 dimensional
删除 sourceSets.main.runtimeClasspath 中的 jar

我的 gradle 中有这个 sourceSets main compileClasspath configurations provided runtimeClasspath configurations provided test co
从选择框中删除重复条目

我如何使用 jQuery 删除重复项
如何制作在 iOS 上的 VLC 中播放的音乐文件的 URL？

我想通过我的网站向 iPhone 和 iPad 用户提供 MP3 和其他文件格式 VLC 的 iOS 应用程序似乎符合要求但他们说 Additionally third party websites and apps may includ
从 VBA 项目中删除密码

如何以编程方式从 Excel VBA 项目中删除已知密码需要明确的是我想从 VBA 项目中删除密码而不是从工作簿或任何工作表中删除密码删除 VBA 项目密码的另一种方法是使用十六进制编辑器打开 xls 文件即十六进制编辑ht
如何调试 Captive Portal 中的浏览器？

强制门户有一个浏览器当您尝试连接到无线网络时该浏览器有时会打开有谁知道我该如何调试它我已经尝试过的我尝试运行模拟器但模拟器无法打开门户我尝试过将 iPhone 连接到我的 Mac 并使用 Safari 开发进行调试但这仅在
如何在雪豹上安装gem pg

我需要在雪豹上安装 gem pg 因为我正在 Rails 代码库上运行 rake 我没有使用 postgres 这是我收到的错误 sudo gem install pg Password Sorry try again Password B
自动映射器有什么用？

What s 自动映射器 http www codeplex com AutoMapper for 它将如何帮助我处理域和控制器层 asp net mvc 也许一个例子会有所帮助假设您有一个很好标准化的数据库模式如下所示 Orders
Python——词法分析和标记化

我希望加快我的发现过程因为这是我第一次涉足词法分析领域也许这甚至是一条错误的道路首先我将描述我的问题我有非常大的属性文件大约 1 000 个属性经过提炼后实际上只有大约 15 个重要属性其余属性可以生成或很少更改因此例
在加载时应用选择背景颜色？

请查看以下链接以查看我的代码的运行情况 http codepen io DigitalSquid pen mAkuC http codepen io DigitalSquid pen mAkuC 如何使背景颜色出现在页面加载时 on win
MVC 模式中的“Hello World”

在面试某家公司的时候我被问到了这个问题你知道哪些设计模式然后我被告知基于 MVC 设计模式编写最简单的 hello world 应用程序我想出了一个 JavaScript 程序 var arr a b c d this is an
应用 pyspark ALS 的“recommendProductsForUsers”时出现 StackOverflow 错误（尽管可用 >300GB RAM 的集群）

寻找专业知识来指导我解决以下问题背景我正在尝试使用受启发的基本 PySpark 脚本这例子 https github com GoogleCloudPlatform spark recommendation engine blob m

应用 pyspark ALS 的“recommendProductsForUsers”时出现 StackOverflow 错误（尽管可用 >300GB RAM 的集群）

应用 pyspark ALS 的“recommendProductsForUsers”时出现 StackOverflow 错误（尽管可用 >300GB RAM 的集群） 的相关文章

随机推荐

热门标签

应用 pyspark ALS 的“recommendProductsForUsers”时出现 StackOverflow 错误（尽管可用 >300GB RAM 的集群）的相关文章