Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

2024-05-13

我在 EMR 4.6.0 + Spark 1.6.1 上运行此代码：

val sqlContext = SQLContext.getOrCreate(sc)
val inputRDD = sqlContext.read.json(input)

try {
    inputRDD.filter("`first_field` is not null OR `second_field` is not null").toJSON.coalesce(10).saveAsTextFile(output)
    logger.info("DONE!")
} catch {
    case e : Throwable => logger.error("ERROR" + e.getMessage)
}

在最后阶段saveAsTextFile，它失败并出现以下错误：

16/07/15 08:27:45 ERROR codegen.GenerateUnsafeProjection: failed to compile: org.codehaus.janino.JaninoRuntimeException: Constant pool has grown past JVM limit of 0xFFFF
/* 001 */
/* 002 */ public java.lang.Object generate(org.apache.spark.sql.catalyst.expressions.Expression[] exprs) {
/* 003 */   return new SpecificUnsafeProjection(exprs);
/* 004 */ }
(...)

可能是什么原因？谢谢

通过删除数据框中所有未使用的列或仅过滤您实际需要的列来解决此问题。

事实证明 Spark Dataframe 无法处理超宽模式。 Spark 没有特定数量的列可能会因“常量池已超过 0xFFFF 的 JVM 限制”而中断 - 这取决于查询的类型，但减少列数可以帮助解决此问题。

根本原因在于 JVM 生成的 Java 类的大小为 64kb - 另请参阅 Andrew 的回答。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

scala

apachespark

amazonemr

Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF” 的相关文章

(Java) App Engine 中的静态文件无法访问

The 示例文档 http code google com appengine docs java gettingstarted staticfiles html表示您只需将文件放在 war 或子目录中并且应该可以从主机访问它们只要它
如何将jscrollpane添加到jframe？

我有以下源代码有人可以给我建议如何将 jscrollpane 添加到 jframe 上吗我尝试了几次将其添加到 jframe 但没有任何进展它甚至没有显示 public class Form3 JFrame jframe new JF
删除优先级队列的尾部元素

如何删除优先级队列的尾部元素我正在尝试使用优先级队列实现波束搜索一旦优先级队列已满我想删除最后一个元素优先级最低的元素 Thanks 没有简单的方法将元素从原始元素复制到新元素最后一个除外 PriorityQueue remov
埃拉托色尼筛法 - 实现返回一些非质数值？

我用 Java 实现了埃拉托斯特尼筛法通过伪代码 public static void sieveofEratosthenes int n boolean numArray numArray new boolean n for int i
Logback：SizeAndTimeBasedRollingPolicy 不遵守totalSizeCap

我正在尝试以一种方式管理我的日志记录一旦达到总累积大小限制或达到最大历史记录限制我最旧的存档日志文件就会被删除当使用SizeAndTimeBasedRollingPolicy在 Logback 1 1 7 中滚动文件追加器将继续创建
如何将 csv 文件读取为键值对的映射

我的 csv 文件中有数据例如 value key A Name B Name C Name 24 Age 25 Age 20 Age M Gender F Gender 我想解析它以生成以下地图 Map Name gt List A B
Scala UpperBound 和 LowerBound 概念

下面是我尝试运行的代码 class Student def printDetails println I am a student def printSomeOtherDetails println I love Studying clas
org/codehaus/plexus/archiver/jar/JarArchiver（不支持的major.minor版本49.0）-Maven构建错误

下午大家我在尝试构建项目时收到上述错误我很确定这与使用 Java 1 6 编译的 Maven 最新更新有关而我们尝试构建的项目是 1 4 项目在此之前的插件工作没有问题因此我将以下内容添加到 POM xml 文件中以尝试强制使用现
从直方图计算平均值和百分位数？

我编写了一个计时器可以测量任何多线程应用程序中特定代码的性能在下面的计时器中它还会在地图中填充花费了 x 毫秒的调用次数我将使用这张图作为我的直方图的一部分来进行进一步的分析例如调用花费了这么多毫秒的百分比等等 public st
从休眠乐观锁定异常中恢复

我有一个这样的方法 Transactional propagation Propagation REQUIRES NEW public void doSomeWork Entity entity dao loadEntity do some
虽然我的类已加载，但 Class.forName 抛出 ClassNotFoundException

代码如下它的作用是加载我放在主目录中的 jar 文件中的所有类 import java io File import java util jar JarFile import java util jar JarEntry import j
在 Java 中通过 XSLT 分解 XML

我需要转换具有嵌套分层表单结构的大型 XML 文件
Java、Spring：使用 Mockito 测试 DAO 的 DataAccessException

我正在尝试增加测试覆盖率所以我想知道您将如何测试 DAO 中抛出的 DataAccessExceptions 例如在一个简单的 findAll 方法中该方法仅返回数据源中的所有数据就我而言我使用 Spring JdbcTempla
用于缓存的 Servlet 过滤器

我正在创建一个用于缓存的 servlet 过滤器这个想法是将响应主体缓存到memcached 响应正文由以下方式生成结果是一个字符串 response getWriter print result 我的问题是由于响应正文将不加修改地放
如何从日期中删除毫秒、秒、分钟和小时[重复]

这个问题在这里已经有答案了我遇到了一个问题我想比较两个日期然而我只想比较年月日这就是我能想到的 private Date trim Date date Calendar calendar Calendar getInstanc
Karaf / Maven - 无法解决：缺少需求 osgi.wiring.package

我无法在 Karaf 版本 3 0 1 中启动捆绑包该包是使用 Maven 构建的并导入gson http mvnrepository com artifact com google code gson gson 2 3 1 我按照要求将
禁用 Android 菜单组

我尝试使用以下代码禁用菜单组但它不起作用菜单项仍然启用你能告诉我出了什么问题吗资源菜单 menu xml menu menu
ECDH使用Android KeyStore生成私钥

我正在尝试使用 Android KeyStore Provider 生成的私有文件在 Android 中实现 ECDH public byte ecdh PublicKey otherPubKey throws Exception try
Java 的 PriorityQueue 与最小堆有何不同？

他们为什么命名PriorityQueue如果你不能插入优先级它看起来与堆非常相似有什么区别吗如果没有区别那为什么叫它PriorityQueue而不是堆默认的PriorityQueue是用Min Heap实现的即栈顶元素是堆中最小的
HttpClient请求设置属性问题

我使用这个 HttpClient 库玩了一段时间几周我想以某种方式将属性设置为请求不是参数而是属性在我的 servlet 中我想使用 Integer inte Integer request getAttribute obj 我不

随机推荐

python 中的子进程调用以使用 JAVA_OPTS 调用 java jar 文件

示例代码 import subprocess subprocess call java jar temp jar 如何在上面的命令中指定JAVA OPTS 当我使用上述命令时我收到 java lang OutOfMemoryError 无
gcc 中 -g 选项的作用是什么

我看到很多关于 gdb 的教程要求在编译 c 程序时使用 g 选项我无法理解 g 选项的实际作用它使编译器将调试信息添加到生成的二进制文件中此信息允许调试器将代码中的指令与源代码文件和行号相关联拥有调试符号可以使某些类型的调试例如
如何使用 Selenium webdriver 测试对 SVG 对象的点击？

我正在尝试编写代码来检查单击 SVG 对象的功能例如此 URL 上的美国州 http www amcharts com svg maps map usa 这可行但是有更好的方法吗不需要物理移动鼠标的东西 robert new Robo
React Router 总是将我重定向到不同的 url

我是 React 和 React Router 的新手我正在使用 React Router v4 并遵循基于以前版本的教程但我让它工作了使用在 SO 上找到的一些东西和 React Router v4 文档上的一些东西但有一件事困扰
无法提交到 svn - 访问被拒绝

我正在使用 SVN 开发一个小项目我查看了该项目 svn co http mylocalserver projectx 我进行了更改更新并添加了文件 svn add file1 php file2 php 但是每次我想使用此命令提交更
MySql JOINS 的优点/缺点

当我从多个表中选择数据时我经常使用 JOINS 最近我开始使用另一种方式但我不确定从长远来看会产生什么影响例子 SELECT FROM table 1 LEFT JOIN table 2 ON table 1 column table
PHP 版本如何匹配“API=yyyymmdd”签名/标签？

是否有明确且可靠的来源来找出哪个 PHP 发行版本 x y z 携带使用哪个 API yyyymmdd 签名标签 PHP 的版本控制存储库是 PHP 版本与其 API 日期版本之间相关性的权威来源请记住仅主要版本PHP 的版本例如
通过 iBeacon 监控和测距与 CoreBluetooth scanForPeripheralsWithServices 检测信标

对于 iOS 对想要扫描 BLE 信标外设的应用程序施加的限制存在很多困惑在阅读了几个博客和 Stack Overflow 答案后我想看看我是否正确理解了所有问题如果有什么理解错误或者遗漏的地方请指正我仅指 iOS 7 及更高版
禁用 QML Slider 的鼠标滚轮

我希望能够滚动Flickable使用鼠标滚轮或触摸板上的两根手指不改变Sliders它可能包含示例代码及结果应用 import QtQuick 2 7 import QtQuick Window 2 2 import QtQuick
JasperReports 中的变量、参数和字段有什么区别？

我是新手贾斯珀报告一直在研究一些小样本看来字段参数和变量非常常用于演示动态数据而且看起来很相似那我能问一下他们具体有什么区别吗贾斯珀报告我猜变量是 Jasper 报告中定义的东西可以动态改变参数是从外部源 Java
如何禁用 Ionic2 / Angular2 上的“未使用的导入”警告

我知道有一个选项可以禁用这些未使用的导入警告tslint跑步时ionic serve or ionic build 但我不知道该把它放在哪里有人知道吗谢谢 1 https palantir github io tslint rule
如何在正则表达式中区分数字和ip地址？

例如如果我们查看 5 56 和 183 55 0 144 基本上当你做这样的事情时 d d 它匹配 5 56 189 55 和 0 144 有没有办法通过正则表达式仅匹配数字而不匹配 ip 地址的部分我尝试使用前瞻但我不知道它应该是
编译器如何确定使用 SFINAE 的函数和标准函数（如果两者都可行）？

考虑以下代码 include
如何使用 Eclipse 作为 Javascript IDE？

我从官方下载页面下载了 eclipse Javascript IDE 但是当我启动应用程序时它显示必须提供 Java 运行时环境或 Java 开发工具包才能运行 eclipse 我已经有一个运行良好的 eclipse 的 java I
根据 MVC 中的文化的日期时间格式

我有一个 MVC 视图其中列出了一个名为 CreatedOn 的日期时间类型列值的格式如下日月年时分秒当我单击编辑链接修改值时我获得相同的格式当我修改编辑值时出现验证错误字段 CreatedOn 必须是日期我的
读入模板文件，使用用户输入填充并生成新文件

我正在尝试读取如下所示的模板配置文件 template config path to speedseq package binary directory SPEEDSEQ BIN DIR usr local packages Sequenc
Map：为 Integer 和 Double 类型定义方法，但不为 String 类型定义方法

我正在尝试定义一个方法putIfGreaterThan 为了我的新Map class 给定一个键仅当新值大于旧值时它才会用新值替换旧值我知道我可以通过组合来实现这一点通过有一个private final Map
Asp.net WEB API - 如果我使用 POST 而不是 PUT 和 DELETE 会出现什么问题？

我刚刚开始使用 Web API 虽然我发现创建我需要的方法和一些配置非常容易但现在我遇到了一个我不知道如何解决的问题一些将使用我的服务的应用程序非常旧不支持 DELETE 和 PUT 方法例如 j2me 应用程序我发现可以通过传递
Magento：设置刚刚创建的网站的配置值？

我正在以编程方式创建网站用户等问题是创建网站时我无法立即设置配置值 Code
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp

Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF” 的相关文章

随机推荐

热门标签