将 Spark Dataframe 保存到 Elasticsearch - 无法处理类型异常

2024-04-17

我设计了一个简单的作业，使用 Spark 从 MySQL 读取数据并将其保存在 Elasticsearch 中。

这是代码：

JavaSparkContext sc = new JavaSparkContext(
        new SparkConf().setAppName("MySQLtoEs")
                .set("es.index.auto.create", "true")
                .set("es.nodes", "127.0.0.1:9200")
                .set("es.mapping.id", "id")
                .set("spark.serializer", KryoSerializer.class.getName()));

SQLContext sqlContext = new SQLContext(sc);

// Data source options
Map<String, String> options = new HashMap<>();
options.put("driver", MYSQL_DRIVER);
options.put("url", MYSQL_CONNECTION_URL);
options.put("dbtable", "OFFERS");
options.put("partitionColumn", "id");
options.put("lowerBound", "10001");
options.put("upperBound", "499999");
options.put("numPartitions", "10");

// Load MySQL query result as DataFrame
LOGGER.info("Loading DataFrame");
DataFrame jdbcDF = sqlContext.load("jdbc", options);
DataFrame df = jdbcDF.select("id", "title", "description",
        "merchantId", "price", "keywords", "brandId", "categoryId");
df.show();
LOGGER.info("df.count : " + df.count());
EsSparkSQL.saveToEs(df, "offers/product");

可以看到代码非常简单。它将数据读入 DataFrame，选择一些列，然后执行count作为数据框上的基本操作。到目前为止一切正常。

然后它尝试将数据保存到 Elasticsearch 中，但失败了，因为它无法处理某些类型。可以看到错误日志here https://gist.github.com/eliasah/76a58145cefc4fec1111.

我不确定为什么它不能处理这种类型。有谁知道为什么会发生这种情况？

我正在使用 Apache Spark 1.5.0、Elasticsearch 1.4.4 和 ematicsearch-hadoop 2.1.1

EDIT:

我已经使用示例数据集和源代码更新了要点链接。
我也尝试过使用elasticsearch-hadoop开发构建 https://www.elastic.co/guide/en/elasticsearch/hadoop/current/install.html#download-dev正如@costin 在邮件列表中提到的。

这个问题的答案很棘手，但感谢samklr https://twitter.com/samklr，我已经设法弄清楚问题出在哪里。

然而，解决方案并不简单，并且可能会考虑一些“不必要的”转换。

首先我们来谈谈序列化.

Spark 中数据序列化和函数序列化需要考虑两个方面的序列化。在本例中，涉及数据序列化和反序列化。

从 Spark 的角度来看，唯一需要的就是设置序列化 - Spark 默认依赖于 Java 序列化，这很方便，但效率相当低。这就是Hadoop本身引入自己的序列化机制和自己的类型的原因——即Writables。像这样，InputFormat and OutputFormats需要返回WritablesSpark 开箱即用时无法理解。

使用elasticsearch-spark连接器，必须启用一种不同的序列化（Kryo），它可以自动处理转换并且非常高效。

conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")

即使 Kryo 不要求类实现要序列化的特定接口，这意味着 POJO 可以在 RDD 中使用，除了启用 Kryo 序列化之外无需任何进一步的工作。

也就是说，@samklr 向我指出 Kryo 需要在使用类之前注册它们。

这是因为 Kryo 写入了对正在序列化的对象的类的引用（为每个写入的对象写入一个引用），如果该类已注册，则该引用只是一个整数标识符，否则为完整的类名。 Spark 代表您注册 Scala 类和许多其他框架类（例如 Avro Generic 或 Thrift 类）。

使用 Kryo 注册课程非常简单。创建 KryoRegistrator 的子类，并重写registerClasses() method:

public class MyKryoRegistrator implements KryoRegistrator, Serializable {
    @Override
    public void registerClasses(Kryo kryo) {
        // Product POJO associated to a product Row from the DataFrame            
        kryo.register(Product.class); 
    }
}

最后，在您的驱动程序中，将spark.kryo.registrator属性设置为KryoRegistrator实现的完全限定类名：

conf.set("spark.kryo.registrator", "MyKryoRegistrator")

其次，即使设置了 Kryo 序列化器并注册了类，并对 Spark 1.5 进行了更改，但由于某种原因 Elasticsearch 无法反序列化Dataframe 因为它无法推断SchemaType将数据框插入连接器。

所以我必须将 Dataframe 转换为 JavaRDD

JavaRDD<Product> products = df.javaRDD().map(new Function<Row, Product>() {
    public Product call(Row row) throws Exception {
        long id = row.getLong(0);
        String title = row.getString(1);
        String description = row.getString(2);
        int merchantId = row.getInt(3);
        double price = row.getDecimal(4).doubleValue();
        String keywords = row.getString(5);
        long brandId = row.getLong(6);
        int categoryId = row.getInt(7);
        return new Product(id, title, description, merchantId, price, keywords, brandId, categoryId);
    }
});

现在数据已准备好写入 elasticsearch ：

JavaEsSpark.saveToEs(products, "test/test");

参考：

Elasticsearch 的 Apache Spark 支持文档 https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html.
Hadoop 权威指南，第 19 章。Spark，编辑。 4——汤姆·怀特。
User samklr https://twitter.com/samklr.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Spark Dataframe 保存到 Elasticsearch - 无法处理类型异常的相关文章

线程“main”中的异常 java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)

我收到此错误的原因是什么最初 Scala 的 IDE 插件是 2 12 3 但由于我使用的是 Spark 2 2 0 所以我手动将其更改为 Scala 2 11 11 Using Spark s default log4j profile
按字段关联 ELK 中的消息

相关在ELK中合并日志和查询 https stackoverflow com questions 28429607 combine logs and query in elk 我们正在设置 ELK 并希望在 Kibana 4 中创建可视化
Spark Dataframe 列可为 null 的属性更改

我想更改 Spark Dataframe 中特定列的可为空属性如果我当前打印数据框的模式它看起来如下所示 col1 string nullable false col2 string nullable true col3 string
如何从 Databricks Notebook 中调用 Cluster API 并启动集群？

目前我们正在使用一堆笔记本来处理 azure databricks 中的数据主要使用 python pyspark 我们想要实现的是确保我们的集群在开始数据处理之前启动预热因此我们正在探索从 databricks 笔记本内访问 C
Spark DataFrame 删除重复项并保留第一个

问题在 pandas 中当删除重复项时您可以指定要保留哪些列 Spark Dataframes 中有等效的吗 Pandas df sort values actual datetime ascending False drop dup
如何在弹性搜索中生成多个布尔查询的查询

我想使用 spring 框架在 elasticsearch 中动态生成多个布尔运算的查询我在elasticsearch中的数据就像 masterID
如何在 kibana 中自动配置索引模式

是否可以在 kibana 中自动配置索引模式要么通过一些设置文件要么通过rest api 安装后可以手动完成 Kibana 5 x 公开了这样的 API 来管理索引模式要创建索引模式可以发出以下命令来 kibana 访问 url 只
Spark Mongo 连接器，MongoShardedPartitioner 不起作用

出于测试目的我配置了一个 4 节点集群每个节点都有一个 Spark Worker 和一个 MongoDB Shard 这些是详细信息四台 Debian 9 服务器名为 Visa0 Visa 1 Visa 2 Visa 4 个节点上的
如何在spark Scala中读取s3中的多个目录？

我在 s3 中有以下格式的目录
ElasticSearch JavaAPI (SearchScroll)- search_context_missing_exception","reason":"找不到 id 的搜索上下文

我正在获取超过100k使用一个索引中的文档searchScroll并在所有字段中再添加一个字段100K文件然后再次将这些文档插入到另一个新索引中我正在使用SearchScrollapi 也在设置大小searchSourceBuilder
如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制]

这个问题在这里已经有答案了 Florian 的示例代码 ball column keep the hall column 0 7 14 1 8 15 2 9 16 3 10 17 4 11 18
Spark数据框中过滤的多个条件

我有一个包含四个字段的数据框其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件我尝试了以下查询但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
按分区“内”键进行高效分组

我正在尝试调整一个流程来激发火花基本上该过程分析来自 JDBC 数据源的批量数据每条记录都有一个batchId 还有一个更高级别的groupId 批次数量较大提前未知组数约为 100 RAM 中可以容纳每个批次的记录数实际的分析
如果为 null 则替换为 0，否则在同一列中使用默认值

在SparkR shell 1 5 0中创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2
使用Log4j在日志中输出Spark应用程序id

我有一个用于 Spark 应用程序的自定义 Log4j 文件我想输出 Spark 应用程序 ID 以及消息和日期等其他属性因此 JSON 字符串结构如下所示 name time date level thread message app
如何查找组中第一个非空值？（使用dataset api进行二次排序）

我正在研究一个代表事件流的数据集例如从网站跟踪事件时触发所有事件都有一个时间戳我们经常遇到的一个用例是尝试查找给定字段的第一个非空值例如类似的东西最能让我们到达那里 val eventsDf spark read json jso
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
全文搜索 DynamoDB

以下情况我正在为我的客户将元素存储在 DyanmoDb 中 HashKey 是元素 ID Range Key 是客户 ID 除了这些字段之外我还存储一个字符串数组 gt 标签例如 Pets House 和多行文本我想在我的应用程序中
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl

随机推荐

如何在 Google 电子表格中插入列？

我想将新数据添加到工作表的开头开头所以我必须在工作表中添加一个新的 A1 列但我找不到任何 PHP 的 API 示例现在我用这个附加数据 body new Google Service Sheets ValueRange value
如果未使用 scp 命令指定目标路径，则文件位置

要将文件夹从本地计算机复制到我使用的服务器 scp r local folder user server path 现在我忘了第一次指定目标路径 scp r local folder user server 现在有人知道该文件夹是否已被复制
如何在视频标签中播放AVI文件？

我想知道是否可以让浏览器在一个文件中播放 AVI 文件video tag 我在网上找到的所有谈论它的内容都集中在 MP4 和 Ogg 格式但没有人谈论 AVI 格式我发现的唯一解决方案是放弃video标记并使视频可以使用 JW Play
Lua 如何创建可用于变量的自定义函数？

对于像 io close 这样的方法你可以像这样使用它 file close 有没有办法创建一个像这样工作的自定义函数您可以在变量上调用它对我来说我尝试使用它通过使用 string find 查找空格来将参数与文本文件分开所以在文
如何在 Node.js 中进行 Base64 编码？

Node js 是否有内置 Base64 编码我问这个的原因是final from crypto只能输出十六进制二进制或ASCII数据例如 var cipher crypto createCipheriv des ede3 cbc e
对于某些版本的 PHP，“未指定输入文件”

我安装了多个版本的 PHP 我写的基本上它是一个 ApacheLounge 安装在 Windows 10 上通过 FastCGI 与 PHP 进行通信这曾经让我在不同的虚拟主机上同时运行这些 PHP 版本 Apache 通过 Fas
如何可视化来自谷歌协议缓冲区的数据？

我想使用谷歌协议缓冲区存储数据另一种序列化格式也可以然后有一个用户界面来浏览该数据是否有 C 框架 API 可以让我做到这一点例如它可以使用protobuf的反射接口然后将数据填充到Qt的QTableView 或从其他工具包中
从 C 中的 long 中提取单个数字

我正在为我的 C 课程第一门编程课程做作业作业的一部分是编写代码让用户输入一个最多9位数的数字程序需要判断这个数字是递增真递增递减真递减增减实减实增不减不增共7个选项由于这是我们的第一个作业我们不允许使用课堂上
与 Jenkins 工作流程/管道并行运行阶段

请注意问题是基于旧的现在称为脚本化管道格式当使用声明式管道时并行块可以嵌套在阶段块内请参阅声明式管道 1 2 的并行阶段 https jenkins io blog 2017 09 25 declarative 1 我想知
Android 中卡片视图内带有三个点的小部件的名称是什么？

带有三个点的小部件是什么如何将其添加到我的应用程序中这根本不是一个小部件它是一个ImageButton 无边框风格使用包含一个的溢出图标PopupMenu 如需文档教程访问http developer android com gui
ASP.NET-Core 2.0 在应用程序启动后添加/删除路由

我需要添加删除通过 IApplicaitonBuilder 在 Startup 类的 Configure 方法期间注册的自定义路由启动后我在 UseMvc 命令中调用 MapRoute 方法将一堆自定义路由注册到我的控制器这些路由
ListBox不显示绑定数据

在我的 Xaml 中我有这个
将 Bootstrap 导航栏中的元素居中

无论我尝试什么我都无法将 Bootstrap 导航栏中的某些内容居中有什么解决方案吗我尝试添加一个div 使用margin 0 auto or margin right auto margin left auto used cente
opencv中的矩阵类型转换

我正在尝试使用滤波器对图像进行卷积并借助 opencv 中的 filter2D 函数将其存储到 CV 64F 类型的矩阵中但目标矩阵的类型发生了变化我尝试借助 allocateTo 0r ConvertTo 函数将其更改回 CV 64
了解随机起始权重对神经网络性能的影响

使用 R 和包neuralnet 我尝试对数据进行建模如下所示这些是几天内以 10 分钟为间隔的温度读数上面是 2 天的截图使用下面的代码我将神经网络拟合到数据可能有更简单的方法来对这些精确数据进行建模但将来数据可能看起来完全
无需安装即可使用Python

我有一个安装程序它使用 Python 脚本来安装多个组件我不想在用户计算机上安装 Python 如果用户还没有安装 Python 并且我也不希望安装 Python 成为使用我的安装程序的先决条件有没有一种方法可以在不使用安装程序的情况
范围之间的随机日期时间 - 不统一输出

我实现了下面的 RandomDate 但我总是不断获取接近 From 日期的值我可能在这里错过了一些东西 public static DateTime GetRandomDate DateTime from DateTime to var
为什么矢量化通常比循环更快？

为什么在执行操作的硬件的最低级别和所涉及的一般底层操作即运行代码时所有编程语言的实际实现通用的事情矢量化通常比循环快得多计算机在循环时会做什么而在使用矢量化时不会做什么我指的是计算机执行的实际计算而不是程序员编写的计算或者它有
ChrisBanes PullToRefresh“正在加载...”问题

我正在使用我发现的 chrisbanes 的 PullToRefresh ListViewhere https github com chrisbanes Android PullToRefresh 多亏了它的文档我成功地实现了它然而
将 Spark Dataframe 保存到 Elasticsearch - 无法处理类型异常

我设计了一个简单的作业使用 Spark 从 MySQL 读取数据并将其保存在 Elasticsearch 中这是代码 JavaSparkContext sc new JavaSparkContext new SparkConf setA

将 Spark Dataframe 保存到 Elasticsearch - 无法处理类型异常

将 Spark Dataframe 保存到 Elasticsearch - 无法处理类型异常 的相关文章

随机推荐

热门标签

将 Spark Dataframe 保存到 Elasticsearch - 无法处理类型异常的相关文章