Doris集成Spark读写的简单示例

2023-05-16

Doris集成Spark读写的简单示例

文章目录

Doris集成Spark读写的简单示例
- 0、写在前面
- 1、Spark Doris Connector介绍
- 2、基本示例
- - 2.1 提前准备表和数据
  - 2.2 新建项目
  - 2.3 使用SQL方式进行读写
  - - 2.3.1 代码
    - 2.3.2 相关Error
  - 2.4 使用DataFrame方式读写数据（**batch**）
  - - 2.4.1 代码
    - 2.4.2 写入数据
    - 2.4.2 读取数据
  - 2.5 RDD演示
  - 2.6 写入数据的其他方式
- 3. 配置项说明
- - 3.1 通用配置项
  - 3.2 SQL 和 Dataframe 专有配置
  - 3.3 RDD 专有配置
  - 3.4 Doris 和 Spark 列类型映射关系
- 4. 使用 **JDBC** 的方式
- 5. 其他集成系统
- 6. 参考资料

0、写在前面

Doris版本：Doris-1.1.5
Spark版本：Spark-3.0.0
IDEA版本：IntelliJ IDEA 2019.2.3
Scala版本：Scala-2.12.11

1、Spark Doris Connector介绍

介绍

Spark Doris Connector 支持通过 Spark 读取 Doris 中存储的数据，也支持通过Spark写入数据到Doris。

代码库地址：https://github.com/apache/incubator-doris-spark-connector

版本兼容

Connector	Spark	Doris	Java	Scala
2.3.4-2.11.xx	2.x	0.12+	8	2.11
3.1.2-2.12.xx	3.x	0.12.+	8	2.12
3.2.0-2.12.xx	3.2.x	0.12.+	8	2.12

使用Maven进行管理

<dependency>
  <groupId>org.apache.doris</groupId>
   <!-- spark3.x使用这个版本 -->
  <artifactId>spark-doris-connector-3.1_2.12</artifactId>
   <!-- spark2.x使用这个版本 -->
  <!--artifactId>spark-doris-connector-2.3_2.11</artifactId-->
  <version>1.1.0</version>
</dependency>

Note：同时此处的Spark Doris Connector版本不要使用官网的1.0.1版本，下文会演示相关error

2、基本示例

2.1 提前准备表和数据

开启doris的fe、be

-- 创建表table1
CREATE TABLE table1 (
    siteid INT DEFAULT '10',
    citycode SMALLINT,
    username VARCHAR(32) DEFAULT '', 
    pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(siteid, citycode, username) 
DISTRIBUTED BY HASH(siteid) BUCKETS 10
PROPERTIES("replication_num" = "1");

-- 插入数据
insert into table1 values (1,1,'jim',2),
(2,1,'grace',2),
(3,2,'tom',2),
(4,3,'bush',3),
(5,3,'helen',3);

2.2 新建项目

新建一个名为doris-module的Maven工程
准备Spark环境：pom.xml

<properties>
    <scala.binary.version>2.12</scala.binary.version>
    <spark.version>3.0.0</spark.version>
    <maven.compiler.source>8</maven.compiler.source>
    <maven.compiler.target>8</maven.compiler.target>
</properties>

<dependencies>

    <!-- Spark 的依赖引入 -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_${scala.binary.version}</artifactId>
        <scope>provided</scope>
        <version>${spark.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_${scala.binary.version}</artifactId>
        <scope>provided</scope>
        <version>${spark.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-hive_${scala.binary.version}</artifactId>
        <scope>provided</scope>
        <version>${spark.version}</version>
    </dependency>
    <!-- 引入 Scala -->
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-library</artifactId>
        <version>2.12.11</version>
    </dependency>

    <dependency>
        <groupId>com.alibaba</groupId>
        <artifactId>fastjson</artifactId>
        <version>1.2.47</version>
    </dependency>

    <dependency>
        <groupId>mysql</groupId>
        <artifactId>mysql-connector-java</artifactId>
        <version>5.1.49</version>
    </dependency>

    <!--spark-doris-connector-->
    <dependency>
        <groupId>org.apache.doris</groupId>
        <artifactId>spark-doris-connector-3.1_2.12</artifactId>
        <!--<artifactId>spark-doris-connector- 2.3_2.11</artifactId>-->
        <version>1.1.0</version>
    </dependency>

</dependencies>

<build>
    <plugins>
        <!--编译 scala 所需插件-->
        <plugin>
            <groupId>org.scala-tools</groupId>
            <artifactId>maven-scala-plugin</artifactId>
            <version>2.15.1</version>
            <executions>
                <execution>
                    <id>compile-scala</id>
                    <goals>
                        <goal>add-source</goal>
                        <goal>compile</goal>
                    </goals>
                </execution>
                <execution>
                    <id>test-compile-scala</id>
                    <goals>
                        <goal>add-source</goal>
                        <goal>testCompile</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
        <plugin>
            <groupId>net.alchim31.maven</groupId>
            <artifactId>scala-maven-plugin</artifactId>
            <version>3.2.2</version>
            <executions>
                <execution>
                    <!-- 声明绑定到 maven 的 compile 阶段 -->
                    <goals>
                        <goal>compile</goal>
                        <goal>testCompile</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>

        <!-- assembly 打包插件 -->
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-assembly-plugin</artifactId>
            <version>3.0.0</version>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
                    <goals>
                        <goal>single</goal>
                    </goals>
                </execution>
            </executions>
            <configuration>
                <archive>
                    <manifest>
                    </manifest>
                </archive>
                <descriptorRefs>
                    <descriptorRef>jar-with- dependencies</descriptorRef>
                </descriptorRefs>
            </configuration>
        </plugin>
        <!--<plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-compiler-plugin</artifactId>
                    <version>3.6.1</version>
                    &lt;!&ndash; 所有的编译都依照 JDK1.8 &ndash;&gt;
                    <configuration>
                        <source>1.8</source>
                        <target>1.8</target>
                    </configuration>
                </plugin>-->
    </plugins>
</build>

2.3 使用SQL方式进行读写

2.3.1 代码

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

object SQLDemo {
    def main(args: Array[String]): Unit = {
        // TODO 如果要打包提交集群执行，请注释掉（此处直接在本地演示）
        val sparkConf = new SparkConf().setAppName("SQLDemo").setMaster("local[2]") 
        val	sparkSession = SparkSession.builder().config(sparkConf).getOrCreate()

        sparkSession.sql( """
                            |CREATE TEMPORARY VIEW spark_doris
                            |USING doris
                            |OPTIONS(
                            | "table.identifier"="test_db.table1",
                            | "fenodes"="node01:8030",
                            | "user"="test",
                            | "password"="test"
                            |); """.stripMargin)

        // 读取数据
        	sparkSession.sql("select * from spark_doris").show()
        // 写入数据
//        sparkSession.sql("insert into spark_doris values(99,99,'haha',5)")
    }
}

读取数据运行结果：

在这里插入图片描述

验证结果正确性：进入fe连接MySQL，查询table1表的数据，结果如下

在这里插入图片描述

运行结果与实际结果相一致

写入数据

运行结束，查询table1表的数据，结果如下：

在这里插入图片描述

可以看到，利用spark写入数据到Doris已经成功了

2.3.2 相关Error

一开始，右键项目Add framework support没有Scala

选中scala相关依赖并删除掉（如下图所示）

在这里插入图片描述

重新右键Add framework support就可以添加Scala环境了

java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf
	at cn.whybigdata.doris.spark.SQLDemo$.main(SQLDemo.scala:7)
	at cn.whybigdata.doris.spark.SQLDemo.main(SQLDemo.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.SparkConf
	at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
	at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
	at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:335)
	at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
	... 2 more

Process finished with exit code 1

因为在pom.xml文件中，spark-core_x.xx、spark-sql_x.xx、spark-hive_x.xx都是provided的范围，解决方案如下：

选择Edit Run/Debug configuration ，选中需要执行的Application，勾选Include dependencies with "Provided" scope即可，如下图所示

在这里插入图片描述

上述方式只对当前.scala程序起作用，如果要对该项目的所有Application起作用，可以选择template，然后选择Application，勾选Include dependencies with "Provided" scope即可

在这里插入图片描述

还有一种更直接的方式：直接注释掉spark-core_x.xx、spark-sql_x.xx、spark-hive_x.xx依赖的scope范围，但是这种方式不推荐，因为大多数情况下是选择打包到集群上执行，而非本地，而集群一般都是已经拥有spark这些以来环境的，使用provided的scope范围，在集群中执行时是不会加载的。

[Bug] spark doris connector read table error: Doris FE’s response cannot map to schema.

原因是1.0.1版本的spark-doris-connector自身的bug，已经在1.1.0版本修复了

2.4 使用DataFrame方式读写数据（batch）

2.4.1 代码

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

object DataFrameDemo {
    def main(args: Array[String]): Unit = {
        //TODO 如果要打包提交集群执行，请注释掉
        val sparkConf = new SparkConf().setAppName("DataFrameDemo").setMaster("local[2]")
        val	sparkSession = SparkSession.builder().config(sparkConf).getOrCreate()

        // TODO 写入数据
//        import sparkSession.implicits._
//        val mockDataDF = List(
//            (11,23, "haha", 8),
//            (11, 3, "hehe", 9),
//            (11, 3, "heihei", 10)
//        ).toDF("siteid", "citycode", "username","pv")
//        mockDataDF.show(5)
//
//        mockDataDF.write.format("doris")
//          .option("doris.table.identifier", "test_db.table1")
//          .option("doris.fenodes", "node01:8030")
//          .option("user", "test")
//          .option("password", "test")
//          // 指定你要写入的字段
//          //	.option("doris.write.fields", "user")
//          .save()

        // TODO 读取数据
        val dorisSparkDF = sparkSession.read.format("doris")
          .option("doris.table.identifier", "test_db.table1")
          .option("doris.fenodes", "hadoop102:8030")
          .option("user", "test")
          .option("password", "test")
          .load()
        dorisSparkDF.show()
    }
}

2.4.2 写入数据

运行结果：

在这里插入图片描述

验证：

在这里插入图片描述

2.4.2 读取数据

运行结果：

在这里插入图片描述

2.5 RDD演示

RDD目前只支持读取数据

代码

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession


object RDDDemo {
    def main(args: Array[String]): Unit = {
        //TODO 如果要打包提交集群执行，请注释掉
        val sparkConf = new SparkConf().setAppName("RDDDemo").setMaster("local[2]")
        val	sc = new SparkContext(sparkConf)

        // TODO 读取数据
        import org.apache.doris.spark._
        val dorisSparkRDD = sc.dorisRDD(
            tableIdentifier = Some("test_db.table1"),
            cfg = Some(Map(
                "doris.fenodes" -> "node01:8030",
                "doris.request.auth.user" -> "test",
                "doris.request.auth.password" -> "test"
            ))
        )

        dorisSparkRDD.collect().foreach(println)

    }
}

运行结果：

在这里插入图片描述

2.6 写入数据的其他方式

关于通过Saprk写入数据到Doris，还可以通过StructStreaming的方式，

官方示例

## stream sink(StructuredStreaming)
val kafkaSource = spark.readStream
  .option("kafka.bootstrap.servers", "$YOUR_KAFKA_SERVERS")
  .option("startingOffsets", "latest")
  .option("subscribe", "$YOUR_KAFKA_TOPICS")
  .format("kafka")
  .load()
kafkaSource.selectExpr("CAST(key AS STRING)", "CAST(value as STRING)")
  .writeStream
  .format("doris")
  .option("checkpointLocation", "$YOUR_CHECKPOINT_LOCATION")
  .option("doris.table.identifier", "$YOUR_DORIS_DATABASE_NAME.$YOUR_DORIS_TABLE_NAME")
    .option("doris.fenodes", "$YOUR_DORIS_FE_HOSTNAME:$YOUR_DORIS_FE_RESFUL_PORT")
  .option("user", "$YOUR_DORIS_USERNAME")
  .option("password", "$YOUR_DORIS_PASSWORD")
  //其它选项
  //指定你要写入的字段
  .option("doris.write.fields","$YOUR_FIELDS_TO_WRITE")
  .start()
  .awaitTermination()

3. 配置项说明

3.1 通用配置项

Key	Default Value	Comment
doris.fenodes	–	Doris FE http 地址，支持多个地址，使用逗号分隔
doris.table.identifier	–	Doris 表名，如：db1.tbl1
doris.request.retries	3	向Doris发送请求的重试次数
doris.request.connect.timeout.ms	30000	向Doris发送请求的连接超时时间
doris.request.read.timeout.ms	30000	向Doris发送请求的读取超时时间
doris.request.query.timeout.s	3600	查询doris的超时时间，默认值为1小时，-1表示无超时限制
doris.request.tablet.size	Integer.MAX_VALUE	一个RDD Partition对应的Doris Tablet个数。此数值设置越小，则会生成越多的Partition。从而提升Spark侧的并行度，但同时会对Doris造成更大的压力。
doris.batch.size	1024	一次从BE读取数据的最大行数。增大此数值可减少Spark与Doris之间建立连接的次数。从而减轻网络延迟所带来的额外时间开销。
doris.exec.mem.limit	2147483648	单个查询的内存限制。默认为 2GB，单位为字节
doris.deserialize.arrow.async	false	是否支持异步转换Arrow格式到spark-doris-connector迭代所需的RowBatch
doris.deserialize.queue.size	64	异步转换Arrow格式的内部处理队列，当doris.deserialize.arrow.async为true时生效
doris.write.fields	–	指定写入Doris表的字段或者字段顺序，多列之间使用逗号分隔。默认写入时要按照Doris表字段顺序写入全部字段。
sink.batch.size	10000	单次写BE的最大行数
sink.max-retries	1	写BE失败之后的重试次数
sink.properties.*	–	Stream Load 的导入参数。例如: ‘sink.properties.column_separator’ = ', ’
doris.sink.task.partition.size	–	Doris写入任务对应的 Partition 个数。Spark RDD 经过过滤等操作，最后写入的 Partition 数可能会比较大，但每个 Partition 对应的记录数比较少，导致写入频率增加和计算资源浪费。此数值设置越小，可以降低 Doris 写入频率，减少 Doris 合并压力。该参数配合 doris.sink.task.use.repartition 使用。
doris.sink.task.use.repartition	false	是否采用 repartition 方式控制 Doris写入 Partition数。默认值为 false，采用 coalesce 方式控制（注意: 如果在写入之前没有 Spark action 算子，可能会导致整个计算并行度降低）。如果设置为 true，则采用 repartition 方式（注意: 可设置最后 Partition 数，但会额外增加 shuffle 开销）。

3.2 SQL 和 Dataframe 专有配置

Key	Default Value	Comment
user	–	访问Doris的用户名
password	–	访问Doris的密码
doris.filter.query.in.max.count	100	谓词下推中，in表达式value列表元素最大数量。超过此数量，则in表达式条件过滤在Spark侧处理。

3.3 RDD 专有配置

Key	Default Value	Comment
doris.request.auth.user	–	访问Doris的用户名
doris.request.auth.password	–	访问Doris的密码
doris.read.field	–	读取Doris表的列名列表，多列之间使用逗号分隔
doris.filter.query	–	过滤读取数据的表达式，此表达式透传给Doris。Doris使用此表达式完成源端数据过滤。

3.4 Doris 和 Spark 列类型映射关系

Doris Type	Spark Type
NULL_TYPE	DataTypes.NullType
BOOLEAN	DataTypes.BooleanType
TINYINT	DataTypes.ByteType
SMALLINT	DataTypes.ShortType
INT	DataTypes.IntegerType
BIGINT	DataTypes.LongType
FLOAT	DataTypes.FloatType
DOUBLE	DataTypes.DoubleType
DATE	DataTypes.StringType1
DATETIME	DataTypes.StringType1
BINARY	DataTypes.BinaryType
DECIMAL	DecimalType
CHAR	DataTypes.StringType
LARGEINT	DataTypes.StringType
VARCHAR	DataTypes.StringType
DECIMALV2	DecimalType
TIME	DataTypes.DoubleType
HLL	Unsupported datatype

Note：Connector中，将DATE和DATETIME映射为String。由于Doris底层存储引擎处理逻辑，直接使用时间类型时，覆盖的时间范围无法满足需求。所以使用 String 类型直接返回对应的时间可读文本。

4. 使用 JDBC 的方式

这种方式是早期写法，不推荐，原因是：Spark 无法感知Doris 的数据分布，会导致打到 Doris 的查询压力非常大 。

代码：

import java.util.Properties
import org.apache.spark.SparkConf
import org.apache.spark.sql.{SaveMode, SparkSession}

object JDBCDemo {
    def main(args: Array[String]): Unit = {
        val	sparkConf = new SparkConf().setAppName("JDBCDemo").setMaster("local[2]")
        val	sparkSession = SparkSession.builder().config(sparkConf).getOrCreate()

        // TODO 写入数据
//        import sparkSession.implicits._
//        val mockDataDF = List(
//            (21,23, "bj", 8),
//            (21,13, "sh", 9),
//            (21,31, "sz", 10)
//        ).toDF("siteid", "citycode", "username","pv")
//
//        val prop = new Properties()
//        prop.setProperty("user", "test")
//        prop.setProperty("password", "test")
//
//        mockDataDF.write.mode(SaveMode.Append)
//          .jdbc("jdbc:mysql://node01:9030/test_db", "table1", prop)

        // TODO 读取数据
        val df=sparkSession.read.format("jdbc")
        .option("url","jdbc:mysql://node01:9030/test_db")
        .option("user","test")
        .option("password","test")
        .option("dbtable","table1")
        .load()

        df.show()
    }
}

写入数据

在这里插入图片描述

读取数据

在这里插入图片描述

5. 其他集成系统

Doris还可以与Flink、DataX、MySQL、Logstash、ODBC外部表集成使用，可以直接参考官网

6. 参考资料

https://doris.apache.org/zh-CN/docs/dev/ecosystem/spark-doris-connector
https://9to5answer.com/java-lang-noclassdeffounderror-org-apache-spark-sql-sparksession
https://github.com/apache/doris-spark-connector/issues/39

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Doris

spark

读写的简单示例

Doris集成Spark读写的简单示例的相关文章

分类算法之朴素贝叶斯

1 朴素贝叶斯分类算法朴素贝叶斯 Naive Bayes NB 算法是基于贝叶斯定理与特征条件独立假设的分类方法该算法是有监督的学习算法解决的是分类问题是将一个未知样本分到几个预先已知类别的过程朴素贝叶斯的思想就是根据某些个先验概
Spark基础知识(个人总结)

声明 1 本文为我的个人复习总结并非那种从零基础开始普及知识内容详细全面言辞官方的文章 2 由于是个人总结所以用最精简的话语来写文章 3 若有错误不当之处请指出一 Spark概述 Spark模块 Core SQL Streami
【pyspark】DataFrame基础操作（二）

介绍一下 pyspark 的 DataFrame 基础操作一选择和访问数据 PySpark DataFrame 是惰性计算的简单地选择一列不会触发计算但它会返回一个 Column 实例并且大多数按列操作都返回 Column 实例
大数据面试题Spark篇（1）

目录 1 spark数据倾斜 2 Spark为什么比mapreduce快 3 hadoop和spark使用场景 4 spark宕机怎么迅速恢复 5 RDD持久化原理 6 checkpoint检查点机制 7 checkpoint和持久化的区别
学习大数据spark——心得体会

总结与体会 1 项目总结本次项目实现了Spark 单机模式Python版的安装介绍了与Spark编程有关的一些基本概念特别对RDD的创建转换和行动操作做了比较详细的说明对从RDD 到DataFrame的实现进行了案例训练包括
【Apache Spark 】第 1 章Apache Spark 简介：统一分析引擎

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
Spark 源码阅读一-启动脚本

Spark Complile Help Links Because spark 1 5 need maven version 3 3 3 so i track the branch 1 4 git branch a git checkout
记一次Spark打包错误：object java.lang.Object in compiler mirror

使用maven compile和package 一直报错scala reflect internal MissingRequirementError object scala runtime in compiler mirror not f
spark-submit 报错 Initial job has not accepted any resources

spark submit 报这样的错误 WARN scheduler TaskSchedulerImpl Initial job has not accepted any resources check your cluster UI to
Impala presto hbase hive sparksql

Impala 技术点梳理 http www cnblogs com TiestoRay p 10243365 html Impala 优点实时性查询计算的中间结果不写入磁盘缺点对于内存的依赖过于严重内存溢出直接导致技术任务的失败
spark中repartition和coalesce的区别

总的来讲两者对是否允许shuffle 不同 coalesce numPartitions shuffle false repartition numPartitions repartition 其实是 coalesce 中参数shuff
spark_hadoop集群搭建自动化脚本

bin bash 脚本使用说明 1 使用脚本前需要弄好服务器的基础环境 2 在hadoop的每个节点需要手动创建如下目录 data hdfs tmp 3 修改下面的配置参数 4 脚本执行完备后需要收到格式化namenode
数据中台-让数据用起来-6

文章目录第六章数据开发数据价值提炼工厂 6 1 数据计算能力的4种类型 6 1 1 批计算 6 1 2 流计算 6 1 3 在线查询 6 1 4 即席分析 6 2 离线开发 1 作业调度 2 基线控制 3 异构存储 4 代码校验 5
Spark 【分区与并行度】

RDD 并行度和分区 SparkConf setMaster local 我们在创建 SparkContext 对象时通常会指定 SparkConf 参数它包含了我们运行时的配置信息如果我们的 setMaster 中的参数是 local
通过yarn提交作业到spark,运行一段时间后报错。

加粗样式
sparkstreamming 消费kafka(2)

spark streaming提供了两种获取方式一种是同storm一样实时读取缓存到内存中另一种是定时批量读取这两种方式分别是 Receiver base Direct 一 Receiver base Spark官方最先提供了基于R
sparkstreamming 消费kafka(1)

pom
Spark 配置

文章目录 1 Spark 配置 1 1 Spark 属性 1 1 1 动态加载Spark属性 1 1 2 查看Spark属性 1 2 环境变量 2 重新指定配置文件目录 3 继承Hadoop集群配置 4 定制的Hadoop Hive配置 1
Spark SQL 项目：实现各区域热门商品前N统计

一需求1 1 需求简介这里的热门商品是从点击量的维度来看的计算各个区域前三大热门商品并备注上每个商品在主要城市中的分布比例超过两个城市用其他显示 1 2 思路分析使用 sql 来完成碰到复杂的需求可以使用 udf 或 udaf查
spark相关

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一 pandas是什么二使用步骤 1 引入库 2 读入数据总结前言提示这里可以添加本文要记录的大概内容例如随着人工智能的不断发展机器学习这门

随机推荐

整数划分问题（Java递归）

整数划分问题 xff08 Java递归 xff09 文章目录整数划分问题 xff08 Java递归 xff09 0 问题描述1 递归式2 代码3 参考 0 问题描述整数划分问题将正整数n表示成一系列正整数之和 xff1a n 61 n
快速排序（Java分治法）

快速排序 xff08 Java分治法 xff09 文章目录快速排序 xff08 Java分治法 xff09 0 分治策略1 思路步骤2 代码3 复杂度分析3 1 最好情况3 2 最坏情况3 3 平均情况3 4 性能影响因素 4 合并排序V
动态规划算法

动态规划算法文章目录动态规划算法0 动态规划的思想方法1 动态规划法的设计思想2 动态规划基本步骤3 动态规划算法设计步骤3 1 动态规划算法的基本要素 4 两种实现的比较5 备忘录方法6 备忘录方法与动态规划比较7 参考 0 动态规划
最长公共子序列（LCS）

最长公共子序列 xff08 LCS xff09 文章目录最长公共子序列 xff08 LCS xff09 0 写在前面1 问题描述2 最长公共子序列的结构3 子问题的递归结构4 计算最优值5 算法的改进6 参考 0 写在前面本文文字大都来
贪心算法(Java)

贪心算法文章目录贪心算法0 写在前面1 贪心算法的基本要素1 1 贪心选择性质1 2 最优子结构性质1 3 贪心算法与动态规划算法的差异 2 贪心算法的特点3 贪心法的正确性证明4 活动安排问题4 1 问题描述4 2 贪心法的设计思想4
android -- 蓝牙 bluetooth （五）接电话与听音乐

前段时间似乎所有的事情都赶在一起 xff0c 回家集体出游出差 xff0c 折腾了近一个月 xff0c 终于算暂时清静了 xff0c 但清静只是暂时 xff0c 估计马上又要出差了 xff0c 所以赶紧把蓝牙这一部分的文章了结下 xff
保研/考研复试-数据结构

数据结构 1 时间复杂度 xff1a 是一个描述算法性能的函数 xff0c 可以定性的描述算法的运行时间是评价算法优劣的重要指标 2 快速找到第K个数 1 xff09 可以使用快排的思想 xff0c 因为快排每次可以找到一个第i位置的数
Github高效搜索方式

Github高效搜索方式文章目录 Github高效搜索方式0 写在前面1 常用的搜索功能1 1 直接搜索1 2 寻找指定用户大小的仓库1 3 搜索仓库1 4 查找特定star范围的仓库1 5 查找指定主题1 6 查找仓库语言1 7 搜索
电子游戏销售之缺失值检测与处理

电子游戏销售之缺失值检测与处理文章目录电子游戏销售之缺失值检测与处理 0 写在前面 1 数据缺失值预处理 1 1 表的形状 1 2 原始数据每个特征缺失和非缺失的数目 1 3 每个特征缺失的率 1 4 处理后各特征缺失值的数目 1 5
电子游戏销售之回归模型与数据可视化

电子游戏销售之回归模型与数据可视化文章目录电子游戏销售之回归模型与数据可视化0 写在前面1 回归模型1 1 模型建立准备1 2 建立模型1 3 模型分析 2 数据可视化3 参考资料 0 写在前面该篇文章的任务包括以下3个方面检测与处
基于R的Bilibili视频数据建模及分析——预处理篇

基于R的Bilibili视频数据建模及分析预处理篇文章目录基于R的Bilibili视频数据建模及分析预处理篇0 写在前面1 项目介绍1 1 项目背景1 2 数据来源1 3 数据集展示 2 数据预处理2 1 删除空数据2 2 增加id
基于R的Bilibili视频数据建模及分析——变量相关性分析篇

基于R的Bilibili视频数据建模及分析变量相关性分析篇文章目录基于R的Bilibili视频数据建模及分析变量相关性分析篇 0 写在前面 1 数据分析 1 1 变量相关性分析 1 2 单元数据直观展示 1 3 多元数据直观展示 2
基于R的Bilibili视频数据建模及分析——聚类分析篇

基于R的Bilibili视频数据建模及分析聚类分析篇文章目录基于R的Bilibili视频数据建模及分析聚类分析篇 0 写在前面 1 数据分析 1 1 聚类分析 1 2 聚类统计 1 3 系统聚类 1 4 Kmeans与主成分分析 2
基于R的Bilibili视频数据建模及分析——建模-因子分析篇

基于R的Bilibili视频数据建模及分析建模因子分析篇文章目录基于R的Bilibili视频数据建模及分析建模因子分析篇 0 写在前面 1 数据分析 1 1 建模因子分析 1 2 对数线性模型 1 3 主成分分析 1 4 因子
大数据技术之Maxwell基础知识

大数据技术之Maxwell基础知识文章目录大数据技术之Maxwell基础知识0 写在前面1 Maxwell 概述1 1 Maxwell 定义1 2 Maxwell 工作原理1 2 1 MySQL 主从复制过程1 2 2 Maxwell
大数据技术之Maxwell入门案例学习

大数据技术之Maxwell入门案例学习文章目录大数据技术之Maxwell入门案例学习1 写在前面2 Maxwell 使用2 1 Maxwell 安装部署2 2 Maxwell 入门案例2 2 1 监控 Mysql 数据并在控制台打印2
Canal实时监控案例

Canal实时监控案例文章目录 Canal实时监控案例0 写在前面1 TCP 模式测试1 1 IDEA创建项目canal module 1 2 通用监视类 CanalClient1 2 1 Canal 封装的数据结构1 2 2 在 can
unity笔记--Transform.SetSibling

transform SetAsLastSibling 将变换移动到本地变换列表的末尾即设置为同级索引中的最后一项 transform SetAsFirstSibling 将变换移动到本地变换列表的开头即设置为同级索引中的第一项 tran
大数据技术之Canal入门篇

大数据技术之Canal入门篇文章目录大数据技术之Canal入门篇写在前面第 1 章 Canal 入门1 1 什么是 Canal1 2 MySQL 的Binlog1 2 1 什么是 Binlog1 2 2 Binlog 的分类 1 3 C
Doris集成Spark读写的简单示例

Doris集成Spark读写的简单示例文章目录 Doris集成Spark读写的简单示例0 写在前面1 Spark Doris Connector介绍2 基本示例2 1 提前准备表和数据2 2 新建项目2 3 使用SQL方式进行读写2 3

Doris集成Spark读写的简单示例

Doris集成Spark读写的简单示例

文章目录

0、写在前面

1、Spark Doris Connector介绍

2、基本示例

2.1 提前准备表和数据

2.2 新建项目

2.3 使用SQL方式进行读写

2.3.1 代码

2.3.2 相关Error

2.4 使用DataFrame方式读写数据（batch）

2.4.1 代码

2.4.2 写入数据

2.4.2 读取数据

2.5 RDD演示

2.6 写入数据的其他方式

3. 配置项说明

3.1 通用配置项

3.2 SQL 和 Dataframe 专有配置

3.3 RDD 专有配置

3.4 Doris 和 Spark 列类型映射关系

4. 使用 JDBC 的方式

5. 其他集成系统

6. 参考资料

Doris集成Spark读写的简单示例 的相关文章

随机推荐

热门标签

Doris集成Spark读写的简单示例的相关文章