spark入门小例子

2023-11-10

来源：我是码农，转载请保留出处和链接！

本文链接：http://www.54manong.com/?id=1221

1，

pyspark

2，

spark-shell

spark网页管理页面：

http://127.0.0.1:4040/jobs/

3，

设置日志输出：

log4j.properties.template。把这个日志设置模版文件复制一份到conf/log4j.

properties 来作为日志设置文件，接下来找到下面这一行：

log4j.rootCategory=INFO, console

然后通过下面的设定降低日志级别，只显示警告及更严重的信息：

log4j.rootCategory=WARN, console

修改spark临时文件存放路径：

conf 下的spark-defaults.conf，增加如下一行：

spark.local.dir /diskb/sparktmp,/diskc/sparktmp,/diskd/sparktmp,/diske/sparktmp,/diskf/sparktmp,/diskg/sparktmp

说明：可配置多个目录，以 "," 分隔。

也配置spark-env.sh下增加

export SPARK_LOCAL_DIRS=spark.local.dir /diskb/sparktmp,/diskc/sparktmp,/diskd/sparktmp,/diske/sparktmp,/diskf/sparktmp,/diskg/sparktmp

如果spark-env.sh与spark-defaults.conf都配置，则SPARK_LOCAL_DIRS覆盖spark.local.dir 的配置

5，

运行spark程序的几种方式：

spark submit：

spark-submit \

--class

--master [spark://207.184.161.138:7077]

--deploy-mode []

--conf []

--executor-memory []

--total-executor-cores []

[application .jar ]

[application args]

PI:

spark-submit --class org.apache.spark.examples.JavaSparkPi --master local[4] spark-example.jar

wordcount：

spark-submit --class org.apache.spark.examples.JavaWordCount --master local[4] spark-example.jar hdfs://localhost:9000/user/lenovo/wordcount/README.md

sql：

spark-submit --class org.apache.spark.examples.sql.JavaSparkSQLExample --master local[4] examples/jars/spark-examples_2.11-2.3.0.jar

structed streaming：

下载netcat(https://eternallybored.org/misc/netcat/netcat-win32-1.12.zip)

解压，将nc.exe拷贝到C:\Windows下。

nc -l -p 9999

spark-submit --class org.apache.spark.examples.sql.streaming.StructuredNetworkWordCount --master local[4] examples/jars/spark-examples_2.11-2.3.0.jar localhost 9999

spark streaming：

spark-submit --class org.apache.spark.examples.streaming.JavaNetworkWordCount --master local[4] examples/jars/spark-examples_2.11-2.3.0.jar localhost 9999

随机森林：

spark-submit --class org.apache.spark.examples.ml.JavaRandomForestClassifierExample --master local[4] examples/jars/spark-examples_2.11-2.3.0.jar

pipeline:

spark-submit --class org.apache.spark.examples.ml.JavaEstimatorTransformerParamExample --master local[4] examples/jars/spark-examples_2.11-2.3.0.jar

spark-submit --class org.apache.spark.examples.ml.PipelineExample --master local[4] examples/jars/spark-examples_2.11-2.3.0.jar

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

spark小例子

spark入门小例子的相关文章

Spark集群安装部署

目录一环境准备二安装步骤三使用Standalone模式四使用Yarn模式一环境准备由于Spark仅仅是一种计算机框架不负责数据的存储和管理因此通常都会将Spark和Hadoop进行统一部署由Hadoop中的HD
分类算法之朴素贝叶斯

1 朴素贝叶斯分类算法朴素贝叶斯 Naive Bayes NB 算法是基于贝叶斯定理与特征条件独立假设的分类方法该算法是有监督的学习算法解决的是分类问题是将一个未知样本分到几个预先已知类别的过程朴素贝叶斯的思想就是根据某些个先验概
Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作

一案例说明现有一电商网站数据文件名为buyer favorite1 记录了用户对商品的收藏数据数据以 t 键分割数据内容及数据格式如下二前置准备工作项目环境说明 Linux Ubuntu 16 04 jdk 7u75 lin
重新定义分析 - EventBridge 实时事件分析平台发布

对于日志分析大家可能并不陌生在分布式计算大数据处理和 Spark 等开源分析框架的支持下每天可以对潜在的数百万日志进行分析事件分析则和日志分析是两个完全不同的领域事件分析对实时性的要求更高需要磨平事件领域中从半结构化到结构化的消
java中使用spark如何将column多列合为一列

接下来介绍几种使用spark将DataFrame中一行的多列合并到一列中并且该列以不同的类型展示保存 1 建立dataset 自己需要连接的mongo库 private static String datasource 自己需要连接的mo
SparkSQL HiveSQL 常用正则表达式

SparkSQL HiveSQL 常用正则表达式目录 SparkSQL HiveSQL 常用正则表达式 1 匹配汉字 2 匹配手机号码 3 匹配身份证 4 SparkSQL HiveSQL 常用正则函数 5 SparkSQL 分组聚合
【Apache Spark 】第 1 章Apache Spark 简介：统一分析引擎

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
Spark Job写文件个数的控制以及小文件合并的一个优化

文章目录背景说明通过引入额外Shuffle对写入数据进行合并 EnsureRepartitionForWriting Rule CoalesceShufflePartitions Rule OptimizeShuffleWithLoca
大数据spark开发入门教程

大数据是互联网发展的方向大数据人才是未来的高薪贵族随着大数据人才的供不应求大数据人才的薪资待遇也在不断提升如果你也想进入大数据行业也想学习大数据技术大数据讲师认为可以先从spark技术开始一 Spark是什么 Spark是一
spark-submit 报错 Initial job has not accepted any resources

spark submit 报这样的错误 WARN scheduler TaskSchedulerImpl Initial job has not accepted any resources check your cluster UI to
spark groupByKey和groupBy，groupByKey和reduceByKey的区别

1 groupByKey Vs groupBy 用于对pairRDD按照key进行排序 author starxhong object Test def main args Array String Unit val sparkConf n
Spark 任务调度机制

1 Spark任务提交流程 Spark YARN Cluster模式下的任务提交流程如下图所示图YARN Cluster任务提交流程下面的时序图清晰地说明了一个Spark应用程序从提交到运行的完整流程图Spark任务提交时序图提交
【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)

欢迎关注博客主页 https blog csdn net u013411339 本文由王知无原创首发于 CSDN博客本文首发CSDN论坛未经过官方和本人允许严禁转载欢迎点赞收藏留言欢迎留言交流声明本篇博客在我之前发表
spark-3.1.2兼容多版本hive

2 3 9版本Hive的支持直接在实例化SparkSession时启用hive支持即可例如 val spark SparkSession builder appName Spark Hive Example config spark
Spark的常用概念总结

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一基本概念 1 RDD的生成 2 RDD的存储 3 Dependency 4 Transformation和Action 4 1 Transformatio
sparkstreamming 消费kafka(2)

spark streaming提供了两种获取方式一种是同storm一样实时读取缓存到内存中另一种是定时批量读取这两种方式分别是 Receiver base Direct 一 Receiver base Spark官方最先提供了基于R
sparkstreamming 消费kafka(1)

pom
Spark常用参数解释

Spark的默认配置文件位于堡垒机上的这个位置 SPARK CONF DIR spark defaults conf 用户可以自行查看和理解需要注意的是默认值优先级最低用户如果提交任务时或者代码里明确指定配置则以用户配置为先用户再
Spark SQL 项目：实现各区域热门商品前N统计

一需求1 1 需求简介这里的热门商品是从点击量的维度来看的计算各个区域前三大热门商品并备注上每个商品在主要城市中的分布比例超过两个城市用其他显示 1 2 思路分析使用 sql 来完成碰到复杂的需求可以使用 udf 或 udaf查
阿里技术官亲笔力作：Kafka限量笔记，一本书助你掌握Kafka的精髓

前言分布式堪称程序员江湖中的一把利器无论面试还是职场皆是不可或缺的技能而Kafka 这款分布式发布订阅消息队列的璀璨明珠其魅力之强大无与伦比对于Kafka的奥秘我们仍需继续探索要论对Kafka的熟悉程度恐怕阿里的大佬们

随机推荐

数据库查询优化 --- 索引 Index

数据库查询优化索引 Index 什么是索引索引的实现方法聚集索引和非聚簇索引聚集索引非聚集索引组合索引索引的使用适合使用索引的场景不适合使用索引的场景 SQL创建索引什么是索引没有加索引的数据它的数据无序的放置在
串级PID与单极PID的区别

目录前言一什么是串级PID 二串级PID与单极PID比较 1 控制小车开到某一位置 2 平衡小车速度控制三什么时候用串级PID 结语前言本文将讲述串级PID与单极PID的区别并由此引出什么时候用串级PID 对于想深入学习P
electron vue3 + ts 初始化项目

新建 vue3 ts 项目 npm init vitejs app electron demo 选择 vue ts 等待项目创建完成安装 electron npm i electron D 确认 node modules electron
【C++入门】运算符重载详解

1 什么是运算符重载不可重载运算符运算符含义成员访问运算符 gt 和成员指针访问运算符域运算符 sizeof 长度运算符条件运算符预处理符号 1 运算符运算符分为算术运算符关系运算符逻辑运算符等 2 运算符重载给运算
idea授权服务器

这里提供一个我已经搭建好的idea授权服务器 http ysk521 cn 1017
ctfshow萌新红包题writeup

ctfshow萌新专属红包题writeup 题目来源 https ctf show 这一题是ctfshow平台上面2月17日更新的一个萌新红包题当天在官方交流群内知道晚上会有一个萌新红包题之后就有点期待了小萌新也想拿一次红包嘿嘿下
推挽输出和开漏输出区别

推挽输出可以输出高低电平连接数字器件输出 0 时 N MOS 导通 P MOS 高阻输出0 输出 1 时 N MOS 高阻 P MOS 导通输出1 不需要外部上拉电路开漏输出输出端相当于三极管的集电极要得到高电平状态需要上
同步代码块、io、file常用的方法、流

一同步 1 同步代码块把要实现线程安全的代码放在同步代码块中 java中任何对象内部都有一个开关你可以理解为标志位 1就是表示关 0就表示开 2 同步方法二 io input输入 output输出计算机中的文件以及文件中的内容 F
maven的下载安装配置教程（详细图文）

maven的下载安装配置教程详细图文一 maven的下载 https maven apache org download cgi 下载zip文件二 maven的安装注意 maven的安装需要依赖jdk的安装所以必须先安装完成jdk
STM32的PWM相关函数TIM_SetCompare1的一定理解

void TIM SetCompare1 TIM TypeDef TIMx uint16 t Compare1 Check the parameters assert param IS TIM LIST8 PERIPH TIMx Set t
mysql-mmm集群

一 Mysql mmm集群技术概述概述 MMM Master Master replication manager for MySQL 是一套支持双主故障切换和双主日常管理的脚本程序 MMM使用Perl语言开发主要用来监控和管理MySQ
RecyclerView（一）—— ListView的使用

ListView ListView在过去绝对可以称得上是Android中最常用的控件之一几乎所有的应用程序都会用到它由于手机屏幕空间比较有限能够一次性在屏幕上显示的内容并不多当我们的程序中有大量的数据需要展示的时候就可以借助Lis
vscode给某行代码添加标签

只有你习惯于一种编程工具风格 vscode几乎都能给你做的 Numbered Bookmarks 数字标签跳转类似与webstrom 定义 Ctrl SHIFT 数字跳转 Ctrl 数字 vscode给某行代码添加标签标注用于代码间快
Qt使用QJSEngine执行脚本

有时候需要进行一些计算程序是使用c 来实现的使用c 来进行计算不是很灵活这时候可以使用脚本来进行计算这样灵活且易于扩展写了一个简单的Demo进行验证具体例子如下 include
Java - 带参的异常处理模块try(xxx){...}

带资源的try语句 try with resource 的最简形式为 try Resource res xxx 可指定多个资源 do something try块退出时会自动调用res close 方法关闭资源其实这样做的原因主要是
mysql24,Mysql24之事务隔离级别和MVCC

TOC 事前准备为了故事的顺利发展我们需要创建一个表 CREATE TABLE hero number INT name VARCHAR 100 country varchar 100 PRIMARY KEY number Engine
mmdetection 中 Mask Rcnn检测结果可视化（DICE计算、PR曲线绘制等）

mmdetection中的Mask Rcnn是一个很不错的检测网络既可以实现目标检测也可以实现语义分割官方也有很详细的doc指导但是对新手来说并不友好刚好之前笔者写的mmlab系列里面关于可视化都还没有一个详细的文档也在此一并介
逆向破解之破解补丁与劫持Dll

破解补丁前言破解补丁的作用是修改程序内存地址的硬编码以此来实现破解软件这是常见的JE跳转用来判断注册码是否正确若401108位置的汇编指令给Nop掉就能实现破解编写代码 1 C语言运行程序后输入要破解的程序进程ID inclu
yolov5源码解读--训练策略

yolov5源码解读训练策略超参数解读命令行参数 train 模型迭代测试超参数解读 hyp scratch yaml lr0 0 0032 初始学习率 lrf 0 12 使用余弦函数动态降低学习率 lr0 lrf momentu
spark入门小例子

来源我是码农转载请保留出处和链接本文链接 http www 54manong com id 1221 1 pyspark 2 spark shell spark网页管理页面 http 127 0 0 1 4040 jobs 3 设置日

spark入门小例子

spark入门小例子 的相关文章

随机推荐

热门标签

spark入门小例子的相关文章