Spark（火花）快速、通用的大数据处理引擎框架

2023-11-11

一、什么是Spark（火花）？

是一种快速、通用处理大数据分析的框架引擎。

二、Spark的四大特性

1.快速：
Spark内存上采用DAG（有向无环图）执行引擎非循环数据流和内存计算支持。内存上比MapReduce快速100倍，磁盘上快10倍左右

MapReduce存储读取在磁盘上，大数据批量处理系统

2.简洁性

编程起来很简单，Spark由Scala编写，方法式操作

Scala-Python-java

3.通用性

一站式相当于JAR包，结合SQL、流、库、图形、Apache Spark

4.运行方式环境

单独运行集群 hadoop 云端

Spark与MapReduce（数据的处理引擎）的相比的区别？

1.基本原理

MapReduce是基于磁盘的大数据批量处理系统

Spark：基于RDD（弹性分布式数据处理集）数据处理，显式的将RDD数据存储到磁盘或者内存中

2.从模型上

MapReduce可以处理批量数据，适用于日志分析挖掘

Spark适合数据的挖掘

3.容错性

a）数据的容错性:

b)节点的容错性：spark lineage

Spark的编译

1.SBT编译 --scala编译

2.maven编译

安装jdk

下载地址：www.oracle.com/technetwork/java/javase/downloads/jdk9-downloads-3848520.html

安装maven

下载地址：maven.apache.org/download.cgi

2、配置环境变量

# sudo vim /etc/profile

JAVA_HOME=/opt/data02/jdk-9.0.1
CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin
export JAVA_HOME JRE_HOME CLASS_PATH PATH

MAVEN_HOME=/opt/data02/apache-maven-3.5.2
PATH=$PATH:$MAVEN_HOME/bin

#SCALA
SCALA_HOME=/opt/data02/SCALA
PATH=$PATH:$SCALA_HOME/bin

3、使配置文件立即生效

source /etc/profile

需要FQ的两个注意事项

1.sudo vi /etc/resolv.conf 添加

nameserver 8.8.8.8

nameserver 8.8.4.4

2.在maven 的setting.xml中添加

<mirror>
            <id>osc_thirdparty</id>
            <mirrorOf>thirdparty</mirrorOf>
            <url>http://maven.oschina.net/content/repositories/thirdparty/</url>
        </mirror>

3.打包编译

检测语言世界语中文简体中文繁体丹麦语乌克兰语乌兹别克语乌尔都语亚美尼亚语伊博语俄语保加利亚语僧伽罗语克罗地亚语冰岛语加利西亚语加泰罗尼亚语匈牙利语南非祖鲁语卡纳达语印地语印尼巽他语印尼爪哇语印尼语古吉拉特语哈萨克语土耳其语塔吉克语塞尔维亚语塞索托语威尔士语孟加拉语宿务语尼泊尔语巴斯克语布尔语(南非荷兰语)希伯来语希腊语德语意大利语意第绪语拉丁语拉脱维亚语挪威语捷克语斯洛伐克语斯洛文尼亚语斯瓦希里语旁遮普语日语格鲁吉亚语毛利语法语波兰语波斯尼亚语波斯语泰卢固语泰米尔语泰语海地克里奥尔语爱尔兰语爱沙尼亚语瑞典语白俄罗斯语立陶宛语索马里语约鲁巴语缅甸语罗马尼亚语老挝语芬兰语苗语英语荷兰语菲律宾语葡萄牙语蒙古语西班牙语豪萨语越南语阿塞拜疆语阿尔巴尼亚语阿拉伯语韩语马其顿语马尔加什语马拉地语马拉雅拉姆语马来语马耳他语高棉语齐切瓦语

世界语中文简体中文繁体丹麦语乌克兰语乌兹别克语乌尔都语亚美尼亚语伊博语俄语保加利亚语僧伽罗语克罗地亚语冰岛语加利西亚语加泰罗尼亚语匈牙利语南非祖鲁语卡纳达语印地语印尼巽他语印尼爪哇语印尼语古吉拉特语哈萨克语土耳其语塔吉克语塞尔维亚语塞索托语威尔士语孟加拉语宿务语尼泊尔语巴斯克语布尔语(南非荷兰语)希伯来语希腊语德语意大利语意第绪语拉丁语拉脱维亚语挪威语捷克语斯洛伐克语斯洛文尼亚语斯瓦希里语旁遮普语日语格鲁吉亚语毛利语法语波兰语波斯尼亚语波斯语泰卢固语泰米尔语泰语海地克里奥尔语爱尔兰语爱沙尼亚语瑞典语白俄罗斯语立陶宛语索马里语约鲁巴语缅甸语罗马尼亚语老挝语芬兰语苗语英语荷兰语菲律宾语葡萄牙语蒙古语西班牙语豪萨语越南语阿塞拜疆语阿尔巴尼亚语阿拉伯语韩语马其顿语马尔加什语马拉地语马拉雅拉姆语马来语马耳他语高棉语齐切瓦语

文本转语音功能仅限200个字符

选项 : 历史 : 反馈 : Donate

关闭

转载于:https://www.cnblogs.com/gyadmin/p/8258227.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark（火花）快速、通用的大数据处理引擎框架的相关文章

(Java) App Engine 中的静态文件无法访问

The 示例文档 http code google com appengine docs java gettingstarted staticfiles html表示您只需将文件放在 war 或子目录中并且应该可以从主机访问它们只要它
在 Scala 中设计方便的默认值映射

我发现自己使用了很多嵌套映射例如 Map Int Map String Set String 并且我希望在访问新密钥时自动创建新的 Map Set 等例如像下面这样 val m m 1992 foo bar 请注意如果不需要我不想
为什么Iterator接口没有add方法

In IteratorSun 添加了remove 方法来删除集合中最后访问的元素为什么没有add方法来向集合中添加新元素它可能对集合或迭代器产生什么样的副作用好的我们开始吧设计常见问题解答中明确给出了答案为什么不提供 Iter
在 MongoDB 和 Apache Solr 之间同步数据的简单方法

我最近开始使用 MongoDB 和 Apache Solr 我使用 MongoDB 作为数据存储并且希望 Apache Solr 为我的数据创建索引以实现应用程序中的搜索功能经过一些研究我发现基本上有两种方法可以在 MongoDB
如何使用正则表达式验证 1-99 范围？

我需要验证一些用户输入以确保输入的数字在 1 99 范围内含这些必须是整数 Integer 值允许前面加 0 但可选有效值 1 01 10 99 09 无效值 0 007 100 10 5 010 到目前为止我已经制定了以下正则
从休眠乐观锁定异常中恢复

我有一个这样的方法 Transactional propagation Propagation REQUIRES NEW public void doSomeWork Entity entity dao loadEntity do some
添加到列表时有没有办法避免循环？

我想知道这样的代码 List
如何删除日期对象的亚秒部分

当 SQL 数据类型为时间戳时 java util Date 存储为 2010 09 03 15 33 22 246 如何在存储记录之前将亚秒设置为零例如在本例中为 246 最简单的方法是这样的 long time date getTi
Java、Spring：使用 Mockito 测试 DAO 的 DataAccessException

我正在尝试增加测试覆盖率所以我想知道您将如何测试 DAO 中抛出的 DataAccessExceptions 例如在一个简单的 findAll 方法中该方法仅返回数据源中的所有数据就我而言我使用 Spring JdbcTempla
用于缓存的 Servlet 过滤器

我正在创建一个用于缓存的 servlet 过滤器这个想法是将响应主体缓存到memcached 响应正文由以下方式生成结果是一个字符串 response getWriter print result 我的问题是由于响应正文将不加修改地放
在 Clojure 中解压缩 zlib 流

我有一个二进制文件其内容由zlib compress在Python上有没有一种简单的方法可以在Clojure中打开和解压缩它 import zlib import json with open data json zlib wb as
JAVA中遍历JSON数据

我是 JSON 新手我使用 HTTPUrlConnections 并在 JAVA 程序中获得一些响应响应数据将类似于 data id 1 userId 1 name ABC modified 2014 12 04 created 201
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
避免 Java 中的重复导入：继承导入？

有没有办法继承导入 Example 常见枚举 public enum Constant ONE TWO THREE 使用此枚举的基类 public class Base protected void register Constant
无需登录即可直接从 Alfresco 访问文件/内容

我的场景是这样的我有一个使用 ALFRESCO CMS 来显示文件或图像的 Web 应用程序我正在做的是在 Java servlet 中使用用户名和密码登录 alfresco 并且我可以获得该登录的票证但我无法使用该票证直接从浏览器访
禁用 Android 菜单组

我尝试使用以下代码禁用菜单组但它不起作用菜单项仍然启用你能告诉我出了什么问题吗资源菜单 menu xml menu menu
ECDH使用Android KeyStore生成私钥

我正在尝试使用 Android KeyStore Provider 生成的私有文件在 Android 中实现 ECDH public byte ecdh PublicKey otherPubKey throws Exception try
记录类名、方法名和行号的性能影响

我正在我的 java 应用程序中实现日志记录以便我可以调试应用程序投入生产后可能出现的潜在问题考虑到在这种情况下人们不会奢侈地使用 IDE 开发工具以调试模式运行事物或单步执行完整代码因此在每条消息中记录类名方法名和行号将非常有
ArrayList.clear() 和 ArrayList.removeAll() 有什么区别？

假如说arraylist定义为ArrayList
将对象从手机共享到 Android Wear

我创建了一个应用程序在此应用程序中您拥有包含 2 个字符串姓名和年龄和一个位图头像的对象所有内容都保存到 sqlite 数据库中现在我希望可以在我的智能手表上访问这些对象所以我想实现的是你可以去启动启动应用程序并向左和向

随机推荐

Python编程之理解对象

1 python中的函数和类均是对象体现在以下几方面 1 都可以赋值给一个变量 2 可以添加到集合对象中 3 可以作为参数传递给函数 4 可以当作函数的返回值如果一个函数没有return语句则默认返回None 2 type class
什么是用户token（令牌）-- 转

在目前的互联网或者计算机网络技术中经常会听到token或者令牌这个词那有没有想过 token或者说令牌到底是什么东西有什么作用为什么token的中文翻译是令牌其实这个问题也困扰了我很长的时间长久以来我都是从token的形式
混合开发监听安卓手机物理返回键

混合开发监听安卓手机物理返回键在用h5做混合开发过程中由于有个考试考试页面中途不能退出退出要添加确认操作所以需要监听手机的返回操作不让用户直接通过返回键返回目前了解到混合开发中有两种方式监听方式一监听popstate 用到的
指针式仪表识别读数 Python（已开源数据集）

目录一前言二使用方法 1 安装相关的库 2 运行三方法说明 MeterDetection类说明类参数主函数 self ImgCutCircle 截取表盘区域滤除背景 self ContoursFilter 对轮廓进行筛选
linux下的shell 快捷键

linux下的shell 快捷键 2011 05 24 14 06 51 转载标签杂谈分类 linux Ctrl p重复上一次命令 Ctrl a跳到第一个字符前 Ctrl x同上但再按一次会从新回到原位置 Ctrl b前移一个字符不删
深度探索C++对象模型（20）——函数语义学（4）——多继承第二基类对虚函数支持的影响、虚继承下的虚函数

1 多继承第二基类对虚函数支持的影响子类继承了几个父类子类就有几个虚函数表 this指针调整的目的就是让对象指针正确的指向对象首地址从而能正确的调用对象的成员函数或者说正确确定数据成员的存储位置多重继承下有几种情况第二个或者后续
ubuntu设置共享文件夹与linux进行文件共享

1 打开虚拟机设置选项共享文件夹添加一个文件夹路径这个路径是windows下的路径比如说E盘可以在E盘里面新建一个 share文件夹然后确定 2 在Linux目录下 cd mnt hgfs E share 就可以看到里面的文
NoSQL的概念

NoSQL概述发展历程 1 单机MySQL的年代网站发展之初网站的访问量基本不会太大单个数据库完全足够那个时候基本都是静态网页HTML服务器没有压力数据量如果太大一个机器放不下了 B Tree 索引也放不下了访问量太大一个
yum安装软件时报错libmysqlclient.so.18()(64bit)

环境 CentOS 7 4 使用阿里yum的网络源问题使用yum安装软件时报错 2 postfix 2 10 1 6 el7 x86 64 has missing requires of libmysqlclient so 18 64b
PyQt5中为QTextEdit的某些字符单独设置大小和颜色

QTextEdit支持富文本因此您可以将css样式与html一起用于QTextEdit中的文本可以使用不同的样式附加不同的富文本为方便起见只需创建一些格式化文本并将相应的文本传递给python string的format方法来创建
[Linux安装软件详解系列]01 安装MySQL8.0

目录 1 检查有没有安装MySQL 2 安装MySQL8 0 1 下载 rpm文件 2 上传rpm文件到服务器 3 安装rpm文件 4 查看安装好的包 5 安装MySQL 5 启动MySQL 3 本地登录 1 查看默认密码 2 本地登录My
这注定是一场独一无二的旅行——周年纪念日 [form 2022 to 2023]

啊哈竟然已经一周年了还记得自己写了两三篇博客以后就停写了很久很久总是因为各种各样的事情拖沓直到有一天CSDN轻轻敲醒了我沉睡的心灵忽然意识到自己好久没写了也让我去想自己的初衷为何而写 Why 一直觉得内容创作是一个很酷的事
华为OD机试 Python 查找人名

描述有一串由逗号分隔的人名每个人名可能由一个或多个单词组成请你设计一个方法根据指定的前缀串找出与前缀匹配的人名前缀串的构造是由人名中每个单词的第一个字母组合而成输入一串用逗号分隔的人名一个前缀串输出匹配前缀串的所有人名
吴恩达机器学习之路---logistic regression

logistic regression 一 Logistic 回归利用matlib实现基础版 1 logistic regression数学基础 1 1 此示例为二元分类二元分类的最终预测结果h为 0 1 为获得此效果使用sigmo
02-----带宽分析-----码流、分辨率、帧率的概念及如何计算视频带宽

相关文章 01 带宽分析下载nmon分析软件一码流分辨率帧率的概念 1 码流码流 Data Rate 是指视频文件在单位时间内使用的数据流量也叫码率或码流率是视频编码中画面质量控制中最重要的部分一般我们用的单位是Kb s或
Java线程学习实例——采用同步锁，互斥锁与同步锁的区别，synchronized的使用方法

栗子来源 https blog csdn net wenzhi20102321 article details 52524545 首先对java中同步锁与互斥锁进行区分主要来源于知乎中的大佬总结如下 1 锁的概念锁的目的就是避免多个线程
FTP服务器的文件模式属于,FTP服务器的文件模式属于

FTP服务器的文件模式属于内容精选换一换在SAP HANA系统中 Shared卷和Backup卷由SFS Turbo提供时需要创建一个SFS Turbo 提供共享路径给SAP HANA节点表1列出了弹性文件服务的常用功能在使用弹
uc浏览器解析视频源码，不废话，直接源码

package cn rs blog service jiexi import com jfinal kit HttpKit import org apache http client CookieStore import org apac
计算时间复杂度--（简单版）

步骤 1 找到执行次数最多的语句 2 语句执行语句的数量级 3 用O表示结果计算时间复杂度的3个出发点掌握这三个出发点那么一向搞不懂的时间复杂度就可以迎刃而解啦然后 1 用常数1取代运行时间中的所有加法常数 2 在修改后的运行次数函
Spark（火花）快速、通用的大数据处理引擎框架

一什么是Spark 火花是一种快速通用处理大数据分析的框架引擎二 Spark的四大特性 1 快速 Spark内存上采用DAG 有向无环图执行引擎非循环数据流和内存计算支持内存上比MapReduce快速100倍磁盘上快10倍左右

Spark（火花）快速、通用的大数据处理引擎框架

Spark（火花）快速、通用的大数据处理引擎框架 的相关文章

随机推荐

热门标签

Spark（火花）快速、通用的大数据处理引擎框架的相关文章