spark

java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream

使用不带hadoop的spark包在成功启动pyspark前需要在spark的配置文件conf spark env sh里指定hadoop 格式是spark要求好的现在以hadoop这个命令已经在环境变量中存在的情况为例 spark e

big data spark

Spark高手之路3—Spark运行架构

文章目录 Spark 运行架构一运行架构二核心组件 Driver Executor Master Worker ApplicationMaster 三核心概念 1 Executor 与 Core 2 并行度 Parallelism

Spark高手之路 spark 架构 大数据

Spark数据分析之pyspark

一大数据简史从hadoop到Spark 1 hadoop的出现 1 问题 1990年电商爆发以及机器产生了大量数据单一的系统无法承担 2 办法为了解决 1 的问题许多公司尤其是大公司领导了普通硬件集群的水平扩展 3 执行 had

PySpark spark 数据分析pyspark

数据仓库模型设计V2.0

一数仓建模的意义数据模型就是数据组织和存储方法它强调从业务数据存取和使用角度合理存储数据只有将数据有序的组织和存储起来之后数据才能得到高性能低成本高效率高质量的使用高性能良好的数据模型能够帮助我们快速查询所需要的数据

数据仓库 数据建模 实战 spark 大数据

Adaptive让 Spark SQL 更高效更智能

本文转发自技术世界原文链接 http www jasongj com spark adaptive execution 1 背景前面 Spark SQL Catalyst 内部原理与 RBO 与 Spark SQL 性能优化再进一步

spark Adaptive

大数据平台搭建

一安装前准备 1 查看防火墙状态 2 关闭防火墙分别在三台虚拟机上操作 root slave2 systemctl status firewalld service firewalld service firewalld dynamic

spark hive scala

Spark学生答题情况分析

目录 1 流程分析 2 业务模块划分 3 创建模块包结构 4 准备Kafka主题 4 1 测试发送数据到Kafka 5 需求 5 1 代码实现 6 需求 6 1 准备模型直接训练并使用 6 2 代码实现 7 学生答题情况离线分析 7 1

spark kafka Zookeeper

第二章分类模型-决策树知识点详细总结

机器学习算法系列第一章分类模型逻辑回归知识点详细总结第二章分类模型决策树知识点详细总结第三章分类模型随机森林知识点详细总结第四章分类模型支持向量机SVM知识点详细总结第五章关联分析 apriori算法知识点详细总结目

scala python 机器学习 算法 spark

Scala安装与环境配置

一 Scala和Python java的区别 Scala是一门多范式编程语言用于操作Spark 相较于java 由于Spark底层用Scala编写因此对于大数据Spark项目场景Scala代码更加简洁 java过于冗长并且Scala支

scala spark 大数据

dockers报错：Cannot connect to the Docker daemon

异常信息 22 01 14 13 58 44 Reporter INFO YarnAllocator Completed container container e118 5690061100801 24379300 01 000066 o

spark hive 其他 dockers

对spark dataframe join之后的列值NULL值进行填充为指定数值的操作

众所周知两个数据集如A B取JOIN操作的时候其结果往往会出现NULL值的出现这种情况是非常不利于后续的分析与计算的特别是当涉及到对这个数值列进行各种聚合函数计算的时候针对这种问题当然从最简单的dataframe map来处理是

spark join NULL值填充

安装Scala

前言本文主要讲解如何在Windows10中安装Scala 并在IDEA中配置Scala的开发环境 Scala作为大数据开发中的常用编程语言特别是Spark更是直接用Scala开发而来因此使用Scala进行大数据开发十分必要下载安装包

大数据 scala spark intellijidea

大数据代表技术：Hadoop、Spark、Flink、Beam

大数据代表技术 Hadoop Spark Flink Beam Hadoop 从2005年到2015年说到大数据都是讲hadoop Hadoop是一整套的技术框架不是一个单一软件它是一个生态系统 Hadoop有两大核心第一个是它解决

大数据 spark

Spark

1 Spark概述 Spark是一个支持多语言的数据计算科学计算机器学习引擎同时支持单节点或者集群运行模式其强大的功能包括批处理结构化的SQL计算流式计算机器学习库图计算等 2 Spark集群环境的搭建 1 下载解压安装包

大数据 spark Hadoop big data

离线图书推荐,使用sparkMLlib ALS协同过滤算法

图书推荐使用sparkMLlib ALS协同过滤算法 bookcrossing数据集 Scala语言虚拟机ieda平台代码参照HADOOP大数据实战权威指南第十一章只能说算是能运行出结果了吧 package com csu impo

spark

Kafka学习（三）——Java工具类、Springboot集成批量消费、SparkStreaming集成

文章目录前言一 Java中工具类 1 添加maven依赖 2 消费者 KafkaConsumerTest 3 生产者 KafkaProducerTest 二 SpringBoot中使用 4 1 引入依赖 4 2 application

kafka spring boot spark

分布式计算框架Spark集群实战

一 Spark整体架构 1 Spark集群架构从集群部署的角度看 Spark集群由集群管理器 Cluster Manager 工作节点 Worker 执行器 Executor 驱动器 Driver 应用程序 Application 等部分

Hadoop Hive Spark 大数据安全 spark 大数据 分布式

Spark提交参数说明和常见优化

会用spark 会调api和能用好spark是两回事在进行开发的过程中不仅要了解运行原理还要了解业务将合适的方法和业务场景合适的结合在一起才能发挥最大的价值 spark submit 进入spark的home目录执行以下命令查看

Spark spark 大数据 Hadoop

Hadoop学习笔记(1)

原文 http www cnblogs com zjfstudio p 3859704 html Hadoop学习笔记 1 菜鸟入门 Hadoop是什么先问一下百度吧百度百科一个分布式系统基础架构由Apache基金会所开发用户可以

spark