Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream
使用不带hadoop的spark包 在成功启动pyspark前需要在spark的配置文件conf spark env sh里指定hadoop 格式是spark要求好的 现在以hadoop这个命令已经在环境变量中存在的情况为例 spark e
big data
spark
Spark高手之路3—Spark运行架构
文章目录 Spark 运行架构 一 运行架构 二 核心组件 Driver Executor Master Worker ApplicationMaster 三 核心概念 1 Executor 与 Core 2 并行度 Parallelism
Spark高手之路
spark
架构
大数据
Spark数据分析之pyspark
一 大数据简史 从hadoop到Spark 1 hadoop的出现 1 问题 1990年 电商爆发以及机器产生了大量数据 单一的系统无法承担 2 办法 为了解决 1 的问题许多公司 尤其是大公司领导了普通硬件集群的水平扩展 3 执行 had
PySpark
spark
数据分析pyspark
数据仓库模型设计V2.0
一 数仓建模的意义 数据模型就是数据组织和存储方法 它强调从业务 数据存取和使用角度合理存储数据 只有将数据有序的组织和存储起来之后 数据才能得到高性能 低成本 高效率 高质量的使用 高性能 良好的数据模型能够帮助我们快速查询所需要的数据
数据仓库
数据建模
实战
spark
大数据
Adaptive让 Spark SQL 更高效更智能
本文转发自技术世界 原文链接 http www jasongj com spark adaptive execution 1 背景 前面 Spark SQL Catalyst 内部原理 与 RBO 与 Spark SQL 性能优化再进一步
spark
Adaptive
大数据平台搭建
一 安装前准备 1 查看防火墙状态 2 关闭防火墙 分别在三台虚拟机上操作 root slave2 systemctl status firewalld service firewalld service firewalld dynamic
spark
hive
scala
Spark学生答题情况分析
目录 1 流程分析 2 业务模块划分 3 创建模块包结构 4 准备Kafka主题 4 1 测试发送数据到Kafka 5 需求 5 1 代码实现 6 需求 6 1 准备模型 直接训练并使用 6 2 代码实现 7 学生答题情况离线分析 7 1
spark
kafka
Zookeeper
第二章 分类模型-决策树知识点详细总结
机器学习算法系列 第一章 分类模型 逻辑回归知识点详细总结 第二章 分类模型 决策树知识点详细总结第三章 分类模型 随机森林知识点详细总结第四章 分类模型 支持向量机SVM知识点详细总结第五章 关联分析 apriori算法知识点详细总结 目
scala
python
机器学习
算法
spark
Scala安装与环境配置
一 Scala和Python java的区别 Scala是一门多范式编程语言 用于操作Spark 相较于java 由于Spark底层用Scala编写 因此对于大数据Spark项目场景Scala代码更加简洁 java过于冗长 并且Scala支
scala
spark
大数据
dockers报错:Cannot connect to the Docker daemon
异常信息 22 01 14 13 58 44 Reporter INFO YarnAllocator Completed container container e118 5690061100801 24379300 01 000066 o
spark
hive
其他
dockers
对spark dataframe join之后的列值NULL值进行填充为指定数值的操作
众所周知 两个数据集如A B取JOIN操作的时候 其结果往往会出现NULL值的出现 这种情况是非常不利于后续的分析与计算的 特别是当涉及到对这个数值列进行各种聚合函数计算的时候 针对这种问题 当然从最简单的dataframe map来处理是
spark
join
NULL值填充
安装Scala
前言 本文主要讲解如何在Windows10中安装Scala 并在IDEA中配置Scala的开发环境 Scala作为大数据开发中的常用编程语言 特别是Spark更是直接用Scala开发而来 因此使用Scala进行大数据开发十分必要 下载安装包
大数据
scala
spark
intellijidea
大数据代表技术:Hadoop、Spark、Flink、Beam
大数据代表技术 Hadoop Spark Flink Beam Hadoop 从2005年到2015年 说到大数据都是讲hadoop Hadoop是一整套的技术框架 不是一个单一软件 它是一个生态系统 Hadoop有两大核心 第一个是它解决
大数据
spark
Spark
1 Spark概述 Spark是一个支持多语言的数据计算 科学计算 机器学习引擎 同时支持单节点或者集群运行模式 其强大的功能包括 批处理 结构化的SQL计算 流式计算 机器学习库 图计算等 2 Spark集群环境的搭建 1 下载解压安装包
大数据
spark
Hadoop
big data
离线图书推荐,使用sparkMLlib ALS协同过滤算法
图书推荐 使用sparkMLlib ALS协同过滤算法 bookcrossing数据集 Scala语言 虚拟机ieda平台 代码参照HADOOP大数据实战权威指南第十一章 只能说算是能运行出结果了吧 package com csu impo
spark
Kafka学习(三)——Java工具类、Springboot集成批量消费、SparkStreaming集成
文章目录 前言 一 Java中工具类 1 添加maven依赖 2 消费者 KafkaConsumerTest 3 生产者 KafkaProducerTest 二 SpringBoot中使用 4 1 引入依赖 4 2 application
kafka
spring boot
spark
分布式计算框架Spark集群实战
一 Spark整体架构 1 Spark集群架构 从集群部署的角度看 Spark集群由集群管理器 Cluster Manager 工作节点 Worker 执行器 Executor 驱动器 Driver 应用程序 Application 等部分
Hadoop Hive Spark 大数据安全
spark
大数据
分布式
Spark提交参数说明和常见优化
会用spark 会调api和能用好spark是两回事 在进行开发的过程中 不仅要了解运行原理 还要了解业务 将合适的方法和业务场景合适的结合在一起 才能发挥最大的价值 spark submit 进入spark的home目录 执行以下命令查看
Spark
spark
大数据
Hadoop
Hadoop学习笔记(1)
原文 http www cnblogs com zjfstudio p 3859704 html Hadoop学习笔记 1 菜鸟入门 Hadoop是什么 先问一下百度吧 百度百科 一个分布式系统基础架构 由Apache基金会所开发 用户可以
spark
«
1 ...
5
6
7
8
9
10
11
...28
»