Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
大规模数据处理中拒绝连接错误分析处理
1 处理的数据有几百个G 把数据处理成按照手机号计算1万多个特征 2 数据处理环境 spark 2 0 2 executor memory 40g total executor cores 120 driver memory 40g 3 报
spark
Linux
微众银行DSS部署单机-普通版
DSS 普通版部署 我的服务器 我的配置 vim conf config sh vim conf db sh QA 我的服务器 centos 7 0 8C16G 100G机械硬盘 我的配置 bashrc文件内容 JDK export JAV
Java
实时大数据
flink
spark
Hadoop
Spark的DataFrame和Schema详解和实战案例Demo
1 概念介绍 Spark是一个分布式计算框架 用于处理大规模数据处理任务 在Spark中 DataFrame是一种分布式的数据集合 类似于关系型数据库中的表格 DataFrame提供了一种更高级别的抽象 允许用户以声明式的方式处理数据 而不
Bigdata
spark
scala
大数据
spark学习8:spark SQL
1 spark SQL是什么 spark SQL类似 hive 的功能 hive 是把SQL转译成 查询hadoop的语法 而spark SQL是把 SQL转译成 查询spark的语法 并且 spark SQL的前身 shark 也叫hiv
spark
sql
大数据
SparkSQL
Spark 配置远程DEBUG
Spark远程调试 本例子介绍简单介绍spark一种远程调试方法 使用的IDE是IntelliJ IDEA 1 了解jvm一些参数属性 Xdebug Xrunjdwp transport dt socket server y suspend
spark
开发工具使用
Java
intellijidea
spark Scala中dataframe的常用关键字:withColumn
withColumn关键字 用于操作dataframe原表某一列的数据 将操作完的每一行数据形成一列 用来替换一个表原有的列或者在原表后面追加新的列 语法如下 def withColumn colName String col Column
scala
spark
开发语言
spark报错:CREATE TEMPORARY TABLE
异常信息 2022 02 09 03 14 01 INFO Error in query 2022 02 09 03 14 01 INFO CREATE TEMPORARY TABLE is not supported yet Please
spark
Spark性能优化:数据倾斜调优
前言 继 Spark性能优化 开发调优篇 和 Spark性能优化 资源调优篇 讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后 本文作为 Spark性能优化指南 的高级篇 将深入分析数据倾斜调优与shuffle调优 以解决更加
spark
Java
大数据
性能优化
Java8 新特性——流式操作
流式操作 流 Stream Java8新增 用来处理我们集合的数据 与IO包里的流是完全不同的概念 倒是和Spark Streaming很像 反正是抄的 如何处理集合中的数据呢 为什么引入流 声明式处理数据 元素的内部迭代 不需要做外部迭代
Java
spark
Stream
Lambda
sparkStreaming对接kafka
ReceiverAPI 需要一个专门的Executor去接收数据 然后发送给其他的Executor做计算 存在的问题 接收数据的Executor和计算的Executor速度会有所不同 特别在接收数据的Executor速度大于计算的Execu
spark
spark与kafka
spark程序运行异常:java.lang.OutOfMemoryError: GC overhead limit exceeded
此次异常是在集群上运行的spark程序日志中发现的 由于这个异常导致sparkcontext被终止 以致于任务失败 出现的一些原因 参考 GC overhead limit exceeded java lang OutOfMemoryErr
Java
spark
hive
Spark的新方案UnifiedMemoryManager内存管理模型分析
StaticMemoryManager继承与MemoryManager 它是静态的内存分配 是1 6版本以前的实现 就像是建筑商建造好了房子 用户来到直接住进去就好了 弊端 有的人多住了小房子 有的人少住了大房子 而UnifiedMemor
大数据spark
spark
UnifiedMemoryManager
Spark读取外部数据的几种方式
一 spark读取csv文件 四种方式 方式一 直接使用csv方法 val sales4 DataFrame spark read option header true option header false csv file D Soft
HDFS
spark
Hadoop
spark streaming job监控
定时检查spark streaming job 运行状态保存到mysql中 1 python3保存数据到mysql vi rlt log job dinc py import pymysql import logging import pa
spark
SparkStreaming
python
shell
5. spark 参数问题
如何传递spark 参数 在代码中设置参数 命令行 Spark Properties 动态加载参数 官网地址 spark 参数 在代码中设置参数 spark default conf lt 命令行 lt 代码内部设置参数 对于一常用的参数可
spark
Spark的RDD原理以及2.0特性的介绍
注 本文由王联辉在高可用架构群分享 本文转载自高可用架构 ArchNotes 王联辉 曾在腾讯 Intel 等公司从事大数据相关的工作 2013 年 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发 曾负责 Inte
spark
RDD原理
20特性
windows搭建pyspark环境详细教程
一 安装jdk及配置环境变量 下载地址 https www oracle com java technologies downloads java8 windows 安装步骤 下载后点击安装 中途可以自定义安装路径 最后查看安装路径 开始配
Windows
大数据
spark
«
1 ...
3
4
5
6
7
8
9
...28
»