spark

大规模数据处理中拒绝连接错误分析处理

1 处理的数据有几百个G 把数据处理成按照手机号计算1万多个特征 2 数据处理环境 spark 2 0 2 executor memory 40g total executor cores 120 driver memory 40g 3 报

spark Linux

微众银行DSS部署单机-普通版

DSS 普通版部署我的服务器我的配置 vim conf config sh vim conf db sh QA 我的服务器 centos 7 0 8C16G 100G机械硬盘我的配置 bashrc文件内容 JDK export JAV

Java 实时大数据 flink spark Hadoop

Spark的DataFrame和Schema详解和实战案例Demo

1 概念介绍 Spark是一个分布式计算框架用于处理大规模数据处理任务在Spark中 DataFrame是一种分布式的数据集合类似于关系型数据库中的表格 DataFrame提供了一种更高级别的抽象允许用户以声明式的方式处理数据而不

Bigdata spark scala 大数据

spark学习8：spark SQL

1 spark SQL是什么 spark SQL类似 hive 的功能 hive 是把SQL转译成查询hadoop的语法而spark SQL是把 SQL转译成查询spark的语法并且 spark SQL的前身 shark 也叫hiv

spark sql 大数据 SparkSQL

Spark 配置远程DEBUG

Spark远程调试本例子介绍简单介绍spark一种远程调试方法使用的IDE是IntelliJ IDEA 1 了解jvm一些参数属性 Xdebug Xrunjdwp transport dt socket server y suspend

spark 开发工具使用 Java intellijidea

spark Scala中dataframe的常用关键字：withColumn

withColumn关键字用于操作dataframe原表某一列的数据将操作完的每一行数据形成一列用来替换一个表原有的列或者在原表后面追加新的列语法如下 def withColumn colName String col Column

scala spark 开发语言

spark报错：CREATE TEMPORARY TABLE

异常信息 2022 02 09 03 14 01 INFO Error in query 2022 02 09 03 14 01 INFO CREATE TEMPORARY TABLE is not supported yet Please

spark

Spark性能优化：数据倾斜调优

前言继 Spark性能优化开发调优篇和 Spark性能优化资源调优篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后本文作为 Spark性能优化指南的高级篇将深入分析数据倾斜调优与shuffle调优以解决更加

spark Java 大数据 性能优化

Java8 新特性——流式操作

流式操作流 Stream Java8新增用来处理我们集合的数据与IO包里的流是完全不同的概念倒是和Spark Streaming很像反正是抄的如何处理集合中的数据呢为什么引入流声明式处理数据元素的内部迭代不需要做外部迭代

Java spark Stream Lambda

sparkStreaming对接kafka

ReceiverAPI 需要一个专门的Executor去接收数据然后发送给其他的Executor做计算存在的问题接收数据的Executor和计算的Executor速度会有所不同特别在接收数据的Executor速度大于计算的Execu

spark spark与kafka

spark程序运行异常：java.lang.OutOfMemoryError: GC overhead limit exceeded

此次异常是在集群上运行的spark程序日志中发现的由于这个异常导致sparkcontext被终止以致于任务失败出现的一些原因参考 GC overhead limit exceeded java lang OutOfMemoryErr

Java spark hive

Spark的新方案UnifiedMemoryManager内存管理模型分析

StaticMemoryManager继承与MemoryManager 它是静态的内存分配是1 6版本以前的实现就像是建筑商建造好了房子用户来到直接住进去就好了弊端有的人多住了小房子有的人少住了大房子而UnifiedMemor

大数据spark spark UnifiedMemoryManager

Spark读取外部数据的几种方式

一 spark读取csv文件四种方式方式一直接使用csv方法 val sales4 DataFrame spark read option header true option header false csv file D Soft

HDFS spark Hadoop

spark streaming job监控

定时检查spark streaming job 运行状态保存到mysql中 1 python3保存数据到mysql vi rlt log job dinc py import pymysql import logging import pa

spark SparkStreaming python shell

5. spark 参数问题

如何传递spark 参数在代码中设置参数命令行 Spark Properties 动态加载参数官网地址 spark 参数在代码中设置参数 spark default conf lt 命令行 lt 代码内部设置参数对于一常用的参数可

spark

Spark的RDD原理以及2.0特性的介绍

注本文由王联辉在高可用架构群分享本文转载自高可用架构 ArchNotes 王联辉曾在腾讯 Intel 等公司从事大数据相关的工作 2013 年 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发曾负责 Inte

spark RDD原理 20特性

windows搭建pyspark环境详细教程

一安装jdk及配置环境变量下载地址 https www oracle com java technologies downloads java8 windows 安装步骤下载后点击安装中途可以自定义安装路径最后查看安装路径开始配

Windows 大数据 spark