big data

电商零售行业1--用户消费行为分析

用户消费行为分析项目背景数据处理导入数据数据探索可视化数据预处理用户整体消费分析用户个体消费分析用户消费金额消费次数描述性统计用户消费分布图用户累计消费金额占比分析贡献度用户消费行为首购时间最后一次购买时间

零售 用户运营 big data 数据分析 python

你真的把数据库事务搞懂了吗，有图有真相，图文并茂！

数据库事务数据库事务 jdbc事务事务的ACID 数据库的并发数据库的四种隔离级别数据库事务数据库事务 transaction 是访问并可能操作各种数据项的一个数据库操作序列这些操作要么全部执行要么全部不执行是一个不

MySQL big data 数据库 sql

解决查询时报的cannot be cast to com.credithc.enjoy.manager.OrderResp错误

报的错误如下所示 14 30 54 637 ERROR http nio 8094 exec 4 127 0 0 1 f6c45349d812457bbb5e42bc3a1bc09d 1 0 com credithc enjoy manag

springboot MyBatis Java Hibernate big data

Flink checkPoint和SavePoint

savepoint和checkpoint都是flink为容错提供的强大功能特性能够自动或手动保存job的运行状态两者区别 checkpoint 应用定时触发用户保存状态会过期内部应用失败重启的时候启用但是手动cancel时会删

flink 大数据 big data

Spark Job写文件个数的控制以及小文件合并的一个优化

文章目录背景说明通过引入额外Shuffle对写入数据进行合并 EnsureRepartitionForWriting Rule CoalesceShufflePartitions Rule OptimizeShuffleWithLoca

spark big data

大数据技术之 Flink-CDC

第1章 CDC简介 1 1 什么是 CDC CDC 是 Change Data Capture 变更数据获取的简称核心思想是监测并捕获数据库的变动包括数据或数据表的插入更新以及删除等将这些变更按发生的顺序完整记录下来写入到消息

大数据训练营 flink 大数据 big data

HDFS的block和切片（split）的联系和区别

lt 1 gt 联系 HDFS的block和切片 split 的大小相等 lt 2 gt 区别 1 HDFS存储数据在数据节点上 block是数据节点储存数据的一个个单位 2 split是把block切分而成的虚拟定义 3 split是Ma

大数据导论 HDFS Hadoop big data

HDFS DataNode高密度存储机型的探索尝试

前言随着公司业务的发展我们需要存储越来越庞大的数据来支撑公司业务的发展这里就涉及到了数据存储能力的问题需要存储的数据越多其实意味着我们需要更多的机器来扩增HDFS集群存储的总capacity 但是机器数量的变多另外一方面带来的则是

Hadoop HDFS big data

解决Scrapy使用pipline保存到数据库后返回None

这也不算报错哈解决方法在process item处理完成后返回item即可 return item 案例分析比如下面的pipeline class MyPipeline object def init self host 127 0

爬虫 big data python Scrapy

大数据开发教程——ZooKeeper分布式协调组件

ZooKeeper是什么 ZooKeeper是一个分布式的开放源码的分布式应用程序协调服务是Google的Chubby一个开源的实现是Hadoop和Hbase Flink的重要组件中文名动物管理员它是一个为分布式应用提供一致性服

大数据架构师源码零基础教程 分布式 Zookeeper big data

Hive Transaction(Hive 事务管理)

Hive 事务在 Hive 3 得到增强 hive site xml 配置

hive Hadoop big data

hive的压缩存储格式

1 5种存储格式 Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式如TextFile RCFile SequenceFile AVRO ORC和Parquet格式 Cloudera Impala也支持这些文件

hive Hadoop big data

Kafka原理分析

在基础篇中我们介绍MQ的一些基础原理这篇文章我们针对kafka进行较深入的分析上篇文章中我们提到了kafka中一个名词broker 其实broker可以理解成为一台kafa服务器 kafka的特性和功能在kafka设计之初是为了实时

MQ kafka big data

互联网公司MySQL数据库采用读已提交的隔离级别原因

开始我们的内容相信大家一定遇到过下面的一个面试场景面试官讲讲mysql有几个事务隔离级别你读未提交读已提交可重复读串行化四个默认是可重复读面试官为什么mysql选可重复读作为默认的隔离级别你面露苦色不知如何回答面

sql 技术文章 mysql big data 面试

这5种必知的大数据处理框架技术，你的项目到底应该使用其中的哪几种

大数据是收集整理处理大容量数据集并从中获得见解所需的非传统战略和技术的总称虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限但这种计算类型的普遍性规模以及价值在最近几年才经历了大规模扩展本文将介绍大数据系统一个最基

big data

【面试真题】今日头条大数据面试100题，收藏备用

1 简述WordCount 的实现过程 2 简述MapReduce与 Spark 的区别与联系 3 Spark 在客户端与集群运行的区别 4 相同的 SQL 在 HiveSql 与 SparkSQL 的实现中为什么 Spark 比 Had

大数据实战精英架构师 面试题 flink big data Hadoop

Easy-Es核心功能深度介绍

背景近期随着项目开源后热度的不断上涨越来越多小伙伴开始对框架核心功能感兴趣今天就让我带大家深入源码和架构一起探索Easy Es 简称EE 的核心功能是如何被设计和实现的和众多ORM框架一样 EE最为核心的功能就是CRUD 增删改查

大数据 elasticsearch big data easyes

kafka中partition数量与消费者对应关系

kafka是由Apache软件基金会开发的一个开源流处理平台 kafka是一种高吞吐量的分布式发布订阅消息系统它可以处理消费者在网站中的所有动作流数据 kafka中partition类似数据库中的分表数据可以起到水平扩展数据的目的比如

kafka big data rabbitmq

[1143]Flink的Checkpoint和Savepoint

文章目录 Flink的Checkpoint和Savepoint介绍第一部分 Flink的Checkpoint 1 Flink Checkpoint原理介绍 2 Checkpoint的简单设置 3 保存多个Checkpoint 4 从Che

java技术栈 flink big data 大数据

2022-2027年中国老年健康服务行业发展监测及投资战略研究报告

报告类型产业研究报告格式电子纸介版出品单位华经产业研究院本报告由华经产业研究院重磅推出对中国老年健康服务行业的发展现状竞争格局及市场供需形势进行了具体分析并从行业的政策环境经济环境社会环境及技术环境等方面分析行业面临

人工智能 云计算 big data