Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
电商零售行业1--用户消费行为分析
用户消费行为分析 项目背景 数据处理 导入数据 数据探索可视化 数据预处理 用户整体消费分析 用户个体消费分析 用户消费金额 消费次数 描述性统计 用户消费分布图 用户累计消费金额占比分析 贡献度 用户消费行为 首购时间 最后一次购买时间
零售
用户运营
big data
数据分析
python
你真的把数据库事务搞懂了吗,有图有真相,图文并茂!
数据库事务 数据库事务 jdbc事务 事务的ACID 数据库的并发 数据库的四种隔离级别 数据库事务 数据库事务 transaction 是访问 并可能操作各种数据项的 一个数据库操作序列 这些操作要么 全部执行 要么 全部不执行 是一个不
MySQL
big data
数据库
sql
解决查询时报的cannot be cast to com.credithc.enjoy.manager.OrderResp错误
报的错误如下所示 14 30 54 637 ERROR http nio 8094 exec 4 127 0 0 1 f6c45349d812457bbb5e42bc3a1bc09d 1 0 com credithc enjoy manag
springboot
MyBatis
Java
Hibernate
big data
Flink checkPoint和SavePoint
savepoint和checkpoint都是flink为容错提供的强大功能特性 能够自动或手动保存job的运行状态 两者区别 checkpoint 应用定时触发 用户保存状态 会过期 内部应用失败重启的时候启用 但是手动cancel时 会删
flink
大数据
big data
Spark Job写文件个数的控制以及小文件合并的一个优化
文章目录 背景说明 通过引入额外Shuffle对写入数据进行合并 EnsureRepartitionForWriting Rule CoalesceShufflePartitions Rule OptimizeShuffleWithLoca
spark
big data
大数据技术之 Flink-CDC
第1章 CDC简介 1 1 什么是 CDC CDC 是 Change Data Capture 变更数据获取 的简称 核心思想是 监测并捕获数据库的变动 包括数据或数据表的插入 更新以及删除等 将这些变更按发生的顺序完整记录下来 写入到消息
大数据训练营
flink
大数据
big data
HDFS的block和切片(split)的联系和区别
lt 1 gt 联系 HDFS的block和切片 split 的大小相等 lt 2 gt 区别 1 HDFS存储数据在数据节点上 block是数据节点储存数据的一个个单位 2 split是把block切分而成的虚拟定义 3 split是Ma
大数据导论
HDFS
Hadoop
big data
HDFS DataNode高密度存储机型的探索尝试
前言 随着公司业务的发展 我们需要存储越来越庞大的数据来支撑公司业务的发展 这里就涉及到了数据存储能力的问题 需要存储的数据越多 其实意味着我们需要更多的机器来扩增HDFS集群存储的总capacity 但是机器数量的变多另外一方面带来的则是
Hadoop
HDFS
big data
解决Scrapy使用pipline保存到数据库后返回None
这也不算报错哈 解决方法 在process item处理完成后返回item即可 return item 案例分析 比如下面的pipeline class MyPipeline object def init self host 127 0
爬虫
big data
python
Scrapy
大数据开发教程——ZooKeeper分布式协调组件
ZooKeeper是什么 ZooKeeper是一个分布式的 开放源码的分布式应用程序协调服务 是Google的Chubby一个开源的实现 是Hadoop和Hbase Flink的重要组件 中文名 动物管理员 它是一个为分布式应用提供一致性服
大数据架构师源码零基础教程
分布式
Zookeeper
big data
Hive Transaction(Hive 事务管理)
Hive 事务在 Hive 3 得到增强 hive site xml 配置
hive
Hadoop
big data
hive的压缩存储格式
1 5种存储格式 Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式 如TextFile RCFile SequenceFile AVRO ORC和Parquet格式 Cloudera Impala也支持这些文件
hive
Hadoop
big data
Kafka原理分析
在基础篇中我们介绍MQ的一些基础原理 这篇文章 我们针对kafka进行较深入的分析 上篇文章中我们提到了kafka中一个名词broker 其实broker可以理解成为一台kafa服务器 kafka的特性和功能 在kafka设计之初是为了实时
MQ
kafka
big data
互联网公司MySQL数据库采用读已提交的隔离级别原因
开始我们的内容 相信大家一定遇到过下面的一个面试场景 面试官 讲讲mysql有几个事务隔离级别 你 读未提交 读已提交 可重复读 串行化四个 默认是可重复读 面试官 为什么mysql选可重复读作为默认的隔离级别 你面露苦色 不知如何回答 面
sql
技术文章
mysql
big data
面试
这5种必知的大数据处理框架技术,你的项目到底应该使用其中的哪几种
大数据是收集 整理 处理大容量数据集 并从中获得见解所需的非传统战略和技术的总称 虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限 但这种计算类型的普遍性 规模 以及价值在最近几年才经历了大规模扩展 本文将介绍大数据系统一个最基
big data
【面试真题】今日头条大数据面试100题,收藏备用
1 简述WordCount 的实现过程 2 简述MapReduce与 Spark 的区别与联系 3 Spark 在客户端与集群运行的区别 4 相同的 SQL 在 HiveSql 与 SparkSQL 的实现中 为什么 Spark 比 Had
大数据实战精英架构师
面试题
flink
big data
Hadoop
Easy-Es核心功能深度介绍
背景 近期随着项目开源后热度的不断上涨 越来越多小伙伴开始对框架核心功能感兴趣 今天就让我带大家深入源码和架构 一起探索Easy Es 简称EE 的核心功能是如何被设计和实现的 和众多ORM框架一样 EE最为核心的功能就是CRUD 增删改查
大数据
elasticsearch
big data
easyes
kafka中partition数量与消费者对应关系
kafka是由Apache软件基金会开发的一个开源流处理平台 kafka是一种高吞吐量的分布式发布订阅消息系统 它可以处理消费者在网站中的所有动作流数据 kafka中partition类似数据库中的分表数据 可以起到水平扩展数据的目的 比如
kafka
big data
rabbitmq
[1143]Flink的Checkpoint和Savepoint
文章目录 Flink的Checkpoint和Savepoint介绍 第一部分 Flink的Checkpoint 1 Flink Checkpoint原理介绍 2 Checkpoint的简单设置 3 保存多个Checkpoint 4 从Che
java技术栈
flink
big data
大数据
2022-2027年中国老年健康服务行业发展监测及投资战略研究报告
报告类型 产业研究 报告格式 电子 纸介版 出品单位 华经产业研究院 本报告由华经产业研究院重磅推出 对中国老年健康服务行业的发展现状 竞争格局及市场供需形势进行了具体分析 并从行业的政策环境 经济环境 社会环境及技术环境等方面分析行业面临
人工智能
云计算
big data
«
1
2
3
4
5
6
...22
»