Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
kafka笔记3--快速部署KRaft版本的kafka3.1.1
kafka笔记3 快速部署KRaft版本的kafka3 1 1 1 介绍 2 部署测试 2 1 部署 2 2 测试 3 注意事项 4 说明 1 介绍 Apache Kafka Raft 是一种共识协议 它的引入是为了消除 Kafka 对 Z
Bigdata
kafka
分布式
KRaft
快速部署kafka
企业大数据CDH集群安全----sentry
Sentry安装 1 cm中选择添加服务 选择sentry 2 选择要安装sentry的主机 3 配置数据库 HDFS配置 开启启动访问控制列表 选中打勾 开启检查HDFS权限服务 开启sentry服务 hive配置 修改hive配置参数
Bigdata
big data
【ETL】常见的ETL工具(含开源及付费)一览和优劣势分析?
一 Kettle Kettle 中文名称叫水壶 该项目的概念是把各种数据放到一个壶里 然后以一种指定的格式流出 Kettle是一款国外开源的ETL工具 纯java编写 可以在Window Linux Unix上运行 无需安装 数据抽取 高效
数据治理
数据中台
Bigdata
ETL
数据仓库
elk笔记21--将DSL查询转为kibana短链接
elk笔记21 将DSL查询转为kibana短链接 1 简介 2 功能实现 2 1 源码 2 2 测试 3 注意事项 4 说明 1 简介 较新版本的 kibana 前端都有一个 Share gt Short URL 的功能 用起来非常方便
Bigdata
kibana短链接
py生成kibana短链接
shortenurl
kibana
Hadoop NameNode和DataNode只能启动一个问题
DataNode和NameNode进程不能共存 启动NameNode可以正常启动 但是启动DataNode时发现 NameNode进程不存在了 导致两个无法共存 问题原因 NameNode在format初始化后会生成claserId 集群i
Bigdata
Java
Hadoop
DataNode
Hive性能优化全面解析
问题导读 1 Hive表设计层面优化有哪些内容 2 语法和参数层面如何进行优化 3 如何进行Join Group By Order By COUNT DISTINCT优化 4 Hive架构层面如何优化 在工作中使用hive比较多 也写了很多
Bigdata
大数据
hive
大数据相关技术学习
https github com lishuai2016 ls bigdata learn
Bigdata
kafka简单代码实现
生产者 package cn smart storm kafka simple import kafka javaapi producer Producer import kafka producer KeyedMessage import
Bigdata
模型评估中测试集的选择方法
前言 对训练好的模型进行评估 目的是为了测试我们所训练的模型是否拥有好的泛化能力 为此 需使用一个 测试集 来测试学习器对新样本的判别能力 然后以测试集上的 测试误差 作为泛化误差的近似 通常我们假设测试样本也是从样本真实分布中独立同分布采
Bigdata
Evaluate
datamining
elk 笔记15--mapping
elk 笔记15 mapping 1 mapping 简介 1 1 什么是mapping 1 2 为何移除多type 2 mapping 数据类型 3 mapping 元字段 4 mapping 参数 5 动态 mapping 6 常见 m
Bigdata
elasticsearch
mapping
field
es 字段
elk笔记13--Queries-term-level queries
elk笔记13 Queries term level queries 1 term level 查询简介 2 term level 查询类型 2 1 exists query 2 2 fuzzy query 2 3 ids query 2
Bigdata
query
term level
字段级查询
使用IntelliJ IDEA 15和Maven创建Java Web项目
1 Maven简介 相对于传统的项目 Maven 下管理和构建的项目真的非常好用和简单 所以这里也强调下 尽量使用此类工具进行项目构建 它可以管理项目的整个生命周期 可以通过其命令做所有相关的工作 其常用命令如下 mvn compile m
Bigdata
HBase技术介绍
HBase简介 HBase Hadoop Database 是一个高可靠性 高性能 面向列 可伸缩的分布式存储系统 利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群 HBase是Google Bigtable的开源实
Bigdata
Hbase
《Hadoop权威指南》书摘-MapReduce概述
转载请注明出处 独立博客 http wangnan tech 简书 http www jianshu com u 244399b1d776 知乎 https zhuanlan zhihu com c 121958856 MapReduce是
Bigdata
Hadoop
MapReduce
elk笔记13--Query DSL
elk笔记13 Query DSL 1 基础介绍 2 常见查询类型 2 1 Query and filter context 2 2 Compound queries 2 3 Full text queries 2 4 Geo querie
Bigdata
query
DSL
elasticsearch
es dsl
Spark Standalone和yarn区别
Spark Standalone模式提交任务 Cluster模式 spark submit master spark node01 7077 deploy mode cluster class org apache spark exampl
数据仓库
spark
Bigdata
big data
hive总结回顾
UDAF 继承UDAF 内部定义一个静态类 实现UDAFEvaluator接口 实现init iterate terminatePartial merge terminate五个方法 编写代码完成后install打包 Rz bye 上传到本
Bigdata
hive
elk笔记5.2--logstash使用
elk笔记5 2 logstash使用 1 介绍 2 使用案例 2 1 通过type隔离多个索引 2 2 通过pipeline隔离多个索引 3 注意事项 4 说明 1 介绍 logstash 资源充足的情况下 每个logstash示例采集
Bigdata
logstash使用
ELK
logstash多配置文件
多pipeline
elk笔记23--定期清理索引
elk笔记23 定期清理索引 1 介绍 2 方案 代码 2 1 方案介绍 2 2 代码 2 3 测试 3 注意事项 4 说明 1 介绍 在生产环境中 如果日志量过大 就会导致集群持续产生很多索引 占用很多存储空间 因此需要定期清理索引 确保
Bigdata
ELK
rollover 索引
es 定期清理索引
«
1 ...
4
5
6
7
8
9
10