Bigdata

kafka笔记3--快速部署KRaft版本的kafka3.1.1

kafka笔记3 快速部署KRaft版本的kafka3 1 1 1 介绍 2 部署测试 2 1 部署 2 2 测试 3 注意事项 4 说明 1 介绍 Apache Kafka Raft 是一种共识协议它的引入是为了消除 Kafka 对 Z

Bigdata kafka 分布式 KRaft 快速部署kafka

企业大数据CDH集群安全----sentry

Sentry安装 1 cm中选择添加服务选择sentry 2 选择要安装sentry的主机 3 配置数据库 HDFS配置开启启动访问控制列表选中打勾开启检查HDFS权限服务开启sentry服务 hive配置修改hive配置参数

Bigdata big data

【ETL】常见的ETL工具（含开源及付费）一览和优劣势分析？

一 Kettle Kettle 中文名称叫水壶该项目的概念是把各种数据放到一个壶里然后以一种指定的格式流出 Kettle是一款国外开源的ETL工具纯java编写可以在Window Linux Unix上运行无需安装数据抽取高效

数据治理 数据中台 Bigdata ETL 数据仓库

elk笔记21--将DSL查询转为kibana短链接

elk笔记21 将DSL查询转为kibana短链接 1 简介 2 功能实现 2 1 源码 2 2 测试 3 注意事项 4 说明 1 简介较新版本的 kibana 前端都有一个 Share gt Short URL 的功能用起来非常方便

Bigdata kibana短链接 py生成kibana短链接 shortenurl kibana

Hadoop NameNode和DataNode只能启动一个问题

DataNode和NameNode进程不能共存启动NameNode可以正常启动但是启动DataNode时发现 NameNode进程不存在了导致两个无法共存问题原因 NameNode在format初始化后会生成claserId 集群i

Bigdata Java Hadoop DataNode

Hive性能优化全面解析

问题导读 1 Hive表设计层面优化有哪些内容 2 语法和参数层面如何进行优化 3 如何进行Join Group By Order By COUNT DISTINCT优化 4 Hive架构层面如何优化在工作中使用hive比较多也写了很多

Bigdata 大数据 hive

大数据相关技术学习

https github com lishuai2016 ls bigdata learn

Bigdata

kafka简单代码实现

生产者 package cn smart storm kafka simple import kafka javaapi producer Producer import kafka producer KeyedMessage import

Bigdata

模型评估中测试集的选择方法

前言对训练好的模型进行评估目的是为了测试我们所训练的模型是否拥有好的泛化能力为此需使用一个测试集来测试学习器对新样本的判别能力然后以测试集上的测试误差作为泛化误差的近似通常我们假设测试样本也是从样本真实分布中独立同分布采

Bigdata Evaluate datamining

elk 笔记15--mapping

elk 笔记15 mapping 1 mapping 简介 1 1 什么是mapping 1 2 为何移除多type 2 mapping 数据类型 3 mapping 元字段 4 mapping 参数 5 动态 mapping 6 常见 m

Bigdata elasticsearch mapping field es 字段

elk笔记13--Queries-term-level queries

elk笔记13 Queries term level queries 1 term level 查询简介 2 term level 查询类型 2 1 exists query 2 2 fuzzy query 2 3 ids query 2

Bigdata query term level 字段级查询

使用IntelliJ IDEA 15和Maven创建Java Web项目

1 Maven简介相对于传统的项目 Maven 下管理和构建的项目真的非常好用和简单所以这里也强调下尽量使用此类工具进行项目构建它可以管理项目的整个生命周期可以通过其命令做所有相关的工作其常用命令如下 mvn compile m

Bigdata

HBase技术介绍

HBase简介 HBase Hadoop Database 是一个高可靠性高性能面向列可伸缩的分布式存储系统利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群 HBase是Google Bigtable的开源实

Bigdata Hbase

《Hadoop权威指南》书摘-MapReduce概述

转载请注明出处独立博客 http wangnan tech 简书 http www jianshu com u 244399b1d776 知乎 https zhuanlan zhihu com c 121958856 MapReduce是

Bigdata Hadoop MapReduce

elk笔记13--Query DSL

elk笔记13 Query DSL 1 基础介绍 2 常见查询类型 2 1 Query and filter context 2 2 Compound queries 2 3 Full text queries 2 4 Geo querie

Bigdata query DSL elasticsearch es dsl

Spark Standalone和yarn区别

Spark Standalone模式提交任务 Cluster模式 spark submit master spark node01 7077 deploy mode cluster class org apache spark exampl

数据仓库 spark Bigdata big data

hive总结回顾

UDAF 继承UDAF 内部定义一个静态类实现UDAFEvaluator接口实现init iterate terminatePartial merge terminate五个方法编写代码完成后install打包 Rz bye 上传到本

Bigdata hive

elk笔记5.2--logstash使用

elk笔记5 2 logstash使用 1 介绍 2 使用案例 2 1 通过type隔离多个索引 2 2 通过pipeline隔离多个索引 3 注意事项 4 说明 1 介绍 logstash 资源充足的情况下每个logstash示例采集

Bigdata logstash使用 ELK logstash多配置文件 多pipeline

elk笔记23--定期清理索引

elk笔记23 定期清理索引 1 介绍 2 方案代码 2 1 方案介绍 2 2 代码 2 3 测试 3 注意事项 4 说明 1 介绍在生产环境中如果日志量过大就会导致集群持续产生很多索引占用很多存储空间因此需要定期清理索引确保

Bigdata ELK rollover 索引 es 定期清理索引