big data

[Hive]一篇带你读懂Hive是什么

作者简介大家好我是Philosophy7 让我们一起共同进步吧个人主页 Philosophy7的csdn博客系列专栏哲学语录承认自己的无知乃是开启智慧的大门如果觉得博主的文章还不错的话请点赞收藏留言支持一下博 gt

hive Hadoop big data

数字化时代-7：从三大产业看赚钱的立足点

摘要通过观察不同产业的发展特点发现社会发展的趋势农业社会工业社会信息社会虚拟社会演进物质产品生产精神产品的生产把握大势让猪遇到风飞起来违背大势飞机也会坠毁何为产业主要是指在经济社会中能够生产某种类型产品的部门的

赚钱数字化时代 big data 大数据

kafka多线程实现消费者实战

前言 KafkaProducer是线程安全的但是KafkaConsumer不是线程安全的同一个KafkaConsumer用在了多个线程中将会报Kafka Consumer is not safe for multi threaded

kafka big data

数据可视化——Davinci

数据可视化 Davinci对比及功能使用一数据可视化个人引用部分 1 有趣的意义 2 常规的意义二图形的内涵 1 图形类型 2 优秀可视化的特点三可视化需求分析 1 四个问题 2 三个沟通点四 Davinci功能详解 1 可

big data 数据分析 数据挖掘

Spark常见错误剖析与应对策略

问题一日志中出现 org apache spark shuffle MetadataFetchFailedException Missing an output location for shuffle 0 原因分析 shuffle分为s

spark 大数据 big data etl工程师 hive

【HBZ分享】ElasticSearch读写数据的原理以及路由策略原理-【短而精悍，易于理解】

ElasticSearch分布式工作原理是如何进行读写数据的 1 简单介绍ES 首先es是分布式的只要我们启动相应数量的节点并且这些节点分配相同的cluster name 那他们就对属于同一个集群了创建索引的时候只需要指定对应的主

elasticsearch 搜索引擎 big data

kafka 在大数据领域应用及端到端一致性机制

kafka在大数据架构应用很广在大数据领域特别是实时处理由于数据量大 QPS高在架构设计都会采用kafka结合应用用kafka暂存大量数据然后业务端才会接入kafka开始处理业务逻辑那kafka有哪些优点 1 高吞吐低延迟

kafka 分布式 big data 大数据

牛客SQL34：牛客直播各科目同时在线人数（最大值问题）

牛客SQL34 牛客直播各科目同时在线人数最大值问题内容目录牛客SQL34 牛客直播各科目同时在线人数最大值问题一描述二思路解析三代码四问题思考一描述牛客某页面推出了数据分析系列直播课程介绍用户可以选择报名任

数据仓库 mysql hive big data 数据库

Elasticsearch 写入和查询优化底层原理

一 Elasticsearch 写入原理 1 每个index 是由多个shard组成默认是5个每个shard有一个主节点和多个副本节点分散在不同的物理节点上 2 写入数据的时候先根据routing参数以那个字段的值作为路由key

eliasticSearch elasticsearch big data 搜索引擎

如何做好一个BI项目的规划和需求定义？

正所谓磨刀不误砍柴工一个项目的启动先得从金字塔顶端做好规划摸清楚需求背景客观条件可投入资源等本文 BI项目详解的第一篇先来谈谈BI项目的规划和需求定义全文共3000字读完需要 8分钟一如何启动一个BI项目 Q 一个项

帆软 PRD 其他 big data 需求分析

学人工智能以后从事什么工作？这6大就业方向前景广阔

学AI以后从事什么工作近些年来科技的快速发展使人工智能方面的人才炙手可热根据此前UiPath发布的数据显示我国AI岗位空缺数量最多有12113个相关职位因为招聘不到人才而发生空缺我国对于AI人才的渴求已经超过了人工智能大国美国

人工智能AI 人工智能 数据挖掘 big data

Datax-HdfsWriter如何实现支持decimal类型数据写入

一问题背景之前在做Datax数据同步时发现源端binary decimal等类型的数据无法写入hive字段看了一下官网文档 DataX HdfsWriter 插件文档是1 2年前的当初看过部分源码其实底层hadoop是支持这些类

Hadoop hive big data

spark+项目总结

做项目基本流程 1 梳理数据流程 2 解决关键性问题 3 串联整个流程过程即标准化以及正式上线解决关键性问题对比差异点数据的文件组织形式不同数据的格式不同相同点数据流程一样数据目标也是一样曝光 Exposure 广告领域专业

总结 spark 大数据 big data

大数据常用采集工具

1 Flume Flume作为Hadoop的组件是由Cloudera专门研发的分布式日志收集系统尤其近几年随着Flume的不断完善用户在开发过程中使用的便利性得到很大的改善 Flume现已成为Apache Top项目之一 Flume提

大数据工具 big data 大数据

学习大数据的第30天——shell编程基础（变量常量、字符操作、算数运算符）

学习大数据的第30天 shell编程基础变量常量字符操作算数运算符 shell编程知识点 shell是指一种应用程序这个应用程序提供了一个界面用户通过这个界面访问操作系统内核的服务 shell是用户与linux操作系统沟通的桥梁

学习 big data Linux 大数据

Mac电脑——MySQL数据库root密码忘记了,不要紧，看我操作

1 先把MySQL服务器停止运行 2 打开MySQL的文件并修改my cnf文件 mac电脑是my cnf windows电脑是my ini 3 my cnf文件无法打开我们可以将该文件的后缀名my cnf修改为my txt 修改完后在

MySQL数据库 mysql big data 数据库

详解数据中台

关于数据中台目前业界并没有一个标准的定义不同厂商不同企业对数据中台都有着不同的理解但对于数据中台大家也有一个共识就是它是用来解决企业数据各类数据问题使得企业数据资源转化为数据资产的解决方案今天给大家分享的这篇文章是关于数据中台定

big data 大数据

Hudi数据湖-基于Flink、Spark湖仓一体、实时入湖保姆级教学

目录 Hudi源码编译 Hudi扫盲基于Spark shell集成Hudi 基于Spark Hive集成Hudi手动创建HIVE表基于SparkSQL集成Hudi自动创建HIVE表基于FlinkSQL集成Hudi 基于FlinkSQL

Bigdata spark flink big data

HADOOP介绍

1 HADOOP背景介绍 1 1 什么是HADOOP HADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能利用服务器集群根据用户的自定义业务逻辑对海量数据进行分布式处理 HADOOP的核心组件有 HDFS 分布式文

大数据 Hadoop MapReduce big data

[Hadoop3.3.1]:Unable to load native hadoop library for your platform

需求 linux已经启动了hadoop集群想要在windows中用java对文件进行下载操作错误提示找不到winutils exe hadoop dll没有设置原因 Hadoop访问windows本地文件系统要求Windows上的本

Hadoop 大数据 big data