Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
(一)linux系统安装——从0开始大数据开发实战:电影推荐系统(scala版)
参考资源 厦大实验室博客http dblab xmu edu cn blog 大数据基础编程 实验和案例教程 林子雨 linux版本 ubuntu ubuntukylin 16 04 desktop amd64 https pan baid
封存
Hadoop
spark
HDFS
MapReduce
HADOOP介绍
1 HADOOP背景介绍 1 1 什么是HADOOP HADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能 利用服务器集群 根据用户的自定义业务逻辑 对海量数据进行分布式处理 HADOOP的核心组件有 HDFS 分布式文
大数据
Hadoop
MapReduce
big data
shuffle机制详解
将map输出作为输入传递给reducer的过程称为shuffle Shuffle过程包含在Map和Reduce两端 map阶段大致过程为 写数据 分区 排序 将属于同一分区的输出合并一起写在磁盘上 每个map任务都有一个环形内存缓冲区用于存
Hadoop
MapReduce
数据倾斜2
数据倾斜的原因和解决方案 MapReduce简介 MapReduce是面向大数据并行处理的计算模型 框架和平台 它隐含了以下三层含义 1 MapReduce是一个基于集群的高性能并行计算平台 Cluster Infrastructure 它
PRD
Hadoop
hive
数据倾斜
MapReduce
MapReduce处理csv
MapReduce处理csv csv是由逗号 来分割的文件 在编写Mapper类的时候需要以 分割成一个个的数据 查看一下csv数据 以上是为了测试做的数据 要处理的结果就是经过mapreduce再原封不动的出来 因为是测试 所以内容不做任
Java
MapReduce
MapReduce中使用Avro出现TaskAttemptContext异常
打包上传Jar包到Hadoop环境下运行时 出现异常 Found interface org apache hadoop mapreduce TaskAttemptContext but class was expected 在网上找了很多
Hadoop
MapReduce
big data
Java开发工程师有必要转型大数据吗?
大数据涉及到数据的采集 整理 传输 存储 分析到呈现 涉及到很多岗位和不同的人员配置 很多不同的专业人才都可以参与到大数据行业 这其中有大量的Java程序员考虑从事大数据方面的研发 个人认为 Java程序员从事大数据开发还是有一定优势的 不
大数据
Java架构与大数据交流圈子
spark
kafka
MapReduce
Hadoop学习笔记-MapReduce工作原理
本文从一个初学者的角度出发 用通俗易懂的语言介绍Hadoop中MapReduce的工作原理 在介绍MapReduce工作原理前 本文先介绍HDFS的工作原理及架构 再介绍MapReduce的工作原理以及Shuffle的过程 HDFS HDF
Hadoop
分布式文件系统
MapReduce
MapReduce分片阶段详解
MapReduce作为第一代的大数据计算引擎 其经典地位至今仍然得到认可 MapReduce之后的Spark计算引擎 本质上来说 依然是借用了MapReduce的核心思想 今天的大数据技术分享 我们就主要来讲讲MapReduce计算前的准备
数据仓库
Hadoop
大数据
MapReduce
MapReduce分片阶段详解
MapReduce思想的学习
这学期教hadoop 发现在备课MapReduce思想的时候 查阅资料基本上所有博客都没有真正讲出MapReduce的思想 而只是把它的计算过程讲出来 甚至有些说法还是误人子弟的 所以我就一直在想如何能把MapReduce的思想讲得通俗易懂
分布式
MapReduce
Hadoop Mapreduce编程之Reduce端join实现
1 数据准备 movies dat 数据格式 movieid moviename movietype ratings dat 数据格式 userid movieid rating timestamp 2 Mapper端开发 1 定义必要的变
Apache Hadoop
MapReduce
reduce join实现
用mapreduce来操作hbase的两点优化
用mapreduce来操作hbase的两点优化 用MR来对hbase的表数据进行分布式计算 有两点配置可以优化操作 提升性能 它们分别是 1 scan setCacheBlocks false 然后调用下面这句来初始化map任务 Table
毕设进度
Hbase
MapReduce
优化
大数据面试题:MapReduce压缩方式
面试题来源 大数据面试题 V4 0 大数据面试题V3 0 523道题 679页 46w字 可回答 1 Hadoop常见的压缩算法有哪些 问过的一些公司 网易云音乐 2022 11 阿里 2020 08 参考答案 1 MapReduce支持的
大数据面试题
大数据
MapReduce
面试
MapReduce之KNN算法
MapReduce之KNN算法 什么是 K K K 邻近算法 KNN KNN分类问题是找出一个数据集中与一个给定查询数据点最近的 k k k个数据点 这个操作也称KNN连接 定义为 给定两个数据集
MapReduce
机器学习
日常胡搞
【Yarn】Yarn MapReduce 程序开发
文章目录 1 概述 2 MapReduce程序提交到yarn 3 clinet提交任务到Server端 4 Yarn启动AppMaster 5 调度执行应用程序进程 1 概述 上一篇文章 Yarn Yarn 应用开发之Client开发 Ap
大数据hadoop
MapReduce
Hadoop
大数据
hadoop集群优化(四):开启历史任务服务器
文章目录 说明 分享 操作 修改配置 同步配置 启动历史服务器 查看jobHistory 总结 说明 hadoop支持历史服务器功能 默认关闭 开启后 通过web可查看完成运行的MapReduce做的的信息记录 如Map和Reduce使用情
Hadoop
服务器
MapReduce
怎么停止和重新启用hadoop的DataNode
停止 比如我原来有10个节点的集群 现在我想停掉2个 但数据不能丢失 只能让它们的数据转移到其它8台上 这道过程就是decommission 我们不能直接把那2台停掉 要在停掉之前把数据转移出去 首先建立一个excludes文件 它是一个文
mapreduceampparallel
Hadoop
MapReduce
xml
(十三)MySQL数据库安装——从0开始大数据开发实战:电影推荐系统(scala版)
执行一下命令 安装MySQL sudo apt get update sudo apt get install mysql server 安装过程中会提示设置MySQL数据库root用户的密码 本案例设置密码为hadoop 安装完成后默认启
封存
Hadoop
spark
HDFS
MapReduce
分拆TableSplit 让多个mapper同时读取
分拆TableSplit 让多个mapper同时读取 默认情况下 一个region是一个tableSplit 对应一个mapper进行读取 但单mapper读取速度较慢 因此想着把默认一个table split分拆成多个split 这样ha
毕设进度
table
Hbase
Hadoop
MapReduce
HIVE介绍(五)
文章目录 HIVE介绍 hql语法 hive优缺点 Hive运行原理 Hive为什么要分区 partitioned by Hive与mysql的对比 Hive内部表和外部表 hive数据类型 hive数据存格式 自定义函数UDF和UDTF
快速复习
大数据
Hadoop
hive
MapReduce
«
1 ...
17
18
19
20
21
22
23
...25
»