Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Hadoop 中的分割大小与块大小
Hadoop 中的分割大小和块大小之间有什么关系 当我读到this http willddy github io 2012 08 25 Hadoop Split and Block html 分割大小必须是块大小的n倍 n是整数并且n gt
Hadoop
MapReduce
HDFS
尝试在 h5py 中打开 pandas 创建的 hdf 时缺少列
这就是我的数据框的样子 第一列是一个整数 第二列是 512 个整数的单个列表 IndexID Ids 1899317 0 47715 1757 9 38994 230 12 241 12228 22861131 0 48156 154 63
pandas
HDFS
HDF5
h5py
pytables
Hadoop 块大小 vs 分割 vs 块大小
我对 Hadoop 的概念有点困惑 有什么区别Hadoop Chunk size Split size and Block size 提前致谢 块大小和块大小是一样的 分体尺寸可能不同于块 块 size 地图缩减算法不适用于文件的物理块 它
Hadoop
HDFS
崩溃的 HDFS 客户端 - 如何关闭剩余的打开文件?
我的 Hadoop 应用程序遇到一些问题 每当我的客户端在未关闭文件的情况下退出 例如由于崩溃 时 Hadoop 中就会有打开的文件从未关闭 当我尝试重新启动客户端时 重新打开这些文件以附加数据时会失败 请参阅下面的异常消息 有没有一种好方
Hadoop
append
HDFS
什么是“HDFS 写入管道”?
当我阅读 hadoop 权威指南时 我坚持以下句子 写入reduce输出确实会消耗网络带宽 但仅作为 与普通 HDFS 写入管道消耗的量差不多 问题 1 能帮我更详细地理解上面这句话吗 2 HDFS写入管道 是什么意思 当文件写入 HDFS
Hadoop
HDFS
无法使用本地 hadoop 连接 azure blob 存储
在尝试连接时本地hadoop与AZURE BLOB存储 即使用作为 HDFS 的 Blob 存储 和 Hadoop 版本 2 7 1 它抛出异常 这里我已经通过设置属性成功形成了本地集群
Java
Azure
Hadoop
HDFS
PySpark:使用 newAPIHadoopFile 从多行记录文本文件中读取、映射和减少
我正在尝试解决一个类似于这个帖子 https stackoverflow com questions 31227363 creating spark data structure from multiline record 我的原始数据是一
python
Hadoop
HDFS
PySpark
customformatting
如何在 Amazon EMR 上重新启动 HDFS
我对 Amazon EMR 集群上的 HDFS 设置进行了一些更改 我想重新启动名称节点和数据节点以使更改生效 我无法在名称节点 主节点 和数据节点上找到任何启 动和停止脚本来执行此操作 应该怎样重启集群呢 在 EMR4 上 在主控主机上运
Hadoop
HDFS
EMR
解析数百万个小 XML 文件
我有 1000 万个小 XML 文件 300KB 500KB 我在 Mapreduce 中使用 Mahaout 的 XML 输入格式来读取数据 并使用 SAX 解析器进行解析 但处理速度非常慢 使用输入文件的压缩 lzo 有助于提高性能吗
xml
Hadoop
MapReduce
HDFS
全新安装时的 HDFS 空间使用情况
我刚刚安装了 HDFS 并启动了该服务 并且已使用空间已经超过800MB 它代表什么 hdfs dfs df h Filesystem Size Used Available Use hdfs quickstart cloudera 802
Hadoop
HDFS
Bigdata
无法使用 scala 将字符串写入 hdfs 文件
我编写了一些代码在 hdfs 中创建一个文件并向其写入字节 这是代码 def write uri String filePath String data String Unit System setProperty HADOOP USER
scala
file
HDFS
如何将小型 ORC 文件组合或合并为较大的 ORC 文件?
SO 和网络上的大多数问题 答案都讨论使用 Hive 将一堆小 ORC 文件合并为一个较大的文件 但是 我的 ORC 文件是按天分隔的日志文件 我需要将它们分开 我只想每天 汇总 ORC 文件 HDFS 中的目录 我最有可能需要用 Java
Java
hive
HDFS
ORC
如何在Hadoop中设置数据块大小?改变它有好处吗?
如果我们可以更改 Hadoop 中的数据块大小 请告诉我如何操作 更改块大小是否有利 如果是 请告诉我为什么以及如何更改 如果没有 请告诉我为什么以及如何 您可以随时更改块大小 除非dfs blocksize参数在 hdfs site xm
Hadoop
HDFS
Bigdata
Cloudera
hortonworksdataplatform
Hadoop put 性能 - 大文件(20GB)
我正在使用 hdfs put 将一个 20GB 的大文件加载到 hdfs 中 目前该过程运行 4 分钟 我正在尝试缩短将数据加载到 hdfs 的写入时间 我尝试利用不同的块大小来提高写入速度 但得到以下结果 512M blocksize 4
Hadoop
HDFS
largefiles
为什么 Dockerized Hadoop 数据节点注册了错误的 IP 地址?
我有 Hadoop 2 7 1 名称节点和数据节点的单独 Docker 1 9 1 映像 我可以从中创建容器 并让它们通过用户定义的 Docker 网络进行通信 然而 数据节点似乎报告自己拥有网络网关的 IP 地址 而不是它自己的 IP 地
Java
Hadoop
Docker
HDFS
将 Hadoop 中的文件获取到 Web 应用程序中
我是 Hadoop 新手 现在我正在尝试在 eclipse 中做一个应用程序 我想在其中使用 HDFS 中存在的数据 如果我们想用Java连接数据库 我们有JDBC连接 那么 我需要做什么才能直接连接HDFS呢 在 Hadoop 中 首先
eclipse
Hadoop
HDFS
hdfs - ls:本地异常失败:com.google.protobuf.InvalidProtocolBufferException:
我正在尝试使用以下内容列出我在 hdfs 中的目录 ubuntu ubuntu hadoop fs ls hdfs 127 0 0 1 50075 ls Failed on local exception com google protob
Hadoop
HDFS
Cloudera
Hadoop 框架中使用的属性的完整列表
我正在对 Hadoop 框架进行一些研究 我想问一下框架中可以使用的属性 例如 io sort mb io sort record percent etc 我可以参考这个框架的整个属性列表吗 非常希望有人能帮助我 另外 我想问一下 io s
Java
Hadoop
Dictionary
MapReduce
HDFS
将 Solr HDFS 数据复制到另一个集群
我有一个 solr 云 v 4 10 安装 位于 Cloudera CDH 5 4 2 HDFS 之上 有 3 个 solr 实例 每个实例托管每个核心的一个分片 我正在寻找一种将 solr 数据从生产集群增量复制到开发集群的方法 有 3
Hadoop
Solr
HDFS
Cloudera
是否可以将数据导入Hive表而不复制数据
我将日志文件以文本形式存储在 HDFS 中 当我将日志文件加载到 Hive 表中时 所有文件都会被复制 我可以避免所有文本数据存储两次吗 编辑 我通过以下命令加载它 LOAD DATA INPATH user logs mylogfile
Hadoop
hive
HDFS
«
1
2
3
4
5
6
...21
»