Hive 将 ORC 文件分割成小部分

2023-12-30

create table n_data(MARKET string,CATEGORY string,D map<string,string>,monthid int,value  DOUBLE)
  STORED AS ORC
 ;

我将数据加载到其中（超过45000000行），查看hive仓库

结果表由5个文件组成，大小为10MB-20MB，但是dfs.块大小设置为 128MB，存储小文件不是最佳选择，因为它使用整个块！

如何设置 HIVE 将文件分割为 128 MB？

EDIT插入查询：

insert into n_data
select tmp.market,tmp.category,d,adTable.monthid,tmp.factperiod[adTable.monthid] as fact 
from (select market,category,d,factperiod,map_keys(factperiod) as month_arr  from n_src where market is not null) as tmp 
LATERAL VIEW explode(month_arr) adTable AS monthid

您必须为 hive 设置以下配置参数：

hive.merge.mapfiles = true
hive.merge.mapredfiles = true
hive.merge.tezfiles = true
hive.merge.smallfiles.avgsize = 16000000

我遇到了完全相同的问题，直到我发现这个来源 http://qnalist.com/questions/5993258/merge-small-orc-files。您可以尝试使用“set”命令在 hive 会话中手动设置这些参数，如下所示：

set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.tezfiles=true;
set hive.merge.smallfiles.avgsize=16000000;

如果你只是输入“set;”在配置单元会话控制台中，您可以检查上述参数是否设置正确。测试后，我建议在 hive-site.xml 配置文件中或通过 Ambari 更改它们（如果您使用的是 Hortonworksdistribution）。干杯!

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

HDFS

Hive 将 ORC 文件分割成小部分的相关文章

为什么map任务总是运行在单节点上

我有一个具有 4 个节点的完全分布式 Hadoop 集群当我将作业提交给 Jobtracker 时 Jobtracker 认为 12 个映射任务对我的工作来说很酷但奇怪的事情发生了这 12 个映射任务始终在单个节点上运行而不是在整个
如何通过Spark Thrift Server访问自定义UDF？

我正在 EMR 上运行 Spark Thrift 服务器我通过以下方式启动 Spark Thrift 服务器 sudo u spark usr lib spark sbin start thriftserver sh queue inte
将 Hive 表导出到 hdfs 中的 csv

我知道在 Hive 中将表保存到 csv 或其他文本文件时分隔符存在一个已知问题所以我想知道你们是否可以帮助我解决这个问题我有一个现有的表表 A 我想将其以 csv 格式保存到 hdfs 通过阅读其他回复我相信我必须首先创建一个
使用 FSDataOutputStream 将不需要的字符从 java REST-API 写入 HadoopDFS

我们构建了一个 java REST API 来接收事件数据例如单击购买按钮并将该数据写入 HDFS 本质上我们为发送数据以 JSON 形式的每个主机打开流或者使用现有的流使用时间戳事件名称和主机名丰富数据并将其写入 FS
是否可以使用 impala 查询包含 DATE 类型列的 Hive 表？

每次我尝试在 IMPALA 中从 HIVE 中创建的表中选择 DATE 类型字段时都会收到 AnalysisException Unsupported type DATE 有什么解决方法吗 UPDATE这是从 hive 创建表模式和 im
HDFS 在大量小文件和 128 Mb 块大小上的行为

我有很多多达数十万个小文件每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗我见过相当矛盾的答案答案说最小的文件占用整个块 https stac
Spark SQL 未正确转换时区[重复]

这个问题在这里已经有答案了使用 Scala 2 10 4 和 Spark 1 5 1 和 Spark 1 6 sqlContext sql select id to date from utc timestamp from unixtim
HIVE：GROUP BY 的行为与 MySQL 中不同

我对 MySQL 有一些经验最近我必须在 HIVE 上做一些工作两者之间的查询基本结构非常相似但是 HIVE 中的 GROUP BY 的工作方式似乎有点不同因此我无法实现以前在 MySQL 中使用 GROUP BY 可以实现的目标
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案
尝试将稀疏 df 保存到 hdf5 时，获取“SparseDtype”对象没有属性“itemsize”？

我正在尝试将大型稀疏数据帧保存到 hdf5 文件但出现归因错误 one hot pd get dummies my DF columns cat sparse True one hot to hdf content data h5 tab
使用 python 从 hive 读取数据时的性能问题

我在 hive 中有一个表其中包含 351 837 110 MB 大小记录我正在使用 python 读取该表并写入 sql server 在此过程中从 hive 读取数据到 pandas dataframe 需要很长时间当我加载整
使用 Python3 与 HDFS 交互的最佳模块是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我看到有 hdfs3 snakebite 和其他一些哪一个支持最好且最全面据我所知可能性并不像人们想象的那么多但我建议使用官方的Pyth
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918

随机推荐

Firebase 功能：在 stackdriver 控制台中使用 Winston 进行日志记录

我无法使winston https github com winstonjs winston记录器写入日志堆栈驱动程序 https cloud google com logging 安慰我将我的函数部署为 google firebase
如何修复本机客户端错误“连接正忙于处理另一个命令的结果”？

我得到了一个Connection Busy With Results From Another Command当 SSIS 包运行时来自 SQL Server Native Client 驱动程序的错误仅当与 SQLServer 200
Libgdx Scene2d - 设置演员（ TextField ）填充？

我在设置填充或类似于演员的东西时遇到了麻烦找不到路我想我可能必须在皮肤中添加一些东西我有这个文本字段 textboxskin new Skin textboxskin add textfieldback new Texture dat
如何在android中使用XML布局在图像视图中为图像制作圆角

我已经尝试了很多次但我知道我错过了一些东西你们能解释一下吗以下是我尝试过的
对象是空的吗？ [复制]

这个问题在这里已经有答案了检查对象是否为空的最快方法是什么有没有比这更快更好的方法 function count obj obj var i 0 for var key in obj i return i 对于 ECMAScript5
避免非虚拟析构函数的对象切片

我正在为智能指针编写代码作为练习使用在线教程 1 http www davethehat com articles smartp htm 2 http www codeproject com Articles 15351 Implemen
你能在 mdbg 中看到评估堆栈吗？

假设我有以下 CIL ldc i4 40 lt a breakpoint is set here ldc i4 2 add box int32 call void mscorlib System Console WriteLine stri
使用 Android 提交至 Google 电子表格表单

第一次在这里提问通常我不用问就能找到答案但这一次我陷入了困境无法弄清楚我错过了什么我只是想让我的 Android 应用程序在网站上填写表格并提交我不需要应用程序对发回的任何数据执行任何操作只需填写表格并提交即可基本上我正在尝试
Dalvik JIT 工作流程

我对 dalvik vm Android 感兴趣我试图通过 JIT 的代码来找出它执行的操作以及它如何选择跟踪我无法遵循代码因此我请求所有人帮助我建议 JIT 中执行跟踪选择和翻译的相关函数你可以尝试 git log grep J
调用命令行程序的Web应用程序框架

我们正在设计一个 Java EE Web 应用程序在 tomcat 上运行它旨在成为命令行程序的网络界面是否有任何框架应用程序允许这样做即 JSP 页面将在内部向安装在与 Tomcat 服务器相同的服务器上的程序发出命令命令行是
左连接和左外连接的区别

我想知道mySQL中的LEFT JOIN和LEFT OUTER JOIN是否有什么区别如果没有区别那为什么会有两种不同的方式呢提前致谢它们是相同的我认为您想要放入外部的唯一原因是为了清楚起见为了澄清联接中的第一个表不需要它在第
extjs 面板适合布局

我有一个面板我正在将它渲染到一个容器中我想要panel以适应containerheight 并且不想指定高度panel 但似乎不起作用有什么办法可以做到吗代码片段 div style width 100 height 100 div
将 CellRendererToggle 的单行设置为不一致

在 Gtk 3 上我使用的是TreeModel存储嵌套信息并用 a 显示它CellRendererText and a CellRendererToggle 用户可以单击每个切换按钮当存在嵌套按钮并且它们不处于相同状态时我希望上层按钮
React 暴露组件函数

基于此链接上的示例http reactjs cn react tips expose component functions html http reactjs cn react tips expose component function
带有列表项的 GWT 无序列表

我完全坚持在 gwt 中创建 css 驱动的菜单在渲染的结果中它应该看起来完全像这样 div class topbar div class container fixed h3 a href class logo test a h3 u
制作Python批处理文件

如何创建一个bat文件来运行python文件特别是包含pygame bat文件 Simple 只需将以下内容作为批处理文件的第一行 python x 0 goto eof 批处理文件的其余部分是 Python 程序这是一个完整的例子 p
捕获具有同一组的和 (thisPartOnly)

假设我们有以下输入
在 JSF 中验证字段并抛出异常，但将错误消息附加到另一个字段？

我的页面上有一些需要交叉验证的字段但我不希望此验证中显示错误
如何从球衣servlet中的curl请求中提取参数？

我正在以表格形式向我的球衣 servlet 发出一个curl post Restful请求 curl i X POST d debit user id custome mobile number 917827448775 http loca
Hive 将 ORC 文件分割成小部分

create table n data MARKET string CATEGORY string D map

Hive 将 ORC 文件分割成小部分

Hive 将 ORC 文件分割成小部分 的相关文章

随机推荐

热门标签

Hive 将 ORC 文件分割成小部分的相关文章