Hive常用操作以及java.io.IOException: java.lang.RuntimeException: ORC split generation failed问题处理

2023-10-29

使用datagrip连接hive

-- 切换数据库

use testdb;

create database testdb;

-- 创建表

create table t_user(

    id int,

    name varchar(100),

    age int

);

create table t_user3(

    id int,

    name varchar(100),

    age int

)

row format delimited fields terminated by ','

    STORED AS TEXTFILE;

-- 插入数据,可以通过insert和updatesql语句来操作,不过执行效率很慢,推荐通过文件的方式来写入数据

-- 这里需要结合hdfs来操作

-- 新建文本文件

[hdfs@master hive-server2]$ vim ~/user.txt

1,zhangsan,18

2,lisi,19

3,wangwu,17

4,zhaoliu,30

-- 将文件放到库中

hadoop fs -put ~/user.txt /warehouse/tablespace/managed/hive/testdb.db/t_user3

-- 查看建表语句,可以通过这个语句看到存储文件地址

show create table t_user;

--   'hdfs://master:8020/warehouse/tablespace/managed/hive/testdb.db/t_user'

--删除表

drop table t_user;

--查询表

select * from t_user3;

-- 显示创建的表

show tables;

问题处理

java.io.IOException: java.lang.RuntimeException: ORC split generation failed with exception: org.apache.orc.FileFormatException: Malformed ORC file hdfs://master:8020/warehouse/tablespace/managed/hive/testdb.db/t_user2/user.txt. Invalid postscript. org.apache.orc.FileFormatException:Malformed ORC file hdfs://master:8020/warehouse/tablespace/managed/hive/testdb.db/t_user2/user.txt. Invalid postscript.

这种报错是上传的是txt文件,而表默认使用orc的方式读取文件,导致读取失败,这里可以通过建表语句指定为txt格式

 STORED AS TEXTFILE;

也可以使用标准orc文件来解决这种问题

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Hive常用操作以及java.io.IOException: java.lang.RuntimeException: ORC split generation failed问题处理 的相关文章

随机推荐

  • el-select下拉框:数据回显后,无法重新选中或修改

    选中其他值以后 数据并没有发生改变 且无法选中 解决 给el select 点击事件 change getTeacherId 强制数据刷新 表单同理 input getTeacherId getTeacherId val this next
  • 数据可视化第四章

    比例数据 是根据类别 子类别和群体来进行划分的数据 对于比例 通常想要得到最大值 最小值和总体分布 前两者比较简单 将数据由小到大进行排列 位于两端的分别就是最小值和最大值 数据对比也是比例可视化的一个重要应用 在一个图表中集中反映多个维度
  • 小程序页面滚动穿透

    小程序页面滚动穿透 一 场景 框架 Taro2 Taro3不生效的 在项目当中 基础遇到这样的需求 有一个长列表 或者其他可滚动展示的页面 在这个页面会弹出一个Modal层 如下 贝壳找房的 的筛选栏 二 问题 如果这个弹框内容不可滚动 不
  • java 获取系统 默认编码_Java获取Linux服务器系统默认编码格式

    一 查找java进程 ps ef grep java 二 使用jinfo命令查看java系统参数 jinfo sysprops 进程id Usage jinfo option to connect to running process ji
  • 建立良好人际关系的原则

    1 尊重原则 尊重包括两个方面 自尊和尊重他人 自尊就是在各种场合都要尊重自己 维护自己的尊严 不要自暴自弃 尊重他人就是要尊重别人的生活习惯 兴趣爱好 人格和价值 只有尊重别人才能得到别人的尊重 2 真诚原则 只有诚以待人 胸无城府 才能
  • 【图论——第四讲】dijkstra算法求单源最短路及其堆优化

    o 大家好 欢迎大家光临我的博客 面向阿尼亚学习 算法学习笔记系列持续更新中 文章目录 一 前言 二 朴素dijkstra算法 三 堆优化版dijkstra 最后 一 前言 单源最短路 指的是求一个点 到其他所有点的最短距离 即起点是固定的
  • linux系统中函数库,Linux函数库(静态函数库和动态函数库)及安装过程

    Linux 系统中存在大量的函数库 简单来讲 函数库就是一些函数的集合 每个函数都具有独立的功能且能被外界调用 我们在编写代码时 有些功能根本不需要自己实现 直接调用函数库中的函数即可 需要注意的是 函数库中的函数并不是以源代码的形式存在的
  • 从0到1设计通用数据大屏搭建平台

    优质资源分享 学习路线指引 点击解锁 知识定位 人群定位 Python实战微信订餐小程序 进阶级 本课程是python flask 微信小程序的完美结合 从项目搭建到腾讯云部署上线 打造一个全栈订餐系统 Python量化交易实战 入门级 手
  • Python 多线程、多进程、协程对迭代数据的耗时操作测试

    Python 多线程 多进程 协程对迭代数据的耗时操作测试 2023 03 29 CPU计算密集型 2 17s p Python中的多线程受GIL制约 因此表面上的并行 实际上是并发 完全的计算密集型任务就和串行的耗时差不多了 Deal 耗
  • 阿里云数据库配置IP白名单操作方法(以MySQL为例)

    阿里云数据库RDS创建成功后 首次连接访问RDS需要配置IP白名单 在阿里云RDS控制台即可配置IP白名单 阿里云百科来详细说下阿里云服务器RDS配置白名单的方法 阿里云服务器配置IP白名单 阿里云百科以MySQL云数据库为例 RDS My
  • vc++常见错误之二:“fatal error C1083: ”无法打开包括文件

    这个问题产生的情况有多种 解决方法也有多种 我集合了网上的各种可能 可能不全 希望对你有用 其一 原文链接 http www cnblogs com txg blog archive 2011 03 07 1974857 html 步骤1
  • Nginx配置详解

    1 基本概念 1 1 Nginx简介 Nginx是一个高性能的HTTP和反向代理服务器 特点是占用内存少 并发能力强 事实上Nginx的并发能力确实在同类型的网页服务器中表现好 Nginx专为性能优化而开发 性能是其最重要的考量 实现上非常
  • SSM网约车管理系统毕业设计源码051630

    摘 要 时代的进步催生了一些事物 网约车便是近年社会发展的衍生物 并且在不长的时间内占领了大批市场 规模的日益扩大 一些负面的东西也开始浮出水面 犹如一颗石子投入水中 涟漪不断扩张 中国有句古话 无规则不成方圆 本文主要是针对网约车管理问题
  • 【python】迷宫游戏小游戏开发(代码+报告)【独一无二】

    博 主 米码收割机 技 能 C Python语言 公众号 测试开发自动化 荣 誉 阿里云博客专家博主 51CTO技术博主 专 注 专注主流机器人 人工智能等相关领域的开发 测试技术 迷宫游戏小游戏开发 代码 报告 目录 迷宫游戏小游戏开发
  • HTML中h标签和p标签,HTML 中 br 和 p 标签的区别是什么?

    HTML 中 br 和 p 标签的区别是什么 在 html 中 br 和 p 标签都可以实现文本的换行效果 那么它们之间有什么区别吗 下面本篇文章就来给大家介绍一下 br 和 p 标签的区别 希望对大家有所帮助 区别 在 HTML 中 br
  • ERP应收应付的操作与设计--开源软件诞生21

    赤龙ERP应收应付讲解 第21篇 用日志记录 开源软件 的诞生 点亮星标 祈盼着一个鼓励 博主开源地址 码云 https gitee com redragon redragon erp GitHub https github com red
  • 使用word文档插入代码方式

    熟悉编程工作的人员知道 经常会把代码往文档里面粘贴 如何优雅 快速的 美观的在word中进行插入代码了 可以使用样式工具 使用过程如下 1 新建代码端样式 找到该页面点击新建样式 2 设置字体 3 设置段落 4 设置边框 验证
  • PyTorch深度学习实践---笔记

    PyTorch深度学习实践 笔记 2 线性模型 Linear Model 2 exercise 3 梯度下降算法 Gradient Descent 3 1梯度下降 Gradient Descent 3 2 随机梯度下降 Stochastic
  • 【Command模式】C++设计模式——命令模式

    命令模式 一 设计流程探讨 二 模式介绍 三 代码实现 C 设计模式大全 23种设计模式合集详解 点我跳转 一 设计流程探讨 假如你正在开发一款新的文字编辑器 当前的任务是创建一个包含多个按钮的工具栏 并让每个按钮对应编辑器的不同操作 你创
  • Hive常用操作以及java.io.IOException: java.lang.RuntimeException: ORC split generation failed问题处理

    使用datagrip连接hive 切换数据库 use testdb create database testdb 创建表 create table t user id int name varchar 100 age int create