“skip.header.line.count”=“1”在 SparkSession 的 Hive 中不起作用

2024-03-02

我正在尝试使用 SparkSession 将 CSV 数据加载到 Hive 表中。我想在加载到配置单元表时跳过标题数据，并且设置 tblproperties("skip.header.line.count"="1") 也不起作用。

我正在使用以下代码。

import java.io.File

import org.apache.spark.sql.{SparkSession,Row,SaveMode}

case class Record(key: Int, value: String)

val warehouseLocation=new File("spark-warehouse").getAbsolutePath

val spark=SparkSession.builder().appName("Apache Spark Book Crossing Analysis").config("spark.sql.warehouse.dir",warehouseLocation).enableHiveSupport().getOrCreate()

import spark.implicits._
import spark.sql
//sql("set hive.vectorized.execution.enabled=false")
sql("drop table if exists BookTemp")
sql ("create table BookTemp(ISBN int,BookTitle String,BookAuthor String ,YearOfPublication int,Publisher String,ImageURLS String,ImageURLM String,ImageURLL String)row format delimited fields terminated by ';' ")
sql("alter table BookTemp set TBLPROPERTIES("skip.header.line.count"="1")")
 sql("load data local inpath 'BX-Books.csv'  into table BookTemp")
 sql("select * from BookTemp limit 5").show

控制台错误：

res55: org.apache.spark.sql.DataFrame = []
<console>:1: error: ')' expected but '.' found.
sql("alter table BookTemp set TBLPROPERTIES("skip.header.line.count"="1")")

2019-02-20 22:48:09 WARN  LazyStruct:151 - Extra bytes detected at the end of the row! Ignoring similar problems.
+----+--------------------+--------------------+-----------------+--------------------+--------------------+--------------------+--------------------+
|ISBN|           BookTitle|          BookAuthor|YearOfPublication|           Publisher|           ImageURLS|           ImageURLM|           ImageURLL|
+----+--------------------+--------------------+-----------------+--------------------+--------------------+--------------------+--------------------+
|null|        "Book-Title"|       "Book-Author"|             null|         "Publisher"|       "Image-URL-S"|       "Image-URL-M"|       "Image-URL-L"|
|null|"Classical Mythol...|"Mark P. O. Morford"|             null|"Oxford Universit...|"http://images.am...|"http://images.am...|"http://images.am...|
|null|      "Clara Callan"|"Richard Bruce Wr...|             null|"HarperFlamingo C...|"http://images.am...|"http://images.am...|"http://images.am...|
|null|"Decision in Norm...|      "Carlo D'Este"|             null|   "HarperPerennial"|"http://images.am...|"http://images.am...|"http://images.am...|
|null|"Flu: The Story o...|  "Gina Bari Kolata"|             null|"Farrar Straus Gi...|"http://images.am...|"http://images.am...|"http://images.am...|
+----+--------------------+--------------------+-----------------+--------------------+--------------------+--------------------+--------------------+
only showing top 5 rows

如结果所示，我想跳过第一行数据

如果您使用 sql，那么解决方法是向 sql 添加过滤器：

sql("select * from BookTemp limit 5 where BookTitle!='Book-Title'").show

这个 Jira 是相关的：https://issues.apache.org/jira/browse/SPARK-11374 https://issues.apache.org/jira/browse/SPARK-11374

另请阅读以下内容：https://github.com/apache/spark/pull/14638 https://github.com/apache/spark/pull/14638- 您可以使用 CSV 阅读器选项：

spark.read.option("header","true").csv("/data").show

或者在加载之前使用 shell 删除标头：

file="myfile.csv"
tail -n +2 "$file" > "$file.tmp" && mv "$file.tmp" "$file"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

csv

apachespark

hive

“skip.header.line.count”=“1”在 SparkSession 的 Hive 中不起作用的相关文章

将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Scala 使用的 Redis 客户端库建议

我正在计划使用 Scala 中的 Redis 实例进行一些工作并正在寻找有关使用哪些客户端库的建议理想情况下如果存在一个好的库我希望有一个为 Scala 而不是 Java 设计的库但如果现在这是更好的方法那么仅使用 Java 客
Kafka 分区键无法正常工作

我正在努力解决如何正确使用分区键机制的问题我的逻辑是设置分区号为3 然后创建三个分区键为 0 1 2 然后使用分区键创建三个KeyedMessage 例如 KeyedMessage 主题 0 消息 KeyedMessage 主题 1 消息
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
将ADODB二进制流转换为字符串vba

我有以下问题我有一个存储在服务器上的 CSV 文件但它有 3 个字符作为分隔符我想从 URL 加载数据并使用作为分隔符将数据填充到 Excel 页面的列中到目前为止我找到了使用 ADODB 记录集从网站加载文件的代码但我无法进
scala 返回列表中的第一个 Some

我有一个清单l List T1 目前我正在执行以下操作 myfun T1 gt Option T2 val x Option T2 l map myfun l flatten find gt true The myfun函数返回 None
SQL Server - 将行连接到逗号分隔的列表中

假设我有一个临时表如下所示 Id Value 1 1 1 2 1 3 2 1 2 2 我希望我的桌子是这样的 Id ValueList 1 1 2 3 2 1 2 所以基本上我需要将我的值分组为逗号分隔的列表我已经尝试过以下操作 SEL
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
如何使用 R 将每个文件的数据添加为附加行，从而将不同的 .csv 文件合并为一个完整的文件？

我有几个不同的文件夹它们都包含一个 csv 文件所有这些 csv 文件都有一个单独的列其中包含实验的一种条件的数据我想以将每个文件的数据添加为新列的方式合并这些 csv 文件目前它看起来像这样 C1 csv 102 106 15
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
如何通过删除 Scala 中的一个元素来从列表中获取所有可能的子列表？

我有一个清单List 1 2 3 4 并希望通过删除一个元素来获得所有子列表 List 2 3 4 List 1 3 4 List 1 2 4 List 1 2 3 做到这一点最简单的方法是什么如果你的意思是离开每个position在列
将大型 CSV 加载到 Google BigQuery 时出错

将大型 CSV 加载到 bigquery 时出现错误我在网上阅读的所有地方都发现压缩文件有 5GB 大小限制但 CSV 没有限制加载操作中的 BigQuery 错误处理作业 bqjob r3016bbfad3037f 0000015
在没有匹配器的情况下如何跳过specs2中的测试？

我正在尝试使用 scala 中的 specs2 测试一些与数据库相关的内容目标是测试 db running 然后执行测试我发现如果数据库关闭我可以使用 Matcher 类中的 orSkip 问题是我正在获取一个匹配条件的输出作为
实现只有一个居民的类型的价值

感谢 MilesSabin 的answer https stackoverflow com a 32157259 867671我可以编写类型级别的斐波那契序列 sealed trait Digit case object Zero exte
sbt 找不到启动器 jar：./bin/sbt-launch.jar

我已经成功地使用 sbt 进行基本的 Scala 编译好几年了但有一天它由于某种原因停止工作我在自己的帐户中使用它但我决定让我的系统管理员在我们的本地网络上安装最新版本当我尝试运行它时我得到找不到启动器 jar bin sbt
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
如何（重新）命名 pandas 数据框中的空列标题而不导出到 csv

我有一个熊猫数据框df1带有一个索引列和一系列未命名的值我想为未命名的系列指定一个名称到目前为止我知道的唯一方法是导出到df1 csv using df1 to csv df1 csv header Signal 然后使用以下命令重新
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所

随机推荐

Java 中的通用 Fluent Builder

我知道也有过类似的问题但我还没有看到我的问题的答案我将用一些简化的代码来展示我想要的东西假设我有一个复杂的对象它的一些值是通用的 public static class SomeObject
Django 身份验证适用于 Chrome，但不适用于 Firefox

我遇到了一个问题 Django 的登录在 Chrome 上工作正常但在 Firefox 上却不行当尝试在 Firefox 上登录网站的受限部分时它只是一次又一次地循环回到登录页面此外日志上没有出现与此相关的错误消息有趣的是当服
为什么 Rails 给出“无法验证 CSRF 令牌真实性”错误？

我在 Rails 生产中收到无法验证 CSRF 令牌真实性的消息我的问题是它为什么要这样做我该如何修复它这是我的 Heroku 日志一些值已匿名 2016 02 13T01 18 54 118956 00 00 heroku
如何将 COUNTIF 与 OR 结合起来

在 Google 电子表格中我需要使用COUNTIF在具有多个条件的范围上运行所以在下表中我需要有类似的东西 COUNTIF B B Mammal or Bird 并返回值 4 A B Animal Type Dog Mammal C
通过 python 或 php 从 gmail 获取附件

我一直在尝试查找有关如何使用 python 或 PHP 从 gmail 帐户检索附件的信息我希望这里有人可以提供一些帮助谢谢 Related 如何从 Gmail 下载所有带附件的电子邮件 https stackoverflow com
如何在android中的表格布局行中显示结果列表？

我在 Android 中将列表数据显示到 TextView 时遇到了一点问题我的情况是我有一个表格布局与默认一TableRow 在表格行内我已被创建新线性布局然后四TextView里面创建的线性布局我向这个文本视图添加了一些默认值
Symfony2：发送 HTTP 请求

我正在尝试从我的一个控制器发出 HTTP 请求来联系另一个 URL 目标是联系另一个 URL 并简单地在我的页面中打印 HTML 答案我试过 r new Request r gt create http www google com GE
读取大TXT文件，内存不足异常

我想读取大小为500MB的大文本文件首先我使用 var file new StreamReader filePath ReadToEnd var lines file Split new n 但它抛出内存不足异常然后我尝试逐行读取但在读
获取通用抽象类的属性名称

考虑以下通用抽象类的实现 public abstract class BaseRequest
如何在 SQL 中将字符串按数字排序？

谁能告诉我如何解决这个问题我的顺序是按课程编号例如 CS 20 CS 25 CS 100 都是课程编号升序不过它计算的是第一个数字而不是整个数字 Course Grade CS 120 Intro to Java Programm
如何制作像 Chrome 中那样的溢出菜单？

我想制作一个类似于 android 中的 chrome 应用程序的溢出菜单其中有前进后退和书签按钮这是溢出菜单 https i stack imgur com Tenox png在 Chrome 应用程序中有任何想法吗您无法为溢出
与 Web 小部件通信 - Meteor、React、Node

我正在构建一个聊天仪表板和小部件客户应该能够将小部件放入他们的页面中一些类似的例子是Intercom http www intercom com or Drift http drift com 目前主应用程序是用 Meteor js
（错误？）InnoDB MySQL 错误 1025，errno 150 外键

我有一个表我正在尝试更改其主键这是表定义 CREATE TABLE tbl customer PersonId int 11 NOT NULL Id int 10 unsigned NOT NULL Name varchar 100 c
如何在不停机的情况下将更改部署到生产中（通用托管）？

在不停机的情况下部署从开发到生产的更改例如某些内容类型模型中的更改的推荐方法是什么我正在使用这个设置我有带有开发 postgres 数据库的开发实例在生产中我有 3 个 Strapi 实例同时服务 api 和 admin 使用
在 (ubuntu) linux 中捕获第二个键盘输入

我编写了一个从 USB 第二个键盘实际上是条形码扫描仪获取输入的程序问题是如果另一个窗口处于活动状态则数据会在那里输入而不是在我的程序中输入有人可以就我做错的事情给我建议吗 include
Google App Engine 有效负载对象

如何在Python中的任务有效负载中发送类对象我想在任务的参数中发送一个对象当我使用simplejson 我收到错误 Object is not serializable 当我使用pickle时我得到KeyValue Error 这个
self.presentingViewController 返回 UITabBarController 而不是使用presentModalViewController 推送它的视图控制器

我有一个tab基于应用程序中的一个views其中正在推动一个modal view controller 如果我打电话self presentingViewController在一个modal view controller 它返回tab
在 Xcode 中查看 NSData 内容

我正在运行 Xcode 我想转储 NSData 有问题的变量是缓冲区有没有办法通过 UI 或 GDB 调试器来做到这一点 Edit 我已将笔记移至答案中从来没有人正确回答过这个问题两年后我想是时候换一个了假设你的代码中有 NSDa
为什么 window.location.search 为空？

If I console log window location 我明白了 Location replace function assign function ancestorOrigins DOMStringList origin htt
“skip.header.line.count”=“1”在 SparkSession 的 Hive 中不起作用

我正在尝试使用 SparkSession 将 CSV 数据加载到 Hive 表中我想在加载到配置单元表时跳过标题数据并且设置 tblproperties skip header line count 1 也不起作用我正在使用以下代码

“skip.header.line.count”=“1”在 SparkSession 的 Hive 中不起作用

“skip.header.line.count”=“1”在 SparkSession 的 Hive 中不起作用 的相关文章

随机推荐

热门标签

“skip.header.line.count”=“1”在 SparkSession 的 Hive 中不起作用的相关文章