Athena 无法使用 OpenCSVSerde 解析日期

2024-01-08

我在 S3 上有一个非常简单的 csv 文件

"i","d","f","s"
"1","2018-01-01","1.001","something great!"
"2","2018-01-02","2.002","something terrible!"
"3","2018-01-03","3.003","I'm an oil man"

我正在尝试使用以下命令创建一个表

CREATE EXTERNAL TABLE test (i int, d date, f  float, s string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' 
LOCATION 's3://mybucket/test/'
TBLPROPERTIES ("skip.header.line.count"="1");

当我查询表时(select * from test)我收到这样的错误:

HIVE_BAD_DATA:
解析字段 1 的字段值“2018-01-01”时出错:对于输入字符串:“2018-01-01”

更多信息:

  • 如果我改变d列改为字符串查询将成功
  • 我之前使用 Athena 解析过文本文件中的日期;我相信使用惰性简单串行器 https://docs.aws.amazon.com/athena/latest/ug/lazy-simple-serde.html
  • 确实seems就像 OpenCSVSerde 的问题

The 文档 https://docs.aws.amazon.com/athena/latest/ug/csv.html明确表示这是受支持的。求有遇到过这种情况的人,或者有什么建议。


事实上,这是一个问题文档 https://docs.aws.amazon.com/athena/latest/ug/csv.html你提到的。您可能指的是这段摘录:

[OpenCSVSerDe] 识别 DATE 类型(如果在 UNIX 中指定) 格式,例如 YYYY-MM-DD,作为 LONG 类型。

可以理解的是,您将日期格式设置为 YYYY-MM-DD。然而,文档中的这句话具有很大的误导性。当提到UNIX格式时,它实际上有UNIX 纪元时间 https://en.wikipedia.org/wiki/Unix_time心里。

根据 UNIX Epoch 的定义,您的日期应该是整数(因此在文档中引用了 LONG 类型)。您的日期应该是自 1970 年 1 月 1 日以来经过的天数。

例如,您的示例 CSV 应如下所示:

"i","d","f","s"
"1","17532","1.001","something great!"
"2","17533","2.002","something terrible!"
"3","17534","3.003","I'm an oil man"

然后你可以运行完全相同的命令:

CREATE EXTERNAL TABLE test (i int, d date, f  float, s string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' 
LOCATION 's3://mybucket/test/'
TBLPROPERTIES ("skip.header.line.count"="1");

如果您使用以下命令查询 Athena 表select * from test, 你会得到:

  i       d          f              s           
 --- ------------ ------- --------------------- 
  1   2018-01-01   1.001   something great!     
  2   2018-01-02   2.002   something terrible!  
  3   2018-01-03   3.003   I'm an oil man    

类似的问题也损害了上述文档中对 TIMESTAMP 的解释:

[OpenCSVSerDe] 识别 TIMESTAMP 类型(如果在 UNIX 格式,例如yyyy-mm-dd hh:mm:ss[.f...],作为 LONG 类型。

这似乎表明我们应该将 TIMESTAMP 格式化为yyyy-mm-dd hh:mm:ss[.f...]。并不真地。事实上,我们需要再次使用 UNIX Epoch Time,但这次使用的是自 1970 年 1 月 1 日午夜以来经过的毫秒数。

例如,考虑以下示例 CSV:

"i","d","f","s","t"
"1","17532","1.001","something great!","1564286638027"
"2","17533","2.002","something terrible!","1564486638027"
"3","17534","3.003","I'm an oil man","1563486638012"

以及以下 CREATE TABLE 语句:

CREATE EXTERNAL TABLE test (i int, d date, f  float, s string, t timestamp)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' 
LOCATION 's3://mybucket/test/'
TBLPROPERTIES ("skip.header.line.count"="1");

这将是结果集select * from test:

  i       d          f              s                       t             
 --- ------------ ------- --------------------- ------------------------- 
  1   2018-01-01   1.001   something great!      2019-07-28 04:03:58.027  
  2   2018-01-02   2.002   something terrible!   2019-07-30 11:37:18.027  
  3   2018-01-03   3.003   I'm an oil man        2019-07-18 21:50:38.012  
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Athena 无法使用 OpenCSVSerde 解析日期 的相关文章

  • 如何在蜂巢中的每个组中按计数 desc 进行排序?

    这是 HQL select A B count as cnt from test table group by A B order by cnt desc 示例输出如下 a1 b1 5 a2 b1 3 a1 b2 2 a2 b2 1 但我想
  • Import-Csv - 成员已存在问题

    我必须将多个 CSV 文件合并为一个文件 每个 CSV 都有一个标题 其中一列标题是相同的 理想情况下 最终文件 all out csv 必须有一个标头 我运行 PowerShell 代码 Import Csv out 1 result c
  • SuperCSV 附加而不是覆盖?

    是否可以向 CSV 文件添加新行 而不是覆盖最后一行 这是当我想添加新行时调用的方法 private static void writeWithCsvMapWriter throws Exception final String heade
  • Hive:如何分解嵌入 CSV 文件中的 JSON 列?

    从 CSV 文件 带有标题和管道分隔符 中 我得到了以下两个内容 其中包含一个 JSON 列 内部有一个集合 如下所示 第一种情况 使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
  • 如何使用列表作为pandas数据框中的值?

    我有一个数据框 需要列的子集包含具有多个值的条目 下面是一个带有 运行时 列的数据框 其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
  • 如何分块加载 Pickle 文件?

    是否有任何选项可以批量加载 pickle 文件 我知道我们可以将数据保存在 CSV 中并分块加载 但除了 CSV 之外 是否有任何选项可以批量加载 pickle 文件或任何 python 本机文件 基于Python pickle 的文档 h
  • 是否可以使用 csv.DictReader 保持列顺序?

    例如 我的 csv 有如下列 ID ID2 Date Job No Code 我需要以相同的顺序写回各列 这dict立即打乱了顺序 所以我相信这更多是读者的问题 蟒蛇的dicts 在 3 6 之前不维持顺序 但是 无论如何 在该版本中csv
  • 从 Presto 中的 JSON 列获取特定值

    我有一个带有 JSON 列的表points其中一行为 0 0 2 1 1 2 2 0 5 15 1 2 20 0 7 我想获取键的值 1 and 20 并将它们存储为别名 例如first and second在查询中 到目前为止我所做的是
  • 写入抓取数据的 csv 文件时如何拆分项目名称

    我有兴趣使用 R 从网上抓取的数据创建 csv 或类似的 Excel 兼容文件 到目前为止 我通过执行以下操作来存储数据 require textreadr spiegel lt read html http www spiegel de
  • 从 CSV 中去除额外的文本限定符

    我有一个 CSV 其中某些字段由 符号分隔作为文本限定符 参见下面的例子 请注意 每个整数 例如 1 2 3 等 都应该是一个字符串 合格的字符串被 符号包围 1 2 3 qualifiedString1 4 5 6 7 8 9 10 11
  • 如何将 Excel 或 CSV 文件加载到 Firebird 中?

    我在用着Firebird http www firebirdsql org数据库 我需要将 Excel 文件加载到数据库表中 我需要一个能很好地完成这项工作的工具 我尝试了一些在谷歌上找到的东西 但它们都有一些错误 由于 Excel 数据不
  • hive 添加分区语句忽略前导零

    我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
  • S3 选择检索 CSV 中的标头

    我尝试使用以下代码从存储在 S 存储桶中的 CSV 中获取记录子集 s3 boto3 client s3 bucket bucket file name file sql stmt SELECT S FROM s3object S LIMI
  • 如何将 Pandas 数据框保存到配置单元表?

    我有 pandas 数据框 我正在尝试找到将数据框数据保存到配置单元表的最佳方法 一种方法是保存到 csv 文件并将其加载到 hive 表 有一个更好的方法吗 None
  • 如何按行扩展数组值!!使用 Hive SQL

    我有一个有 4 列的表 其中一列 项目 类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
  • 从日志文件 python 创建 csv 标题

    我的日志文件每行都包含一些信息 如下所示 Info1 NewOrder key 123 Info3 10 Info5 abc Info3 10 Info1 OldOrder key 456 Info6 xyz Info1 NewOrder
  • 如何将多个 Excel 工作表转换为 csv python

    我想转换所有的excel文档 xls 将工作表转换为 csv 如果 excel 文档只有一张工作表 那么我将进行如下转换 wb open workbook path1 sh wb sheet by name Sheet1 csv file
  • Hive:在查询中将 array 转换为 array

    我有两张桌子 create table a 1 array
  • C#生成的csv文件通过电子邮件发送嵌入到Lotus Note中电子邮件的底部

    我遇到了一个奇怪的问题 即使用 NET SmtpClient 通过电子邮件发送的 CSV 附件出现在电子邮件底部 而不是 Lotus Note 中的附件 我只是不知道如何解决这个问题 而且我无法访问客户端计算机 这使得调试非常困难 我可以采
  • 将 CSV 复制到 Amazon RDS 托管的 Postgresql 数据库

    我有一个使用 Amazon 的 RDS 服务托管的数据库 我正在尝试编写一个 Web 服务来更新所述数据库 我遇到的问题是它不允许我使用 COPY 命令 因为我收到此错误 错误 必须是超级用户才能复制到文件或从文件复制 我正在使用我为数据库

随机推荐

  • 如何为 Spring Security 的 SecurityConfig 编写单元测试

    我有一个 Spring Security 类 用于验证用户的令牌 我从Auth0网站获取代码并修改antMatcher我的配置的一部分 这是代码 EnableWebSecurity public class SecurityConfig V
  • 在 numpy 中从较小的矩阵创建较大的矩阵

    我有3个矩阵A B C 我希望创建一个更大的矩阵形式 D 0 A B C 如何在 Numpy 中做到这一点 This numpy bmat numpy zeros appropriate shape A B C 有效 但我不确定如何避免创建
  • Couchbase、减少过大误差

    在我的工作中 我使用 couchbase 但遇到了一些问题 在我调用聚合视图之后 数据从某些设备到达 couchbase 该视图必须通过 2 个键聚合值 timestamp 和 deviceId 在我尝试聚合超过 10k 的值之前 一切都很
  • 在 React Native 中,如何制作像 Instagram 这样的交互式点击并按住模式?

    Instagram 有一个非常酷的交互功能 您可以点击并按住 也称为长按 图像 然后会出现一个交互式弹出窗口 一旦出现 您可以将手指拖动到操作按钮之一 然后移开手指即可应用该操作并关闭弹出窗口 Here it is in action An
  • 将命令行参数传递给使用 Padre 运行的 Perl 程序

    有没有办法将命令行参数传递给从 Padre 菜单 运行 gt 运行脚本 运行的 Perl 程序 在 工具 gt 首选项 gt 语言 Perl5 下 设置 脚本参数 并保存 或者在 工具 gt 首选项 gt 高级 下 查看 run scrip
  • OAuth 2.0 生成令牌和秘密令牌 [关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我正在使用 Apache Oltu
  • 如何动态添加静态资源到spring-boot jar应用程序?

    我有 spring boot 应用程序 它创建带有 html 静态页面的目录 当我通过命令启动应用程序时 mvn spring boot run一切正常 包含静态页面的文件夹创建于 resources 目录和客户端可以访问页面 但我希望将我
  • 通过 sqlalchemy 和 pyodbc 访问 MS SQL 数据库时出现“登录超时已过期”错误

    因此 我在让 sqlalchemy 和 pyodbc 与远程 MS SQL Server 一起使用时遇到了一些麻烦 本地 sqlcmd 工作正常 但当我尝试通过 python 代码读取数据库时却无法正常工作 任何帮助 将不胜感激 环境 Ce
  • PHP FILTER_VALIDATE_EMAIL 最大长度

    使用 PHP 时允许的最大字符长度是多少FILTER VALIDATE EMAIL 我正在测试我的脚本来测试允许的最大长度 200 的函数 但是当我使用超过 200 个字符的电子邮件时 PHPFILTER VALIDATE EMAIL返回假
  • DataBase(datamodel)建立文件夹结构

    计划用 Java 构建基于文件夹的结构 我将使用 GUI 的 jquery 插件 因此我不需要有关如何显示文件夹结构的信息 我正在寻找有关如何存储文件夹信息的后端逻辑 以便可以快速有效地检索它 每个文件夹都会有多个子文件夹 从叶文件夹中 我
  • 扩展 DOMDocument 和 DOMNode:返回对象的问题

    我正在尝试扩展 DOMDocument 类 以便使 XPath 选择更容易 我写了这段代码 class myDOMDocument extends DOMDocument function selectNodes xpath oxpath
  • Airflow 远程日志记录不起作用

    我有一个正在运行的 Apache Airflow 1 8 1 实例 我有一个工作连接 及其 ID 可以写入 Google Cloud Storage 并且我的气流用户有权写入存储桶 我尝试通过添加来使用远程日志存储功能 remote bas
  • 如何在 C# 中以编程方式创建 XML 站点地图

    我正在建立一个网站 现在我想创建它的 xml 站点地图 就像 google 站点地图一样 但我想使用 C 以编程方式创建它 谁能告诉我如何使用网站的基本 url 访问 Web 服务器上的根目录 将所有页面列表放入字符串列表中 来得容易 pr
  • 文件中的正则表达式 re.sub 列表

    我有一个文本列表 可以使用以下内容重新编辑 re sub 0000 1111 data 替换模式 4 4 3 3 with 1 4 2 3对于 shell 中的一个输入 效果也很好 然而 我尝试在列表中使用这种模式给了我一个 第一行出现不良
  • 调用 HP ePrint Android 应用程序

    我正在开发一个 Android 应用程序 它应该调用 Android HP ePrint 应用程序进行无线打印 为此 我使用代码 Intent intent new Intent com hp android print PRINT int
  • 在 BigQueryIO.write() 操作之后执行进程

    我有一个以 BigQuery 表作为接收器的管道 我需要在数据写入 BigQuery 后执行一些步骤 这些步骤包括对该表执行查询 从中读取数据以及写入不同的表 如何实现以上目标 我是否应该为后者创建一个不同的管道 但在第一个管道之后调用它将
  • Spring:/** 和 /* 在路径方面的差异

    当我们引用路径时 两个星号和一个星号有什么区别 早些时候我正在调试我的 Spring 3 项目 我试图使用添加 swf
  • 在IRB中,我可以查看我之前定义的方法的源代码吗?

    如果我在 IRB 中定义了一个方法 是否有办法在稍后的会话中查看其来源 gt def my method gt puts hi gt end 稍后输出几个屏幕我希望能够写出类似的东西 gt source my method 并返回 gt d
  • Xcode 8.1 - 如何更新故事板中所有视图的框架?

    在 Xcode 8 1 中 我可以通过单击 更新框架 按钮来更新故事板中的每个视图 但我想更新所有视图 我该怎么做 They added one standalone button to the leftmost side in the c
  • Athena 无法使用 OpenCSVSerde 解析日期

    我在 S3 上有一个非常简单的 csv 文件 i d f s 1 2018 01 01 1 001 something great 2 2018 01 02 2 002 something terrible 3 2018 01 03 3 0