Athena 无法使用 OpenCSVSerde 解析日期

2024-01-08

我在 S3 上有一个非常简单的 csv 文件

"i","d","f","s"
"1","2018-01-01","1.001","something great!"
"2","2018-01-02","2.002","something terrible!"
"3","2018-01-03","3.003","I'm an oil man"

我正在尝试使用以下命令创建一个表

CREATE EXTERNAL TABLE test (i int, d date, f  float, s string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' 
LOCATION 's3://mybucket/test/'
TBLPROPERTIES ("skip.header.line.count"="1");

当我查询表时（select * from test）我收到这样的错误：

HIVE_BAD_DATA：
解析字段 1 的字段值“2018-01-01”时出错：对于输入字符串：“2018-01-01”

更多信息：

如果我改变d列改为字符串查询将成功
我之前使用 Athena 解析过文本文件中的日期；我相信使用惰性简单串行器 https://docs.aws.amazon.com/athena/latest/ug/lazy-simple-serde.html
确实seems就像 OpenCSVSerde 的问题

The 文档 https://docs.aws.amazon.com/athena/latest/ug/csv.html明确表示这是受支持的。求有遇到过这种情况的人，或者有什么建议。

事实上，这是一个问题文档 https://docs.aws.amazon.com/athena/latest/ug/csv.html你提到的。您可能指的是这段摘录：

[OpenCSVSerDe] 识别 DATE 类型（如果在 UNIX 中指定）格式，例如 YYYY-MM-DD，作为 LONG 类型。

可以理解的是，您将日期格式设置为 YYYY-MM-DD。然而，文档中的这句话具有很大的误导性。当提到UNIX格式时，它实际上有UNIX 纪元时间 https://en.wikipedia.org/wiki/Unix_time心里。

根据 UNIX Epoch 的定义，您的日期应该是整数（因此在文档中引用了 LONG 类型）。您的日期应该是自 1970 年 1 月 1 日以来经过的天数。

例如，您的示例 CSV 应如下所示：

"i","d","f","s"
"1","17532","1.001","something great!"
"2","17533","2.002","something terrible!"
"3","17534","3.003","I'm an oil man"

然后你可以运行完全相同的命令：

CREATE EXTERNAL TABLE test (i int, d date, f  float, s string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' 
LOCATION 's3://mybucket/test/'
TBLPROPERTIES ("skip.header.line.count"="1");

如果您使用以下命令查询 Athena 表select * from test，你会得到：

  i       d          f              s           
 --- ------------ ------- --------------------- 
  1   2018-01-01   1.001   something great!     
  2   2018-01-02   2.002   something terrible!  
  3   2018-01-03   3.003   I'm an oil man

类似的问题也损害了上述文档中对 TIMESTAMP 的解释：

[OpenCSVSerDe] 识别 TIMESTAMP 类型（如果在 UNIX 格式，例如yyyy-mm-dd hh:mm:ss[.f...]，作为 LONG 类型。

这似乎表明我们应该将 TIMESTAMP 格式化为yyyy-mm-dd hh:mm:ss[.f...]。并不真地。事实上，我们需要再次使用 UNIX Epoch Time，但这次使用的是自 1970 年 1 月 1 日午夜以来经过的毫秒数。

例如，考虑以下示例 CSV：

"i","d","f","s","t"
"1","17532","1.001","something great!","1564286638027"
"2","17533","2.002","something terrible!","1564486638027"
"3","17534","3.003","I'm an oil man","1563486638012"

以及以下 CREATE TABLE 语句：

CREATE EXTERNAL TABLE test (i int, d date, f  float, s string, t timestamp)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' 
LOCATION 's3://mybucket/test/'
TBLPROPERTIES ("skip.header.line.count"="1");

这将是结果集select * from test:

  i       d          f              s                       t             
 --- ------------ ------- --------------------- ------------------------- 
  1   2018-01-01   1.001   something great!      2019-07-28 04:03:58.027  
  2   2018-01-02   2.002   something terrible!   2019-07-30 11:37:18.027  
  3   2018-01-03   3.003   I'm an oil man        2019-07-18 21:50:38.012

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

csv

hive

opencsv

amazonathena

presto

Athena 无法使用 OpenCSVSerde 解析日期的相关文章

如何在蜂巢中的每个组中按计数 desc 进行排序？

这是 HQL select A B count as cnt from test table group by A B order by cnt desc 示例输出如下 a1 b1 5 a2 b1 3 a1 b2 2 a2 b2 1 但我想
Import-Csv - 成员已存在问题

我必须将多个 CSV 文件合并为一个文件每个 CSV 都有一个标题其中一列标题是相同的理想情况下最终文件 all out csv 必须有一个标头我运行 PowerShell 代码 Import Csv out 1 result c
SuperCSV 附加而不是覆盖？

是否可以向 CSV 文件添加新行而不是覆盖最后一行这是当我想添加新行时调用的方法 private static void writeWithCsvMapWriter throws Exception final String heade
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
如何分块加载 Pickle 文件？

是否有任何选项可以批量加载 pickle 文件我知道我们可以将数据保存在 CSV 中并分块加载但除了 CSV 之外是否有任何选项可以批量加载 pickle 文件或任何 python 本机文件基于Python pickle 的文档 h
是否可以使用 csv.DictReader 保持列顺序？

例如我的 csv 有如下列 ID ID2 Date Job No Code 我需要以相同的顺序写回各列这dict立即打乱了顺序所以我相信这更多是读者的问题蟒蛇的dicts 在 3 6 之前不维持顺序但是无论如何在该版本中csv
从 Presto 中的 JSON 列获取特定值

我有一个带有 JSON 列的表points其中一行为 0 0 2 1 1 2 2 0 5 15 1 2 20 0 7 我想获取键的值 1 and 20 并将它们存储为别名例如first and second在查询中到目前为止我所做的是
写入抓取数据的 csv 文件时如何拆分项目名称

我有兴趣使用 R 从网上抓取的数据创建 csv 或类似的 Excel 兼容文件到目前为止我通过执行以下操作来存储数据 require textreadr spiegel lt read html http www spiegel de
从 CSV 中去除额外的文本限定符

我有一个 CSV 其中某些字段由符号分隔作为文本限定符参见下面的例子请注意每个整数例如 1 2 3 等都应该是一个字符串合格的字符串被符号包围 1 2 3 qualifiedString1 4 5 6 7 8 9 10 11
如何将 Excel 或 CSV 文件加载到 Firebird 中？

我在用着Firebird http www firebirdsql org数据库我需要将 Excel 文件加载到数据库表中我需要一个能很好地完成这项工作的工具我尝试了一些在谷歌上找到的东西但它们都有一些错误由于 Excel 数据不
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
S3 选择检索 CSV 中的标头

我尝试使用以下代码从存储在 S 存储桶中的 CSV 中获取记录子集 s3 boto3 client s3 bucket bucket file name file sql stmt SELECT S FROM s3object S LIMI
如何将 Pandas 数据框保存到配置单元表？

我有 pandas 数据框我正在尝试找到将数据框数据保存到配置单元表的最佳方法一种方法是保存到 csv 文件并将其加载到 hive 表有一个更好的方法吗 None
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
从日志文件 python 创建 csv 标题

我的日志文件每行都包含一些信息如下所示 Info1 NewOrder key 123 Info3 10 Info5 abc Info3 10 Info1 OldOrder key 456 Info6 xyz Info1 NewOrder
如何将多个 Excel 工作表转换为 csv python

我想转换所有的excel文档 xls 将工作表转换为 csv 如果 excel 文档只有一张工作表那么我将进行如下转换 wb open workbook path1 sh wb sheet by name Sheet1 csv file
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
C＃生成的csv文件通过电子邮件发送嵌入到Lotus Note中电子邮件的底部

我遇到了一个奇怪的问题即使用 NET SmtpClient 通过电子邮件发送的 CSV 附件出现在电子邮件底部而不是 Lotus Note 中的附件我只是不知道如何解决这个问题而且我无法访问客户端计算机这使得调试非常困难我可以采
将 CSV 复制到 Amazon RDS 托管的 Postgresql 数据库

我有一个使用 Amazon 的 RDS 服务托管的数据库我正在尝试编写一个 Web 服务来更新所述数据库我遇到的问题是它不允许我使用 COPY 命令因为我收到此错误错误必须是超级用户才能复制到文件或从文件复制我正在使用我为数据库

随机推荐

如何为 Spring Security 的 SecurityConfig 编写单元测试

我有一个 Spring Security 类用于验证用户的令牌我从Auth0网站获取代码并修改antMatcher我的配置的一部分这是代码 EnableWebSecurity public class SecurityConfig V
在 numpy 中从较小的矩阵创建较大的矩阵

我有3个矩阵A B C 我希望创建一个更大的矩阵形式 D 0 A B C 如何在 Numpy 中做到这一点 This numpy bmat numpy zeros appropriate shape A B C 有效但我不确定如何避免创建
Couchbase、减少过大误差

在我的工作中我使用 couchbase 但遇到了一些问题在我调用聚合视图之后数据从某些设备到达 couchbase 该视图必须通过 2 个键聚合值 timestamp 和 deviceId 在我尝试聚合超过 10k 的值之前一切都很
在 React Native 中，如何制作像 Instagram 这样的交互式点击并按住模式？

Instagram 有一个非常酷的交互功能您可以点击并按住也称为长按图像然后会出现一个交互式弹出窗口一旦出现您可以将手指拖动到操作按钮之一然后移开手指即可应用该操作并关闭弹出窗口 Here it is in action An
将命令行参数传递给使用 Padre 运行的 Perl 程序

有没有办法将命令行参数传递给从 Padre 菜单运行 gt 运行脚本运行的 Perl 程序在工具 gt 首选项 gt 语言 Perl5 下设置脚本参数并保存或者在工具 gt 首选项 gt 高级下查看 run scrip
OAuth 2.0 生成令牌和秘密令牌 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在使用 Apache Oltu
如何动态添加静态资源到spring-boot jar应用程序？

我有 spring boot 应用程序它创建带有 html 静态页面的目录当我通过命令启动应用程序时 mvn spring boot run一切正常包含静态页面的文件夹创建于 resources 目录和客户端可以访问页面但我希望将我
通过 sqlalchemy 和 pyodbc 访问 MS SQL 数据库时出现“登录超时已过期”错误

因此我在让 sqlalchemy 和 pyodbc 与远程 MS SQL Server 一起使用时遇到了一些麻烦本地 sqlcmd 工作正常但当我尝试通过 python 代码读取数据库时却无法正常工作任何帮助将不胜感激环境 Ce
PHP FILTER_VALIDATE_EMAIL 最大长度

使用 PHP 时允许的最大字符长度是多少FILTER VALIDATE EMAIL 我正在测试我的脚本来测试允许的最大长度 200 的函数但是当我使用超过 200 个字符的电子邮件时 PHPFILTER VALIDATE EMAIL返回假
DataBase（datamodel）建立文件夹结构

计划用 Java 构建基于文件夹的结构我将使用 GUI 的 jquery 插件因此我不需要有关如何显示文件夹结构的信息我正在寻找有关如何存储文件夹信息的后端逻辑以便可以快速有效地检索它每个文件夹都会有多个子文件夹从叶文件夹中我
扩展 DOMDocument 和 DOMNode：返回对象的问题

我正在尝试扩展 DOMDocument 类以便使 XPath 选择更容易我写了这段代码 class myDOMDocument extends DOMDocument function selectNodes xpath oxpath
Airflow 远程日志记录不起作用

我有一个正在运行的 Apache Airflow 1 8 1 实例我有一个工作连接及其 ID 可以写入 Google Cloud Storage 并且我的气流用户有权写入存储桶我尝试通过添加来使用远程日志存储功能 remote bas
如何在 C# 中以编程方式创建 XML 站点地图

我正在建立一个网站现在我想创建它的 xml 站点地图就像 google 站点地图一样但我想使用 C 以编程方式创建它谁能告诉我如何使用网站的基本 url 访问 Web 服务器上的根目录将所有页面列表放入字符串列表中来得容易 pr
文件中的正则表达式 re.sub 列表

我有一个文本列表可以使用以下内容重新编辑 re sub 0000 1111 data 替换模式 4 4 3 3 with 1 4 2 3对于 shell 中的一个输入效果也很好然而我尝试在列表中使用这种模式给了我一个第一行出现不良
调用 HP ePrint Android 应用程序

我正在开发一个 Android 应用程序它应该调用 Android HP ePrint 应用程序进行无线打印为此我使用代码 Intent intent new Intent com hp android print PRINT int
在 BigQueryIO.write() 操作之后执行进程

我有一个以 BigQuery 表作为接收器的管道我需要在数据写入 BigQuery 后执行一些步骤这些步骤包括对该表执行查询从中读取数据以及写入不同的表如何实现以上目标我是否应该为后者创建一个不同的管道但在第一个管道之后调用它将
Spring：/** 和 /* 在路径方面的差异

当我们引用路径时两个星号和一个星号有什么区别早些时候我正在调试我的 Spring 3 项目我试图使用添加 swf
在IRB中，我可以查看我之前定义的方法的源代码吗？

如果我在 IRB 中定义了一个方法是否有办法在稍后的会话中查看其来源 gt def my method gt puts hi gt end 稍后输出几个屏幕我希望能够写出类似的东西 gt source my method 并返回 gt d
Xcode 8.1 - 如何更新故事板中所有视图的框架？

在 Xcode 8 1 中我可以通过单击更新框架按钮来更新故事板中的每个视图但我想更新所有视图我该怎么做 They added one standalone button to the leftmost side in the c
Athena 无法使用 OpenCSVSerde 解析日期

我在 S3 上有一个非常简单的 csv 文件 i d f s 1 2018 01 01 1 001 something great 2 2018 01 02 2 002 something terrible 3 2018 01 03 3 0

Athena 无法使用 OpenCSVSerde 解析日期

Athena 无法使用 OpenCSVSerde 解析日期 的相关文章

随机推荐

热门标签

Athena 无法使用 OpenCSVSerde 解析日期的相关文章