AWS Glue：爬网程序无法识别 CSV 格式的时间戳列

2024-02-13

运行 AWS Glue 爬网程序时，它无法识别时间戳列。

我已在 CSV 文件中正确设置 ISO8601 时间戳的格式。首先，我希望 Glue 能够自动将它们分类为时间戳，但事实并非如此。

我还尝试从此链接中使用自定义时间戳分类器https://docs.aws.amazon.com/glue/latest/dg/custom-classifier.html https://docs.aws.amazon.com/glue/latest/dg/custom-classifier.html

这是我的分类器的样子

这也不能正确分类我的时间戳。

我已经放入 grok 调试器（https://grokdebug.herokuapp.com/ https://grokdebug.herokuapp.com/）我的数据，例如

id,iso_8601_now,iso_8601_yesterday
0,2019-05-16T22:47:33.409056,2019-05-15T22:47:33.409056
1,2019-05-16T22:47:33.409056,2019-05-15T22:47:33.409056

并且它在两者上都匹配

%{TIMESTAMP_ISO8601:时间戳}

%{YEAR}-%{MONTHNUM}-%{MONTHDAY}[T ]%{HOUR}:?%{MINUTE}(?::?%{SECOND})?%{ISO8601_TIMEZONE}？

import csv
from datetime import datetime, timedelta

with open("timestamp_test.csv", 'w', newline='') as f:
    w = csv.writer(f, delimiter=',')

    w.writerow(["id", "iso_8601_now", "iso_8601_yesterday"])

    for i in range(1000):
        w.writerow([i, datetime.utcnow().isoformat(), (datetime.utcnow() - timedelta(days=1)).isoformat()])

我希望 AWSglue 能够自动将 iso_8601 列分类为时间戳。即使添加自定义 grok 分类器，它仍然不会将任一列分类为时间戳。

两列都被分类为字符串。

The classifer is active on the crawler classifier active

爬虫输出timestamp_test表

{
    "StorageDescriptor": {
        "cols": {
            "FieldSchema": [
                {
                    "name": "id",
                    "type": "bigint",
                    "comment": ""
                },
                {
                    "name": "iso_8601_now",
                    "type": "string",
                    "comment": ""
                },
                {
                    "name": "iso_8601_yesterday",
                    "type": "string",
                    "comment": ""
                }
            ]
        },
        "location": "s3://REDACTED/_csv_timestamp_test/",
        "inputFormat": "org.apache.hadoop.mapred.TextInputFormat",
        "outputFormat": "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat",
        "compressed": "false",
        "numBuckets": "-1",
        "SerDeInfo": {
            "name": "",
            "serializationLib": "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe",
            "parameters": {
                "field.delim": ","
            }
        },
        "bucketCols": [],
        "sortCols": [],
        "parameters": {
            "skip.header.line.count": "1",
            "sizeKey": "58926",
            "objectCount": "1",
            "UPDATED_BY_CRAWLER": "REDACTED",
            "CrawlerSchemaSerializerVersion": "1.0",
            "recordCount": "1227",
            "averageRecordSize": "48",
            "CrawlerSchemaDeserializerVersion": "1.0",
            "compressionType": "none",
            "classification": "csv",
            "columnsOrdered": "true",
            "areColumnsQuoted": "false",
            "delimiter": ",",
            "typeOfData": "file"
        },
        "SkewedInfo": {},
        "storedAsSubDirectories": "false"
    },
    "parameters": {
        "skip.header.line.count": "1",
        "sizeKey": "58926",
        "objectCount": "1",
        "UPDATED_BY_CRAWLER": "REDACTED",
        "CrawlerSchemaSerializerVersion": "1.0",
        "recordCount": "1227",
        "averageRecordSize": "48",
        "CrawlerSchemaDeserializerVersion": "1.0",
        "compressionType": "none",
        "classification": "csv",
        "columnsOrdered": "true",
        "areColumnsQuoted": "false",
        "delimiter": ",",
        "typeOfData": "file"
    }
}

根据创建表 https://docs.aws.amazon.com/athena/latest/ug/create-table.htmldoc，时间戳格式为yyyy-mm-dd hh:mm:ss[.f...]

如果必须使用ISO8601格式，请添加此Serde参数'timestamp.formats'='yyyy-MM-dd\'T\'HH:mm:ss.SSSSSS'

您可以从 Glue(1) 更改该表或从 Athena(2) 重新创建它：

Glue 控制台 > 表格 > 编辑表格 > 将以上内容添加到 Serde 参数中。您还需要单击“编辑架构”并将数据类型从字符串更改为时间戳
从 Athena 删除表并运行：

CREATE EXTERNAL TABLE `table1`(
  `id` bigint, 
  `iso_8601_now` timestamp, 
  `iso_8601_yesterday` timestamp)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES ( 
  'field.delim' = ',',
  'timestamp.formats'='yyyy-MM-dd\'T\'HH:mm:ss.SSSSSS') 
LOCATION
  's3://REDACTED/_csv_timestamp_test/'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

awsglue

AWS Glue：爬网程序无法识别 CSV 格式的时间戳列的相关文章

AWSGlue AccessDeniedException，状态代码 400

我正在尝试为数据工程项目构建数据管道在S3 Glue Athena等的帮助下我在设置胶水爬虫以对数据进行索引时陷入困境即使我根据需要设置了角色但仍然出现以下错误 service AWSGlue statusCode 400 erro
使用 AWS Glue 时如何在 postgres 中将字符串保存为 JSONB 类型

我正在寻找如何在 postgresql 中将字符串编写为 jsonb 类型的解决方案所以DynamicFrame有一个字符串列来保存json数据当尝试保存到 postgres 时 DataSink0 glueContext write
无法使用 AWS Glue 中的 cx_oracle 连接 Oracle 数据库

我正在尝试使用 cx oracle 从 AWSglue 连接 Oracle 数据库但收到此错误消息数据库错误 DPI 1047 无法找到 64 位 Oracle 客户端库 libclntsh so 无法打开共享对象文件没有这样的文件或
使用 AWS Glue 将非常大的 csv.gz（每个 30-40 GB）转换为 parquet

有很多这样的问题但似乎没有任何帮助我试图将相当大的 csv gz 文件隐藏到镶木地板上并不断收到各种错误例如 Command failed with exit code 1 or An error occurred while ca
将 Spark fileoutputcommitter.algorithm.version=2 与 AWS Glue 结合使用

我一直无法弄清楚这一点但我正在尝试将直接输出提交器与 AWS Glue 结合使用 spark hadoop mapreduce fileoutputcommitter algorithm version 2 是否可以将此配置与 AWS G
如何处理 AWS Glue 中映射函数中的错误？

我正在使用mapDynamicFrame 的方法或者等效地 Map apply方法我注意到我传递给这些函数的函数中的任何错误都会被默默地忽略并导致返回的 DynamicFrame 为空假设我有一个这样的作业脚本 import sys
pyspark：将字符串转换为结构

我有数据如下 Id 01d3050e Properties choices null object demo database pg timestamp 1581534117303 LastUpdated 1581530000000 Las
如何配置粘合书签以与 scala 代码一起使用？

考虑 Scala 代码 import com amazonaws services glue GlueContext import com amazonaws services glue util GlueArgParser Job Jso
使用 AWS Glue 时如何查找更新的行？

我正在尝试使用 Glue 对从 RDS 迁移到 Redshift 的数据进行 ETL 据我所知 Glue 书签仅使用指定的主键查找新行而不跟踪更新的行然而我正在处理的数据往往会频繁更新行我正在寻找可能的解决方案我对 pyspark
胶水作业无法写入文件

我通过粘合作业返回填充一些数据该作业本身是从 s3 读取 TSV 稍微转换数据然后将其以 Parquet 写入 S3 由于我已经拥有数据因此我尝试一次启动多个作业以减少处理所有数据所需的时间当我同时启动多个作业时有时会遇到一个问
如何使用 pyspark 在 awsglue 中展平嵌套 json 中的数组？

我正在尝试展平 JSON 文件以便能够将其全部加载到 AWS Glue 中的 PostgreSQL 中我正在使用 PySpark 我使用爬虫抓取 S3 JSON 并生成一个表然后我使用 ETL Glue 脚本来读取爬取的表使用 R
当输入数据格式更改时，Athena 将数据放入错误的列中

我们有一些管道分隔的 txt 报告进入 S3 中的一个文件夹我们在其中运行 Glue 爬网程序来确定 Athena 中的架构和查询报告的格式最近发生了变化因此中间有两个新列旧文件 Columns A B C D E F Data a
如何在 AWS Glue 中设置多个 --conf 表参数？

AWS Glue 的 stackoverflow 上的多个答案都说要设置 conf 表参数但是有时在一项作业中我们需要在一项作业中设置多个 conf 键值对我尝试了以下方法来设置多个 conf 值所有这些都会导致错误添加另一个名
AWS Glue 中 s3fs 库导入失败

AWSglue不导入s3fs模块 import s3fs 我希望导入该库但 AWSglue 说导入错误没有名为 s3fs 的模块 AWS Glue 作业预装了一些常用库但除此之外您还需要下载 whl对于 pypi 的库在这种情况
AWS Glue — 从作业内访问工作流程参数

如何从胶水作业中检索胶水工作流程参数我有一个类型为 python shell 的 AWS Glue 作业该作业从glue 工作流程中定期触发该作业的代码将在大量不同的工作流程中重用因此我希望检索工作流程参数以消除对冗余作业的需求 A
在 AWS Glue pySpark 脚本中使用 SQL

我想使用 AWS Glue 将一些 csv 数据转换为 orc 我创建的 ETL 作业生成了以下 PySpark 脚本 import sys from awsglue transforms import from awsglue utils
AWS Glue：爬网程序将时间戳误解为字符串。 GLUE ETL 旨在将字符串转换为时间戳，使它们为 NULL

我一直在玩AWS Glue按照教程进行一些快速分析here https aws amazon com blogs big data build a data lake foundation with aws glue and amazon
terraform 不检测 lambda 源文件的更改

In my main tf我有以下内容 data template file lambda script temp file template file fn lambda script py data template file libr
如何在 AWS Glue 中使用 Spark 包？

我想使用 DatastaxSpark Cassandra 连接器 https mvnrepository com artifact com datastax spark spark cassandra connector 2 12 2 5
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if

随机推荐

LinearSVC sklearn (scikit-learn) 中 C 的行为

首先我创建一些玩具数据 n samples 20 X np concatenate np random normal loc 2 scale 1 0 size n samples np random normal loc 20 0 scal
如何使用自定义非托管扩展对 Neo4j 运行测试？

我有自己为 Neo4j 数据库定制编写的非托管扩展我想针对功能齐全的数据库运行集成测试并在那里提供非托管扩展 Neo4j 提供了名为neo4j harness这使得为非托管扩展编写集成测试变得更加容易更多信息是可以在这里找到 htt
XCode 的项目设置中忽略了预处理器宏，但目标设置中没有忽略

当我将 XCode 4 中的预处理器宏添加到我的目标之一时它会被使用并且条件编译会按照我的预期进行但是如果我将该设置移至项目级别并移出我的目标之一则预处理器宏显然会被忽略并且根本不会使用如果我通过仅在启用该宏时才编译的日志记录将
如何将 github 项目从一个存储库转移到另一个存储库

我很好奇你是否可以将 github 项目从一个存储库移动到另一个存储库 Should be more specific Github has a Project feature that allows you to create a si
使用 -p 进行 docker 登录会出现错误，当我像它建议的那样切换到 --password-stdin 时，仍然会出现错误 - gitlab-ci

我的 gitlab 服务器上有一个 docker 注册表设置这是我的 gitlab ci yml 文件 image docker 18 05 0 ce services docker dind stages build test rele
如何恢复/更改 MySQL 密码

昨天一切正常今天当我启动 mysql 时它开始给我以下错误消息 ERROR 1045 28000 Access denied for user root localhost using password NO 我不知道它何时以及如何设
从集成到现有 Android 应用程序的 React Native 应用程序中获取结果

我发现很多文章都在讨论如何将 React Native 集成到现有的 Android 应用程序中但他们都没有解释如何从 React Native 代码中获取结果以便直接在 Java Android 源代码中使用它说明我有一个反应本机
如何配置 Azure 通知中心以使用 APNS 令牌身份验证模式？

我正在尝试使用令牌作为身份验证模式在 Azure 通知中心添加 APNS 连接我已经四处搜寻但无法在任何地方找到任何指南来完成这项工作也许有人有一个指南链接显示如何查找所需的信息我尝试在 Apple 开发人员控制台中创建一个 AP
如何在Qt中打开ios画廊

我正在尝试使用 Qt 打开 ios 图库我发现了很多文章和答案我测试了它们但它们在 ios 10 中不起作用这是两个对我不起作用的链接链接 1 使用 FileDialog 打开 ios 图库 https stackoverflow
查找表列中的最大值

我正在 Grails 中创建一个版本控制域类 class VersionControl Date dateCreated Long versionNumber Long getLatestVersionNumber return large
Objective-C 中的类别用法

我看到我继承的一些代码如下所示 interface SomeClass private 这是在SomeClass m 实施文件有一个附带的头文件它并不表明该类正在使用类别是 private 在这种情况下只是给一个类别起了一个糟糕的名
在 R Studio 的 R 中以 Markdown 形式生成代码块括号的键盘快捷键

是否有键盘快捷键可以在 Rmarkdown 中生成代码块括号 r on pc in RStudion it s Ctrl Alt i
具有级联 DropDownList 的 Kendo UI 网格

我的 Razor 布局上有一个 Kendo UI 网格它从控制器获取数据在此网格中我希望有一组 3 个 DropDownList 它们是 ProductGroups Products Services 我希望实现的行为是当我向网格添
使用 Java 从大整数数组中删除重复项

您是否知道使用 Java 从非常大的整数数组中删除重复值的省时方法数组的大小取决于登录的用户但始终会超过 1500000 个未排序的值并有一些重复项每个整数都包含 100000 到 9999999 之间的数字我尝试将其转换为列表
使用 Fluent nhibernate 映射实体 oneToMany

问题似乎很简单但是我在尝试映射这个实体时遇到了很多麻烦我只是看不出我做错了什么你们能帮我吗我有课Cliente public class Cliente public Cliente public virtual int Clien
在进程之间共享类实例的方法

我编写了一个 C 类我需要在至少两个 Windows 进程之间共享一个实例有哪些不同的方法可以做到这一点最初我调查了 pragma data seg http msdn microsoft com en us library h90d
R Shiny 应用程序中的安全性

我想发布一个 R Shiny Web 应用程序 http www rstudio com shiny http www rstudio com shiny 在网络上但我想用密码保护它以便只有拥有凭据的人才能查看我发布的内容做这个的最好
如何在 JavaScript 中将通配符元素名称与“querySelector()”或“querySelectorAll()”匹配？

有没有办法使用通配符元素名称匹配querySelector or querySelectorAll 我试图解析的 XML 文档基本上是一个简单的属性列表我需要找到名称中包含某些字符串的元素我看到属性查询中支持通配符但不支持元素本身除
Node.js 中固定位置命令提示符

有没有办法让命令提示符只是一个question http nodejs org api readline html readline rl question query callback提示符或类似的东西固定在终端的底部并使用它来记录
AWS Glue：爬网程序无法识别 CSV 格式的时间戳列

运行 AWS Glue 爬网程序时它无法识别时间戳列我已在 CSV 文件中正确设置 ISO8601 时间戳的格式首先我希望 Glue 能够自动将它们分类为时间戳但事实并非如此我还尝试从此链接中使用自定义时间戳分类器https d

AWS Glue：爬网程序无法识别 CSV 格式的时间戳列

AWS Glue：爬网程序无法识别 CSV 格式的时间戳列 的相关文章

随机推荐

热门标签

AWS Glue：爬网程序无法识别 CSV 格式的时间戳列的相关文章