当输入数据格式更改时，Athena 将数据放入错误的列中

2024-03-15

我们有一些管道分隔的 .txt 报告进入 S3 中的一个文件夹，我们在其中运行 Glue 爬网程序来确定 Athena 中的架构和查询。

报告的格式最近发生了变化，因此中间有两个新列。

旧文件：

Columns A  B  C  D  E  F
Data    a1 b1 c1 d1 e1 f1

带有额外“G”和“H”列的新文件：

Columns A  B  G  H  C  D  E  F
Data    a2 b2 g2 h2 c2 d2 e2 f2

我们在 Athena 中看到的爬虫创建的表中得到了什么：

Columns A  B  C  D  E  F  G  H    <- Puts new columns at the end. OK
Data    a1 b1 c1 d1 e1 f1         <- Correct for old data
Data    a2 b2 g2 h2       e2 f2   <- 4 columns incorrect and 2 missing

这是胶水爬虫中的某种错误，还是有办法配置它，以便将正确的数据放入正确的列中（除了运行数据清理脚本来转换输入文件）？

我认为这是 Glue 承诺过多而交付不足的又一个案例。只要数据格式是分隔文本，如果您在中间添加列，Glue 就会做错误的事情。在末尾添加或删除（但不能同时删除）列是可行的，但在中间则不行。 Athena 不支持不同分区的不同列，因此 Glue 无法实现此功能 - 但它看起来可以。

您要么必须重写数据，要么更改为最后添加列，要么切换到不同的数据格式，其中文件包含足够的元数据，这不会成为问题：JSON、Avro 或 Parquet。

我建议你完全停止使用 Glue 爬虫，它看起来像是一个通用工具，但真正解决的用例很少。看https://stackoverflow.com/a/56439429/1109 https://stackoverflow.com/a/56439429/1109获取一些关于该怎么做的建议。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

当输入数据格式更改时，Athena 将数据放入错误的列中的相关文章

AWS API Gateway 403 禁止

我在 AWS API Gateway 中创建了一个 API 在该 API 中我创建了一个带有自定义 http 端点的代理资源但是当我访问API网关端点时https 2r3g3ttr6y execute api eu east 1 ama
亚马逊 AWS CloudFront 声称不存在这样的存储桶

我正在尝试设置 CloudFront 来提供图像但当前无法访问它并返回错误指定的存储桶不存在
从 EC2 W2008 实例创建 AMI - 为什么从来没有获得密码？

我正在尝试做什么我正在尝试克隆 EC2视窗2008通过管理控制台实例该实例基于 Windows Server2008 i386 Base v104 ami 92ba43fb 但上面安装了许多应用程序我想为新实例保留这些应用程序发生了
使用 Lambda 函数运行 AWS Athena 的查询

我在 AWS Athena 上创建了一个表可以在其中运行任何查询而不会出现任何错误 select from mytestdb test 该表有三列 customer Id product Id price 我尝试创建一个 lambda 函
Beanstalk 部署忽略 .ebextensions 中的 nginx 配置文件

我在单实例 Elastic Beanstalk 环境中托管 Java Web 应用程序并添加了几个 ebextension 文件这些文件在每次部署时成功为我创建配置文件然而我无法找到一种方法让 Beanstalk 在 etc ngi
如何在我的 AWS EC2 实例上安装特定字体？

我有一个在 AWS EC2 Amazon Linux Elastic Beanstalk 实例上运行的 Python 应用程序该实例需要某些特定字体才能生成输出并且想知道如何在部署或实例启动过程中安装它们我的代码在本地计算机 OS X
具有服务器端加密 s3 存储桶的 AWS Cloudfront

这是对这个问题 https stackoverflow com questions 50166557 how can a cloudfront distribution an aws kms key to get an s3 image e
在 RedShift 中声明变量

SQL Server能够声明一个变量然后在查询中调用该变量如下所示 DECLARE StartDate date SET StartDate 2015 01 01 SELECT FROM Orders WHERE OrderDate g
将密钥对添加到现有 EC2 实例

我被给予AWS控制台访问正在运行 2 个实例的帐户但我无法关闭在生产中但是我想获得对这些实例的 SSH 访问权限是否可以创建一个新的密钥对并将其应用到实例以便我可以通过 SSH 访问获取现有的pem当前无法选择创建实例所用的密
如何将域添加到 aws 上的现有 SSL 证书

我有一个与 Amazon Web Services 上的负载均衡器关联的 SSL 证书我想在该证书上有一个额外的域我的问题是是否可以向 aws 上现有的 ssl 证书添加额外的域我发现您可以在创建证书时添加其他名称但我不知道如何使
在 Serverless Framework 1.0 中使用路径参数

我想使用路径参数 customer customerId of a GET请求以使用 AWS Lambda 查询客户 functions createCustomer handler handler createCustomer event
AWS Amazon - 登录循环卡住

我已经使用 AWS 亚马逊几年了但是突然当我登录时我进入了此验证部分他们将验证码发送到我的电子邮件我收到了该代码因此我输入收到的代码最终返回登录页面所以我登录后同样的事情一遍又一遍地发生我无法进入我的仪表板它只是不断
在 Azure 上运行 .NET 应用程序

我拥有在 Amazon EC2 上运行应用程序的丰富经验它需要一台低端服务器我目前为该服务器支付大约 90 美元月是的我知道我并不真正需要可扩展性但我仍然使用 EC2 我想知道将这个纯粹的 NET 应用程序迁移到 Microso
如何在PHP中将图像从内存上传到AWS S3？

所以我目前有一个使用 AWS S3 上传图像的上传系统这是代码 Upload image to S3 s3 Aws S3 S3Client factory array key gt mykey secret gt myskey try s
从 API 网关自定义授权方返回的 401 缺少“Access-Control-Allow-Origin”标头

为了防止未登录的用户通过 AWS API Gateway 调用我的 lambda 函数我使用自定义授权者 lambda 解决方案如果请求被授权 200 并且我从被调用的 lambda 得到响应一切正常并且我得到Access Contr
AWS S3 上传的图像已损坏

我正在 AWS ec2 ubuntu 机器上工作我的代码在 cakephp 中当我尝试将任何图像上传到 AWS S3 时它都会损坏虽然它在核心 php 代码中运行良好这是我的控制器代码 if this gt User gt sav
如何自动启动我的 ec2 实例、运行命令然后将其关闭？

我想每周对 redshift postgres 数据库中的数据运行一次机器学习模型我使用以下命令将 R 脚本设置为休息 apiplumbr然后我将其设置为一项任务来管理pm2 我有它所以任务会在ec2实例启动然后继续运行要让 R 脚本
AWS RDS MySql - 如何在设置“公开可用”后允许访问

刚刚使用默认设置和用户密码创建了新的 AWS RDS MySql 实例我也将其设置为publicly available并在此过程中创建新的 VPC 目前无法从我的笔记本电脑连接到此 RDS mysql h endpoint u myu
使用 CognitoIdentityServiceProvider 的 adminCreateUser 方法的 AWS Lambda 函数突然失败

在过去的几天里我一直在使用 AWS Lambda 函数测试特定流程并且在 Cognito 用户池中预注册后触发的 lambda 函数工作正常并很好地返回回调函数但从昨天开始我就看到了以下错误 ntime node modules aw
如何使用 aws-cdk 在 EC2 和 RDS 之间创建 DependsOn 关系

我目前正在使用aws cdk TypeScript 创建一个堆栈其中包含EC2实例和一个RDS数据库实例 The RDS实例需要在之前设置EC2实例可以启动并且userdata将被执行我遇到的问题是我找不到一种方法来定义DepensO

随机推荐

相机插件 flutter web

你好我想知道是否有一个用于 flutter web 的相机插件以便拍摄照片并将其存储在临时路径中然后将其上传到 firestorage 如果我理解正确我希望您已经尝试过这些软件包 image picker 和 image picker
如何在WP中将CookieContainer设置为BackgroundTransferRequest对象？

我在用BackgroundTransferRequest and BackgroundTransferService用于上传一些数据无论如何我可以设置CookieContainer to the TransferRequest None
@AutoConfigureWebMvc 和 @AutoConfigureMockMvc 有什么区别？

在什么情况下我应该使用每一个 AutoConfigureWebMvc 如果您需要配置 Web 层进行测试但又不这样做请使用此选项需要使用MockMvc 它启用与 Web 层相关的所有自动配置ONLY网络层这是整体自动配置的一个子集它
背景图片和搜索引擎优化

目前我的网站上有一些在 CSS 文件中定义为背景图像的图像代码如下所示 HTML a href http domain com title Website Title class image a The CSS image backgr
定义分段函数（例如多项式）

在 C 中定义分段函数例如在使用样条曲线时需要的最佳方法是什么 Example f1 x if x from 0 5 f x f2 x if x from 5 10 f3 x if x from 10 20 我当前的方法如下所示 cla
使用 lucene 模糊搜索和 Azure 搜索的同义词

我希望能够同时处理模糊搜索和同义词我尝试了多种方法但无法使其正常工作我的索引中有这些值 white black light dark 这个同义词规则 white light black dark 如果我执行查询queryType fu
如何在android中以编程方式控制横向和纵向？

我使用 android sdk 4 0 开发应用程序并将该 apk 文件安装在我的三星选项卡中当我运行该应用程序时它工作正常如果我将选项卡纵向更改为横向或相反屏幕也会发生变化但我的要求是无论将模式更改为纵向还是横向还是横向还是
使用 Quickbook 连接器和 Nodejs 进行 Quickbook（桌面）API 集成

我是 Quickbooks 的新手但我已经安装了 Quickbook Premier Desktop Edition 并拥有一个帐户以及 Quickbook 连接器我正在尝试通过可用的 Quickbook 连接器将自定义应用程序中的发票
类型错误：尝试更改数组列表的某些元素时，列表索引必须是整数，而不是元组

我有一个 2 x n 的 x 和 y 坐标数组的列表 old array 1 2 3 4 5 6 array 10 20 30 40 50 60 我试图将 y 坐标每个数组的第二行移动某个值 shift 但是当我尝试通过以下方法执行此
Phonegap 中的本地通知 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想在我的 iOS Phonegap 应用程序中获得本地通知我遵循了很多教程和代码但没有帮助任何人都可以指导我吗 None
在循环中创建的 jQuery 事件处理程序

所以我有一组这样的事件 slider 1 click function event switchBanners 1 true slider 2 click function event switchBanners 2 true slider
mySQLi 准备好的语句无法 get_result()

我对 mySQLi 完全困惑了尽管我多年来一直使用过程式 mysql 调用但我想习惯于为其提供的数据库安全 mySQL 注入保护编写准备好的语句我正在尝试编写一个简单的选择语句是的我知道为此进行过程调用可以增强性能跑步时我得到
使用 downloads.download() API 将数据 URI 保存为文件

Update I have 解决了这个问题谢谢丹尼尔赫尔 https stackoverflow com users 3591628 daniel herr 通过使用 Blob URL 对象 URL URL createObjectUR
liip_imagine 和 vich_uploader 不创建缓存

我正在开发一个 Symfony 项目该项目由两个内部项目组成 ONE 项目和 MARKETPLACE 项目以下是文件在网络中的结构 web one this one is being called from subdomain one
将数组作为 ado.net DBParameter 中的值传递

我正在从事的项目有很多 IN 查询例如 SELECT something anotherthing FROM atable WHERE something IN value1 value2 value3 这是一个在 IN 部分中具有 3
尝试使用 keras.utils.plot_model 时出错

我正在尝试使用 Keras 包在 Python 中绘制深度学习模型的图图但不幸的是它一直给我一个错误该错误信息量不大我在 Linux 上使用 Python 3 5 2 Anaconda 4 2 0 Keras 2 1 6 运行 py
与

当输入数据格式更改时，Athena 将数据放入错误的列中

当输入数据格式更改时，Athena 将数据放入错误的列中 的相关文章

随机推荐

热门标签

当输入数据格式更改时，Athena 将数据放入错误的列中的相关文章