为 athena 选择特定文件

2024-01-25

在 Athena 中创建表时，我无法使用特定文件创建表。有没有办法从给定的存储桶中选择以“year_2019”开头的所有文件？例如 s3://bucketname/prefix/year_2019*.csv

文档对此说得很清楚，这是不允许的。

From: https://docs.aws.amazon.com/athena/latest/ug/tables-location-format.html https://docs.aws.amazon.com/athena/latest/ug/tables-location-format.html

Athena 读取您在中指定的 Amazon S3 位置中的所有文件 CREATE TABLE 语句，并且不能忽略其中包含的任何文件字首。创建表时，仅在 Amazon S3 路径中包含您希望 Athena 读取的文件。使用 AWS Lambda 函数扫描文件在源位置中，删除所有空文件，然后移动不需要的文件文件到另一个位置。

我想知道社区是否找到了一些解决方法:)

不幸的是，Athena 用于 S3 的文件系统抽象不支持这一点。它要求表位置看起来像目录，Athena 在列出文件时会在位置末尾添加斜杠。

有一种方法可以创建仅包含选定文件的表，但据我所知它不支持通配符，仅支持显式文件列表。

你要做的就是创建一个表

STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.SymlinkTextInputFormat'

然后而不是指向LOCATION将表指向实际文件，将其指向带有单个的前缀symlink.txt文件（或将每个分区指向带有单个前缀的前缀）symlink.txt）。在里面symlink.txt在文件中，您添加要包含在表中的文件的 S3 URI，每行一个。

我所知道的有关此功能的唯一文档是用于与 Athena 集成的 S3 库存文档 https://docs.aws.amazon.com/AmazonS3/latest/dev/storage-inventory.html.

您还可以在此 Stackoverflow 响应中找到完整示例：https://stackoverflow.com/a/55069330/1109 https://stackoverflow.com/a/55069330/1109

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazonathena

为 athena 选择特定文件的相关文章

AWS Athena (Presto)如何将映射转置为列

AWS Athena 查询问题我的行中有一个嵌套映射我想将其中的键转置到列我可以明确地命名这些列例如items label a 但在这种情况下键实际上是动态的从这些行 id 1 items label a foo label b
当s3数据存储同时具有json和.gz压缩文件时，如何通过Glue爬虫创建AWS Athena表？

我的预期解决方案有两个问题 1 我的S3存储结构如下 mainfolder date 2019 01 01 hour 14 abcd json mainfolder date 2019 01 01 hour 13 abcd2 json gz
SQL Presto：不支持相关子查询

考虑表x id val 1 100 3 300 和表y id 1 2 3 对于每一行y我想要val from x哪里的id从 y 等于或最接近之前id from x像那样 id val 1 100 2 100 3 300 我试图找到与相关子
使用 Spark 将文件夹结构转换为 S3 上的分区

我在 S3 上有很多数据它们位于文件夹而不是分区中结构如下 s3 bucket countryname year weeknumber a csv s3 Countries Canada 2019 20 part 1 csv s3 Co
Athena/Presto - UNNEST 映射到列

假设我有一张这样的桌子表 qa list id question id question answer 1 100 question1 answer 2 101 question2 answer 3 102 question3 answe
如何确保 Athena 结果 S3 对象具有存储桶所有者完全控制

我们账户 A 希望以编程方式在不同的 aws 账户账户 B 中触发 athena 查询 startQueryExecution 我们使用假定的角色来实现它 athena 查询完成后我们期望结果应写入我们的 aws 账户 s3 存储桶
AWS Athena 中的文件系统上缺少表

我在 Athena 上使用此代码创建了一个具有自动分区的表 CREATE EXTERNAL TABLE IF NOT EXISTS matchdata stattable matchResult string PARTITIONED BY
Athena 在不同账户的表之间查询

我可以使用两个不同的 IAM 角色单独访问两个不同的 Athena 表因为每个角色位于不同的账户中有没有办法运行从两者中提取的单个查询即 INNER JOIN 在引擎盖下 Athena 表数据位于 S3 存储桶中 Athena 支持跨
Spark 数据框列命名约定/限制

我现在多次遇到 Py Spark 列名称的默认命名从收到的 csv 文件导入的问题混合大小写和或在列名称中所以我决定找出实际保存的列名并发现以下内容这个网站 https medium com an chee why usin
从 athena aws 中单独字段中的整数创建日期

我对 athena 非常陌生所以请耐心等待我将数据以整数形式存储在年月和日的三个单独的列中如下所示 year month day 2020 7 10 2020 7 11 2020 7 12 我想将这三个字段变成一个日期我怎么做提
如何配置 AWS Athena 结果的文件格式

目前 Athena 查询结果在 S3 中为 tsv 格式有没有办法配置 Athena 查询以返回 Parquet 格式的结果 Answer 目前无法直接与 Athena 进行此操作在配置 Athena 查询结果时您只能设置查询结果位置
Athena 在 S3 上查询数据的替代方案

我身边有300 GBs的数据S3 假设数据如下 S3 Bucket Country Month Day 1 csv S3 Countries Germany 06 01 1 csv S3 Countries Germany 06 01 2
AWS Athena：“HIVE_BAD_DATA：解析列'X'时出错：空字符串”

我想使用 OpenCSVSerde 在 AWS Athena 上基于 CSV 文件创建外部表 CREATE EXTERNAL TABLE table name string value double group string ROW FOR
如何从 AWS 中的 Athena 获取结果格式 JSON？

我想从 AWS 中的 Athena 获取结果值格式 JSON 当我从 Athena 中选择时结果格式如下 test value report 1 test report 2 normal report 3 hard 有没有办法获得 JSO
协助刷新 athena 表中的数据

我编写了从 S3 上的多个外部表读取数据的查询应用必要的过滤器连接然后将结果加载到目标表中以在 Athena 中进行分析但是随着源表中的数据刷新我想刷新目标表所以我打算删除并重新创建该表但它似乎不起作用我能够删除目标表但
(AWS) Athena：查询结果似乎太短

我的 Athena 查询的结果似乎太短试图找出为什么 Setup 胶水目录尺寸为 118 6 G 数据以 CSV 和 JSON 格式存储在 S3 中 Athena Query 当我查询整个表的数据时每次查询只得到 40K 条结果一
当输入数据格式更改时，Athena 将数据放入错误的列中

我们有一些管道分隔的 txt 报告进入 S3 中的一个文件夹我们在其中运行 Glue 爬网程序来确定 Athena 中的架构和查询报告的格式最近发生了变化因此中间有两个新列旧文件 Columns A B C D E F Data a
解析 AWS Athena/AWS Glue 目录中某一列中包含换行符的 csv 文件

我有如下示例数据 id log code sequence 100 sample lt gt lt gt O sample PILE UP 3 sample 20 7 M 101 sample 4 52 sample CM 21 7 M 1
既然QuickSight可以直接查询S3，那么什么时候我们需要使用Athena作为QuickSight的数据源呢？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案可能我错过了一些东西但我无法理解如果我将 Athena 与 QuickSight 连接而不是直接将 QuickSight 连接与 S3 我会得
您可以在 Amazon Athena 中创建视图吗？

是否可以在 Amazon Athena 中创建视图由于外部表本质上是存储在 S3 上的文件中的数据的元数据因此不涉及任何转换因此您无法处理数据不一致问题通常这可能会导致表被定义为包含大量字符串字段您能否在外部表的顶部创建一个包

随机推荐

Windows DLL实际上是如何共享的？

通过检查 Windows 计算机中的几个 DLL 例如 KERNEL32 DLL 我注意到它们的任何部分甚至只读数据部分都没有设置 IMAGE SCN MEM SHARED 标志 DLL 是从 dll 文件映射的因此只有当您读取文件的
C++ 变量作用域

与我的预期相比我的 C 代码输出不同我希望了解它是如何执行的 include
如何使用角度2中的管道过滤列表

你能告诉我如何使用 Angular 2 中的管道来过滤列表吗 https stackblitz com edit angular qvtqeu file src 2Fapp 2Fapp component html https stackb
如何找到2个以上用户的匹配时间间隔

从给定的不同用户的时间间隔中找到最合适的时间 Rows 5 fid userid FromDateTime ToDateTime flag 62 1 2012 07 18 01 48 20 2012 07 18 02 55 20 1 63
SQL 查询不会仅返回一个字段的完整结果

我在使用 VBA 执行 SQL 查询并将结果复制到 Excel 工作表中时遇到问题当 sub 执行时它仅复制 256 倍数的行因此第 256 512 768 等行是唯一填充到 Excel 中的行我从数据库复制任何其他字段都没有问题
Java 中的延续

Java 中有没有好的延续性实现如果是这样开销是多少 JVM 的设计并没有考虑到这些事情对吗那么这种做法是不是有悖常理呢请参阅 Apache Javaflowhttp commons apache org sandbox java
我可以使用自动映射器将多个对象映射到目标对象吗

UserAccount objUserAccount null AutoMapper Mapper CreateMap
如何设置 PHP_AUTH_USER

PHP AUTH USER 为空并且系统使用Windows登录凭据我该如何改变它我想使用用户输入的用户名和密码 See 使用 PHP 进行 HTTP 身份验证 http php net manual en features http
如果实体中没有定义标识符，Hibernate 如何在内部跟踪对象？

根据 Hibernate 参考文档标识符属性是严格可选的你可以把它们放下并让 Hibernate 在内部跟踪对象标识符如果实体中没有定义标识符 Hibernate 如何在内部跟踪对象进一步扩展问题如果没有标识符我们如何 loa
eval() 可以优化吗？

eval 更改局部变量的能力给 JavaScript 优化器带来了很大的问题我读了 javascript权威指南这本书 eval 可以优化吗我不明白这并不是说eval优化而是那些寻求优化的 JavaScript 引擎被阻止这样做e
对向量的每个元素中的单词重新排序

我想更改向量中每个元素的词序具体来说我想制作另一个向量其中第一个单词现在是许多长度不同的元素的最后一个单词 Data metadata1 lt c reference1 an organism reference2 another o
如何填写数据安全？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在为我的应用填写 Google Play 数据安全表单我的应用程序使用 AdMob 并且没有其他收集用户信息的库我该怎么填写呢对
双击 .jar 文件时“找不到主类”

首先我意识到这个问题应该很简单而且很多人似乎都经历过但是看来我的问题可能是slightly与现有职位不同我正在使用 NetBeans 编译 Java 应用程序构建完成后输出将正确进入 dist 文件夹 jar 文件就在那里如
onSaveInstanceState中保存接口（Listener）

保存实例状态对于像 Integer Long String 等数据都可以我只是将其放入包中并在再次调用 onCreateView 时将其取回但我的片段也有像下面这样的听众 public class SomeFragment exte
EPPlus 和 ClosedXML 库在使用 OpenXML 方面有何区别？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我试图在 ClosedXML EPPlus 和可能的 SpreadsheetLight 之间进行选择我可能会出于哪些原因考虑选择其中之一
如何调试大型 git 提交？

好的情况如下几年前我们对代码库中的多个文件进行了多项更改并一次性全部提交这些更改中的某个地方隐藏着一个错误使用 git bisect 我很快就能够追踪到罪魁祸首的提交但该提交中的更改量让我有点不那么热情了使用 git bis
rshiny - 有条件的条件面板：检查列表中的项目

我有 2 个列表每个列表包含多个 idp id以另一个变量为条件d d1 lt as list unique df p id df d 1 d2 lt as list unique df p id df d 2 我想添加一个conditi
ASP.Net 5 project.json 脚本命令的完整列表？（视觉工作室 2015）

我已经看过了ASP NET 5团队 wiki 条目项目 json 来识别哪个脚本命令可用目前列出以下内容 scripts prebuild echo before building postbuild echo after buildin
顶层例外

我在用着topshelf http topshelf project com 当我尝试使用 i 选项安装为服务时我收到此异常无法将 Magnum CommandLineParser SwitchElement 类型的对象转换为 Magn
为 athena 选择特定文件

在 Athena 中创建表时我无法使用特定文件创建表有没有办法从给定的存储桶中选择以 year 2019 开头的所有文件例如 s3 bucketname prefix year 2019 csv 文档对此说得很清楚这是不允许的 Fr

为 athena 选择特定文件

为 athena 选择特定文件 的相关文章

随机推荐

热门标签

为 athena 选择特定文件的相关文章