AWS Athena 对于 api 来说太慢了？

2023-12-31

计划是从 aws 数据交换获取数据，将其移动到 s3 存储桶，然后通过 aws athena 查询数据 api。一切正常，只是感觉有点慢。

无论数据集还是查询，athena 响应时间都不能低于 2 秒。对于 API 来说，这已经太多了。我检查了最佳实践，但似乎这些也都超过 2 秒。

所以我的问题是： 2 秒是 athena 的最短响应时间吗？

如果是这样，那么我必须切换到 postgres。

Athena 确实不是一个低延迟的数据存储。您很少会看到响应时间低于一秒，而且通常会相当长。一般情况下，Athena 不适合作为 API 的后端，但这当然取决于它是什么类型的 API。如果它是某种分析服务，也许用户不期望亚秒级响应时间？我已经构建了使用 Athena 的 API，效果非常好，但这些服务的响应时间预计以秒为单位（甚至被认为很快），并且我得到了 Athena 团队的帮助，根据我们的工作负载调整我们的帐户。

要理解 Athena 为什么“慢”，我们可以剖析当您向 Athena 提交查询时会发生什么：

您的代码使用以下方式启动查询StartQueryExecutionAPI调用
Athena 服务接收查询，并将其放入队列中。如果你不幸运，你的查询将在队列中等待一段时间
当有可用容量时，Athena 服务从队列中获取您的查询并制定查询计划
查询计划需要从 Glue 目录加载表元数据，包括查询中包含的所有表的分区列表
Athena 还列出了从表和分区获取的 S3 上的所有位置，以生成将要处理的文件的完整列表
然后，根据计划的复杂性，分多个步骤并行执行该计划
并行执行的结果被合并，结果被序列化为 CSV 并写入 S3
同时，您的代码使用以下命令检查查询是否已完成GetQueryExecutionAPI 调用，直到收到执行已成功、失败或已取消的响应
如果执行成功，您的代码将使用GetQueryResultsAPI 调用以检索结果的第一页
为了响应该 API 调用，Athena 从 S3 读取结果 CSV，将其反序列化，然后将其序列化为 API 响应的 JSON
如果行数超过 1000 行，则将重复最后的步骤

Presto 专家可能会提供有关步骤 4-6 的更多详细信息，尽管它们可能在 Athena 版本的 Presto 中进行了一些修改。不过，细节对于本次讨论来说并不是很重要。

如果您对大量数据（数十GB或更多）运行查询，则总执行时间将由步骤6主导。如果结果也很大，则7将是一个因素。

如果您的数据集很小，和/或涉及 S3 上的数千个文件，那么 4-5 将占据主导地位。

以下是 Athena 查询永远不会很快的一些原因，即使它们不会触及 S3（例如SELECT NOW()):

在获得响应之前，至少会进行 3 个 API 调用，一个StartQueryExecution, a GetQueryExecution, and a GetQueryResults，仅它们的往返时间 (RTT) 就会加起来超过 100 毫秒。
您很可能需要致电GetQueryExecution多次，并且调用之间的延迟将限制您发现查询成功的速度，例如如果您每 100 毫秒调用一次，您平均会在总时间中添加 100 毫秒 + RTT 的一半，因为平均而言您会错过实际完成时间这么多。
Athena 会将结果写入 S3，然后将执行标记为成功，并且由于它生成单个 CSV 文件，因此这不是并行完成的。一个大的回应需要时间来写。
The GetQueryResults必须从 S3 读取 CSV，解析它并将其序列化为 JSON。后续页面必须在 CSV 中向前跳过，并且速度可能会更慢。
Athena 是一项多租户服务，所有客户都在争夺资源，当没有足够的可用资源时，您的查询将排队。

如果您想知道影响查询性能的因素，您可以使用ListQueryExecutionsAPI调用列出最近的查询执行ID（我认为你最多可以回溯90天），然后使用GetQueryExecution获取查询统计信息（请参阅的文档QueryExecution.Statistics https://docs.aws.amazon.com/athena/latest/APIReference/API_QueryExecutionStatistics.html每个属性的含义）。通过这些信息，您可以确定查询缓慢是否是由于排队、执行或 API 调用的开销造成的（如果不是前两个，很可能是最后一个）。

您可以采取一些措施来减少延迟，但这些提示不太可能让您将延迟降至亚秒级：

如果您查询大量数据使用针对此类事情进行了优化的文件格式，Parquet 几乎总是答案 - 并且还要确保您的文件大小是最佳的，大约 100 MB。
避免大量文件，并避免深层层次结构。理想情况下，每个分区只有一个或几个文件，并且不要将文件组织在“子目录”（带有斜杠的 S3 前缀）中，除了与分区对应的文件之外。
避免在整点运行查询，这是其他人的计划作业运行的时间，每个小时的前几分钟都会出现严重的资源争用。
Skip GetQueryExecution，直接从S3下载CSV。这GetQueryExecution如果您想知道列的数据类型，则调用很方便，但如果您已经知道，或者不关心，直接读取数据可以为您节省一些宝贵的数十毫秒。如果您需要列数据类型，您可以获得….csv.metadata与结果 CSV 一起写入的文件，它是未记录的 Protobuf 数据，请参阅here https://stackoverflow.com/questions/55991018/whats-the-data-format-of-athenas-csv-metadata-files and here https://github.com/burtcorp/athena-jdbc/blob/master/src/main/java/io/burt/athena/result/AthenaMetaDataParser.java了解更多信息。
请 Athena 服务团队调整您的帐户。如果没有更高级别的支持，这可能不是您可以获得的，我真的不知道这其中的政治因素，您需要首先与您的客户经理交谈。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazonwebservices

amazonathena

AWS Athena 对于 api 来说太慢了？的相关文章

如何在 Lambda 中将对象上传到 S3？

似乎无法将对象上传到 Lambda 中的 S3 本地一切正常日志中没有错误可以显示出了什么问题代码如下 console log Loading function var AWS require aws sdk var s3 new AW
如何从前端使用 AWS CloudWatch Logs 提交简单日志？

经过大约 1 小时的搜索我没有找到任何有关如何向 AWS CloudWatch Logs 提交简单日志的信息从前端侧几乎所有示例都是针对 Node js 的但我需要从前端提交错误而不是从后端提交错误我什至没有找到应该用于前端的
generate_series() 方法在 Redshift 中失败

当我运行 SQL 查询时 select generate series 0 g from select date date1 date date2 as g from mytable 它返回一个错误 INFO Function genera
对于 aws s3，预检响应无效（重定向）

我正在尝试将图像上传到我的 Amazon S3 存储桶但即使我已经正确设置了 CORS 配置我仍然收到此 CORS 错误这是我的 CORS 配置
AWS SAM - 无法创建变更集：Waiter ChangeSetCreateComplete 失败

AWS SAM 使用 aws sam cli 将代码库部署到 AWS 云但出现以下错误 Failed to create the changeset Waiter ChangeSetCreateComplete failed Waiter
尝试安装 AWS CLI，卡在一个步骤上

我正在尝试为 mac 命令行安装 aws 我想我不明白我需要做什么我在终端上安装了带有 wget 的 aws 捆绑包解压后它完成了所有操作但是当我需要配置我的凭据时什么也没有出现把aws配置以下是说明 http docs aws
如何计算 OpenID Connect 服务器的指纹？

创建 OpenID Connect 提供商例如 AWS 时我需要指定一个指纹对于连接器它是什么我如何获得它例如从如何在不使用密钥的情况下将 GitHub 操作与 AWS 部署连接起来 https stackoverflow co
AWS 获取带有自定义域的预签名 URL

以下是我正在做的事情我正在使用自定义域为我的非公开 s3 存储桶资源生成预签名 URL 另外为了添加证书我为具有以下原始设置的存储桶创建了一个 Cloudfront 发行版源域名 bucket name s3 amazonaws c
图像未在 Twitter 上显示 - 错误：由于请求超时，获取页面失败

这是我网站的网址https www healthdrop in https www healthdrop in我得到了错误由于请求超时获取页面失败试穿时https cards dev twitter com validator ht
身份验证 AWS Cognito SRP

我正在编写一个控制台 POC 来演示 AWS 认知身份验证应用程序池而不是联合身份作为我们的 API 网关身份验证机制不在 AWS 中托管这是用 C 编写的我已经成功创建了一个用户并确认了他们但现在我需要进行身份验证以检索我可
将 CSV 复制到 Amazon RDS 托管的 Postgresql 数据库

我有一个使用 Amazon 的 RDS 服务托管的数据库我正在尝试编写一个 Web 服务来更新所述数据库我遇到的问题是它不允许我使用 COPY 命令因为我收到此错误错误必须是超级用户才能复制到文件或从文件复制我正在使用我为数据库
有人试图破解我的服务器吗？请告诉我我能做什么？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在我的服务器日志文件中找到了这些请求我在亚马逊EC2上使用nodejs manager html manager html manag
使用 Python 从 AWS S3 下载文件

我尝试使用以下代码将文件从 Amazon S3 存储桶下载到本地但收到错误消息无法找到凭证下面给出的是我编写的代码 from boto3 session import Session import boto3 ACCESS KEY A
应如何格式化记录以将 AWS Kinesis Firehose 转换为 Redshift？

考虑以下 Redshift 中名为 people 的表其中包含字段 id 姓名和年龄名为 people 的 kinesis firehose 流配置为写入 people 表 Redshift 表列的值为 id name age 目前
如何使用 lambda 和 python 在 s3 上压缩文件

我需要存档 s3 上存在的多个文件然后将存档上传回 s3 我正在尝试使用 lambda 和 python 由于某些文件超过 500MB 因此无法在 tmp 中下载有什么办法可以将文件一一流式传输并将其存档吗不写入磁盘流式传输至 S3
在AWS S3中部署react-redux应用程序

我在堆栈溢出中遇到了很多类似的问题one https stackoverflow com questions 16267339 s3 static website hosting route all paths to index html
AWS EC2 自动缩放没有持续警报？

我为自动缩放组创建了以下两个警报 Scale up如果 CPUUtilization gt 75 更改为状态则有 1 个实例ALARM Scale down如果 CPUUtilization gt 30 更改为状态则有 1 个实例OK
如何将 API Gateway 与 Cognito 联合身份和 Cognito 用户池集成

在AWS中我构建了一个调用Lambda函数的API网关用户通过登录与 Cognito 联合身份池关联的 Cognito 用户池来获得访问权限并且关联的 IAM 角色包含 API 调用权限 API网关方法是POST请求如果我使用用户池
Amazon S3：奇怪的错误 - “有时”签名不匹配，有时确实如此

我正在为销售人员开发代码我们正在使用 Appexchange 的 Force com for Amazon Web Services 应用程序该应用程序由亚马逊提供我正在计算机上从 Amazon S3 下载文件有时我会收到下面提到的
部署 MVC4 项目时出错：找不到文件或程序集

过去我只需使用 Visual Studio 2012 发布到 AWS 菜单项即可部署我的 MVC4 网站到 AWS Elastic Beanstalk 现在程序可以在本地编译并运行但无法部署从消息来看它似乎正在寻找不在当前部署的

随机推荐

如何正确停止定时器？

var timer time Timer func A timer Stop cancel old timer go B new timer func B timer time NewTimer 100 time Millisecond s
检查 ASP.NET Core Identity 中具有 Authorize 属性的多个策略之一

我在 ASP NET Core 应用程序中设置了标准身份验证系统用户角色 RoleClaims 充当权限在 Startup cs 中我为每个角色和每个权限创建一个策略假设这将使我的视图具有充分的灵活性能够说我希望此按钮显示用户是
生成的 WSDL 中的空肥皂操作

我正在尝试使用 JAX WS 从我的 Java 代码生成 WSDL 一切似乎都工作正常除了我在 WSDL 中的操作时 soapAction 仍然为空这是我的代码 WebService public class MyClass publi
maven antrun ssh 或 scp 隐藏输出

我想使用 ant 在 mvn 中运行来运行 ssh 和 scp 命令 ssh 和 scp 命令正确运行并且在下一阶段中声明的插件运行但是 ssh scp 之后的所有命令的输出不会写入任何输出问题是什么这是我的 pom xml
特定活动开放后销毁所有先前的活动[重复]

这个问题在这里已经有答案了这是场景 Activity A gt Activity B gt Activity C gt Activity D 我想在之后销毁 Activity A B 和 CActivity D已推出有什么想法吗 Int
python 和 ip 范围？

例如我有一个文件城市和 IP 地址 City1 31 25 87 0 31 25 87 15 City2 31 47 224 0 31 47 255 255 如何通过ip地址知道城市名称 http www icir org robin
如何解密V FoxPro加密的字符串

我有一个用 Visual Fox Pro 构建的程序它可以在数据库中读取和写入信息但该信息是加密的我有源代码所以我有钥匙加密和解密的密钥相同用于加密解密但我无法获得用于加密解密的算法我需要这个来使用 C 创建一个新程序
如果盖子关闭，如何以编程方式从睡眠中唤醒？

我想以编程方式将系统从睡眠状态唤醒有什么办法可以做到这一点吗我已阅读以下链接 http developer apple com mac library qa qa2004 qa1340 html http developer apple
通过python脚本调整excel中单元格的宽度和高度（以毫米/厘米为单位）

我试图寻找它但没有找到是否可以使用 openpyxl 或 xlwt 模块以 mm 或 cm 尺寸调整 excel 中单元格的宽度和高度如果是那么有人可以指出我的脚本命令吗多谢使用 Openpyxl 设置列宽 setting wi
如何在 nHibernate 中部分投影具有多个字段的子对象

我有以下 nHibernate 查询它根据课程 ID 选择课程然后返回选定的字段对于初始获取的课程对象查询执行没有问题 MatchMode option CourseItem courseAlias null TeacherItem
如何读取txt文件C++并将它们分成几列

这是我第一次用 c Visual studio 2010 编写代码我有我想要实现的逻辑但我无法将其写入代码查看了许多样品但没有发现任何结果基本上我有一个制表符分隔的 txt 文件我想读取它并将数据放入字符串字符串数组中问题是
SpringBoot - BeanDefinitionOverrideException：无效的 bean 定义

我正在尝试使用 Spring Boot 在本地设置 DynamoDB 最初我的设置正常运行并且能够通过存储库写入保存到 DynamoDB 从那时起我添加了更多类来构建我的应用程序现在当我尝试启动我的应用程序时出现以下异常 or
我已经创建了一个带有套接字的 Java 服务器，那么如何打印到所有套接字？

我已经尝试了一段时间了我希望多个客户端同时接收多个输入有一个问题如果一个客户端说 print2all Hi 我希望服务器向所有客户端打印 Hi 我知道如何处理它来打印它只是打印到所有客户端就是问题所在这是我到目前为止所拥有的 Se
如何根据 GHCi 中的记录制作镜头

我想玩一下Lens图书馆一点我已将其加载到 GHCi 中并创建了带有适当下划线的记录数据类型 gt data Foo a Foo arg1 Int arg2 a 我想制作镜片Foo使用makeLenses模板我想这样做而不需要阅读整套
跨度与浮动垂直对齐

我在 div 内垂直对齐 3 个跨度时遇到问题这很容易实现但是当我使用浮动时垂直对齐不起作用我希望浅蓝色条垂直居中代码 container text 1 float left padding right 10px bar backg
如何使用 Talend tREST 上传文件？

Experts 我需要使用 Talend tREST 组件将文件上传到 Zephyr JIRA 我不知道在 httpbody 部分中给出的格式语法例如curl的 F 电子邮件受保护 cdn cgi l email protection
如果从本地数据库提取，LINQ-to-SQL 类不会实现 INotifyPropertyChanging 和 INotifyPropertyChanged

我在 LINQ to SQL 类中修改了数据源通过旧的删除和拖回方法并惊讶地发现 INotifyPropertyChanging 和 INotifyPropertyChanged 接口不再在生成的类 MyDb designer cs 中
Minecraft 服务器的世界边界修剪脚本

我正在尝试创建一个脚本每天凌晨 5 点修剪 Minecraft 服务器的世界到目前为止它运行命令 wb NAME TRIM 其中 NAME 是世界的名称然后运行命令 wb TRIM CONNECT 以初始化修剪过程 bin bash
我可以在 firestore 中查询嵌套文档值吗？

我想在 firestore 中搜索以下数据收藏 gt 文档 gt date month 10 year 2017 var ref db collection collection doc document ref where date m
AWS Athena 对于 api 来说太慢了？

计划是从 aws 数据交换获取数据将其移动到 s3 存储桶然后通过 aws athena 查询数据 api 一切正常只是感觉有点慢无论数据集还是查询 athena 响应时间都不能低于 2 秒对于 API 来说这已经太多了我检查

AWS Athena 对于 api 来说太慢了？

AWS Athena 对于 api 来说太慢了？ 的相关文章

随机推荐

热门标签

AWS Athena 对于 api 来说太慢了？的相关文章