数据湖分析 U-SQL 提取速度（本地与 Azure）

2024-04-23

一直在研究使用 Azure Data Lake Analytics 功能来尝试操作我存储在 Azure Blob 存储中的一些 Gzip 处理的 xml 数据，但我遇到了一个有趣的问题。本质上，当在本地使用 U-SQL 处理 500 个 xml 文件时，处理时间非常快，在本地使用 1 个 AU 大约需要 40 秒（这似乎是极限）。然而，当我们使用 5 个 AU 从 Azure 中运行相同的功能时，处理需要 17 分钟以上。

我们最终希望将其扩展到约 20,000 个文件甚至更多，但已减少了文件集以尝试测量速度。

每个文件包含 50 个 xml 对象的集合（子元素中包含不同数量的详细信息），这些文件在经过 Gzip 压缩后大约为 1 MB，未经 Gzip 压缩时大小在 5MB 到 10MB 之间。 99% 的处理时间都花在 u-sql 脚本的 EXTRACT 部分。

尝试过的事情，

在处理之前解压缩文件，这与压缩版本花费的时间大致相同，当然远不及我在本地看到的 40 秒。将数据从 Blob 存储移动到 Azure Data Lake 存储，花费了完全相同的时间长度。暂时从文件中删除了大约一半的数据并重新运行，令人惊讶的是，这也没有花费超过一分钟的时间。添加更多 AU 来增加处理时间，这非常有效，但由于会产生成本，这不是一个长期解决方案。在我看来，从 Azure Blob 存储/Azure Data Lake 获取数据时似乎存在主要瓶颈。我是否遗漏了一些明显的东西？

附：如果您需要更多信息，请告诉我。

Thanks,

Nick.

参见幻灯片 31https://www.slideshare.net/MichaelRys/best-practices-and-performance-tuning-of-usql-in-azure-data-lake-sql-konferenz-2018 https://www.slideshare.net/MichaelRys/best-practices-and-performance-tuning-of-usql-in-azure-data-lake-sql-konferenz-2018。有预览选项

SET @@FeaturePreviews="InputFileGrouping:on";

它将小文件分组到有限的顶点中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据湖分析 U-SQL 提取速度（本地与 Azure）的相关文章

Azure：列出操作系统映像

我是 Windows azure 新手我看过这个文档 http msdn microsoft com en us library windowsazure jj157191 aspx 对我来说它有效在画廊上列出图像 https mana
Windows 任务计划程序报告不正确/不一致的结果代码

背景我正在尝试在计划任务失败时收到电子邮件通知我的任务可以通过退出代码错误级别指示失败我想使用它并遵循中描述的过滤方法这个答案 https stackoverflow com a 4289360 29805触发电子邮件 Probl
如果 node_modules 目录存在，Azure 模拟器无法启动 Web 角色

我想我只是偶然发现了一个非常奇怪的问题我有一个相当大的解决方案包括一个具有 3 个角色两个工作角色和一个 Web 角色的 Azure 项目 Web角色基于asp net mvc和web api 昨天尝试 gulp 用于编译和捆绑较少的
如何知道 Azure 函数是否正在插槽中运行

函数可以知道它是否在槽中运行吗我想阻止某个函数在暂存槽中执行 Updated 根据布鲁斯的回答再次感谢朋友我写了那篇博文http www frankysnotes com 2017 09 how to know when azur
如何让 MSIX 应用安装程序在每次生成/发布期间输出正确的设置？

问题如何获取 MSIXappinstaller在每次构建发布期间输出正确的设置 Context 这是一个后续问题启用侧面加载后为什么 MSIX 不会在每次应用程序运行时自动检查更新 https stackoverflow com q
更新 Azure Blob 上的 LastModified

我正在移植代码以使用 C 中的 Azure 存储 SDK 传统上我称其为更新修改文件的上次写入修改时间 File SetLastWriteTimeUtc fileName lastWriteTimeUtc 要更新 blob 的上次修改时
为什么我可以使用 tsql 连接到 Azure MS SQL，但不能使用 pymssql？

我今天在哪里 TDSVER 7 3 tsql H example database windows net U me D ExampleDB p 1433 P notreallymypassword 这不会 gt gt gt import
如何使用 Azure CLI 命令获取虚拟机的公共 IP 地址

我想在 Azure bash 命令行中获取特定虚拟机的公共 IP 地址到目前为止我已使用此命令但它返回网络接口信息 az vm list ip addresses g dev rg n dev vm 返回值 virtualMachine
我可以在同一个 Azure 容器上创建和添加多少个访问策略？

我通过搜索没有找到答案我认为我应该能够在一个容器上创建许多存储访问策略至少数千个但经过测试我的程序最多只能在一个容器上添加5个策略然后我尝试了Microsoft Azure Storage Explorer 它也有这个限制最多只
Azure 网站中的 404 处理

我在 Azure 上有一个 MVC 网站我已经编写了一个控制器操作来代表资源该操作应该返回 HTTP 404 但正文内容应该是一些 HTML 我在其中解释了 404 的原因这是作为一个标准操作实现的该操作设置Response Sta
Azure 发布包不包含所有文件

我有几个配置 dll 和一个 exe 文件位于 bin 文件夹中并包含在项目中文件设置为内容和始终复制当我在本地调试项目时一切正常问题是当我发布云服务时文件丢失了 Azure 发布过程忽略了这些文件并且部署包文件中也缺少这
Azure 和直播

我正在尝试使用 Azure 制作实时视频流但我真的不知道应该先尝试什么首先有一个网站上面有最新版本的 Flowplayer 现在我需要知道如何将网络摄像头的视频流传输到 Azure 我需要什么样的软件我正在尝试使用 Express
Azure CloudTable 线程安全吗？

我正在使用 Storage SDK 2 0 从不同线程 ASP NET 应用程序写入 Azure 表存储 Is 云表 object 线程安全我是否可以仅初始化 CloudStorageAccount CloudTableClient 和
Azure SQL 数据仓库 DWU 与 Azure SQL DTU

我正在考虑从 Azure SQL 迁移到 Azure SQL 数据仓库它似乎提供了我们需要的一些功能但是价格是从小规模开始的一个问题 100 DWU 数据仓库的价格相当高 521 月 https azure microsoft com
删除实例后，Azure 云服务变得无响应？

我的 Azure 云服务当它从 3 个实例缩减到 2 个实例时我的网站会变得无响应几分钟我的印象是我的现有实例将保持不变除了那些被删除的实例并且我的网站将继续正常运行我可能是错的这是正常行为吗当您从 2 个实例缩减到 1
launch.json 中不允许使用属性 env [VSCode]

我所做的就是在 VS 中初始化一个模板 Azure Functions 项目当我尝试通过设置运行配置环境变量时launch json VS直接警告我这是不允许的此外即使当我尝试运行我的 ps1无论如何对于 env 来说它不起作用
如何使用 AMQP 以“PeekLock”模式从 Azure 服务总线队列获取消息？

我们正在尝试在 Node 应用程序中使用 Azure 服务总线我们的要求是从队列中获取多条消息由于Azure SDK for Node不支持批量检索我们决定使用AMQP 虽然我们能够使用 Peek Messages 获取消息如此处所
直接向订阅发送消息

是否可以将消息直接发送到订阅队列设想消息失败被丢弃到死信中该消息已使用 defer 手动拾取克隆并且需要发送到它首先被发送到死信的队列但不是主题我可以直接向订阅者发送消息吗我考虑过为每个订阅者创建一个单独的重试队列处理服
Kubernetes - 尝试部署时“安装卷失败”

我部署了第一个容器我得到了信息 deployment apps frontarena ads deployment created 但后来我看到我的容器创建陷入等待状态然后我看到日志使用kubectl describe pod fron
如何将图像和 POST 数据上传到 Azure 移动服务 ApiController 终结点？

我正在尝试上传图片and POST表单数据尽管理想情况下我希望它是json 到我的端点Azure 移动服务应用我有ApiController method HttpPost Route api upload databaseId sea

随机推荐

ASP.NET MVC OutputCache 不适用于根 URI

我正在学习 ASP NET MVC 并被一个问题困扰在HomeController中 Index操作具有OutputCache属性但它似乎不起作用 HandleError public class HomeController Cont
pytest 由于 ModuleNotFoundError 失败，但在使用“python -m pytest”时有效

类似于这个OP的问题 https stackoverflow com questions 56755761 filenotfounderror when using python m pytest vs pytest 但反过来说 pytes
Reactjs this.refs 与 document.getElementById

如果我只有基本表格我还应该吗 this refs或者只是去document getElementById 我所说的基本是指 export default class ForgetPasswordComponent extends Reac
使用渐变填充 SVG 形状

如何将线性渐变和阴影应用于此图案
熊猫选择倒数第二列，这也不是 nan

我已尽可能多地清理数据并在 Pandas 数据框中读取它们所以问题是不同的文件有不同的列数但它总是倒数第二个非纳米列是我想要的那么有什么办法可以把它们挑出来吗这是数据的示例 f g h l 0 39994 29 568 29 569
如何在SSRS图轴上跨越月份和年份？

我真的很喜欢下面 SSRS 图表中 x 轴的月份和年份的跨度我怎么做将日期拆分为数据集中的几列将这些列添加为条形图的类别组
Android ListView 填充内容而不移动 ListView 高度？

我有一个 ListView 里面有一堆项目如何使顶部和底部项目的顶部边距为 10dp 底部项目的底部边距为 10dp 现在我可以通过 ListView 上的填充或边距来做到这一点但结果是当您滚动时 ListView 的边缘现在距屏幕底
PHP中1个月代表多少天？

我发现 php 中的月份加法和减法存在奇怪的问题我的问题是 1 个月有相当于天数吗如果是这是所有编程语言的通用标准吗举几个例子 echo date Y m d strtotime 2011 03 31 1 months 2011 0
node.js http 服务器，检测客户端何时断开连接

我使用express 和node js 作为http 服务器我存储响应对象以便可以将事件流式传输到该通道上的客户端有没有办法检测客户端何时断开连接当我杀死我的客户端时我仍然可以写入响应对象而不会收到任何类型的异常错误看起来只
安装 Rails 版本 3.2.15 时出现“Gem::RemoteFetcher::UnknownHostError”

我之前已经在实时 ubuntu USB 上成功安装了 Rails 3 2 15 并具有数据持久性现在我已经习惯了操作系统 Ubuntu 12 04 LTS 我已经将它安装在笔记本电脑上并且正在安装我在实时 USB 中使用的东西长话短说
更改控制台大小

Delphi中的简单问题我创建了一个控制台应用程序如果控制台窗口的高度少于 80 行我需要将其高度更改为 80 行这需要从代码中完成并且实际上是在代码内有条件的即当发生错误时它会增加控制台的大小以便整个巨大的错误报告可
NSIS：在标签中插入链接

假设我有以下 nsDialog 标签单击接受即表示我同意示例的许可协议和隐私政策您可以访问需要使用个人信息的功能欲了解更多信息请下载示例的内容政策我想在此标签中插入链接如下所示单击接受即表示我同意示例的内容许可协议 h
动画 GIF 作为 THREE.js 中的纹理

我正在寻找一种在 THREE js 中使用 GIF 动画作为纹理的方法我目前可以加载纹理甚至是 GIF 格式但它无法播放动画有什么办法可以做到吗我发现了一些像这样的链接 https github com JordiRos GLGi
如何从 JavaScript 变量保存 png

我在 javascript 变量中有一个以 base64 编码的图像 data image png base64 base64 data 编辑我需要将该文件保存到磁盘而不要求访问者右键单击编辑是否可以如何提前致谢此致我知道这个
如何从 Rails 中的 RSpec 测试调用应用程序帮助器方法？

标题是不言自明的我尝试过的一切都导致了未定义的方法澄清一下我并不是想测试辅助方法我正在尝试在集成测试中使用辅助方法您只需在测试中包含相关的帮助程序模块即可使方法可用 describe foo do include ActionV
Knockout：避免绑定中的循环更新

我有一个与接口交互的自定义绑定Scribe https github com guardian scribe 一个内容可编辑的所见即所得编辑器当编辑器内容发生变化时它会更新关联的可观察量并在关联的可观察量发生变化时更新编辑器 ko
将属性添加到对象数组

我有一个对象数组如下所示 Object Results Array 2 Results Array 2 0 1 0 Object id 1 name Rick 1 Object id 2 name david 我想向该对象数组的每个元素添
如何在 Node.js 中无限读取行

while 1 rl question Command function answer console log answer 刚刚尝试了这段代码但不是一一输入而是闪烁命令行我知道 Node js 是非阻塞的但我不知道如何解决这个
是否可以在 Flutter 的 IconButton 中使用 DropDownButton？

Update override Widget build BuildContext context return new Container height MediaQuery of context size height child Si
数据湖分析 U-SQL 提取速度（本地与 Azure）

一直在研究使用 Azure Data Lake Analytics 功能来尝试操作我存储在 Azure Blob 存储中的一些 Gzip 处理的 xml 数据但我遇到了一个有趣的问题本质上当在本地使用 U SQL 处理 500 个 x

数据湖分析 U-SQL 提取速度（本地与 Azure）

数据湖分析 U-SQL 提取速度（本地与 Azure） 的相关文章

随机推荐

热门标签

数据湖分析 U-SQL 提取速度（本地与 Azure）的相关文章