如何仅使用 U-SQL 和文件中的某些字段将大文件分区为文件/目录？

2023-12-01

我有一个非常大的 CSV，其中每一行都包含客户和商店 ID，以及交易信息。当前的测试文件约为 40 GB（大约 2 天），因此对于选择查询的任何合理返回时间来说，分区是绝对必须的。

我的问题是：当我们收到一个文件时，它包含多个商店的数据。我想使用“虚拟列”功能将此文件分离到相应的目录结构中。该结构是“/Data/{CustomerId}/{StoreID}/file.csv”。

我还没有让它与 OUTPUT 语句一起使用。语句的用法是这样的：

// Output to file
OUTPUT @dt
TO @"/Data/{CustomerNumber}/{StoreNumber}/PosData.csv"
USING Outputters.Csv();

它给出以下错误：

Bad request. Invalid pathname. Cosmos Path: adl://<obfuscated>.azuredatalakestore.net/Data/{0}/{1}/68cde242-60e3-4034-b3a2-1e14a5f7343d

有人尝试过同样的事情吗？我尝试连接字段中的输出路径，但这是不行的。我考虑过将其作为一个函数（UDF）来实现，该函数接受两个 ID 并过滤整个数据集，但这似乎效率非常低。

预先感谢您的阅读/回复！

目前，U-SQL 要求必须在编译时理解脚本的所有文件输出。换句话说，无法根据输入数据创建输出文件。

我们正在积极努力，争取在 2017 年晚些时候发布基于数据的动态输出。

同时，在动态输出功能可用之前，完成您想要的模式需要使用两个脚本

第一个脚本将使用 GROUP BY 来识别 CustomerNumber 和 StoreNumber 的所有唯一组合并将其写入文件。

然后，通过使用脚本或使用我们的 SDK 编写的工具，下载之前的输出文件，然后以编程方式创建第二个 U-SQL 脚本，该脚本为每对 CustomerNumber 和 StoreNumber 提供显式 OUTPUT 语句

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

azuredatalake

usql

如何仅使用 U-SQL 和文件中的某些字段将大文件分区为文件/目录？的相关文章

U-SQL 根据文件中的不同值将 CSV 文件拆分为多个文件

我在 Azure Data Lake Store 中有数据我正在使用 U SQL 使用 Azure 数据分析作业处理其中存在的数据我有几个包含空间数据的 CSV 文件类似于文件 20170301 csv longtitude lat
安装 Azure U-SQL 扩展以在本地运行 R/Python 脚本？

我们可以在 Azure Data Lake Analytics 中使用 R Python 代码扩展 U SQL 脚本但如何在本地进行呢在您的数据湖分析帐户中安装 U SQL 高级分析扩展1 1 启动 Azure 门户1 2 导航到您的数
如何仅使用 U-SQL 和文件中的某些字段将大文件分区为文件/目录？

我有一个非常大的 CSV 其中每一行都包含客户和商店 ID 以及交易信息当前的测试文件约为 40 GB 大约 2 天因此对于选择查询的任何合理返回时间来说分区是绝对必须的我的问题是当我们收到一个文件时它包含多个商店的数据我想使
Azure Data Lake 的 Spark 谓词下推、过滤和分区修剪

我一直在阅读有关 Spark 谓词下推和分区修剪的内容以了解读取的数据量我有以下与此相关的疑问假设我有一个包含列的数据集年份 Int 学校名称 String 学生 ID Int 主题已注册 String 其中存储在磁盘上的数据按年份
获取文件夹[Azure数据工厂]中最新添加的文件

在数据湖内部我们有一个文件夹基本上包含每天外部源推送的文件但是我们只想处理该文件夹中最新添加的文件有什么方法可以使用 Azure 数据工厂来实现这一目标吗你可以设置修改日期时间开始和修改日期时间结束在复制活动中使用 ADLS 连
databricks dbfs 是否支持文件元数据，例如文件/文件夹创建日期或修改日期

我正在尝试爬行 databricks 笔记本中的目录以查找最新的镶木地板文件 dbfsutils fs ls 似乎不支持有关文件或文件夹的任何元数据 python 中有其他方法可以做到这一点吗数据存储在安装到 mnt foo 下的 DBF
将 Power BI 连接到 S3 存储桶

由于我是 Power BI 和 Redshift 的新手需要一些指导我的原始 JSON 数据以 gz 文件的形式存储在 Amazon S3 存储桶中每个 gz 文件有多行 JSON 数据我想将 Power BI 连接到 Amazon
azure blob存储和azure data Lake存储之间的区别[关闭]

Closed 这个问题是基于意见的目前不接受答案对于像我这样的用户来说这似乎很困惑因为 azure blob 存储和 azure data Lake 存储之间的主要区别是什么以及在什么用户情况下 azure blob 存储比 az
如何在 Azure 数据工厂的复制活动期间向文件名添加日期？

我正在从 Azure 数据工厂中的 SFTP 中提取一个文件夹该文件夹将始终具有相同的名称因此我在复制活动中明确指定了它但我试图弄清楚如何添加复制它的日期到当前文件名该文件夹取自 SFTP 并存储在 ADLS Gen2 中下面附上
数据工厂中的 U-SQL 作业失败

每当我运行时我总是从数据工厂收到以下错误U SQL作业 Job submission failed the user adla account name does not have permissions to a subfolder i
使用 Python 或 Java 将数据从本地上传到 Azure ADLS Gen2

我有一个 Data Lake Gen2 的 Azure 存储帐户我想使用 Python 或 Java 将数据从本地上传到 Lake Gen2 文件系统我已经发现examples https github com Azure Sample
Databricks 仅打印大约 280 行数据

我正在 Databricks 中运行一些大型作业目前包括盘点数据湖我正在尝试打印前缀子文件夹内的所有 blob 名称这些子文件夹中有很多文件我打印了大约 280 行文件名但随后我看到了以下内容 WARNING skipped
使用 Azure Data Lake Analytics 与传统 ETL 方法的原因

我正在考虑使用我最近几周一直在研究的数据湖技术与我多年来一直使用的传统 ETL SSIS 场景进行比较我认为数据湖与大数据密切相关但是使用数据湖技术与 SSIS 之间的界限在哪里使用 Data Lake 技术处理 25MB 100M
使用 Azure 函数处理 Azure Datalake 存储文件

我定期在 Azure Datalake 存储上的特定文件夹中获取文件文件一到达我想使用 Azure 函数进一步处理它那可能吗 UPDATE With 多协议接入 https learn microsoft com en us azur
我们如何在azure数据湖中的u-sql中根据时间戳作业执行动态输出文件名

我们如何根据作业执行时的时间戳在azure数据湖的u sql中动态输出文件名谢谢您的帮助我的代码如下 OUTPUT telDataResult TO wasb email protected cdn cgi l email protec
尝试转换列数据时值太长失败

Scenario 我有一个源文件其中每个新行都包含 JSON 块然后我有一个简单的 U SQL 摘录如下所示其中 RawString 表示文件中的每个新行 FileName 定义为 SourceFile 路径中的变量 BaseEx
将 Azure 事件中心与 Data Lake Store 连接

将数据从事件中心发送到 Data Lake Store 的最佳方式是什么我假设您希望定期将数据从 EventHub 提取到 Data Lake Store 正如 Nava 所说您可以使用 Azure 流分析将数据从 EventHub 获
将 CSV 从 Azure Data Lake（第 2 代）加载到 Azure SQL 数据库

我有一个包含多个容器的 Azure Data Lake Storage 第 2 代帐户我想导入salesorderdetail csv文件从 Sales 容器复制到 Azure SQL 数据库中我已经使用 Azure 数据工厂成功构建
U-SQL 中的自动增量

我正在尝试形成一个新表其中包含现有表中唯一的 user id 是否可以添加自动递增U SQL 中的主键就像我们可以在 MySQL 中添加一样吗详细说明 David 的答案与 MySQL 不同 ADLA U SQL 是在横向扩展的无共享
Sql中的Partition By和Clustered and Distributed By - 需要知道它们的含义以及何时使用它们

我可以看到在 SQL 中创建表时我们可以使用 Partition By Clustered 和 Distributed By 子句根据我的理解分区会将相同键我们在其上有分区的数据存储在一起或更接近可能在后台相同的结构化流中这

随机推荐

如何在 Froyo 中检测设备的准确方向？

我试图暂时锁定 Android 设备的方向大多数时候它会随着传感器的变化而变化所以我想做的是弄清楚当前的方向横向反向横向纵向反向纵向是什么将方向更改为该方向然后将其改回原来的方向我知道我可以使用诸如 int 方向 thi
Python 3 异常处理抛出错误

我上周开始学习 python 但我无法弄清楚这里出了什么问题 def add x y Adds 2 numbers and returns the result return x y def sub x y Subtracts 2 numb
PHP 中的详细正则表达式？

在 php net 上搜索我找不到任何支持详细的正则表达式在 PHP 中这是我不知道如何搜索它的错还是php没有实现它的错如果php缺少这个功能除了将正则表达式分成更小的段之外还有其他方法来注释正则表达式吗您还可以在正则表达式中
将大型文本 (xyz) 数据库拆分为 x 个相等的部分

我想拆分一个大型文本数据库约 1000 万行我可以使用类似的命令 sed i e 4 s dB e 4 s Best unit Best Unit e 1 3 d cygdrive c Radio Mobile Output TRC T
TensorFlow 中 sigmoid 后跟交叉熵和 sigmoid_cross_entropy_with_logits 有什么区别？

当尝试使用 sigmoid 激活函数获取交叉熵时两者之间存在差异 loss1 tf reduce sum p tf log q 1 loss2 tf reduce sum tf nn sigmoid cross entropy with
Mysql 5.5.10 - Mac 10.6.x - 自动启动

我正在尝试在我的 mac pro 上自动启动 mysql 5 5 10 社区服务器 gpl 我读过这个论坛上的几个帖子我仍然感到困惑因为这些线程引用了一个文件 Library StartupItems MySQLCOM 我好像没有这个文
无法将自定义日志添加到 Log Analytics

大家好我无法添加自定义日志日志分析 gt 高级设置 gt 数据 gt 自定义日志尽管在连接的资源中显示我的计算机已连接我错过了什么吗 PS 我使用的是azure Trail帐户目前自定义日志处于预览状态您需要先在 OMS Por
sum 函数返回的结果与显式循环不同

我正在将 f77 代码转换为 f90 代码部分代码需要对 3d 矩阵的元素求和在 f77 中这是通过使用 3 个循环通过外部中间内部索引来完成的我决定使用 f90 内在和 3 次来完成此操作令我惊讶的是答案不同我正在使
如何在 iOS gui 自动化中检查元素属性？

所有 UI 自动化examples我见过使用标准组件可以使用 JavaScript API 检查其状态value 方法这有点限制假设您想检查颜色或 alpha 值等如何检查视图的属性一个例子点击某个元素应该使其被选中我想点击
如何将 JSON 传递到 Azure 函数并在 Azure 数据工厂 V2 中嵌入动态内容

在 ADFv2 中我查找日期并将其传递给 Azure 函数我可以像这样传递数据 activity GetLastDateProcessed output firstRow LastDateProcessed 但是如果我将其嵌入到 JS
在现有状态转换期间无法更新

当我加载流星项目时我的浏览器不断崩溃如果我注释掉我只能避免浏览器崩溃this setState input 36 currentApp input 36 在 App jsx 文件中有人可以告诉我如何修复我的代码以便项目可以加载而不
Python 间隔三角形

我应该编写一个最终结果如下的程序我已经为常规代码编写了代码但我不确定如何将空格合并到其中 def triangle i t 0 if i 0 return 0 else print t 1 i 2 1 return triangle i
比较 Google 电子表格上的行

我想在同一个电子表格的两个不同工作表中识别相同的行我尝试了下面的代码它不起作用 function getMyEqualRows var ss SpreadsheetApp getActiveSpreadsheet var sheet1
向 Android 可穿戴设备发送数据

我正在尝试将字符串数组从手机发送到我的穿戴设备我在手机上创建了一项服务该服务应该使用以下代码发送数据 public class SendDataService extends Service private static final S
PyGTK隐藏光标

问题很简单如何使用 PyGTK 隐藏活动窗口上的光标这是我为学习这一点而制作的一个基本应用程序 usr bin env python import gtk class app def init self window gtk Windo
运行默认的 Gluon 项目后出错 (: dex FAILED)

我下载了 Netbeans 的 Gluon 插件以将 JavaFX 应用程序部署到 Android 它在桌面上成功运行但是当我执行android任务它会抛出错误 Executing gradle android compileJava
如何读取我的 BLE 设备的所有特性值？

我正在使用 Android Studio 构建一个应用程序可以从设备 BLE 读取值该设备有 4 个服务第四项服务有3个特点我想了解第四项服务的所有特征该设备可以发送更多信息因此我希望应用程序可以存储从设备 BLE 到达的所有信
获取 ASP.NET vNext 中的当前 MethodBase

我正在将开源库从常规 NET 4 Client Profile 移植到 DNX Core 5 0 有相当多的库更改属性或方法被移动或完全删除我看过这个答案但它在我的情况下不起作用因为该方法已被删除问题之一我有一段代码MethodBa
vimomnicppcomplete 模式未找到

我在我的电脑上安装了vim7 3 在Windows 7下我想使用自动完成插件我进行了大量搜索发现 Omnicppcomplete 是最适合的所以我遵循了这个教程安装 OmniCppComplete 插件我的 vimrc 配置文件
如何仅使用 U-SQL 和文件中的某些字段将大文件分区为文件/目录？

我有一个非常大的 CSV 其中每一行都包含客户和商店 ID 以及交易信息当前的测试文件约为 40 GB 大约 2 天因此对于选择查询的任何合理返回时间来说分区是绝对必须的我的问题是当我们收到一个文件时它包含多个商店的数据我想使

如何仅使用 U-SQL 和文件中的某些字段将大文件分区为文件/目录？

如何仅使用 U-SQL 和文件中的某些字段将大文件分区为文件/目录？ 的相关文章

随机推荐

热门标签

如何仅使用 U-SQL 和文件中的某些字段将大文件分区为文件/目录？的相关文章