Azure Data Lake Analytics：使用 U-SQL 合并重叠的持续时间

2023-12-10

我想使用 U-SQL 从放置在 Azure Data Lake Store 中的 CSV 数据中删除重叠的持续时间，并合并这些行。数据集包含每个记录的开始时间和结束时间以及几个其他属性。这是一个例子：

Start Time - End Time - Usar Name
5:00 AM - 6:00 AM - ABC
5:00 AM - 6:00 AM - XYZ
8:00 AM - 9:00 AM - ABC
8:00 AM - 10:00 AM - ABC
10:00 AM - 2:00 PM - ABC
7:00 AM - 11:00 AM - ABC
9:00 AM - 11:00 AM - ABC
11:00 AM - 11:30 AM - ABC

消除重叠后，输出数据集将如下所示：

Start Time - End Time - Usar Name
5:00 AM - 6:00 AM - ABC
5:00 AM - 6:00 AM - XYZ
7:00 AM - 2:00 PM - ABC

请注意，CSV 包含大量数据，大小为数 GB。我正在尝试解决这个问题，但没有运气。我希望避免为 Azure Data Lake Analytics 作业使用 U-SQL 用户定义的运算符，并从 U-SQL 中寻找一些有效的解决方案。

您似乎想要聚合提供重叠时间范围的行的所有数据？或者您想对其他列中的数据做什么？

乍一看，我建议您使用用户定义的 REDUCER 或用户定义的聚合器，具体取决于您想要使用其他数据实现的目标。

但是，我看到的一个问题是您可能需要固定点递归来创建公共重叠范围。不幸的是，U-SQL（也不是 Hive）中没有定点递归，因为无法有效地扩展递归处理。

澄清后更新:

我认为这更容易。您只需取开头的最小值和结尾的最大值，然后按键值进行分组：

@r = EXTRACT begin DateTime, end DateTime,
             data string
     FROM "/temp/ranges.txt"
     USING Extractors.Text(delimiter:'-');

@r = SELECT MIN(begin) AS begin,
            MAX(end) AS end,
            data
     FROM @r
     GROUP BY data;

OUTPUT @r
TO "/temp/result.csv"
USING Outputters.Csv();

请注意，仅当您的范围在同一天且不跨越午夜时，此方法才有效。

更新了为用户处理不相交范围的解决方案您可以使用用户定义的减速器来解决它。以下博客文章解释了该解决方案的详细信息并提供了 GitHub 代码的链接：https://blogs.msdn.microsoft.com/mrys/2016/06/08/how-do-i-combine-overlapping-ranges-using-u-sql-introducing-u-sql-reducer-udos/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Azure Data Lake Analytics：使用 U-SQL 合并重叠的持续时间的相关文章

如何验证文件名称在 Windows 中是否有效？

是否有一个 Windows API 函数可以将字符串值传递给该函数该函数将返回一个指示文件名是否有效的值我需要验证文件名是否有效并且我正在寻找一种简单的方法来完成此操作而无需重新发明轮子我正在直接使用 C 但针对的是 Win32
是否可以强制 XMLWriter 将元素写入单引号中？

这是我的代码 var ptFirstName tboxFirstName Text writer WriteAttributeString first ptFirstName 请注意即使我使用 ptFirstName 也会以双引号结束 p
C# 和 Javascript SHA256 哈希的代码示例

我有一个在服务器端运行的 C 算法它对 Base64 编码的字符串进行哈希处理 byte salt Convert FromBase64String serverSalt Step 1 SHA256Managed sha256 new S
获取按下的按钮的返回值

我有一个在特定事件中弹出的表单它从数组中提取按钮并将标签值设置为特定值因此如果您要按下或单击此按钮该函数应返回标签值我怎样才能做到这一点我如何知道点击了哪个按钮此时代码返回 DialogResult 但我想从函数返回 Tag
从父类调用子类方法

a doStuff 方法是否可以在不编辑 A 类的情况下打印 B did stuff 如果是这样我该怎么做 class Program static void Main string args A a new A B b new B a
如何避免情绪低落？

我有一个实现状态模式每个状态处理从事件队列获取的事件根据State因此类有一个纯虚方法void handleEvent const Event 事件继承基础Event类但每个事件都包含其可以是不同类型的数据例如 int string
如何在列表框项目之间画一条线

我希望能够用水平线分隔列表框中的每个项目这只是我用于绘制项目的一些代码 private void symptomsList DrawItem object sender System Windows Forms DrawItemEvent
实时服务器上的 woff 字体 MIME 类型错误

我有一个 asp net MVC 4 网站我在其中使用 woff 字体在 VS IIS 上运行时一切正常然而当我将 pate 上传到 1and1 托管实时服务器时我得到以下信息网络错误 404 未找到 http www co
Newtonsoft JSON PreserveReferences处理自定义等于用法

我目前在使用 Newtonsoft Json 时遇到一些问题我想要的很简单将要序列化的对象与所有属性和子属性进行比较以确保相等我现在尝试创建自己的 EqualityComparer 但它仅与父对象的属性进行比较另外我尝试编写自己的
如果使用 SingleOrDefault() 并在数字列表中搜索不在列表中的数字，如何返回 null？

使用查询正数列表时SingleOrDefault 当在列表中找不到数字时如何返回 null 或像 1 这样的自定义值而不是类型的默认值在本例中为 0 你可以使用 var first theIntegers Cast
在数据库中搜索时忽略空文本框

此代码能够搜索数据并将其加载到DataGridView基于搜索表单文本框中提供的值如果我将任何文本框留空则不会有搜索结果因为 SQL 查询是用 AND 组合的如何在搜索从 SQL 查询或 C 代码时忽略空文本框 private
将自定义元数据添加到 jpeg 文件

我正在开发一个图像处理项目 C 我需要在处理完成后将自定义元数据写入 jpeg 文件我怎样才能做到这一点有没有可用的图书馆可以做到这一点如果您正在谈论 EXIF 元数据您可能需要查看exiv2 http www exiv2 org
从库中捕获主线程 SynchronizationContext 或 Dispatcher

我有一个 C 库希望能够将工作发送发布到主 ui 线程如果存在该库可供以下人员使用一个winforms应用程序本机应用程序带 UI 控制台应用程序没有 UI 在库中我想在初始化期间捕获一些东西 Synchronizati
如何在 VBA 中声明接受 XlfOper (LPXLOPER) 类型参数的函数？

我在之前的回答里发现了问题 https stackoverflow com q 19325258 159684一种无需注册即可调用 C xll 中定义的函数的方法我之前使用 XLW 提供的注册基础结构并且使用 XlfOper 类型在 V
将 unsigned char * (uint8_t *) 转换为 const char *

我有一个带有 uint8 t 参数的函数 uint8 t ihex decode uint8 t in size t len uint8 t out uint8 t i hn ln for i 0 i lt len i 2 hn in i
C++ fmt 库，仅使用格式说明符格式化单个参数

使用 C fmt 库并给定一个裸格式说明符有没有办法使用它来格式化单个参数 example std string str magic format 2f 1 23 current method template
C - 直接从键盘缓冲区读取

这是C语言中的一个问题如何直接读取键盘缓冲区中的数据我想直接访问数据并将其存储在变量中变量应该是什么数据类型我需要它用于我们研究所目前正在开发的操作系统它被称为 ICS OS 我不太清楚具体细节它在 x86 32 位机器上运行
为什么我收到“找不到编译动态表达式所需的一种或多种类型。”？

我有一个已更新的项目 NET 3 5 MVC v2 到 NET 4 0 MVC v3 当我尝试使用或设置时编译出现错误 ViewBag Title财产找不到编译动态表达式所需的一种或多种类型您是否缺少对 Microsoft CSharp
x86 上未对齐的指针

有人可以提供一个示例将指针从一种类型转换为另一种类型由于未对齐而失败吗在评论中这个答案 https stackoverflow com questions 544928 reading integer size bytes from a
防止索引超出范围错误

我想编写对某些条件的检查而不必使用 try catch 并且我想避免出现 Index Out of Range 错误的可能性 if array Element 0 Object Length gt 0 array Element 1 Ob

随机推荐

典型的 IoC 容器用法 - 向下传递数据

我最近开始使用IoC第一次使用容器但我没有接受过使用它的最佳实践的教育更具体地说我正在使用Unity在一个 C NET 项目中我开始使用它因为它附带Prism 我使用容器来解析顶级对象并且它们根据容器获得注入的正确对象但是
C# 通过拖动绘制线条

如何像windows画图那样画一条线单击固定第一个点第二个点和线随鼠标移动再单击固定线 int x 0 y 0 protected override void OnMouseMove MouseEventArgs e base O
两个日期之间的 Pythonic 差异（以年为单位）？

下面有更有效的方法吗我希望将两个日期之间的年份差异作为单个标量欢迎任何建议 from datetime import datetime start date datetime 2010 4 28 12 33 end date datet
你如何知道 jQuery 函数何时返回 false？

return false 似乎工作在submitHandler但我不知道为什么 function submitHandler post this attr action this serialize null script return f
iOS 8 Swift 音频播放完成时执行方法

我正在 iOS 8 的 Swift 中播放音频文件我需要知道声音何时结束如何在声音结束时执行一个方法这取决于你如何玩它查找其状态更改可以触发 KVO 通知的委托方法通知或可观察属性例如如果您使用 AVAudioPlayer 它
如何为 Npgsql 提供自定义数据类型作为参数？

我想使用 Npgsql 将键值对数组作为参数传递给 PostgreSQL 函数我定义了以下类型 drop type if exists key value pair create type key value pair as k varc
如何使用复选框列和绑定从 Xceed\Extended WPF Toolkit 设置数据网格控件

我正在尝试将 WPF 数据网格替换为 xceed Extended WPF Toolkit DataGridControl 我需要对复选框列中的单击事件做出反应以总结许多其他列在现有的数据网格中我有一个复选框列它绑定到一个可观察集合
无法使 (UTF-8) 繁体中文字符在 PHP gettext 扩展中工作（在 poEdit 中创建的 .po 和 .mo 文件）

我检查了MSDN语言环境字符串是 zh Hant 但我也尝试使用 zh TW 中文台湾繁体中文字符在 poEditor 中看起来不错但是当我在浏览器中打开文件时这些字符只是奇怪的符号 o 我认为翻译是有效的但编码有问题我对字符集
AngularJS + Json：如何渲染 html

我知道这个问题被问了很多次但我相信我的设置不同因此需要在不同的场景中提出一个新问题有很多示例展示了如何渲染 HTML 但我似乎无法使其与任何示例一起使用我想渲染 html aboutlongs 0 description 这有 br
在powershell中拆分表情符号序列

我有一个仅填充表情符号的文本框没有空格或任何类型的字符我需要拆分这些表情符号才能识别它们这是我尝试过的 function emoji to unicode foreach emoji in textbox Text unicode S
无法为委托分配参数类型不太具体的匿名方法[重复]

这个问题在这里已经有答案了 public class Program delegate void Srini string param static void Main string args Srini sr new Srini Prin
页面刷新后保留TextBox值

我有一个文本框这就是我为其赋值的方式 var start moment subtract 6 days var end moment datePicker daterangepicker timepicker false startDat
React JS：API 调用成功后获取上下文数据

我一直在获取上下文数据我有一个上下文和一个使用其数据的组件我需要在我的组件中获取 API 调用成功时上下文变量的更新数据那么我该怎么做呢这是我尝试过的上下文 js import React useState createConte
更改 Rails 3.1 中的视图格式（提供移动 html 格式，回退到普通 html）

我正在我们普通的 html 网站旁边创建一个移动网站使用导轨 3 1 移动站点在子域 m site com 中访问我已经定义了移动格式 Mime Type register alias text html mobile 在 Applic
在链表中的单个索引处存储超过 1 个数据项？

我试图在链接列表中的单个索引处存储多个数据项我教科书中的所有示例似乎都说明每个索引仅添加 1 条数据我假设可以添加更多吗例如使用 Collections API 来存储整数我将执行以下操作 LinkedList
Python 3 struct.pack() 打印奇怪的字符

我正在测试 struct 模块因为我想将带有字节 char 和 unsigned int 参数的简单命令发送到另一个应用程序然而在转换为小端无符号整数时我发现了一些奇怪的事情这些示例打印了正确的十六进制表示形式 gt gt gt
处理电话：anchor

我有一个电话号码的锚点在手机上很棒在带有 Skype 或 Google Voice 的桌面上效果很好问题出在桌面上他们不知道如何处理这个问题我应该怎么办检测它是否不是移动设备并更改链接我仍然希望显示链接只是 URL 不同
启动超时并被终止

我使用 Tesla 2075 cc 2 0 和 CUDA 4 2 我正在非显示器上运行我的程序GPU 特斯拉我收到错误 the launch timed out and was terminated 非显示 GPU 上是否会出现此错误而
如何在 Vue.js 应用程序中使用 vuex 存储从子组件（设置页面）设置值？

我正在尝试创建一个设置组件它将选定的值保存到存储中以便所有其他组件都可以使用这些值来更改其外观设置视图 vue 其中一项设置你也可以看到在代码笔上 p themeColor p
Azure Data Lake Analytics：使用 U-SQL 合并重叠的持续时间

我想使用 U SQL 从放置在 Azure Data Lake Store 中的 CSV 数据中删除重叠的持续时间并合并这些行数据集包含每个记录的开始时间和结束时间以及几个其他属性这是一个例子 Start Time End Time

Azure Data Lake Analytics：使用 U-SQL 合并重叠的持续时间

Azure Data Lake Analytics：使用 U-SQL 合并重叠的持续时间 的相关文章

随机推荐

热门标签

Azure Data Lake Analytics：使用 U-SQL 合并重叠的持续时间的相关文章