调试 u-sql 作业

2023-12-11

我想知道是否有任何提示和技巧来查找数据湖分析工作中的错误。大多数时候错误消息似乎不是很详细。

当尝试从 CSV 文件中提取时,我经常收到这样的错误

顶点故障触发作业快速中止。顶点失败:SV1_Extract[0] 且>错误:顶点用户代码错误。

顶点因快速失败错误而失败

尝试将列转换为指定类型时似乎会​​发生这些错误。

我发现的技术是将所有列提取为字符串,然后执行 SELECT 尝试将列转换为预期类型。逐列执行此操作可以帮助找到错误的特定列。

@data =
    EXTRACT ClientID string,
            SendID string,
            FromName string,           
    FROM "wasb://..."
    USING Extractors.Csv();

//convert some columns to INT, condition to skip header
@clean =
    SELECT Int32.Parse(ClientID) AS ClientID,
           Int32.Parse(SendID) AS SendID,
           FromName,           
    FROM @data
    WHERE !ClientID.StartsWith("ClientID");

是否也可以使用 TryParse 之类的东西在解析错误时返回 null 或默认值,而不是整个作业失败?

Thanks


这是一个无需使用代码隐藏的解决方案(尽管代码隐藏将使您的代码更具可读性):

SELECT ((Func<string, Int32?>)(v => { Int32 res; return Int32.TryParse(v, out res)? (Int32?) res : (Int32?) null; }))(ClientID) AS ClientID

此外,您看到的有关错误消息神秘的问题与一个错误有关,该错误应该在返回所谓的内部错误消息时尽快修复。今天的工作是执行以下操作:

  1. 在 VisualStudio 的 ADL 工具中,打开失败作业的作业视图。
  2. 在左下角,单击作业详细信息区域中的“资源”链接。
  3. 加载作业资源后,单击“配置文件”。
  4. 在行开头搜索字符串“jobError”。复制整行文本并粘贴到记事本(或其他文本编辑器)中以读取实际错误。

这应该会给你确切的错误消息。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

调试 u-sql 作业 的相关文章

  • 安装 Azure U-SQL 扩展以在本地运行 R/Python 脚本?

    我们可以在 Azure Data Lake Analytics 中使用 R Python 代码扩展 U SQL 脚本 但如何在本地进行呢 在您的数据湖分析帐户中安装 U SQL 高级分析扩展1 1 启动 Azure 门户1 2 导航到您的数
  • Azure Data Lake 的 Spark 谓词下推、过滤和分区修剪

    我一直在阅读有关 Spark 谓词下推和分区修剪的内容 以了解读取的数据量 我有以下与此相关的疑问 假设我有一个包含列的数据集 年份 Int 学校名称 String 学生 ID Int 主题已注册 String 其中存储在磁盘上的数据按年份
  • 获取文件夹[Azure数据工厂]中最新添加的文件

    在数据湖内部 我们有一个文件夹 基本上包含每天外部源推送的文件 但是 我们只想处理该文件夹中最新添加的文件 有什么方法可以使用 Azure 数据工厂来实现这一目标吗 你可以设置修改日期时间开始和修改日期时间结束在复制活动中使用 ADLS 连
  • Azure 数据流需要几分钟才能触发下一个管道

    Azure 数据工厂在 10 毫秒内将数据传输到 Db 中 但我遇到的问题是它需要等待几分钟才能触发下一个管道 最终需要 40 分钟 所有管道传输数据的时间不到 20 毫秒 但不知何故 它要等待几分钟才能触发下一个 I used debug
  • databricks dbfs 是否支持文件元数据,例如文件/文件夹创建日期或修改日期

    我正在尝试爬行 databricks 笔记本中的目录以查找最新的镶木地板文件 dbfsutils fs ls 似乎不支持有关文件或文件夹的任何元数据 python 中有其他方法可以做到这一点吗 数据存储在安装到 mnt foo 下的 DBF
  • 调试 u-sql 作业

    我想知道是否有任何提示和技巧来查找数据湖分析工作中的错误 大多数时候错误消息似乎不是很详细 当尝试从 CSV 文件中提取时 我经常收到这样的错误 顶点故障触发作业快速中止 顶点失败 SV1 Extract 0 且 gt 错误 顶点用户代码错
  • azure blob存储和azure data Lake存储之间的区别[关闭]

    Closed 这个问题是基于意见的 目前不接受答案 对于像我这样的用户来说 这似乎很困惑 因为 azure blob 存储和 azure data Lake 存储之间的主要区别是什么 以及在什么用户情况下 azure blob 存储比 az
  • 直接在 Azure Datalake 中将 Python Dataframe 写入 CSV 文件

    我已将 Excel 文件导入到 pandas 数据框中 并完成了数据探索和清理过程 我现在想要将清理后的数据帧写入 csv 文件回 Azure DataLake 而不先将其保存为本地文件 我正在使用熊猫3 我的代码如下所示 token li
  • 使用 Python 或 Java 将数据从本地上传到 Azure ADLS Gen2

    我有一个 Data Lake Gen2 的 Azure 存储帐户 我想使用 Python 或 Java 将数据从本地上传到 Lake Gen2 文件系统 我已经发现examples https github com Azure Sample
  • Databricks 仅打印大约 280 行数据

    我正在 Databricks 中运行一些大型作业 目前包括盘点数据湖 我正在尝试打印前缀 子文件夹 内的所有 blob 名称 这些子文件夹中有很多文件 我打印了大约 280 行文件名 但随后我看到了以下内容 WARNING skipped
  • 如何从 Azure 数据工厂运行 PowerShell

    I have PowerShell该脚本将复杂的 CSV 文件分割为每 1000 条记录的较小的 CSV 文件 这是代码 i 0 Get Content C Users dell Desktop Powershell Input bigsi
  • 我们如何在azure数据湖中的u-sql中根据时间戳作业执行动态输出文件名

    我们如何根据作业执行时的时间戳在azure数据湖的u sql中动态输出文件名 谢谢您的帮助 我的代码如下 OUTPUT telDataResult TO wasb email protected cdn cgi l email protec
  • 从文件流上传到 ADLS

    我正在 ADF 中进行自定义活动 其中涉及从 Azure 存储 Blob 读取多个文件 对它们进行一些处理 最后将生成的文件写入 Azure Data Lake Store 最后一步是我停止的地方 因为据我所知 NET SDK 只允许从本地
  • 尝试转换列数据时值太长失败

    Scenario 我有一个源文件 其中每个新行都包含 JSON 块 然后 我有一个简单的 U SQL 摘录 如下所示 其中 RawString 表示文件中的每个新行 FileName 定义为 SourceFile 路径中的变量 BaseEx
  • 如何在 U-SQL 中抛出错误或引发异常?

    在 U Sql 脚本中引发错误或异常的机制是什么 我有一个场景 正在处理 CSV 文件 如果在其中发现重复项 那么我需要放弃处理 在 SQL 中 我可以做raiseerror 在 U Sql 中执行此操作的等效方法是什么 创建一个 C 函数
  • 将 CSV 从 Azure Data Lake(第 2 代)加载到 Azure SQL 数据库

    我有一个包含多个容器的 Azure Data Lake Storage 第 2 代 帐户 我想导入salesorderdetail csv文件从 Sales 容器复制到 Azure SQL 数据库中 我已经使用 Azure 数据工厂成功构建
  • 在U-SQL中解析json文件

    我正在尝试使用 USQL 解析下面的 Json 文件 但不断收到错误 Json file dimBetType SKey 1 BetType BKey 1 BetTypeName Test1 dimBetType SKey 2 BetTyp
  • 从 U-SQL 表加载数据时优化器内部错误

    有没有办法解决这个错误 CQO 内部错误 优化器内部错误 断言 a drgcidChild gt CLength UlSafeCLength popMS gt Pdrgcid 在 rlstreamset cpp 499 从分区 U SQL
  • Sql中的Partition By和Clustered and Distributed By - 需要知道它们的含义以及何时使用它们

    我可以看到 在 SQL 中创建表时 我们可以使用 Partition By Clustered 和 Distributed By 子句 根据我的理解 分区会将相同键 我们在其上有分区 的数据存储在一起或更接近 可能在后台相同的结构化流中 这
  • 流分析作业 -> 数据湖输出

    我想使用 StreamAnalytics 作业设置 CI CD ARM 模板 并将输出设置为 DataLake Store https learn microsoft com en us azure templates microsoft

随机推荐

  • 使用 CSS 无限移动多个背景

    我有两个背景 body background image url img nemo png url img ocean png 我该如何制作nemo png background左右无限移动但不影响ocean png background
  • 如何使用外部 CSS 覆盖内联样式?

    我有使用内联样式的标记 但我无权更改此标记 如何仅使用 CSS 覆盖文档中的内联样式 我不想使用 jQuery 或 JavaScript HTML div style font size 18px color red Hello World
  • 报告长期运行的 Celery 任务的结果

    Problem 我已将长时间运行的任务分割为逻辑子任务 因此我可以在每个子任务完成时报告其结果 然而 我试图报告一项实际上永远不会完成的任务的结果 而不是在进行过程中产生值 并且正在努力使用我现有的解决方案来做到这一点 背景 我正在为我编写
  • 如何在满足给定条件时终止Python中的多进程? [复制]

    这个问题在这里已经有答案了 假设我有这个功能 def f while True x generate something if x condition return x if name main p Pool 4 我想在多进程中运行此函数
  • 使用clone()和printf的段错误

    我正在尝试如何clone 在 Linux 3 10 0 327 3 1 el7 x86 64 中为线程实现 我正在运行这段代码 偶尔会出现段错误 我知道如果我使用CLONE THREAD那么就没有办法检查线程是否完成 但是为什么printf
  • 如何让列表视图只显示3个项目

    我有一个列表视图 其中正在加载 10 个项目 我希望滚动时只显示 3 个项目 我不想通过调整列表高度来做到这一点 即使滚动很小 意味着没有项目应该部分显示 我也只想显示 3 个项目 如何实现这一目标 提前致谢 我将发布一个代码 我用它来填充
  • Android ListActivity行点击

    我有一个显示有关玩家的信息的活动 这部分工作正常 我使用了适配器 但是我应该将检测行何时被单击的代码放在哪里 PlayersActivity java package com democratandchronicle billstraini
  • 保存自定义首选项的值

    我创建了一个新的首选项 它直接延伸自CheckboxPreference 在这个类中我添加了一个简单的新boolean价值 我现在的问题是如何存储这个新值 如果用户点击正常CheckboxPreference该值自动存储在首选项中 我希望这
  • 图例与饼图重叠

    在 python 中使用 matplotlib 图例与我的饼图重叠 尝试了 loc 的各种选项 例如 最佳 1 2 3 但无济于事 关于如何准确提及图例位置 例如从饼图边界给出填充 或至少确保它不重叠有什么建议吗 简短的回答是 您可以使用p
  • firebase 从 firestore js sdk 缓存检索文档是否收费

    我正在使用 firebase JS SDK 离线持久化已启用 这会自动将我检索到的文档缓存在 JS SDK 中 我执行这个查询 once firebase firestore doc path to doc get twice fireba
  • 在快速路由文件中使用 socket.io

    我正在尝试将 Socket io 与 Node js 结合使用 并发送到路由逻辑内的套接字 我有一个相当标准的 Express 3 设置 其中有一个位于路由中的 server js 文件 然后我有一个位于路由文件夹中的 index js 该
  • 为什么打印功能没有在正确的时间运行? [复制]

    这个问题在这里已经有答案了 这是我的代码 import time as t print hello end t sleep 1 print hello end t sleep 1 print hello end t sleep 1 我的问题
  • Imagemagick 去饱和黑/白?

    想把它变成黑白的 不知道该使用 imagick 的什么 handle data file get contents http www bungie net Stats Reach Nightmap ashx http www bungie
  • AttributeError:“CountVectorizer”对象没有属性“get_feature_names”

    该代码之前可以运行 没有显示任何错误 这是一个情感分析机器学习项目 该代码基于字数统计的逻辑回归模型 c CountVectorizer stop words english def text fit X y model clf model
  • jqGrid 使用“filterToolbar”在客户端进行过滤

    我必须向完全在客户端管理的 jqGrid 添加过滤 数据仅从服务器加载一次 我需要使用 filterToolbar 来过滤网格数据 但如果客户端有默认搜索机制 则无法找到信息 服务器端搜索是做到这一点的唯一方法吗 谢谢 科斯明 不幸的是 搜
  • 为什么我的超便携笔记本电脑 CPU 无法在 HPC 中保持最佳性能

    我开发了一个高性能Cholesky 分解例程 在单个 CPU 上应具有约 10 5 GFLOP 的峰值性能 无超线程 但是当我测试它的性能时 有一些我不明白的现象 在我的实验中 我测量了矩阵维度 N 从 250 增加到 10000 时的性能
  • Javascript 事件,捕获有效,而冒泡则不行

    我对 JS 事件传播的理解是 事件首先在 DOM 树中 捕获 然后 冒泡 回来 沿途触发处理程序 div nothing yet div
  • NextJS htaccess 设置,URL 上不带尾部斜杠

    在 NextJS 上发现我的网站存在问题 在开发过程中 我使用按钮导航该网站并手动更改浏览器地址栏 碰巧我不小心在末尾添加了一个斜杠 但我的本地主机服务器将其删除 一切正常 但当我将静态应用程序上传到托管时 一切都发生了变化 重新加载页面时
  • AngularJS - 初始化日期输入

    我有一个应用程序 其中有几个日期字段需要接受来自用户和数据库的值 I found this解决方案 但仍然收到错误消息 错误 ngModel datefmt http errors angularjs org 1 5 8 ngModel d
  • 调试 u-sql 作业

    我想知道是否有任何提示和技巧来查找数据湖分析工作中的错误 大多数时候错误消息似乎不是很详细 当尝试从 CSV 文件中提取时 我经常收到这样的错误 顶点故障触发作业快速中止 顶点失败 SV1 Extract 0 且 gt 错误 顶点用户代码错