安装 Azure U-SQL 扩展以在本地运行 R/Python 脚本?

2023-11-29

我们可以在 Azure Data Lake Analytics 中使用 R/Python 代码扩展 U-SQL 脚本,但如何在本地进行呢?


  1. 在您的数据湖分析帐户中安装 U-SQL 高级分析扩展
    1.1 启动 Azure 门户
    1.2 导航到您的数据湖分析帐户
    1.3 单击示例脚本
    1.4 点击更多,选择安装U-SQL扩展
    1.5 等待扩展安装完成(2GB)
    1.6 你等了吗?然后转到您的数据湖分析帐户
    1.7 导航到您的默认 Data Lake 存储帐户
    1.8 单击“数据资源管理器”并验证文件夹 /usqlext 是否存在

  2. 获取您的 USQL 本地运行路径
    2.1 启动您的 Visual Studio
    2.2 选择工具 > 选项 > Azure Data Lake > 常规
    2.3 在 U-SQL Local Run 下,找到并复制 DataRoot 的值
    2.4 该值将如下所示:C:\Users\username\AppData\Local\USQLDataRoot

  3. 将 U-SQL 高级分析扩展从 Azure 复制到本地主机
    3.1 使用 powershell 脚本或...转到下一行
    3.2 启动Microsoft Azure Storage Explorer(很棒的工具,安装它)
    3.3 找到您的默认数据湖存储,即您的数据湖分析帐户之一
    3.4 打开数据浏览器并将文件夹 /usqlext 下载到 USQL Local Run 的路径
    3.5 完整路径应如下所示:C:\Users\用户名\AppData\Local\USQLDataRoot\usqlext

  4. 最后一步,在 U-SQL Local Run 下注册所有 Azure U-SQL 扩展
    4.1 启动您的 Visual Studio
    4.2 启动一个新的U-SQL项目
    4.3 打开文件C:\Users\用户名\AppData\Local\USQLDataRoot\usqlext\RegisterAll.usql
    4.4 将文本复制到您自己的U-SQL脚本中
    4.5 以本地执行模式运行
    4.6 脚本完成后...

您将能够在自己的计算机上使用所有 U-SQL 高级分析功能(Python、R、认知)并探索 \usqlext\samples 中的所有示例!

祝你今天过得愉快!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

安装 Azure U-SQL 扩展以在本地运行 R/Python 脚本? 的相关文章

  • 安装 Azure U-SQL 扩展以在本地运行 R/Python 脚本?

    我们可以在 Azure Data Lake Analytics 中使用 R Python 代码扩展 U SQL 脚本 但如何在本地进行呢 在您的数据湖分析帐户中安装 U SQL 高级分析扩展1 1 启动 Azure 门户1 2 导航到您的数
  • 如何仅使用 U-SQL 和文件中的某些字段将大文件分区为文件/目录?

    我有一个非常大的 CSV 其中每一行都包含客户和商店 ID 以及交易信息 当前的测试文件约为 40 GB 大约 2 天 因此对于选择查询的任何合理返回时间来说 分区是绝对必须的 我的问题是 当我们收到一个文件时 它包含多个商店的数据 我想使
  • Azure Data Lake 的 Spark 谓词下推、过滤和分区修剪

    我一直在阅读有关 Spark 谓词下推和分区修剪的内容 以了解读取的数据量 我有以下与此相关的疑问 假设我有一个包含列的数据集 年份 Int 学校名称 String 学生 ID Int 主题已注册 String 其中存储在磁盘上的数据按年份
  • 获取文件夹[Azure数据工厂]中最新添加的文件

    在数据湖内部 我们有一个文件夹 基本上包含每天外部源推送的文件 但是 我们只想处理该文件夹中最新添加的文件 有什么方法可以使用 Azure 数据工厂来实现这一目标吗 你可以设置修改日期时间开始和修改日期时间结束在复制活动中使用 ADLS 连
  • databricks dbfs 是否支持文件元数据,例如文件/文件夹创建日期或修改日期

    我正在尝试爬行 databricks 笔记本中的目录以查找最新的镶木地板文件 dbfsutils fs ls 似乎不支持有关文件或文件夹的任何元数据 python 中有其他方法可以做到这一点吗 数据存储在安装到 mnt foo 下的 DBF
  • Azure Data Lake Analytics:使用 U-SQL 合并重叠的持续时间

    我想使用 U SQL 从放置在 Azure Data Lake Store 中的 CSV 数据中删除重叠的持续时间 并合并这些行 数据集包含每个记录的开始时间和结束时间以及几个其他属性 这是一个例子 Start Time End Time
  • 调试 u-sql 作业

    我想知道是否有任何提示和技巧来查找数据湖分析工作中的错误 大多数时候错误消息似乎不是很详细 当尝试从 CSV 文件中提取时 我经常收到这样的错误 顶点故障触发作业快速中止 顶点失败 SV1 Extract 0 且 gt 错误 顶点用户代码错
  • 数据工厂中的 U-SQL 作业失败

    每当我运行时 我总是从数据工厂收到以下错误U SQL作业 Job submission failed the user adla account name does not have permissions to a subfolder i
  • 使用 Databricks 将 Google Api 的结果写入数据湖

    我正在通过 Databricks 上的 Python SDK 从 Google 管理报告用户使用情况 Api 获取用户使用情况数据 数据大小约为每天 100 000 条记录 我通过批处理处理了一晚上 API 返回的最大页面大小为 1000
  • 使用 Python 或 Java 将数据从本地上传到 Azure ADLS Gen2

    我有一个 Data Lake Gen2 的 Azure 存储帐户 我想使用 Python 或 Java 将数据从本地上传到 Lake Gen2 文件系统 我已经发现examples https github com Azure Sample
  • 使用 Azure Data Lake Analytics 与传统 ETL 方法的原因

    我正在考虑使用我最近几周一直在研究的数据湖技术 与我多年来一直使用的传统 ETL SSIS 场景进行比较 我认为数据湖与大数据密切相关 但是使用数据湖技术与 SSIS 之间的界限在哪里 使用 Data Lake 技术处理 25MB 100M
  • 使用 Azure 函数处理 Azure Datalake 存储文件

    我定期在 Azure Datalake 存储上的特定文件夹中获取文件 文件一到达 我想使用 Azure 函数进一步处理它 那可能吗 UPDATE With 多协议接入 https learn microsoft com en us azur
  • 如何从 Azure 数据工厂运行 PowerShell

    I have PowerShell该脚本将复杂的 CSV 文件分割为每 1000 条记录的较小的 CSV 文件 这是代码 i 0 Get Content C Users dell Desktop Powershell Input bigsi
  • 尝试转换列数据时值太长失败

    Scenario 我有一个源文件 其中每个新行都包含 JSON 块 然后 我有一个简单的 U SQL 摘录 如下所示 其中 RawString 表示文件中的每个新行 FileName 定义为 SourceFile 路径中的变量 BaseEx
  • usql 应用程序和脚本的单元测试

    我有一个自定义的 USql 应用程序 它扩展了IApplier class SqlUserDefinedApplier public class CsvApplier IApplier public CsvApplier totalcoun
  • 如何在 U-SQL 中抛出错误或引发异常?

    在 U Sql 脚本中引发错误或异常的机制是什么 我有一个场景 正在处理 CSV 文件 如果在其中发现重复项 那么我需要放弃处理 在 SQL 中 我可以做raiseerror 在 U Sql 中执行此操作的等效方法是什么 创建一个 C 函数
  • 将 Azure 事件中心与 Data Lake Store 连接

    将数据从事件中心发送到 Data Lake Store 的最佳方式是什么 我假设您希望定期将数据从 EventHub 提取到 Data Lake Store 正如 Nava 所说 您可以使用 Azure 流分析将数据从 EventHub 获
  • 数据湖分析 U-SQL 提取速度(本地与 Azure)

    一直在研究使用 Azure Data Lake Analytics 功能来尝试操作我存储在 Azure Blob 存储中的一些 Gzip 处理的 xml 数据 但我遇到了一个有趣的问题 本质上 当在本地使用 U SQL 处理 500 个 x
  • U-SQL 中的自动增量

    我正在尝试形成一个新表 其中包含现有表中唯一的 user id 是否可以添加自动递增U SQL 中的主键就像我们可以在 MySQL 中添加一样吗 详细说明 David 的答案 与 MySQL 不同 ADLA U SQL 是在横向扩展的无共享
  • Sql中的Partition By和Clustered and Distributed By - 需要知道它们的含义以及何时使用它们

    我可以看到 在 SQL 中创建表时 我们可以使用 Partition By Clustered 和 Distributed By 子句 根据我的理解 分区会将相同键 我们在其上有分区 的数据存储在一起或更接近 可能在后台相同的结构化流中 这

随机推荐