azure数据工厂:如何将文件夹的所有文件合并到一个文件中

2023-12-05

我需要创建一个大文件,通过合并分散在 Azure Blob 存储中包含的多个子文件夹中的多个文件,还需要进行转换,每个文件包含单个元素的 JSON 数组,因此最终文件将包含一个JSON 元素数组。

最终目的是在 Hadoop 和 MapReduce 作业中处理该大文件。

原始文件的布局类似于:

folder
 - month-01
   - day-01
        - files...

- month-02
    - day-02
        - files...

我根据你的描述做了测试,请按照我的步骤操作。

我的模拟数据:

test1.json位于文件夹中:date/day1

enter image description here

test2.json位于文件夹中:date/day2

enter image description here

Source DataSet,将文件格式设置为Array of Objects和文件路径为root path.

enter image description here

Sink DataSet,将文件格式设置为Array of Objects并将文件路径作为要存储最终数据的文件。

enter image description here

Create Copy Activity并设置Copy behavior as Merge Files.

enter image description here

执行结果:

enter image description here

我测试的目的地仍然是Azure Blob Storage,你可以参考这个link了解 Hadoop 支持 Azure Blob 存储。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

azure数据工厂:如何将文件夹的所有文件合并到一个文件中 的相关文章

  • Azure 函数和缓存

    我们计划开发一个 Azure 函数 其输入触发器是服务总线消息 输出是 blob 存储 服务总线消息将包含图像 url 该函数会将图像大小调整为预定义的分辨率 并将上传到 azure blob 存储 图像大小应调整到的分辨率存储在数据库中
  • 删除一段时间内未触及的 Azure Blob 存储内容

    我开发的应用程序基本上允许用户上传内容并将其存储在 Azure Blob 存储中 由于内容的本质是为了在用户之间快速共享 因此许多内容在一段时间后很快就不再被触及 但有些内容可以反复使用 为了阻止 Blob 存储大小前所未有的增长 我计划编
  • Azure 函数异常 - 将日志写入表存储时出错:Microsoft.Azure.Cosmos.Table.StorageException

    我有一个 azure 函数 它与 blob 存储通信以读取上次同步日期时间 然后基于此从 Cosmos 数据库中读取数据 很少有交互可以正常工作 并且在某些情况下会随机抛出以下异常 将日志写入表存储时出错 Microsoft Azure C
  • Azure 应用服务计划 - 分钟/天是什么意思?

    我有 ASMX Web 服务 带有 1 个 MSSQL 数据库和一个表 我目前已将其部署到 Azure应用服务我已从免费试用升级到按使用付费计划 我真的很困惑应用服务计划 ASMX 服务由桌面应用程序调用 它只有几个方法 只是从数据库获取和
  • Flot 0.8.2 折线图 - 颜色错误

    我正在使用 Flot 折线图并设置它们的颜色 我发现了一个奇怪的错误 在前 3 种颜色之后 绘图对所有其他线条使用最后一种颜色 这不是正确的行为 更有趣的是图例显示了正确的颜色 这是一个已知的错误 var dataSet label d1
  • `docker-compose up` 与使用环境变量的 `docker compose up`

    我正在尝试使用 Docker Compose 将三节点 Elasticsearch 集群部署到 Azure 容器实例 我松松地跟随这个例子 https www elastic co guide en elasticsearch refere
  • JSONDecodeError:额外数据:Python [重复]

    这个问题在这里已经有答案了 我使用以下代码从文件加载 json file file name obj list with open file as f for json obj in f obj list append loads json
  • 如何在 Azure PowerShell 函数中导入模块?

    我尝试从函数查询天蓝色表 使用 Get AzTableRow 在我的笔记本电脑上工作得很好 但模块 aztable 不存在于天蓝色功能中 因此我得到的只是红屏 有办法安装吗 谢谢 大卫 您无需自行在 Azure Function 中安装 A
  • 无法将字符串解组为 int64 类型的 Go 值

    我有结构 type tySurvey struct Id int64 json id omitempty Name string json name omitempty I do json Marshal在 HTML 页面中写入 JSON
  • 无法通过 REST API 使用 Microsoft Graph API 更新用户配置文件

    我正在尝试在未经用户同意的情况下通过服务器端 Java 应用程序通过 Microsoft Graph API 更新用户配置文件 我在 MS Azure 中有一个应用程序 其中包含以下内容 其他应用程序的权限 Microsoft Graph
  • 在 Spark 中写入 JSON 时保留具有空值的键

    我正在尝试使用 Spark 编写 JSON 文件 有一些键有null作为价值 这些在中显示得很好DataSet 但是当我写入文件时 密钥会丢失 我如何确保它们被保留 写入文件的代码 ddp coalesce 20 write mode ov
  • JSON字符串转JS对象

    我正在使用 JS 对象通过 Google 可视化创建图表 我正在尝试设计数据源 首先 我在客户端创建了一个 JS 对象 var JSONObject cols id date label Date type date id soldpenc
  • 在动态选项卡中网格时 JSON 数据不显示?

    我的网格在放入选项卡时不显示数据 该网格 存储 模型 JSON 在渲染到 body 或 div 或作为视口的一部分时起作用 只是放入选项卡时不显示 这也是使用 JSON 和 Tree 创建的 这是一个 有时 有效的示例 我不明白 也许范围错
  • 使用 Azure 机器学习检测图像中的符号

    4年前我发帖这个问题 https stackoverflow com q 6999920 411094不幸的是 得到的一些答案超出了我的技能水平 我刚刚参加了一次构建巡演会议 他们在会上谈论了机器学习 这让我想到了使用 ML 来解决我的问题
  • 禁用 Azure 应用程序服务(Web 应用程序)上的应用程序见解的依赖项日志记录

    我的应用程序写入大量日志 ib 依赖项 这导致它非常昂贵 甚至比我的服务器场 数据库更昂贵 而且我们已经好几个月没有使用它了 如何禁用依赖项但保留其余部分 请求 异常 自定义事件等 在文档中 添加应用程序洞察并没有与添加依赖项分开 http
  • Azure 中的 Web 部署任务失败

    我正在使用 Visual Studio 2022 将示例 net core 6 0 应用程序部署到 Azure 我已准备好资源组和应用程序服务计划 我在 VS 中右键单击该项目并创建了一个发布配置文件 没有构建错误 当我点击发布时 出现以下
  • 从 Python 将分层 JSON 数据写入 Excel xls?

    我想将一些数据从 python 写入 xlsx 我目前将其存储为 JSON 但它从 Python 中输出什么并不重要 单个文章的 JSON 如下所示 Word Count 50 Key Words Blah blah blah Foo Fr
  • 查找“未找到身份”的角色分配的可靠方法是什么?在 Azure 上使用 Powershell?

    如果您在 Azure 中分配角色 然后在删除角色分配之前删除该身份 则会出现 找不到身份 的情况 健康 状况 它是无害的 但它会占用角色分配空位并使角色分配列表变得混乱 我想找到并删除这些 我想这个 Get AzRoleAssignment
  • 为 DocumentDb 设置自定义 json 转换器

    我正在使用类型化 DocumentQuery 从 Azure DocumentDb 集合中读取文档 from f in client CreateDocumentQuery
  • 尽管低于配额,但无法在 Azure 中创建新的服务主体

    尽管低于配额 但我无法在 Azure 中创建任何新的 SP 如果我运行 az ad sp create for rbac I get The directory object quota limit for the Principal ha

随机推荐

  • 如何选择和提取两个元素之间的文本?

    我正在尝试刮this使用scrapy的网站 页面结构如下所示 div class list a a h4 class li group Follows h4 div class soda odd a href Star Trek a div
  • 如何将Matlab中的数据导出到excel循环?

    我有一个 for循环 的代码 对于我 1 4 陈述 y sim 净 我 结尾 现在我需要将 y 的值导出到 Excel 工作表 为此我用了 xlswrite 输出数据 xls y 输出数据 A1 但我的问题是excel的ID 即 A1 应该
  • 使用 PDFBox 生成的 PDF 为空白

    我在尝试着将内容写入 PDF文件 我已经写了代码 public ByteArrayOutputStream createPDF String text throws IOException COSVisitorException PDDoc
  • 在 python 中使用 asyncio 运行多个套接字

    设置 Python 3 7 4 我正在尝试使用 asyncio 在不同端口上侦听来创建 6 个套接字 我尝试像这样实现它 Code import asyncio async def client thread reader writer w
  • 切换路由时组件中的非作用域样式仅应用一次

    Vue js 作用域 CSS 文档提到 您可以在同一组件中包含作用域样式和非作用域样式 我建造了示例应用程序vue router并使用两个单个文件组件而不是示例的字符串模板 渲染符合预期 然后 我尝试在组件中应用作用域样式和非作用域样式 在
  • 为每个用户创建个人页面,PHP

    我想要做的是为每个在我的页面上注册的用户创建一个网页 例如 www someweb com 用户名 这将是他们的网页 我知道这可以很容易地完成mkdir 和其他相关功能 但问题是我的根文件夹不是chmod 777我不想chmod 777由于
  • Highcharts 工具提示背景根据线

    我正在尝试使用 Highcharts 使工具提示的背景颜色与线条的颜色相匹配 我正在尝试找到最合理的本机方法来处理这个问题 如果可以避免添加 div div 格式化程序有背景颜色 那就太好了 但如果没有 我想这也有效 线条颜色和数量会发生很
  • 测试移动网站[关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心以获得指导 我们正准备推出一个移动网站
  • 使用 XmlReader.Create(uri) 防止或处理超时

    有时 我在通过 URL 读取 XML 时会遇到超时异常 我可以采取什么措施来防止这种情况发生 还是远程服务器有问题 下面是我的简单代码 XmlDocument doc new XmlDocument doc Load XmlReader C
  • 带有 mod_wsgi 的 Django 返回 403 错误

    我正在尝试将 Django 与 Apache 和 mod wsgi 一起使用 使用默认的 Django Web 服务器 一切进展顺利 但现在在尝试加载页面时出现 403 访问禁止 错误 我在这里搜索了以前的帖子并阅读了官方文档 但那里的解决
  • 是否可以在opengl中使用深度缓冲区渲染3D纹理

    我正在尝试实现一些程序并使用这个经典代码 glBindFramebuffer GL FRAMEBUFFER framebuffer 绑定深度缓冲区 glGenRenderbuffers 1 depthbuffer glBindRenderb
  • jQuery 将 HTML 表转换为 XML

    我使用以下 jQuery 代码从远程主机检索 HTML var loadUrl URL html result html ajax load load loadUrl table schedule 这给了我以下 HTML table cla
  • 项目文件存储在 git 存储库“.git”文件夹中的哪里? [复制]

    这个问题在这里已经有答案了 我为我的许多项目创建了一个远程存储库 因此它是我的目标push的 与 git 的理念相反 但它充当中央存储库 然而当我去 git服务器上的文件夹有以下形式的目录结构 branches hooks applypat
  • Ember JS 的可重用组件/视图

    我正在尝试创建一个可重用的组件或视图 用于创建包含在 Bootstrap 控制组中的标签和文本输入 该组件需要创建如下内容 div class control group div
  • 如何修复 InvalidStateError:没有远程 SDP 时无法添加 ICE 候选者

    我正在创建一个 webRTC 视频聊天 当从 Firefox 发起呼叫时显示呼叫者所有活动成员 并且接收者使用 chrome 此错误显示 未捕获 承诺 DOMException 无法在 RTCPeerConnection 上执行 addIc
  • 在 Express 中更新 cookie 会话,但未在浏览器中注册

    我已经设置了一个工作登录测试 如下所示 var express require express var fs require fs var http require http var path require path var routes
  • WCF 服务移至 SSL 后,PrincipalPermission.Demand() 失败

    我的 Silverlight WCF 应用程序在每个服务方法中使用 PrimaryPermission 来确保用户经过身份验证 当我将所有内容配置为 HTTP 时 这一切都很好 但是一旦我将服务端点 绑定配置为支持 HTTPS SSL 当我
  • 热图上的特定异常值 - matplotlib

    我正在生成一个带有固定离群值数据的热图 我需要将这些离群值显示为我使用的 热 cmap 调色板中的颜色 通过使用 cmap set bad green 和 np ma masked values data outlier 我得到了一个看起来
  • TypeError: to_excel() 缺少 1 个必需的位置参数 - 尽管使用 excel writer

    我在使用 pandas 保存到 Excel 时遇到问题 并出现以下错误 File C Users Colleen Documents Non online code kit names py line 36 in save sheet na
  • azure数据工厂:如何将文件夹的所有文件合并到一个文件中

    我需要创建一个大文件 通过合并分散在 Azure Blob 存储中包含的多个子文件夹中的多个文件 还需要进行转换 每个文件包含单个元素的 JSON 数组 因此最终文件将包含一个JSON 元素数组 最终目的是在 Hadoop 和 MapRed