使用 Databricks 将 Google Api 的结果写入数据湖

2023-12-25

我正在通过 Databricks 上的 Python SDK 从 Google 管理报告用户使用情况 Api 获取用户使用情况数据。数据大小约为每天 100 000 条记录，我通过批处理处理了一晚上。 API 返回的最大页面大小为 1000，因此我粗略地将其称为 1000，以获取当天所需的数据。这工作正常。

我的最终目标是将数据以其原始格式存储在数据湖中（Azure Gen2，但与这个问题无关）。稍后，我将使用 Databricks 将数据转换为聚合报告模型，并将 PowerBI 置于其之上，以跟踪 Google App 随着时间的推移的使用情况。

作为一名 C# 程序员，我对 Python 和 Spark 很陌生：我当前的方法是从 api 请求 1000 条记录的第一页，然后将其作为 JSON 文件直接写入数据湖，然后获取下一个页面集并写入。文件夹结构类似于“\raw\googleuser\YYYY\MM\DD\data1.json”。

我想在原始区域中保留数据的最原始形式，并且不应用太多转换。第二个进程可以提取我需要的字段，用元数据对其进行标记，并将其写回 Parquet，以供函数使用。这就是为什么我考虑将其写为 JSON。

这意味着第二个进程需要将 JSON 读入数据帧，我可以在其中对其进行转换并将其写入镶木地板（这部分也很简单）。

因为我使用的是 Google Api，所以我不使用 Json - 它返回 dict 对象（具有复杂的嵌套）。我可以使用 json.dump() 将其提取为 Json 字符串，但我无法弄清楚如何将字符串直接写入我的数据湖。一旦我将它放入数据帧中，我就可以轻松地以任何格式写入它，但是将其从 Json 转换为数据帧，然后本质上返回 Json 来写入它似乎是一种性能开销。

以下是我尝试过的事情和结果：

构建 pyspark.sql.Rows 列表，并在所有分页（100k 行）结束时 - 使用spark.createDataFrame(rows) 将其转换为数据帧。一旦它是一个数据框，我就可以将它保存为 Json 文件。这可行，但似乎效率低下。
使用 json.dump(request) 获取 Json 格式的一串 1000 条记录。我可以使用以下代码将其写入 Databricks 文件系统：

with open("/dbfs/tmp/googleuserusagejsonoutput-{0}.json" .format(keyDateFilter), 'w') as f: f.write(json.dumps(response))

但是，我必须将其移动到我的 Azure 数据湖：

dbutils.fs.cp("/tmp/test_dbfs1.txt", datalake_path + dbfs_path + "xyz.json")

然后我获取接下来的 1000 条记录并继续这样做。我似乎无法使用数据湖存储（Azure abfss 驱动程序）的 open() 方法目录，否则这将是一个不错的解决方案。首先将其转储到本地然后再移动它，这似乎很脆弱且奇怪。
与选项 1 相同，但每 1000 条记录将数据帧转储到数据湖并覆盖它（以便内存一次增加的记录不会超过 1000 条）
忽略转储原始 Json 的规则。将数据调整为我想要的最简单的格式，并删除所有我不需要的额外数据。这将导致占用空间小得多，然后将遵循上面的选项 1 或 3。（这是第二个问题 - 以原始格式保存来自 Api 的所有数据的原则，以便随着需求随着时间的推移而变化，我总是在数据湖中拥有历史数据，并且只需更改转换例程即可从其中提取不同的指标因此我不愿意在这个阶段放弃任何数据。

任何建议，请感激...

将 Lake 安装到您的 databricks 环境中，以便您可以将其保存到 Lake，就像它是普通文件夹一样：

with open('/dbfs/mnt/mydatalake/googleuserusagejsonoutput-{0}.json', 'wb') as f:
            json.dump(data, codecs.getwriter('utf-8')(f), sort_keys = True, indent = 4, ensure_ascii=False)
            f.close()

您只需登上湖泊一次：

https://docs.databricks.com/spark/latest/data-sources/azure/azure-datalake-gen2.html#mount-the-azure-data-lake-storage-gen2-filesystem-with-dbfs https://docs.databricks.com/spark/latest/data-sources/azure/azure-datalake-gen2.html#mount-the-azure-data-lake-storage-gen2-filesystem-with-dbfs

话虽如此，

以json格式存储大数据并不是最优的；对于每个值（单元格），您都存储键（列名称），因此您的数据将比需要的大得多。此外，您可能应该有一个重复数据删除功能来确保（1）数据中没有间隙，（2）您没有在多个文件中存储相同的数据。 Databricks delta 负责处理这个问题。

https://docs.databricks.com/delta/delta-intro.html https://docs.databricks.com/delta/delta-intro.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Databricks 将 Google Api 的结果写入数据湖的相关文章

在 Pandas 中按日期获取有效合约

我在检测 pandas DataFrame 中的活动合约方面遇到了一些困难假设每一行都是一个协商对于每一行我有两列 initial date 和 end date 我想知道的是按日期划分的活跃合约数量到目前为止我做了一个非常低效的方
从正在运行的 python 脚本检测优化标志是否为 -O 或 -OO

有时我想生成一个子进程其优化标志与启动父进程时使用的优化标志相同我可以使用类似的东西 optimize not debug 但这样我就可以匹配两者 O and OO flags 是否有一些 python 内部状态包含该信息经过一番深
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
如何从 Dockerfile 安装 Python 3.7 和 Pip

我正在尝试构建基于 Ubuntu 18 04 的自定义 Docker 映像 Ubuntu 预装了 Python 3 6 但我想 1 安装 Python 3 7 2 将其设置为默认 Python 版本这样就可以使用python代替pytho
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
无法截取宽度为 0 的屏幕截图

我正在尝试截取 Bootstrap 模态内元素的屏幕截图经过一番努力我终于想出了这段代码 driver get https enlinea sunedu gob pe driver find element by xpath div c
Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

我正在尝试为我的功能绘制图表但不断收到此错误 ValueError RGBA sequence should have length 3 or 4 每当我只有 6 种形状时代码就可以完美运行但现在我将其增加到 10 种它就不起作用了
Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

我在 pandas 数据框中有时间序列数据索引为测量开始时的时间列中包含以固定采样率记录的值列表连续索引列表中元素数量的差异这是它的样子 Time A B Z 0 1 2 3 4 1 2 3 4 2 5 6 7 8 5 6 7 8
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
导入错误：没有名为 google.auth 的模块

当我尝试导入时firebase admin in python 2 7我收到错误导入错误没有名为 google auth 的模块这是Docker文件 https github com ammaratef45 Attendance bl
如何在与应用程序初始化文件不同的文件中迭代 api 路由

我有一个 apiroutes py 文件其中定义了许多路由例如 api route api read methods GET api route api write methods POST 其中 api 是导入 from import
检查字符串是否只有字母和空格 - Python

试图让 python 返回一个字符串仅包含字母和空格 string input Enter a string if all x isalpha and x isspace for x in string print Only alphabe
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案
SparkR 和 Sparklyr 之间导入 parquet 文件所需的时间差异

我正在使用 databricks 导入镶木地板文件SparkR and sparklyr data1 SparkR read df dbfs data202007 source parquet header TRUE inferSchema

随机推荐

Spring RestTemplate 使用自定义标头和请求对象进行 POST 请求

在 Spring RestTemplate 中有一种方法可以将自定义标头与 POST 请求对象一起发送我已经尝试过exchange可用的方法看来我们可以将键值对与自定义标头一起发送但不能将请求对象本身附加到HttpEntity 下
如何创建SD卡以在Android Studio的模拟器中使用？

我需要在Android Studio中将mp3文件下载到SD卡然后读取它们首先如何为我的模拟器创建SD卡其次如何向其中添加文件我是初学者因此欢迎逐步解释安卓工作室3 1 1 1 创建模拟器工具 gt AVD 管理器并运行它
HTTP 脚本请求“已中止”状态

什么可能导致我的应用程序上有时出现正常的外部脚本在 Firebug 的 NET 面板中显示为已中止且未加载这是服务器问题还是浏览器问题这是 FireBug 中的一个错误导致它回显噪声事件中止是 HttpRequest 结束的正
将 xlsb 文件的文件夹导入到 R 中

我有一个 Excel XLSB 格式的每日报告文件夹现在我尝试导入该文件夹中的所有文件并绑定到 R 中的一个数据框中我有将多个 CSV 文件的文件夹导入到 R 中的经验代码如下 library tidyverse setwd C Fo
将 boost::json 静态库与 cmake 一起使用

我有这个CMakeLists txt set Boost USE STATIC LIBS ON find package Boost REQUIRED COMPONENTS json include directories BOOST IN
C++ 常量引用生命周期（容器适配器）

我的代码如下所示 class T class container const T first T second container const T first const T second class adapter T container
HighCharts 在栏上放置标签

鉴于下图我想从每列的图例中获取标签并将其打印在列本身上我在 HighCharts API 中找不到任何可以让我执行此操作的内容有人有我可以看的类似的想法或例子吗谢谢你 EDIT 有一个更好的例子来说明我想要实现的目标我认为这是很容
从扩展模板覆盖“包含”模板中的块

我有以下内容基本 html include header html div block content Default Content endblock div header html
RxJava中有类似Promise.all()的方法吗？

我有个问题我需要通过项目 ID 列表获取一些项目的列表起初我尝试过 Observable from itemIds flatMap itemId gt requestToServer itemId subscribe item gt
使用 onload 事件异步加载 JavaScript 的缓存问题

我目前正在尝试异步加载一些js文件以便它们无法阻止网站的其余部分我主要遵循这里的描述异步Javascript http friendlybit com js lazy loading asyncronous javascript 就
Shell 自定义渲染器重置 TabBarUnselectedColor 设置的颜色

我有一个使用 Shell TabBar 的 Net MAUI 应用程序
角色洗牌器

我只是想知道是否有一种方法使用 ASP NET C 洗牌字符串的内容但仍然能够单击另一个按钮并将其取消洗牌回其原始内容而不保存原始内容谢谢 Example This is not shuffled isuo tffsnl iTh
为什么函数 A 主体中的变量查找从全局环境中获取值，而不是调用 A 的函数 B 中的值？

我定义了一个函数 get lt function o p lt match call expand dots 0 cat sprintf In get it is s n eval tail p 1 1 fn lt switch typeo
Android 仪表化单元测试无法解析符号“AndroidJUnit4”

我尝试将 Android 支持仪器测试添加到我的应用程序中但我遇到了这个问题无法解析符号 AndroidJUnit4 我好像没有这个包android support test runner 我的应用程序的 build gradle ap
如何将 4 维输入输入 LSTM？

我有一个这种形状的序列输入 6000 64 100 50 The 6000只是样本序列的数量每个序列是64长度我计划使用 Keras 将这个输入放入 LSTM 中我这样设置我的输入 input Input shape 64 100 5
OS X 中的窗口移动和调整大小 API

我试图在 OS X 上找到记录的或者未记录的如果这是我唯一的选择 API 以从窗口服务器查询窗口列表然后使窗口移动和调整大小有人能指出我正确的方向吗我想我会从 Win32 下的 FindWindowEx 和 MoveWindow
使用 django-haystack 计算模板中的搜索对象总数

我使用 django haystack 和 xapian 作为后端搜索引擎我在用FacetedSearchView and FacetedSearchForm用于对搜索进行分面我已经通过了searchqueryset to the Fa
iPhone 在应用程序启动时出现黑屏

每当我的应用程序启动时我都会遇到黑屏没有错误消息并且我已在 plist 文件中设置了主 nib 文件这是我的一些代码 AppDelegate h import
使用 Databricks 将 Google Api 的结果写入数据湖

我正在通过 Databricks 上的 Python SDK 从 Google 管理报告用户使用情况 Api 获取用户使用情况数据数据大小约为每天 100 000 条记录我通过批处理处理了一晚上 API 返回的最大页面大小为 1000

使用 Databricks 将 Google Api 的结果写入数据湖

使用 Databricks 将 Google Api 的结果写入数据湖 的相关文章

随机推荐

热门标签

使用 Databricks 将 Google Api 的结果写入数据湖的相关文章