使用 SDK 在 azure 函数中将 Azure blob 存储转换为 JSON

2024-03-27

我正在尝试创建一个计时器触发器 azure 函数，该函数从 blob 获取数据，聚合数据，并将聚合结果放入 cosmosDB 中。我之前尝试使用 azure 函数中的绑定来使用 blob 作为输入，但我被告知这是不正确的（请参阅此线程：Azure 函数 python 命名参数没有值 https://stackoverflow.com/questions/47437077/azure-functions-python-no-value-for-named-parameter).

我现在使用SDK时遇到了以下问题：

import sys, os.path
sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), 'myenv/Lib/site-packages')))
import json
import pandas as pd
from azure.storage.blob import BlockBlobService 

data = BlockBlobService(account_name='accountname', account_key='accountkey')
container_name = ('container')
generator = data.list_blobs(container_name)

for blob in generator:
print("{}".format(blob.name))
json = json.loads(data.get_blob_to_text('container', open(blob.name)))


df = pd.io.json.json_normalize(json)
print(df)

这会导致错误：

IOError: [Errno 2] No such file or directory: 'test.json'

我意识到这可能是绝对路径问题，但我不确定它如何与天蓝色存储一起使用。关于如何规避这个问题有什么想法吗？

通过执行以下操作使其“起作用”：

for blob in generator:
loader = data.get_blob_to_text('kvaedevdystreamanablob',blob.name,if_modified_since=delta)
json = json.loads(loader.content)

这适用于一个 json 文件，即我的存储中只有一个，但是当添加更多文件时，我会收到此错误：

ValueError: Expecting object: line 1 column 21907 (char 21906)

即使我添加也会发生这种情况if_modified_since只接受一团。如果我弄清楚了什么，就会更新。随时欢迎帮助。

另一个更新：我的数据通过流分析进入，然后深入到 blob。我选择数据应以数组形式输入，这就是发生错误的原因。当流终止时，blob 不会立即追加]到 json 中的 EOF 行，因此 json 文件无效。现在将尝试在流分析中使用逐行而不是数组。

弄清楚了。最后，这是一个非常简单的修复：

我必须确保 blob 中的每个 json 条目少于 1024 个字符，否则会创建一个新行，从而导致读取行出现问题。

迭代每个 blob 文件、读取并添加到列表的代码如下：

data = BlockBlobService(account_name='accname', account_key='key')
generator = data.list_blobs('collection')

dataloaded = []
for blob in generator:
loader = data.get_blob_to_text('collection',blob.name)
trackerstatusobjects = loader.content.split('\n')
for trackerstatusobject in trackerstatusobjects:
    dataloaded.append(json.loads(trackerstatusobject))

从此您可以添加到数据框并执行您想要的操作:) 如果有人偶然发现类似的问题，希望这会有所帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 SDK 在 azure 函数中将 Azure blob 存储转换为 JSON 的相关文章

Celery计划任务中的打印语句不会出现在终端中

当我跑步时celery A tasks2 celery worker B我想看到每秒打印芹菜任务目前没有打印任何内容为什么这不起作用 from app import app from celery import Celery from
创建圆形图像 PIL Tkinter

Currently I have a zoom feature in my application that works very well however I d like the actual zoom box to be a circ
十六进制数的按位异或

我们如何在 Python 中对十六进制数进行异或例如我想要异或 ABCD and 12EF 答案应该是 B922 我使用了下面的代码但它给出了错误的结果 xor two strings of different lengths def
对图像使用 Pixellib 自定义训练时出现 input_image 元形状错误

我正在使用 Pixellib 来训练自定义图像实例分割我创建了一个数据集可以在下面的链接中看到数据集 https drive google com drive folders 1MjpDNZtzGRNxEtCDcTmrjUuB1ics
Pandas Pivot_Table ：非数字值的行计算百分比

这是我在数据框 df 中的数据 Document Name Time SPS2315511 A 1 HOUR SPS2315512 B 1 2 HOUR SPS2315513 C 2 3 HOUR SPS2315514 C 1 HOUR S
在函数调用之间保存数据的Pythonic方式是什么？

对我来说上下文是我需要在调用修改该值的函数之间保留的单个 int 的信息我可以使用全局但我知道这是不鼓励的现在我使用了包含 int 的列表形式的默认参数并利用了可变性以便在调用之间保留对值的更改如下所示 def increm
Selenium：等到 WebElement 中的文本发生变化

我在用着selenium使用Python 2 7 从网页上的搜索框检索内容搜索框动态检索结果并在框本身中显示结果 from selenium import webdriver from selenium webdriver common
在ansible中合并字典

我目前正在构建一个使用 ansible 安装 PHP 的角色并且在合并字典时遇到一些困难我尝试了多种方法来做到这一点但我无法让它像我想要的那样工作 A vars file my default values key value my
InvalidArgumentException：消息：无效参数：“using”必须是字符串

我对 python 很陌生试图创建可重用的代码当我尝试通过传递 Login 类下使用的所有参数来调用 test main py 中的 Login 类和函数 login user 时我收到错误 InvalidArgumentExcept
管理文件字段当前 url 不正确

在 Django 管理中只要有 FileField 编辑页面上就会有一个当前框其中包含指向当前文件的超链接但是此链接会附加到当前页面 url 因此会导致 404 因为不存在这样的页面例如 http 127 0 0 1 8000
如何在matplotlib中基于x轴更改直方图颜色

我有根据 pandas 数据框计算出的直方图我想根据 x 轴值更改颜色例如 If the value is 0 the color should be green If the value is gt 0 the color shoul
有没有任何方法可以使用 openpyxl 获取 .xlsx 工作表中存在的行数和列数？

有没有任何方法可以使用 openpyxl 获取 xlsx 工作表中存在的行数和列数在xlrd中 sheet ncols sheet nrows 将给出列数和行数 openpyxl中有这样的方法吗给定一个变量sheet 可以通过以下方式之
为 Python 2.4 改进“with”语句的直接替换

您能否建议一种方法来编写可在 Python 2 4 中使用的 with 语句的直接替换代码这将是一个 hack 但它可以让我更好地将我的项目移植到 Python 2 4 EDIT 删除了不相关的元类草图只需使用 try finally
x11 - 导入错误：没有名为“kivy.core.window.window_x11”的模块

目前我正在尝试构建一个我通过 buildozer 用 Python 和 Kivy 编写的应用程序无论我在做什么我都会遇到 window x11 的问题即使我在代码中注释掉所有与 Windows 相关的内容或执行本文中描述的所有操作这
python中打印字符串的长度

有没有什么方法可以找到即使是最好的猜测 Python中字符串的打印长度例如 potaa bto 是 8 个字符len但 tty 上只打印 6 个字符宽预期用途 s potato x1b 01 32mpotato x1b 0 0mp
请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？

您好我一直在使用此代码片段从网站下载文件到目前为止小于 1GB 的文件都很好但我注意到 1 5GB 文件不完整 s is requests session object r s get fileUrl headers headers
使用 Flask-SQLAlchemy 进行多对多多数据库连接

我正在尝试使这个多对多联接与 Flask SQLAlchemy 和两个 MySQL 数据库一起工作并且它非常接近只是它为联接表使用了错误的数据库这是基础知识我有main db and vendor db 表格设置为main db u
网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页来自任何主要新闻来源例如时报或彭博社我想识别该页面上的主要文章内容并丢弃其他杂项元素例如广告菜单侧边栏用户评论在大多数主要新闻网站上都可以使用的通用方法是什么有哪些好的数据挖掘工具或库最好是基于Py
Jupyter Notebook 中的多处理与线程

我试图测试这个例子here https ipywidgets readthedocs io en stable examples Widget 20Asynchronous html将其从线程更改为多处理在 jupyter Noteboo
如何让你的精灵在pygame中跳跃

目前我已经制作了一个平台游戏可以左右移动我的角色他从地上开始关于如何让他跳的任何想法因为我不明白目前如果我按住向上键我的玩家精灵将连续向上移动或者如果我按下它我的玩家精灵将向上移动并保持向上我想找个办法远离他让我重新跌

随机推荐

在 Tensorflow 中训练简单模型 GPU 比 CPU 慢

我在 Tensorflow 中设置了一个简单的线性回归问题并在 1 13 1 中使用 Tensorflow CPU 和 GPU 创建了简单的 conda 环境在 NVIDIA Quadro P600 的后端使用 CUDA 10 0 然而
以编程方式与证书颁发机构通信

我以编程方式处理证书并与证书颁发机构进行通信我一直在 Windows 2008R2 上使用 C 处理 CertClient 和 CertEnroll COM 对象我可以生成请求并从 CA 获取证书我从这个例子开始 http blogs
为什么 Vim 会在文件末尾添加新行？

我经常使用 Wordpress 有时我会临时更改 Wordpress 核心文件以便了解正在发生的情况尤其是在调试时今天我有一个小小的惊喜当我准备将更改提交到 git 存储库时我注意到git status正在将 WordPress
AggregateItemReader 的位置和用例

附录在这里 http docs spring io spring batch trunk reference html listOfReadersAndWriters html列出读者AggregateItemReader但我无法在任何 S
在 Pyspark 中添加 python 外部库

我正在使用 pyspark 1 6 我想使用 databricks spark csv 库为此我尝试了不同的方法但没有成功 1 我尝试添加一个我下载的jarhttps spark packages org package databric
没有足够的副本可用于一致性为 1 的查询（需要 1 个副本，但只有 0 个活动副本）

我有一个包含三个节点的 Cassandra 集群其中两个节点已启动它们都在同一个 DC 中当我的 Java 应用程序写入集群时我的应用程序中出现错误该错误似乎是由 Cassandra 的某些问题引起的原因 com datasta
初始化类成员向量的大小失败

我是 C 新手遇到了这个问题这是我的代码 class A std vector
在为项目构建不同的 Eclipse CDT 共享资源文件夹中

我有一组 Eclipse c 项目它们都引用公共共享代码库同一文件夹中的 c 和 h 文件的混合但会根据每个项目以不同的方式构建该代码可以在每个项目内编辑公共代码库但这些编辑将是在所有项目中进行的修复除了通过定义的构建选项之外
Flask 结构——无法从 __init__.py 导入应用程序

我是 python 的初学者并且在使用设置应用程序的结构时遇到了很多麻烦 init py即使在搜索了几个教程之后目前我当前的目录结构如下所示 parent myapp init py views py virtualenv 以前我有
Java 8 Lambda，过滤HashMap，无法解析方法

我对 Java 8 的新功能有点陌生我正在学习如何按条目过滤地图我看过本教程 http www leveluplunch com java examples filter map by value and 这个帖子 https stac
有界上下文共享相同的聚合

DDD 公开了有界上下文领域模型聚合但我经常错过业务规则的关键点我想知道业务规则如何集成到这种方法中这是一个例子假设您在一家信贷公司中有 2 个有界上下文一项用于追偿债务另一项用于提前退款这些背景嵌入了真正的业务特性从概
Term::ReadKey，原始模式下的非阻塞读取：检测到 EOF？

当我将内容通过管道传输到程序中时它似乎没有获得任何像 0x4 这样的字符来指示 EOF echo abc map cat saw a x61 saw b x62 saw c x63 saw x0A zzzbc C 我必须按 Ctrl C
如何直接从我的 Gitlab 存储库部署到 Heroku

在我的团队中我们使用 Gitlab 作为远程存储库因此我们正在寻找一种解决方案来将应用程序自动部署到 Heroku 我们找到了 Codeship 用于从 Github 自动将应用程序部署到 Heroku 有小费吗技巧如果您不准备使用
波特油炸的去梗

为什么波特词干算法在线 http text processing com demo stem http text processing com demo stem stem fried to fri并不是fry 我不记得任何以以下结尾的单词
Mjpeg 在最近的 Mobile Safari 上损坏了？

我正在处理来自 IP 摄像机的实时 mjpeg 流发现最近发布的 Mobile Safari 似乎对 mjpeg 的支持被破坏了我正在使用一个带有嵌入图像的简单 HTML 测试页面如下所示 img src http ip addres
使用流复制文件

以下示例演示如何使用流复制文件 private void copyWithStreams File aSourceFile File aTargetFile boolean aAppend log Copying files with st
Android底部导航视图项目图标大小[重复]

这个问题在这里已经有答案了 I need to do a bottom navigation view in Android like this I tried and now I have something like this 如何增加
在 Clojure 中实现 cron 类型调度程序

我正在寻找任何可以在给定时间触发事件的 clojure 方法例如我希望一个特定的进程在上午 9 30 启动然后我可以触发另一个进程在半小时后开始运行等等提前致谢更新2 感谢 arthur ulfeoldt 和 unknown p
是否可以将 Camera2 与 Google Vision API 一起使用

是否可以仅使用 Camera2 和 Google Vision API 来检测人脸我找不到整合它的方法是的可以将 Camera2 API 与 Google Vision API 一起使用首先 Google Vision API 人脸
使用 SDK 在 azure 函数中将 Azure blob 存储转换为 JSON

我正在尝试创建一个计时器触发器 azure 函数该函数从 blob 获取数据聚合数据并将聚合结果放入 cosmosDB 中我之前尝试使用 azure 函数中的绑定来使用 blob 作为输入但我被告知这是不正确的请参阅此线程 Az

使用 SDK 在 azure 函数中将 Azure blob 存储转换为 JSON

使用 SDK 在 azure 函数中将 Azure blob 存储转换为 JSON 的相关文章

随机推荐

热门标签