使用 R 从 Microsoft Azure 读取 csv 文件

2024-01-12

我最近开始使用 databricks 和 azure。

我有微软天蓝色存储资源管理器。我在 databricks 上运行了一个 jar 程序它在路径中的 azure storgae explorer 中输出许多 csv 文件

..../myfolder/subfolder/output/old/p/

我通常做的事情是去文件夹p并下载所有 csv 文件通过右键单击p文件夹并单击download在我的本地驱动器上并在 R 中使用这些 csv 文件进行任何分析。

我的问题是，有时我的运行可能会生成超过 10000 个 csv 文件下载到本地驱动器需要很多时间。

我想知道是否有教程/R 包可以帮助我阅读来自上述路径的 csv 文件，无需下载。例如有什么办法可以设置吗

..../myfolder/subfolder/output/old/p/

作为我的工作目录并以与我相同的方式处理所有文件。

编辑：路径的完整 url 看起来像这样：

https://temp.blob.core.windows.net/myfolder/subfolder/output/old/p/

根据官方文件CSV Files https://docs.azuredatabricks.net/spark/latest/data-sources/read-csv.htmlAzure Databricks 的，您可以直接读取 Azure Databricks 笔记本的 R 中的 csv 文件作为本节的 R 示例Read CSV files notebook example https://docs.azuredatabricks.net/spark/latest/data-sources/read-csv.html#read-csv-files说道，如下图。

或者，我使用 R 包reticulate和Python包azure-storage-blob使用 Azure Blob 存储的 sas 令牌直接从 blob url 读取 csv 文件。

这是我的步骤如下。

我在 Azure Databricks 工作区中创建了一个 R 笔记本。
安装 R 包reticulate通过代码install.packages("reticulate").
安装Python包azure-storage-blob如下面的代码。
```
%sh
pip install azure-storage-blob
```

要运行 Python 脚本来生成容器级别的 sas 令牌并使用它来获取带有 sas 令牌的 blob url 列表，请参阅下面的代码。

library(reticulate)
py_run_string("
from azure.storage.blob.baseblobservice import BaseBlobService
from azure.storage.blob import BlobPermissions
from datetime import datetime, timedelta

account_name = '<your storage account name>'
account_key = '<your storage account key>'
container_name = '<your container name>'

blob_service = BaseBlobService(
    account_name=account_name,
    account_key=account_key
)

sas_token = blob_service.generate_container_shared_access_signature(container_name, permission=BlobPermissions.READ, expiry=datetime.utcnow() + timedelta(hours=1))

blob_names = blob_service.list_blob_names(container_name, prefix = 'myfolder/')
blob_urls_with_sas = ['https://'+account_name+'.blob.core.windows.net/'+container_name+'/'+blob_name+'?'+sas_token for blob_name in blob_names]
")
blob_urls_with_sas <- py$blob_urls_with_sas

现在，我可以在 R 中使用不同的方式使用 sas 令牌从 blob url 读取 csv 文件，如下所示。

5.1. df <- read.csv(blob_urls_with_sas[[1]])

5.2.使用R包data.table
```
install.packages("data.table")
library(data.table)
df <- fread(blob_urls_with_sas[[1]])
```
5.3.使用R包readr
```
install.packages("readr")
library(readr)
df <- read_csv(blob_urls_with_sas[[1]])
```

注：对于reticulate库，请参考RStudio文章Calling Python from R https://rstudio.github.io/reticulate/articles/calling_python.html.

希望能帮助到你。

更新您的快速问题：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Azure

Databricks

使用 R 从 Microsoft Azure 读取 csv 文件的相关文章

将 SQL 存储过程 ResultSet 表 JSON 转换为 XML

这看起来很明显但不知何故它对我不起作用我正在尝试在 Microsoft Azure 上的逻辑应用程序中构建解决方案但我无法将 JSON 对象转换为 XML 我的要求是执行存储过程并以 XML 格式保存响应默认情况下 SQL 执行存储
无法部署 ShinyApp：readTableHeader 在“raw”上发现不完整的最后一行（使用默认值：en_US）

我已经拼命尝试部署我的闪亮应用程序大约一周了但不幸的是我无法停止收到以下消息 Warning message Error detecting locale Error in read table file file header head
不同 R/lme4 版本的单一拟合结果不匹配

我试图将 R 版本 3 5 3 lme4 1 1 18 1 的随机效应估计与 R 版本 4 1 1 lme4 1 1 27 1 相匹配然而当存在奇异拟合时这两个版本之间的随机效应存在微小差异我对奇点警告很满意但令人费解的是不同版本
如何在 Azure 中仅部署辅助角色/Web 角色

如果您在 Azure 解决方案中拥有 Web 和辅助角色那么所有等待发布更新包上传到云存储等待包部署的过程可能会让人筋疲力尽浪费大量时间如何仅上传部署包含这两个角色的 Microsoft Azure 解决方案的辅助角色或 Web
从 df 中提取具有两列的重叠行对

我想找出这两个表之间哪些对重叠 gt dput data1 structure list Name x c MDH1 MDH1 IDH2 IDH2 IDH2 IDH2 IDH2 IDH2 IDH2 SCOALB SCOALB CSY4 CS
用表达式分割轴标签

我有一个带有包含表达式的长标签的图我想将其分成两行在表达式中添加 n 结果不符合预期 ylabel lt expression A very long label with text and n expression alpha bet
使用Azure Service Fabric的默认客户端时如何向请求添加消息头？

我想知道是否可以将自定义消息头注入到传出请求中以携带附加信息而无需反序列化有效负载来完成身份验证验证或请求关联等功能例如通过消息检查器提供的 wcf Update 使用 SDK v2 您现在可以相对轻松地修改 Reliable S
对 data.table 中的列表列执行操作

假设我有一个data table 例如dt lt data table foo list 1 3 4 6 bar c 2 7 如何使用 dt 框架对 foo 向量列表执行操作操作可能是将 bar 添加到 foo 返回列表 3 5 11 1
如何在ubuntu的conda环境中更改Rstudio中的R版本

我在基本系统中安装了 R 4 3 和 Rstudio 在 conda 环境中安装了旧版本的 R 4 2 3 命令which R返回环境中安装的 R 的目录 home 用户 miniconda3 envs anndata2ri pip bin
Azure消息队列中的消息将直接进入Poison消息队列

希望这可以节省某人一些时间当移动到较新的版本时下面的代码停止工作QueueClient https learn microsoft com en us dotnet api azure storage queues queueclien
rpart“as.character(x) 中的错误：无法强制类型 'builtin' 为类型 'character' 的向量”消息是什么意思？

我一直在用头撞rpart几天了尝试为我拥有的这个数据集制作分类树我认为现在是时候询问生命线了我确信这是我没有看到的愚蠢的事情但这里是我一直在做什么 EuropeWater lt read csv file paste Users a
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
使用 R 下载压缩数据文件、提取和导入数据

EZGraphs 在 Twitter 上写道很多在线 csv 都被压缩了有没有办法下载解压缩存档并使用 R 将数据加载到 data frame Rstats 我今天也尝试这样做但最终只是手动下载 zip 文件我尝试过类似的东西 f
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
R - 计算 bin 中特定值的数量

我有一个如下所示的数据框 df Value lt c 1 1 0 2 1 3 4 0 0 1 2 0 3 0 4 5 2 3 0 6 Sl lt c 1 20 df lt data frame Sl Value gt df Sl Value
如何将图像和 POST 数据上传到 Azure 移动服务 ApiController 终结点？

我正在尝试上传图片and POST表单数据尽管理想情况下我希望它是json 到我的端点Azure 移动服务应用我有ApiController method HttpPost Route api upload databaseId sea
需要在R中按行绑定列表数据

我在 R 中按行绑定列表时遇到问题我的列表数据集是 id 1 data k 1 id k b c 1 1 1 3 data k 2 id k b c 1 2 1 4 id 2 data k 1 id k b c 2 1 1 6 data
如何按时间间隔匹配数据帧？

这是我从数据记录器导入原始数据时经常出现的问题温度记录仪设置为每十分钟记录一次温度单独的气体记录仪设置为记录最后十分钟间隔内使用的气体我想将这两个记录器的数据合并到一个数据框中进行绘图和分析但时间并不完全一致我希望每十分钟的时间段
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t
如何按用户定义（例如非字母顺序）对数据框进行排序[重复]

这个问题在这里已经有答案了给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch

随机推荐

Firestore 本地 http 与真实数据库：Cloud Firestore 模拟器未运行，因此数据库操作将失败并出现“默认凭据”错误

我想在本地运行 firebase http 云函数来访问真正的远程 firestore 数据库为此我使用以下命令在本地运行我的函数 FIREBASE CONFIG path to credential json GOOGLE APPLI
com.twitter:util-core 中存在冲突的跨版本后缀

我升级到 sbt 0 13 这个问题开始出现我在这里找到了解释 https groups google com forum topic simple build tool MoApqIwx4R0 https groups google c
如何创建自定义导航抽屉，打开与抽屉 onitemclick 相邻的 ListView？

我创建了简单的导航抽屉但是当我遇到如图所示的导航抽屉时我被卡住了我不知道如何实现这种功能在此图像中城市是导航抽屉的项目当我单击城市时它会打开与其相邻的列表这是完整的代码因为我不知道细节它可能无法真正满足您的要求首先我
VBA 打开 Excel 文件

我正在尝试使用 VBA 打开 Excel 文件文件夹中的 Excel 文件我指示我的代码将最终用户直接带到该文件夹并允许他从对话框中选择文件但即使从对话框中选择文件后我也无法打开该文件我对问题的理解是我错过了选择文件后打开文件的
内联命名空间可以用来保持共享库的向后兼容性吗？

C 内联命名空间的基本原理是源代码和二进制兼容性请参阅 Herb Sutter 的论文链接为N2535 http www open std org jtc1 sc22 wg21 docs papers 2008 n2535 htm 但我
响应 json 时禁用“Cookie”标头

我想在以 json 形式响应时禁用删除 Cookie 标头其实我可以设置Config set session driver array 使用 Laravel 4 2 进行过滤如果我在 L5 版本 5 0 5 中执行此操作我会在日志文
使用 .NET Core 在 Mac OSX 上进行 Office (Excel) COM 互操作？

我所在的团队目前专门使用 C NET 创建 Windows 桌面应用程序这些应用程序通过 Office COM Interop 与 Microsoft Excel 的本地用户实例进行交互我目前负责指定一个新产品但我被告知除非该应用程
使用 C# 编码的具有 https 支持的 http 侦听器

我找到了很多如何设置 httplistener 以使用 HTTPS 的答案但每个解决方案都需要使用命令行我想这是最快的方法但我想编写 C 类来处理这个问题在旧的解决方案中我使用了网络服务器类在互联网上的某个地方找到我不记得确切
在 C++ 中使用 gsl 时如何避免静态成员函数

我想在 C 类中使用 GSL 而不将成员函数声明为static 这样做的原因是因为我对它们不太了解对线程安全也不太确定从我读到的来看 std function可能是一个解决方案但我不确定如何使用它我的问题归结为如何删除static在
JBoss 6：将 EJB 注入 servlet

Folks 每次新版本的 JBoss 推出时我都必须重新学习并浪费时间在这些东西上这让我非常恼火我有一个在 JNDI 空间中发现并声明的无状态 EJB 10 01 53 044 INFO org jboss ejb3 proxy im
AWS Cognito 用户池 - 只读客户端

标题中已经说明了问题有没有办法为 Amazon Cognito 用户池创建仅具有读取权限的应用程序客户端这有点奇怪但是当我取消选中可写属性部分中的所有框用户池 gt 常规设置 gt 添加另一个应用程序客户端时它会返回以下警告
驱动程序可执行文件的路径必须由 webdriver.chrome.driver 系统属性设置 - Selenium 错误

我有一个令人恼火的 Selenium 错误驱动程序可执行文件的路径必须由 webdriver chrome driver 系统属性设置这是我正在使用的代码 Environment SetEnvironmentVariable webdr
Perl后台进程

我正在尝试在 perl 中运行后台进程我创建了一个子进程用于调用另一个 perl 脚本我想与这个子进程并行运行几行代码子进程完成后我想打印一行代码主要脚本 usr bin perl 1 print before the chil
考虑中心的顺序，重新标记 kmean 结果中的样本

我正在使用 kmeans 来聚类我的数据对于生成的结果我有一个计划我想根据订购的中心重新标记样本考虑以下示例 a c a b c d e F i j k l m n b c 1 2 3 20 21 21 40 41 42 4 23 5
循环字符串时向字典添加多个值

对Python 3仍然是超级新手并且遇到了问题我正在尝试创建一个函数它返回一个字典其中键是每个单词的长度值是字符串中的单词例如如果我的字符串是狗快速向前跑到公园我的字典应该返回 2 to 3 The run the 4 d
如何使用 Xcode 11 从命令行上传到 App Store？

以前在 Xcode 10 中我们使用altool上传到App Store ALTOOL Applications Xcode app Contents Applications Application Loader app Conten
PHP array_filter 从数组中仅获取一个值[重复]

这个问题在这里已经有答案了我试图排除 foreach 循环并使用数组函数重构它们我假设下面的代码会给我一个包含源数组中所有第一项的结果
相关控制器中的 NSToolbarItem 验证

我有一个 NSToolbarItem 其视图为 NSButton 主菜单中有一个 NSMenuItem 两者具有相同的操作该操作被发送到第一响应者而不是特定目标该方法最终在 NSSplitViewController 的子类中实现位
删除 3D 图中的轴边距

我花了几天时间试图找到一种方法来消除 3D 图中轴上的微小边距我试过ax margins 0 and ax autoscale view tight 和其他方法但这些微小的利润仍然存在特别是我不喜欢条形直方图升高即它们的底部不在零
使用 R 从 Microsoft Azure 读取 csv 文件

我最近开始使用 databricks 和 azure 我有微软天蓝色存储资源管理器我在 databricks 上运行了一个 jar 程序它在路径中的 azure storgae explorer 中输出许多 csv 文件 myfolde

使用 R 从 Microsoft Azure 读取 csv 文件

使用 R 从 Microsoft Azure 读取 csv 文件 的相关文章

随机推荐

热门标签

使用 R 从 Microsoft Azure 读取 csv 文件的相关文章