将 Power BI 连接到 S3 存储桶

2023-12-07

由于我是 Power BI 和 Redshift 的新手，需要一些指导..

我的原始 JSON 数据以 .gz 文件的形式存储在 Amazon S3 存储桶中（每个 .gz 文件有多行 JSON 数据）我想将 Power BI 连接到 Amazon s3 Bucket。到目前为止，根据我的研究，我得到了三种方法：

Amazon S3 是一项 Web 服务，支持 REST API。我们可以尝试使用Web数据源来获取数据

问题：是否可以解压缩 .gz 文件（在 S3 存储桶或内部 Power BI 内），从 S3 中提取 JSON 数据并连接到 Power BI

将数据从 Amazon S3 导入 Amazon Redshift。使用 SQL 工作台在 Redshift 内进行所有数据操作。使用 Amazon Redshift 连接器获取 Power BI 中的数据

问题1：Redshift 是否允许从 S3 存储桶加载 .gzzipped JSON 数据？如果是，是直接可能的还是我必须为其编写任何代码？

问题2：我有 S3 帐户，是否需要单独购买 Redshift 帐户/空间？费用是多少？

通过 Azure 数据工厂将数据从 AWS S3 存储桶移动到 Azure Data Lake Store，使用 Azure Data Lake Analytics (U-SQL) 转换数据，然后将数据输出到 PowerBI

U-SQL 可识别文件扩展名为 .gz 的 GZip 压缩文件，并在提取过程中自动解压缩它们。如果我的 gzip 压缩文件包含 JSON 数据行，此过程是否有效？

如果还有其他方法，请告诉我，也请您对这篇文章提出宝贵的建议。

提前致谢。

关于你的第一个问题：我最近刚刚遇到了类似的问题（但提取了 csv），我想注册我的解决方案。

Power BI 仍然没有直接插件来下载 S3 存储桶，但您可以使用 python 脚本来完成此操作。获取数据 --> Python 脚本

PS.：确保 boto3 和 pandas 库安装在您在 Power BI 选项中通知的 Python 主目录的同一文件夹（或子文件夹）中，或者在 Anaconda 库文件夹 (c:\users\USERNAME\anaconda3\lib\site-packages) 中。

Python 脚本选项的 Power BI 窗口

import boto3
import pandas as pd

bucket_name= 'your_bucket'
folder_name= 'the folder inside your bucket/'
file_name = r'file_name.csv'  # or .json in your case
key=folder_name+file_name

s3 = boto3.resource(
    service_name='s3',
    region_name='your_bucket_region',  ## ex: 'us-east-2'
    aws_access_key_id=AWS_ACCESS_KEY_ID,
    aws_secret_access_key=AWS_SECRET_ACCESS_KEY
)

obj = s3.Bucket(bucket_name).Object(key).get()
df = pd.read_csv(obj['Body'])   # or pd.read_json(obj['Body']) in your case

数据框将作为新查询导入（在本示例中名为“df”）

显然 pandas 库也可以获取压缩文件（例如 .gz）。请参阅以下主题：如何使用带有 gzip 压缩选项的 pandas read_csv 读取 tar.gz 文件？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazonwebservices

Azure

amazons3

PowerBI

usql

将 Power BI 连接到 S3 存储桶的相关文章

WCF 服务中的“即发即忘”

我在 Azure 上有很多 WCF REST 服务在某些 WCF 服务中我向外部服务调用 Http 请求例如发送电子邮件短信对非关键第三方服务的 http 请求我不希望这阻碍我对客户电话的响应需要一些关于在这种情况下使用的模式
今天从 GitHub 操作构建 SAM 突然失败：模块“lib”没有属性“OpenSSL_add_all_algorithms”

昨天我的 SAM 构建正在使用以下 GitHub 操作今天突然开始失败并出现错误 AttributeError 模块 lib 没有属性 OpenSSL add all algorithms 经我验证 SAM 模板没有任何错误还有其他人
如何在 Elastic Beanstalk 上添加 PATH

我想将 PATH 添加到包上eb deploy 软件包安装到 var www html vendor bin 可以通过SSH手动添加但是如何使用配置文件添加PATH 我有这样的配置文件 ebextensions ec2 config 01
Spring JMS监听器即使在异常时也会确认

我正在使用 JMS 向 SQS 队列发送接收消息但是即使在使用 client acknowledge 时出现异常我也无法重新传递消息如何实现这一目标我尝试了一个简单的测试 JmsListener destination test
如何在AWS策略中提供多个StringNotEquals条件？

我正在尝试编写 AWS S3 存储桶策略拒绝所有流量除非来自两个 VPC 的流量我正在尝试编写的策略如下所示两者之间有逻辑与StringNotEquals 除非这是无效的政策 Version 2012 10 17 Id Policy
将消息从 AWS Lambda 发布到 AWS IoT

我正在尝试使用 Nodejs 将消息从 AWS Lamba 发布到 AWS IoT 我已压缩该项目并上传到 AWS IoT 下面是代码片段 var awsIot require aws iot device sdk var device a
AWS cognito 用户迁移池触发器不适用于登录流程

我正在使用带有认知执行角色的 Lambda 函数进行 AWS 认知池迁移以下是我的新池应用程序客户端设置 or AWS doc says 用户迁移身份验证流程用户迁移 Lambda 触发器允许从旧用户管理系统轻松迁移用户进入您的用户
AWS Cloudfront 作为具有自定义域的 Heroku 站点的 CDN

最近我从 AWS Route 53 brianpatrickhummel com 购买了一个域来托管个人投资组合该投资组合网站已启动并正在运行使用 S3 存储桶和 Cloudfront 作为 CDN 在作品集网站上访问者可以预览我构
如何从此 AWS SecretsManager JSON 对象中提取字段？

我正在使用 AWS Secrets Manager 来保护 REST API 的数据库信用我正在使用 AWS Lambda API 网关和 RDS MySQL 以下是我如何获得它们 Load the AWS SDK var AWS req
在 Windows 服务和 Azure WebJob 之间利用单一代码库的方法

我正在开发一个定时重复流程在某些情况下将部署在本地而在其他情况下将部署在云 Azure 中我正在研究 Windows 服务和 Azure WebJob 鉴于我只需要重复过程作为定时部分我正在考虑将大量逻辑放在一个库中只是本地部署的
使用Azure Service Fabric的默认客户端时如何向请求添加消息头？

我想知道是否可以将自定义消息头注入到传出请求中以携带附加信息而无需反序列化有效负载来完成身份验证验证或请求关联等功能例如通过消息检查器提供的 wcf Update 使用 SDK v2 您现在可以相对轻松地修改 Reliable S
具有 blobfuse 或 Azure 存储 Blob 的 Azure 容器实例

我正在从 azure 容器注册表 azure cli 和或门户部署到 azure 容器实例 Azure blobfuse 在 ubuntu 18 上出现以下错误未找到设备请先尝试 modprobe fusion 解决这个问题的方法
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
增加在 Azure 上运行的 Dockerized ASP.NET Core 站点的最大上传大小限制？

以下是应用程序的架构使用 ASP NET Core 编写的 Web API Dockerfile 使用以下命令构建 Web 应用程序microsoft dotnet 2 1 sdk并使用执行 APImicrosoft dotnet asp
如何使用配置文件 (.ebextensions) 在 AWS Elastic Beanstalk 上安装 PHP IMAP 扩展？

有谁知道如何使用配置文件 ebextensions 在 AWS Elastic Beanstalk 上安装和启用 PHP IMAP 扩展我使用的是 64 位 Amazon Linux 2017 03 v2 4 0 运行 PHP 7 0 1
在 Elastic Beanstalk 中禁用自动安全组命名

创建新环境时 Beanstalk 往往会使用随机且非常大的字符串例如 awseb e nhmvcuvtjh stack AWSEBSecurityGroup 1R8CUK434DLPG 来污染我们的安全组命名约定这些字符串之后无法更改
更新项目时，NUMBER_VALUE 无法转换为字符串

我在 DynamoDB 上遇到了这个奇怪的问题我似乎无法更新项目这是我的命令 TableName UserTable Key UID S h4XJj3YRxZiF7TDcGkxAhc UpdateExpression SET numRa
使用 .NET Core 2 的 Azure WebJobs 因“存储帐户无效”而失败

遵循马特罗伯茨出色的分步文章 NET Core 2 中的 Azure WebJobs 具有 DI 和配置 https matt roberts me azure webjobs in net core 2 with di and conf
Cosmos DB Mongo API 如何管理“请求率很大”情况

我有以下代码 async function bulkInsert db collectionName documents try const cosmosResults await db collection collectionName
如何向 boto 中的联合用户授予 s3 存储桶的权限？

尝试从文档中找出答案但无法创建可以访问 s3 存储桶的联合用户首先是进口 gt gt gt from boto s3 connection import S3Connection gt gt gt from boto sts impor

随机推荐

删除重写方法中的抛出，编译器在调用时需要一个 try/catch 块

我有一个子类并且要重写继承的父方法我要从方法声明中删除 throws 子句现在使用多态性 my 实例的运行时类型应该确定方法实现然而当我尝试编译时编译器抱怨并希望在方法调用周围有一个 try catch 块就好像正在调用超类
尝试从 PHP 运行 jar

在阅读了该网站上与我遇到的完全相同的问题相关的一些帖子后我发现它们都没有给我一个成功的结果如何使用 PHP 从 Web 服务器运行 jar 从网站上的 PHP 脚本运行 Java 类文件为什么 exec java jar file j
制作特定结构的矩阵

请注意我不知道我错在哪里但我花了一整天的时间试图解决这个问题因此我请求不要将其作为重复问题丢弃并将其视为与矩阵结构相关的非常具体的问题我有以下数据框 dput c m q structure list ASK Price c 1
为什么 JCheckBox 上的 setSelected 失去作用？

有人可以向我解释为什么我失去了选择由setSelected for JCheckBox当我把JOptionPane进入ItemListener 这是一个错误吗奇怪的是如果这个过程被延迟invokeLater setSelected 正
Firemonkey：如何定义一个包含另一个组件的组件？

在 Delphi 下我想创建一个新的 firemonkey 控件其中将包含另一个 firemonkey 控件这并不是真正的问题因为我可以这样做 constructor TMyComponent Create AOwner TComp
更新对象图时实体框架的断开行为

我目前正在开发一个使用以下技术的项目 ASP net MVC 表示层数据服务层 WCF 具有 Automapper 的数据传输对象 TO 层领域层 POCO 代码优先实体框架存储库层实体框架4 3 DbContext 我们使用 DT
使用 EF Core 和 NpgSql 过滤 postgres 中 jsonb 列的整数数组

我想根据 json 整数数组过滤行例如我的表如下所示 Id Name TypeJson 1 Name One 1 2 2 Name Two 2 3 3 Name Three 4 7 其中 Id 是 int 类型 Name 文本 Type
在 Octave 中导入 Java 类

我一直很难弄清楚如何做到这一点从八度网站似乎java类是通过类路径找到的这个堆栈溢出答案表示静态java路径是动态java路径但我不确定如何设置静态 java 路径在我感兴趣的特定情况下我尝试将 javaplex 包与 O
当pdf加载到iframe时如何阻止下载？

当iframe加载pdf时自动下载pdf文件我怎样才能防止这种情况 function dialog dialog autoOpen false modal true resizable false width auto show fade
我的输出没有显示完整的数字，但显示 ??反而

I m trying to do benchmarking with JMH the benchmarking result did come out but not perfectly 不知何故有在数字中是否是我的 IDE 的问题我
大熊猫的大小和数量有什么区别？

这就是之间的区别groupby x count and groupby x size在熊猫中 size 是否只排除 nil size包括NaN价值观 count才不是 In 46 df pd DataFrame a 0 0 1 2 2 2
过滤 ElementsCollection

我正在尝试创建一个函数来过滤ElementsCollection 条件是每个元素的子元素而不是元素本身这是我想出的 public static ElementsCollection filterByChild ElementsCollec
如何在 Amazon EMR 上安装多个版本的 numpy 以及如何删除早期版本？

我不明白 Python 如何安装单个包的多个版本或者为什么当我安装了多个版本时 import package没有给我最新的我正在使用 AWS linux 和 AWS EMR 中的 AWS 存储库当我安装 Python 3 6 时它默
尝试使用 AcquireTokenByIntegratedWindowsAuth 时出现 MSAL 错误“parsing_wstrust_response_failed”

我尝试从 AD 或 Azure AD 获取令牌但调用 AcquireTokenByIntegratedWindowsAuth 会导致以下结果 MSAL Desktop 4 14 0 0 MsalClientException 错误代码 p
有谁知道如何将 tkinter 网络摄像头连接到 Yolov5？

现在我正在使用 Yolov5 进行我的小项目我想将相机界面更改为 tkinter 网络摄像头打开进行设计带有本地相机代码的 tkinter 是 from tkinter import Tk Label Image import cv2
修改ngx-charts的内部CSS

当我旋转 ngx charts 时高级饼图示例我的传奇号码被切断了深入研究 CSS 这似乎是因为margin top被设置为 6px 在浏览器中试验后发现10px让事情看起来如我所愿所以在组件的 CSS 中我添加了 advanced
如何组合 numpy 数组和文本列并导出到 csv

我想组合一个 numpy 数组和一个列其中一个字符串作为标识符导出到 csv 文件然后我可以将其导入到 Excel 中例如 a np random rand 6 4 b for i in range 6 b append test 所
使用 ES6 语法和 Babel 扩展 Javascript 中的错误

我正在尝试使用 ES6 和 Babel 来扩展 Error 它没有成功 class MyError extends Error constructor m super m var error new Error ll var myerror
阻止 jquery-ui datepicker 在 beforeShow 中显示

我想做这样的事情 var showme false mydatepicker datepicker beforeShow function input inst if showme stop showing 但禁用或隐藏似乎都不起作用我想
将 Power BI 连接到 S3 存储桶

由于我是 Power BI 和 Redshift 的新手需要一些指导我的原始 JSON 数据以 gz 文件的形式存储在 Amazon S3 存储桶中每个 gz 文件有多行 JSON 数据我想将 Power BI 连接到 Amazon

将 Power BI 连接到 S3 存储桶

将 Power BI 连接到 S3 存储桶 的相关文章

随机推荐

热门标签

将 Power BI 连接到 S3 存储桶的相关文章