Python 中的最佳 ETL 包

2024-02-16

我有两个用例：

从 Oracle / PostgreSQL / Redshift / S3 / CSV 提取、转换并加载到我自己的 Redshift 集群
安排作业每天/每周运行（INSERT + TABLE 或 INSERT + NONE 选项更好）。

我目前正在使用：

用于提取的 SQLAlchemy（通常运行良好）。
用于转换和加载的 PETL（适用于较小的数据集，但对于约 50m+ 行，速度很慢并且与数据库的连接超时）。
调度组件的内部工具（它将转换存储在 XML 中，然后从 XML 中加载，看起来相当长且复杂）。

我一直在寻找这个链接 https://github.com/pawl/awesome-etl#python但欢迎其他建议。如果有一个“更简单”的过程，我可以通过 Python 完成所有操作（我只使用 Redshift，因为它似乎是最佳选择），那么导出到 Spark 或类似的也是受欢迎的。

你可以试试pyetl https://github.com/taogeYT/pyetlpython3编写的etl框架

from pyetl import Task, DatabaseReader, DatabaseWriter
reader = DatabaseReader("sqlite:///db.sqlite3", table_name="source")
writer = DatabaseWriter("sqlite:///db.sqlite3", table_name="target")
columns = {"id": "uuid", "name": "full_name"}
functions={"id": str, "name": lambda x: x.strip()}
Task(reader, writer, columns=columns, functions=functions).start()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ETL

businessintelligence

Python 中的最佳 ETL 包的相关文章

将 MySQL 结果集转换为 NumPy 数组的最有效方法是什么？

我正在使用 MySQLdb 和 Python 我有一些基本的疑问例如 c db cursor c execute SELECT id rating from video results c fetchall 我需要将结果作为 NumP
如何解决 SSIS 包中 OLE DB 目标中的非空约束？

I m new to SSIS Package I want to transfer data from source to destination database which has different table structures
ECS Airflow 1.10.2 性能问题。操作员和任务花费的时间延长 10 倍

我们迁移到 puckel Airflow 1 10 2 以尝试解决我们在多种环境中遇到的性能不佳的问题我们在 AWS ECS 上的 ECS Airflow 1 10 2 上运行有趣的是 CPU mem 永远不会跳到 80 以上 Airf
为什么 Visual Studio 2019 社区中我的 SSIS 工具箱为空？

我安装了 Visual Studio 2019 Community 然后安装了数据工具我可以打开 Integration Services 项目但当我查看 SSIS 工具箱时它是空的我该如何解决我使用的是 Visual Studi
在生产环境中部署包时，如何避免在脚本任务的“添加引用”中手动浏览DLL？

I use EPPlus dll用于动态生成 Excel 文件以供附件并在 SSIS 包的脚本任务中生成邮件程序的库当邮件程序有新的更改需求时我在本地计算机上的脚本任务中进行更改并将构建的包文件 dtsx 发送给 DBA 团队进行部署
SSIS 中的 OData 源组件未连接

这是上一个问题的后续问题 SSIS 中的 OData 源组件挂起 https stackoverflow com questions 48026984 odata source component in ssis hanging Setup
钻取在 birt 报告中的 SpagoBI 服务器中不起作用

这是birt报告中超链接的设置用于计算参数的脚本如下 if params idContratto match row contract number toString null if params idContratto value ab
使用 AWS Glue 时如何查找更新的行？

我正在尝试使用 Glue 对从 RDS 迁移到 Redshift 的数据进行 ETL 据我所知 Glue 书签仅使用指定的主键查找新行而不跟踪更新的行然而我正在处理的数据往往会频繁更新行我正在寻找可能的解决方案我对 pyspark
使用 NiFi 更新 CSV 内字段中的值

我想实现一个简单的用例使用 NiFi 将 CSV 内字段中的多个字符串文本值更新为整数值例如我的 CSV 文件如下所示输入 CSV 文件字段 1 字段 2 美国苹果美国苹果印度葡萄中国城奥兰治澳大利亚民族桃子
SSIS：如何在数据流任务中运行存储过程

我有一个执行此操作的数据流任务从 OLE DB 源中运行 SQL 命令来选择一些数据查找不同的 SQL DB 源检查数据是否已存在根据查找匹配输出与查找不匹配输出使用不同的输入参数运行存储过程输入参数将基于 2 中的可用查找
将 SQLite3 数据库转换为 JSON iOS

我已经在谷歌上搜索了一个教程来帮助解决这个问题但还没有找到任何全面的内容我想通过以 JSON 格式发送数据库中包含的数据来将 SQLite3 数据库与 Web 服务进行单向同步但无法找到有关如何将数据库转换为 JSON 的信息如果有
SSIS - 动态地将文件移动到具有匹配子字符串名称的文件夹

我正在使用 foreach 循环和文件系统任务将文件移动到特定文件夹中或至少尝试这样做 i e 文件名可以是100000 需要到文件夹1000 文件102000需要转到文件夹1020 文件103000需要转到文件夹1030 ETC ETC
如何使用我在后续任务中添加的记录的自动生成 ID？

我目前正在使用以下命令向表中添加一些记录OLE DB Destination 每条记录都有一个自动生成的Id场地我想使用这个生成的Id字段作为某些子记录中的外键我以为我能够从一个数据流线OLE DB Destination组件到另一个组
将 XML 数据保存到 SQL Server 的最佳方法是什么？

有没有一条非常直接的直接路线即SQL Server可以读取XML 或者最好解析 XML 并通过 ADO Net 以通常的方式将其作为单独的行或批量更新进行传输我意识到可能有一些解决方案涉及大型复杂的存储过程虽然我并不完全反对这一点
即使使用 Unicode 源和目标 (SSIS)，字符也会显示不正确

我遇到了代码页 unicode 非 unicode 问题需要专业知识才能理解它在 SSIS 中我正在从 UTF8 编码的文本文件中读取数据数据类型均为 DT WSTR unicode 字符串目标是 NVARCHAR 它也是 uni
如何将 FTP 目录的内容复制到共享网络路径？

我需要将 FTP 位置上的目录的全部内容复制到共享网络位置 FTP 任务要求您指定确切的文件名不是目录而文件系统任务不允许访问 FTP 位置 EDIT 我最终编写了一个脚本任务没有什么比恢复一个非常旧的线程更好的了但是有一个解决方案
在SSIS中导入已合并单元格的Excel

我的问题是在读取合并组合列单元格的 Excel 文件时例如将下面的excel数据读取到数据库中 Excel 输入 ID NAME DEPT FNAME LNAME 1 Akil Tiwari IT 2 Vinod Rathore IT
sqlite 插入表中 select * from

我需要在 Android 应用程序中将数据从一个表移动到另一个表我想使用以下sql insert into MYTABLE2 select id STATUS risposta DATETIME now data ins from MYT
在 SSIS 中使用 OLE DB 从 Sybase 提取数据时出错

我在 SSIS 2017 中使用 Advantage 11 OLE DB Provider 从 Sybase 提取数据时遇到问题我可以连接到数据库查看表列表并且在选择表作为数据源时我可以看到列但是当我单击预览或运行数据流任务
Oracle OLE DB 提供程序未在 SSIS 中列出

我在 SSIS 和 VS2015 CM 方面遇到问题我有一个包需要连接 Oracle 来获取一些数据我安装了适用于 Win64 的 ODAC 和 Oracle 客户端但看不到提供程序列表中列出的 OLE DB 的 Oracle 提供程

随机推荐

如何使用 localstorage / ajax jquery 获取从第一页到第二页的单选按钮值

目前正在处理本地存储在第一页中如果用户选择第二页面板中的第一个单选按钮则必须隐藏两个单选按钮如果用户选择单选按钮则第二页验证中的一个文本字段不应发生我不知道如何使用 localStorage 或 ajax 哪一个是最好的当我看
Github 自述文件中的 .gif 水平居中

我正在尝试将 gif 居中这是 markdown 代码 Demo demo gif 上面的代码将我的 gif 对齐到左侧见下图所以我尝试将 markdown 放入其中 p 像这样的标签但它不起作用 p p align center
如何在clickhouse中根据日期和时间段选择数据

我想通过两者过滤一些数据yyyymmdd 日期和hhmmss 时间但是clickhouse不支持time类型所以我选择datetime将它们结合起来但如何做这样的事情这是代码dolphindb 它支持second类型来表示hhmm
svnrdump 转储和 svnadmin 转储之间的区别

我需要 svn 存储库的转储我找到了两个解决方案 svnrdump dump And svnadmin dump svnrdump dump是相同的svnadmin dump 如果不是这两个命令有什么区别 svnrdump生成相同的转储
UWP ListView DataTemplate 绑定到项目而不是属性

如何将数据模板中的项目绑定到项目本身而不是该项目的属性我有一个将项目作为模型的用户控件鉴于这些模型 public class Car public string Name get set public Color color get
QImage/QPixmap 大小限制？

是否有任何已知的尺寸空间限制QPixmap and or QImage记录的对象我没有找到任何与此相关的有用信息我目前在 OSX 和 Windows 上使用 Qt 4 7 3 我特别感兴趣的是宽度高度限制限制取决于颜色格式 32
UTF-8 和 ISO-8859-1 有什么区别？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案有什么区别UTF 8 https en wikipedia org wiki UTF 8 and ISO 8859 1 https e
JSF：commandLink 作为 outputFormat 的参数

我正在国际化一些 JSF 文件因此正在外部化字符串以及使用占位符的字符串连接我对 JSF 的经验很少今天和昨天所以如果我的问题有一个明显的答案请原谅我一直在成功地使用 h outputFormat 标记和 f param 标
用户窗体根据屏幕分辨率调整大小

我有一个 Excel 用户表单我想在打开时调整大小以适应屏幕分辨率我通过得到高度和宽度Application Height and Application Width 通常使用这两个参数和以下代码应该可以解决问题 Me Top App
以编程方式最大化窗口并防止用户更改窗口状态

如何以编程方式最大化窗口以便窗口一旦打开就无法调整大小达到最大化状态例如最大化 Internet Explorer 并查看它我将 FormWindowState 属性设置为 this WindowState FormWindowS
检测视图中的任何触摸（iPhone SDK）

我目前正在使用 void touchesBegan NSSet touches withEvent UIEvent event void touchesEnded NSSet touches withEvent UIEvent event
在 Electron 中使用量角器

我正在尝试为我运行的应用程序设置单元测试和 e2e 测试Electron http electron atom io using 量角器 https angular github io protractor 我参考了很多不同的帖子 this
Rails 渲染路线路径

我对 Rails 还很陌生很难理解 Rails 中路径系统的工作原理在我的routes rb中我创建了一个用于注册的别名 match signup gt user new resource user controller gt use
数据路径 '''' 不应具有附加属性 (es5BrowserSupport)

尝试在 Angular 中开始在 CLI 中创建项目后我尝试使用两者打开项目ng serve o and npm start但我收到以下错误 Schema validation failed with the following err
线程与并行，它们有何不同？

线程和并行有什么区别哪一个比另一个有优势 Daniel Moth 我的前同事线程并发与并行 http www danielmoth com Blog 2008 11 threadingconcurrency vs parallelis
为什么 Firefox 忽略基于范围查询的缓存控制？

Web 服务器能够将媒体本例中为音频传输到浏览器浏览器使用 HTML5 控件来播放媒体然而我发现 Firefox 正在缓存媒体尽管我相信我明确告诉它不要这样做我有预感它与 206 部分内容响应有关因为带有完整 200
在分页期间获取SQL Server中记录总数的有效方法

当查询 sql server 中的表时我试图仅获取当前页的记录但是我需要为特定查询返回的记录总数来计算页数如何在不编写另一个查询来计算记录的情况下有效地执行此操作 WITH allentities AS SELECT Row num
错误 CS0106：修饰符“private”对于此项无效 Unity 中的 C# 错误

我不断收到此错误 CS0106 修饰符私有对此项目无效并且需要一些帮助我正在尝试为我的游戏制作一个随机对象生成器但由于我仍然是新手编码器我似乎不知道如何解决这个问题你能帮忙的话我会很高兴这是我使用的代码 using Sys
谷歌地图可以根据小时分钟秒绘制点吗

我正在尝试绘制以时分秒秒格式提供给我的 GPS 数据 GLatLng 会采用这种形式吗还是我需要先转换它很难在互联网上找到与此相关的任何内容如果可以采用这种格式我们将不胜感激据我所知它不接受这种格式但转换它真的很容易只需计算一
Python 中的最佳 ETL 包

我有两个用例从 Oracle PostgreSQL Redshift S3 CSV 提取转换并加载到我自己的 Redshift 集群安排作业每天每周运行 INSERT TABLE 或 INSERT NONE 选项更好我目前正在使用

Python 中的最佳 ETL 包

Python 中的最佳 ETL 包 的相关文章

随机推荐

热门标签

Python 中的最佳 ETL 包的相关文章