我们正在探索 Apache NiFi 作为满足我们企业需求的通用数据摄取工具。
一种典型的数据摄取要求是从 RDBMS 移动数据
系统到 HDFS。
我能够使用 NiFi 提供的GenerateTableFetch 和 ExecuteSQL 处理器在 NiFi 中构建 RDBMS 到 HDFS 的数据移动流,并且对于较小的表来说一切都工作正常。
但是,我无法测试更大表的流程,因为我使用的是独立发行版。
有没有人针对类似的要求对 NiFi 与 SQOOP 进行过性能比较?
ExecuteSQL
and ExecuteSQLRecord
是一个更好的选择。前者只会自动将结果集转换为 Avro 序列。后者让您可以更自由地编写输出(JSON、CSV 等)。一件好事ExecuteSQL
你可以将它链接起来MergeRecord
将多个中等大小的结果页组合成一个更大的数据块,以及MergeRecord
可以使用ParquetWriter
为您提供现成的 Parquet 以插入 HDFS。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)