greenplum + flink 做流处理
从批处理ETL到流式处理:一个来自Netflix的案例 https://juejin.im/entry/5aa73ccd6fb9a028c81285cb
greenplum = oracle12C 分布式RDB。 但是还是有局限性的。
flink、spark、storm
flink安装
docker run -t -p 8081:8081 flink local
greenplum安装
- yum方式安装不行。200的python是3.0的,语法不兼容2.7
- 在docker中安装greenplum: 不可以,到处都是坑。
总结
弄flink要把kafka 和 kafka connector做一下,flink不能从rdb抽取数据的话,用kafka connector弄一下
https://www.confluent.io/blog/kafka-connect-deep-dive-jdbc-source-connector
greenplum-boot集成的问题
- get url = null and ClassDriver = null
获取不到配置:
- 配置的默认mysql的Datasource没问题,
- spring.datasource配置是有的
- 获取不到配置文件?
3.1 看jar的的classpath - 没有问题
3.2 看appalication.ps里缺配置 - 没有问题
3.3 这个默认的数据源失效,走的是greenplum的数据源。
目前解决方案有2种:
1. 如果着急使用,把ys.manufacture.framework.controller.GreenplumConfig类的@Configuration类去掉。 我目前采用这个方式解决报错问题。
2. 在各个项目的启动类上: 把GreenplumConfig类排除,
@ComponentScan( value = { "ys.manufacture.framework", "ys.manufacture.sousa"} ,
excludeFilters = @ComponentScan.Filter(
type = FilterType.ASSIGNABLE_TYPE,
classes = {GreenplumConfig.class}
)
)
这2种方式可能出现的问题:
相当于没有整合Greenplum??
总结:
如果着急使用,把ys.manufacture.framework.controller.GreenplumConfig类的@Configuration类去掉。
参考资料
- 从批处理ETL到流式处理:一个来自Netflix的案例 - 后端 - 掘金
- Install Greenplum OSS on Ubuntu _ Greenplum Database
- Hadoop与GreenPlum该如何选择_ - Hadoop分布式数据分析平台-炼数成金-Dataguru专业数据分析社区
- Greenplum和Deepgreen性能简单对比 - 闻术苑 - OSCHINA
- GreenPlum 浅谈 - yongshenghuang的博客 - CSDN博客
- Flink初探-为什么选择Flink - 简书
- 【大数据之数据仓库】GreenPlum PK DeepGreen(TPCH) - weixin_33860722的博客 - CSDN博客