我想将数据附加到published dask dataset
来自队列(如 redis)。然后其他 python 程序将能够获取最新数据(例如每秒/分钟一次)并执行一些进一步的操作。
- 这可能吗?
- 应该使用哪个附加接口?我应该将它加载到
pd.DataFrame
首先还是更好地使用一些文本导入器?
- 假设的附加速度是多少?是否可以在一秒内追加 1k/10k 行?
- 是否还有其他好的建议可以在 dask 集群内交换庞大且快速更新的数据集?
感谢您的任何提示和建议。
您在这里有几个选择。
- 你可以看看streamz项目
- 你可以看看 Dask 的协调原语 https://docs.dask.org/en/latest/futures.html#coordination-primitives
假设的附加速度是多少?是否可以在一秒内追加 1k/10k 行?
Dask 只是跟踪远程数据。与 Dask 相比,应用程序的速度更多地取决于您选择表示数据的方式(例如 python 列表与 pandas 数据帧)。 Dask 每秒可以处理数千个任务。其中每个任务都可以有一行或数百万行。这取决于你如何构建它。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)