Dask:定期更新已发布的数据集并从其他客户端提取数据

2023-12-26

我想将数据附加到published dask dataset来自队列(如 redis)。然后其他 python 程序将能够获取最新数据(例如每秒/分钟一次)并执行一些进一步的操作。

  1. 这可能吗?
  2. 应该使用哪个附加接口?我应该将它加载到pd.DataFrame首先还是更好地使用一些文本导入器?
  3. 假设的附加速度是多​​少?是否可以在一秒内追加 1k/10k 行?
  4. 是否还有其他好的建议可以在 dask 集群内交换庞大且快速更新的数据集?

感谢您的任何提示和建议。


您在这里有几个选择。

  • 你可以看看streamz项目
  • 你可以看看 Dask 的协调原语 https://docs.dask.org/en/latest/futures.html#coordination-primitives

假设的附加速度是多​​少?是否可以在一秒内追加 1k/10k 行?

Dask 只是跟踪远程数据。与 Dask 相比,应用程序的速度更多地取决于您选择表示数据的方式(例如 python 列表与 pandas 数据帧)。 Dask 每秒可以处理数千个任务。其中每个任务都可以有一行或数百万行。这取决于你如何构建它。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Dask:定期更新已发布的数据集并从其他客户端提取数据 的相关文章

随机推荐

  • 在 PyQt 中打开第二个窗口

    我正在尝试使用 pyqt 在单击 QMainWindow 上的按钮时显示自定义 QDialog 窗口 我不断收到以下错误 python main py DEBUG Launch edit window Traceback most rece
  • 在 R 中使用 phantomJS 抓取具有动态加载内容的页面

    背景我目前正在使用 rvest 从 R 的一些网站上抓取产品信息 这适用于除一个网站之外的所有网站 其中内容似乎是通过 angularJS 动态加载的 因此无法迭代加载 例如通过 URL 参数 就像我对其他网站所做的那样 具体网址如下 ht
  • Zend Framework - 如何将 url 重写为 seo 友好的 url

    我得到了 Zend Framework 的网站 我在 Zend 中完全是菜鸟 例如我想制作一个网址 somewebsite com test about 看起来像这样 somewebsite com for fun link 我如何在 Ze
  • 无法找到“Firebase”的规范

    我在尝试时无法安装 Firebase pod pod install Analyzing dependencies Unable to find a specification for Firebase 这是我的 Podfile platf
  • 导入 javax.servlet 仍然无法解析[重复]

    这个问题在这里已经有答案了 这是我的 Eclipse 范围的 JRE 定义 清楚地显示已添加 servlet api jar 这里有同样的旧导入错误 似乎永远无法解决 Java不是很棒吗 有人有可能对为什么这仍然不起作用有一个简单 事实的答
  • NestJS EntityMetadataNotFoundError:找不到“存储库”的元数据

    我知道有很多关于这个主题的帖子 我真的很难理解我到底想做什么来解决这个问题 使用 Postman 当我尝试命中路线时 出现以下错误 ERROR ExceptionsHandler No metadata for OrganizationsR
  • 如何从插件中的 PartyList 获取联系人指南?

    我正在制作一个插件 该插件会在自定义活动短信的创建消息上触发 这些插件将使用第三方短信服务提供商发送实际短信 因此 我需要获取短信活动 收件人 字段中每个联系人的手机号码 这是一个类型为 PartyList 的字段 我目前正在使用以下代码
  • 如何将键值对插入 Hive 映射?

    基于以下tutorial https cwiki apache org confluence display Hive Tutorial Hive有map类型 但是 似乎没有记录的方法可以通过SELECT带有一些 UDF 或内置函数 这可能
  • GTK# 和 Windows 窗体有什么区别?

    GTK 和 Windows 窗体有什么区别 他们完全不同吗 Thanks Gtk http mono project com GtkSharp GTK 是 Gtk 工具包的 NET 绑定 该工具包采用 C 语言编写 以提高速度和兼容性 而
  • 空堆区域的开销

    我的工具是 Linux gcc 和 pthreads 当我的程序从多个线程调用 new delete 时 并且存在堆争用时 会创建 arena 请参阅 以下链接以供参考 http www bozemanpass com info linux
  • Python循环查询MySQL - 查询结果未更新?

    我有一小段查询 mySQL 的 python 代码 while True print running SQL query cursor execute select from sites where stage NEW results cu
  • 当JProgressBar达到100%时如何使JDialog不可见?

    相关代码段 JProgressBar progress JButton button JDialog dialog Fields of my GUI class progress new JProgressBar JProgressBar
  • 将向量列表转换为数据框

    我正在尝试将向量列表 本质上是多维数组 转换为数据框 但每次尝试都会得到意想不到的结果 我的目标是实例化一个空白列表 用包含有关该循环迭代的信息的向量将其填充到 for 循环中 然后在完成后将其转换为数据帧 gt vectorList lt
  • Android画布路径实时表现

    我想在 15 分钟内绘制 4 或 5 个 实时图表 可视化大量数据 每 30 毫秒一个新值 我正在使用 Path 但当我想要显示超过 20000 个值并平移画布时 它似乎工作得非常慢 并且每秒都变得更糟 我也尝试过使用drawLine 但它
  • “Impact”字体在移动 Chrome 上不起作用

    我已经与 Impact 字体斗争了大约一年了 它应该是一种网络安全字体 但事实并非如此 当我使用标准 Impact 时 它无法在移动平台上运行 如果我使用特定的字体 font face 则不可能在 PC 和 Mac 上获得相同的渲染效果 我
  • 无法迭代二维数组来标准化数据

    我正在尝试标准化我的数据 并且需要迭代训练和测试集 我尝试了不同的方法 但出现此错误list indices must be integers or slices not list 我试过把range and len 但我仍然遇到同样的错误
  • 接口类纯虚信号的连接

    我想连接从接口类派生的某些对象的信号 连接完成于QWidget listenToAnimal AnimalInterface 这不起作用 因为qt metacall is not a member of AnimalInterface an
  • Elasticsearch:嵌套对象的批量更新

    我的文档结构如下 documentID 123 originalFilename Build a Better Post pdf modDate 2017 11 16T18 22 54 48 documentType pdf keySyst
  • Visual Studio 复制项目

    我想复制我的项目 我宁愿不通过添加文件和引用等从头开始执行此操作 请注意 我并不是指复制部署 只是简单的复制 VS中有没有工具可以做到这一点 我用的是VS 2008 Just 从您的项目中选择 项目 导出模板 向导将让您定义 模板名称 模板
  • Dask:定期更新已发布的数据集并从其他客户端提取数据

    我想将数据附加到published dask dataset来自队列 如 redis 然后其他 python 程序将能够获取最新数据 例如每秒 分钟一次 并执行一些进一步的操作 这可能吗 应该使用哪个附加接口 我应该将它加载到pd Data