Dask 的默认 pip 安装给出“ImportError:没有名为 toolz 的模块”

2024-03-14

我安装了Dask https://github.com/dask/dask像这样使用点:

pip install dask

当我尝试做时import dask.dataframe as dd我收到以下错误消息:

>>> import dask.dataframe as dd
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/path/to/venv/lib/python2.7/site-packages/dask/__init__.py", line 5, in <module>
    from .async import get_sync as get
  File "/path/to/venv/lib/python2.7/site-packages/dask/async.py", line 120, in <module>
    from toolz import identity
ImportError: No module named toolz
No module named toolz

我注意到文档 http://dask.pydata.org/en/latest/install.html#pip states

pip install dask:只安装dask,仅依赖标准库。如果您只需要任务计划程序,则这是合适的。

所以我很困惑为什么这不起作用。


为了使用 Dask 并行数据帧(构建在 pandas 之上),您必须告诉 pip 安装一些“额外的”(参考 https://packaging.python.org/installing/#installing-setuptools-extras),如文中提到的Dask安装文档 http://dask.pydata.org/en/latest/install.html#pip:

pip install "dask[dataframe]"

或者你可以这样做

pip install "dask[complete]"

获得整套技巧。注意:您的 shell 中可能需要也可能不需要双引号。

Dask 文档中提到(或曾经)提到过这样做的理由:

我们这样做是为了让轻量级核心 dask 调度程序的用户不需要下载集合的更奇特的依赖项(numpy、pandas 等)

正如中提到的奥宾娜的回答 https://stackoverflow.com/a/54333641/785213,您可能希望在 virtualenv 中执行此操作,或者使用pip install --user将库放在您的主目录中,例如,如果您没有主机操作系统的管理员权限。

额外细节

在 Dask 0.13.0 及更低版本中,有一个要求toolz https://github.com/pytoolz/toolz/' identity内的功能dask/async.py。有与 GitHub 关联的开放封闭拉取请求问题 #1849 https://github.com/dask/dask/issues/1849来消除这种依赖性。 同时 如果由于某种原因,您无法使用旧版本的 dask,您可以解决此问题that通过简单地执行特定问题pip install toolz.

但这并不能(完全)解决你的问题import dask.dataframe as dd反正。因为你仍然会得到this error:

>>> import dask.dataframe as dd
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/path/to/venv/lib/python2.7/site-packages/dask/dataframe/__init__.py", line 3, in <module>
    from .core import (DataFrame, Series, Index, _Frame, map_partitions,
  File "/path/to/venv/lib/python2.7/site-packages/dask/dataframe/core.py", line 12, in <module>
    import pandas as pd
ImportError: No module named pandas

或者如果你已经安装了 pandas,你会得到ImportError: No module named cloudpickle. So, pip install "dask[dataframe]"如果您处于这种情况,这似乎是您要走的路。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Dask 的默认 pip 安装给出“ImportError:没有名为 toolz 的模块” 的相关文章

  • Python Pandas to_sql,如何创建带有主键的表?

    我想使用 Pandas 的 to sql 函数创建一个 MySQL 表 该函数有一个主键 在 mysql 表中拥有主键通常是件好事 如下所示 group export to sql con db name config table grou
  • 如何让 pyautogui click 在 mac 上运行?

    pyautogui点击方法问题 我正在从 Spyder 运行脚本 如果我单击 Spyder 窗口上的任何内容 则单击效果很好 如果我执行脚本打开 Outlook 然后单击任何内容 则不会发生单击 虽然我能够正确使用 moveTo 功能 我按
  • 如何在 Python 中使用 Selenium 运行无头 Chrome?

    我正在尝试使用 selenium 进行一些操作 我真的希望我的脚本能够快速运行 我认为使用无头 Chrome 运行我的脚本会使其速度更快 首先 这个假设是否正确 或者我是否使用无头驱动程序运行我的脚本并不重要 我希望无头 Chrome 能够
  • 使用SchemDraw库自动保存图像

    我想在Python中使用这个库来生成电气图 https cdelker bitbucket io SchemDraw https cdelker bitbucket io SchemDraw 我想在服务器中运行这段代码 这个想法是生成图像
  • python 2.7 字符 \u2013 [重复]

    这个问题在这里已经有答案了 我有以下代码 coding utf 8 print u William Burges 1827 81 was an English architect and designer 当我尝试从cmd运行它时 我收到以
  • python 线程是如何工作的?

    我想知道 python 线程是并发运行还是并行运行 例如 如果我有两个任务并在两个线程中运行它们 它们是同时运行还是计划同时运行 我知道GIL并且线程仅使用一个 CPU 核心 这是一个复杂的问题 需要大量解释 我将坚持使用 CPython
  • 将numpy字符串数组转换为int数组[重复]

    这个问题在这里已经有答案了 我有一个 numpy ndarray a 0 99 0 56 0 56 2 02 0 96 如何将其转换为int 输出 a 0 99 0 0 0 56 0 56 2 02 0 96 我想要 0 0 代替空白 im
  • Python 中意外的缩进错误[重复]

    这个问题在这里已经有答案了 我有一段简单的代码 我不明白我的错误来自哪里 解析器在第 5 行 if 语句 上用意外的缩进向我咆哮 有人看到这里的问题吗 我不 def gen fibs a b 0 1 while True a b b a b
  • TensorFlow 未编译为使用 SSE(等)指令,但这些指令是可用的

    我第一次使用一些示例代码运行 TensorFlow 运行代码时我收到以下警告 有谁知道为什么会发生这种情况以及如何解决它 2017 03 31 02 12 59 346109 W c tf jenkins home workspace re
  • 使用 python 在网络上部署 matlab 应用程序

    您好 我想使用 python 在网络上部署 matlab 应用程序 有没有办法做到这一点 我已按照数学工作网站上的文档将我的应用程序转换为 jar 文件 java 类 有人能指出我前进的正确方向吗 事实上 您的 Matlab 代码打包为 J
  • scikit-learn - 具有置信区间的 ROC 曲线

    我可以使用 ROC 曲线scikit learn with fpr tpr thresholds metrics roc curve y true y pred pos label 1 where y true是基于我的黄金标准的值列表 即
  • 计算两个表中等效行的交集

    我有两个 FITS 文件 让我们考虑一下例如第一个文件有 100 行和 2 列 第二个文件有 1000 行和 2 列 FITS FILE 1 FITS FILE 2 A B C D 1 2 1 2 1 3 1 2 2 4 1 2 我需要采取
  • Pandas 多索引数据框删除行

    我的多索引 DF 如下 tuples list zip a a b b c d c d index pd MultiIndex from tuples tuples names i1 i2 df pd DataFrame 5 6 7 8 i
  • 如何在 Microsoft Azure 中提取 Blob 存储中的 Blob 的上次修改日期

    我对 MS Azure 的世界还很陌生 我正在尝试使用 Python 获取保存在我的 blob 存储中的一堆文件 块 blob 的文件名和最后修改日期 这是我正在使用的代码 import datetime from azure storag
  • 如何使用 python / pywinusb 将 hid 数据发送到设备?

    我正在尝试使用 pywinusb 将输出报告发送到 pic18f4550 该设备可以接收数据 我已经使用 C 应用程序对其进行了测试 效果很好 另外 我可以使用 pywinusb 从设备读取数据 但我在尝试发送数据时遇到问题 这是我正在运行
  • Pytest - 如何将参数传递给 setup_class?

    我有一些代码 如下所示 我得到了too few args当我运行它时出错 我没有打电话setup class明确地 所以不确定如何向它传递任何参数 我尝试用以下方法装饰该方法 classmethod 但仍然看到相同的错误 我看到的错误是这样
  • Pandas:Drop() int64 基于值返回对象

    我需要删除其中一列低于某个值的所有行 我使用了下面的命令 但这将列作为对象返回 我需要将其保留为int64 df customer id df drop df customer id df customer id lt 9999999 in
  • Django - 在启动时执行代码

    我正在使用 Django 1 9 3 我有一个包含多个应用程序的项目 我想在项目启动时更新其中一个应用程序的表 用例 例如 假设我想在我的网站上销售商品 我有一个包含模型项目的应用程序 我在 Django 之外有一个网络服务 它提供服务 g
  • Seaborn 分组条形图,使用总值而不是平均值

    我有一个关于如何组织数据以使用 seaborn 制作条形图的问题 我的数据输入如下所示 influencer platform reach person a instagram 10000 person b instagram 5000 p
  • 使用按钮从 Django 项目根下载文件

    So this is the webpage I m creating atm with Django 1 8 希望用户能够将数据导出为 csv 当用户 在框中写下 Reddit 子版块名称 按下 获取数据 按钮 会发生什么 它创建了一个

随机推荐