我尝试在 pyspark 会话中执行以下命令:
>>> a = [1,2,3,4,5,6,7,8,9,10]
>>> da = sc.parallelize(a)
>>> da.reduce(lambda a, b: a + b)
效果很好。我得到了预期的答案(55)。现在我尝试做同样的事情,但使用 numpy 数组而不是 Python 列表:
>>> import numpy
>>> a = numpy.array([1,2,3,4,5,6,7,8,9,10])
>>> da = sc.parallelize(a)
>>> da.reduce(lambda a, b: a + b)
结果我得到了很多错误。更具体地说,我在错误消息中多次看到以下错误:
ImportError: No module named numpy.core.multiarray
是不是我的集群没有安装某些东西,或者 pyspark 无法在基本层面上使用 numpy 数组?