我有一个 numpy 矩阵:
arr = np.array([[2,3], [2,8], [2,3],[4,5]])
我需要创建一个 PySpark Dataframearr
。我无法手动输入值,因为长度/值arr
将动态变化,所以我需要转换arr
进入数据框。
我尝试了以下代码但没有成功。
df= sqlContext.createDataFrame(arr,["A", "B"])
但是,我收到以下错误。
TypeError: Can not infer schema for type: <type 'numpy.ndarray'>
import numpy as np
#sample data
arr = np.array([[2,3], [2,8], [2,3],[4,5]])
rdd1 = sc.parallelize(arr)
rdd2 = rdd1.map(lambda x: [int(i) for i in x])
df = rdd2.toDF(["A", "B"])
df.show()
输出是:
+---+---+
| A| B|
+---+---+
| 2| 3|
| 2| 8|
| 2| 3|
| 4| 5|
+---+---+
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)