我们正在从 MongoDB 读取数据Collection
. Collection
列有两个不同的值(例如:(bson.Int64,int) (int,float)
).
我正在尝试使用 pyspark 获取数据类型。
我的问题是某些列具有不同的数据类型。
Assume quantity
and weight
是列
quantity weight
--------- --------
12300 656
123566000000 789.6767
1238 56.22
345 23
345566677777789 21
实际上我们没有为 mongo 集合的任何列定义数据类型。
当我查询计数时pyspark dataframe
dataframe.count()
我遇到这样的异常
"Cannot cast STRING into a DoubleType (value: BsonString{value='200.0'})"
你的问题很广泛,所以我的回答也很广泛。
获取您的数据类型DataFrame
列,您可以使用dtypes
i.e :
>>> df.dtypes
[('age', 'int'), ('name', 'string')]
这意味着您的专栏age
属于类型int
and name
属于类型string
.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)