我的问题与此主题类似从 pandas 中具有多个值的列创建虚拟对象
目标:我想在下面产生类似的结果,但使用 dask
在熊猫中
import pandas as pd
df = pd.DataFrame({'fruit': ['Banana, , Apple, Dragon Fruit,,,', 'Kiwi,', 'Lemon, Apple, Banana', ',']})
df['fruit'].str.get_dummies(sep=',')
这将输出以下内容:
Apple Banana Dragon Fruit Banana Kiwi Lemon
0 1 1 0 1 1 0 0
1 0 0 0 0 0 1 0
2 0 1 1 0 0 0 1
3 0 0 0 0 0 0 0
上面的 get_dummies() 类型是
现在的问题是没有 get_dummies() 用于 dask 等效
如何使用 dask 解决我的问题?
显然这在 dask 中是不可能的,因为我们事先不知道输出列。看https://github.com/dask/dask/issues/4403.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)