我的 pandas 数据框如下,
loc_1 loc_2
[mumbai, gujarat, sri lanka] [chennai, UP]
[Goa, telangana] [Kashmir, Goa, Rajkot]
NaN [Bihar, Orissa]
我想创建一个新列,它是上述两列的组合,
我确实搜索了其他类似的问题,但我面临的问题是,
当我做,
data['locations'] = data['loc_1'] + data['loc_2']
Output
--------
loc_1 loc_2 locations
[mumbai, gujarat, sri lanka] [chennai, UP] [mumbai, gujarat, sri lanka,chennai, UP]
[Goa, telangana] [Kashmir, Goa, Rajkot] [Goa, telangana,Kashmir, Goa, Rajkot]
NaN [Bihar, Orissa] NaN
Issue
正如您在上面看到的,存在重复值以及形成的 NaN 值。
如何避免它们?
Remember
原始数据集包含列表、str 和 NaN 格式的值。
Dataset:
loc = pd.DataFrame({
'loc_1': [['mumbai', 'gujarat', 'sri lanka'],['Goa', 'telangana'],np.nan],
'loc_2':[['chennai','UP'],['kashmir','goa','rajkot'],['bihar','orissa']],
'loc_3':['Chennai','Bangalore','Vizag']
})