我有 R 背景,我正在尝试复制mutate()
pandas 中 dplyr 的函数。
我有一个如下所示的数据框:
data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
'age': [42, 52, 36, 24, 73],
'preTestScore': [4, 24, 31, 2, 3],
'postTestScore': [25, 94, 57, 62, 70]}
df = pd.DataFrame(data, columns = ['name', 'age', 'preTestScore', 'postTestScore'])
我现在正在尝试创建一个名为的新专栏age_bracket
using assign
方法如下:
(df.
assign(age_bracket= lambda x: "under 25" if x['age'] < 25 else
("25-34" if x['age'] < 35 else "35+"))
这引发了以下我无法理解的错误:
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()
我对以下解决方案不感兴趣:
df['age_bracket'] = np.where(df.age < 25, 'under 25',
(np.where(df.age < 35, "25-34", "35+")))
因为我不希望底层 df 改变。我正在尝试更好地进行方法链接,这样我就可以以不同的方式快速探索我的 df,而无需更改底层 df。
有什么建议么?