您可以存储一些条件系列np.where()
然后将它们应用到数据框:
s1 = np.where(df['p'] < df['q'], df['q'], df['p'])
s2 = np.where(df['p'] > df['q'], df['q'], df['p'])
df['p'] = s1
df['q'] = s2
df
Out[1]:
p q
0 0.5 0.5
1 0.6 0.4
2 0.7 0.3
3 0.6 0.4
4 0.9 0.1
你也可以使用.where()
:
s1 = df['p'].where(df['p'] > df['q'], df['q'])
s2 = df['p'].where(df['p'] < df['q'], df['q'])
df['p'] = s1
df['q'] = s2
df
我测试了从 100 行到 100 万行的不同行的执行时间,以及需要通过的答案axis=1
can be 10,000 times slower!
:
- Erfan 的 numpy 答案看起来是大型数据集以毫秒为单位执行最快的答案
- My
.where()
答案也具有出色的性能,可以将执行时间保持在毫秒级(我假设`np.where()会有类似的结果。
- 我以为MHDG7的答案会是最慢的,但实际上它比Alexander的答案更快。
- 我猜亚历山大的回答很慢,因为它需要通过
axis=1
。事实上,MGDG7 和 Alexander 的答案是逐行的(其中axis=1
),这意味着对于大型数据帧来说它会大大减慢速度。
正如您所看到的,一百万行数据帧需要几分钟才能执行。而且,如果您有 1000 万行到 1 亿行的数据帧,这些单行代码可能需要几个小时才能执行。
from timeit import timeit
df = d.copy()
def df_where(df):
s1 = df['p'].where(df['p'] > df['q'], df['q'])
s2 = df['p'].where(df['p'] < df['q'], df['q'])
df['p'] = s1
df['q'] = s2
return df
def agg_maxmin(df):
df[['p', 'q']] = df[['p', 'q']].agg([max, min], axis=1)
return df
def np_flip(df):
df = pd.DataFrame(np.flip(np.sort(df), axis=1), columns=df.columns)
return df
def lambda_x(df):
df = df.apply(lambda x: [x['p'],x['q']] if x['p']>x['q'] else [x['q'],x['p']],axis=1,result_type='expand')
return df
res = pd.DataFrame(
index=[20, 200, 2000, 20000, 200000],
columns='df_where agg_maxmin np_flip lambda_x'.split(),
dtype=float
)
for i in res.index:
d = pd.concat([df]*i)
for j in res.columns:
stmt = '{}(d)'.format(j)
setp = 'from __main__ import d, {}'.format(j)
print(stmt, d.shape)
res.at[i, j] = timeit(stmt, setp, number=1)
res.plot(loglog=True);