我有一个数据框原始数据,我必须在 X 列上应用值 CB、CI 和 CR 的过滤条件。所以我使用了下面的代码:
df = dfRawData.filter(col("X").between("CB","CI","CR"))
但我收到以下错误:
Between() 恰好需要 3 个参数(给定 4 个)
请让我知道如何解决这个问题。
功能between
用于检查值是否在两个值之间,输入是下限和上限。它不能用于检查列值是否在列表中。为此,请使用isin
:
import pyspark.sql.functions as f
df = dfRawData.where(f.col("X").isin(["CB", "CI", "CR"]))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)