Pandas 模糊检测重复项

2024-03-06

如何在 pandas 中使用模糊匹配来检测重复行(有效)

如何在没有将 row_i 转换为 String() 然后将其与所有其他列进行比较的巨大 for 循环的情况下查找一列与所有其他列的重复项?


不是 pandas 特有的,而是在 python 生态系统中重复数据删除 Python 库 https://github.com/datamade/dedupe似乎会做你想做的事。特别是,它允许您单独比较行的每一列,然后将信息组合成匹配​​的单个概率分数。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas 模糊检测重复项 的相关文章

随机推荐