我遇到了使用 FuzzyWuzzy 库将所有结果存储在数据框列中的挑战(我猜它可能需要循环?)我一整天都在摸索这个问题,现在我想看看你们谁能帮我解决问题!会超级有帮助的!
作为我想做的一个例子,这里有 2 个数据框表......
主表
+----+-----------------+
| ID | ITEM |
+----+-----------------+
| | |
| 1 | Pepperoni Pizza |
| | |
| 2 | Cheese Pizza |
| | |
| 3 | Chicken Salad |
| | |
| 4 | Plain Salad |
+----+-----------------+
查找表
+--------------+---+
| LOOKUP VALUE | - |
+--------------+---+
| | |
| Cheese | - |
| | |
| Salad | - |
+--------------+---+
本质上,我试图针对主表中的整个值列表使用查找表的值,并将结果存储在第三个表中。
这就是我想要的最终输出的样子......
+--------------+----------------------------+-------------------+
| LOOKUP VALUE | MATCHED VALUES | MATCHED VALUE IDS |
+--------------+----------------------------+-------------------+
| | | |
| Cheese | Cheese Pizza | 2 |
| | | |
| Salad | Chicken Salad, Plain Salad | 3,4 |
+--------------+----------------------------+-------------------+
我了解 Fuzzy Wuzzy 的基础知识,我是这样开始的:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
choices = ["Pepperoni Pizza","Cheese Pizza","Chicken Salad", "Plain Salad"]
process.extract("salad",choices,limit=2)
Output= [('鸡肉沙拉', 90), ('原味沙拉', 90)]
很好,但是如何以系统的方式做到这一点,针对主表中的所有值运行我的所有查找值?
非常感谢您阅读我的文章!