我尝试跟随这个帖子但是,它似乎对我不起作用。
我尝试了这段代码:
for bresult in response.css(LIST_SELECTOR):
NAME_SELECTOR = 'h2 a ::attr(href)'
yield {
'name': bresult.css(NAME_SELECTOR).extract_first(),
}
b_result_list.append(bresult.css(NAME_SELECTOR).extract_first())
#set b_result_list to SET to remove dups, then change back to LIST
set(b_result_list)
list(set(b_result_list))
for brl in b_result_list:
print("brl: {}".format(brl))
这打印出:
brl: https://facebook.site.com/users/login
brl: https://facebook.site.com/users
brl: https://facebook.site.com/users/login
当我只需要:
brl: https://facebook.site.com/users/login
brl: https://facebook.site.com/users
我在这里做错了什么?
谢谢你!
当您需要保存结果时,您正在丢弃它......b_result_list
实际上从未改变......所以你只是迭代原始列表。而是保存结果set
手术
b_result_list = list(set(b_result_list))
(注意set
s 不保留顺序)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)