为了抓取 URL 池,我使用 joblib 并行处理 selenium。在此背景下,我面临两个挑战:
- 挑战 1 是加快这一进程。目前,我的代码为每个 URL 打开和关闭一个驱动程序实例(理想情况下每个进程都有一个驱动程序实例)
- 挑战 2 是摆脱我认为需要的 CPU 密集型 while 循环
continue
空结果(我知道这很可能是错误的)
伪代码:
URL_list = [URL1, URL2, URL3, ..., URL100000] # List of URLs to be scraped
def scrape(URL):
while True: # Loop needed to use continue
try: # Try scraping
driver = webdriver.Firefox(executable_path=path) # Set up driver
website = driver.get(URL) # Get URL
results = do_something(website) # Get results from URL content
driver.close() # Close worker
if len(results) == 0: # If do_something() failed:
continue # THEN Worker to skip URL
else: # If do_something() worked:
safe_results("results.csv") # THEN Save results
break # Go to next worker/URL
except Exception as e: # If something weird happens:
save_exception(URL, e) # THEN Save error message
break # Go to next worker/URL
Parallel(n_jobs = 40)(delayed(scrape)(URL) for URL in URL_list))) # Run in 40 processes
我的理解是,为了在迭代中重用驱动程序实例,# Set up driver
-线需要放在外面scrape(URL)
。然而,外面的一切scrape(URL)
找不到通往 joblib 的路Parallel(n_jobs = 40)
。这意味着您在使用 joblib 进行抓取时无法重用驱动程序实例,但事实并非如此。
Q1:上例中并行处理时如何重用驱动程序实例?
Q2:如何在保持上述示例中的功能的同时摆脱 while 循环?
注意:Flash 和图像加载在firefox_profile
(代码未显示)
1)您应该首先创建一堆驱动程序:每个进程一个。并将一个实例传递给工人。我不知道如何将驱动程序传递给 Prallel 对象,但您可以使用threading.current_thread().name
识别驱动程序的关键。为此,请使用backend="threading"
。所以现在每个线程都有自己的驱动程序。
2)你根本不需要循环。并行对象本身迭代您的所有网址(我希望我真的理解您使用循环的意图)
import threading
from joblib import Parallel, delayed
from selenium import webdriver
def scrape(URL):
try:
driver = drivers[threading.current_thread().name]
except KeyError:
drivers[threading.current_thread().name] = webdriver.Firefox()
driver = drivers[threading.current_thread().name]
driver.get(URL)
results = do_something(driver)
if results:
safe_results("results.csv")
drivers = {}
Parallel(n_jobs=-1, backend="threading")(delayed(scrape)(URL) for URL in URL_list)
for driver in drivers.values():
driver.quit()
但我真的不认为使用 n_job 比使用 CPU 更能获得利润。所以n_jobs=-1
是最好的(当然我可能是错的,试试吧)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)