driver.page_source
selenium的page_source方法可以获取到页面源码
跟爬虫有点相似,获取到页面资源,提取出我们需要的信息
案例
以煎蛋网为例,获取首页的全部title(获取页面源码 -- 使用re正则提取需要的title)
代码
#coding:utf-8
from selenium import webdriver
import re
class JianDan():
def __init__(self):
self.browser = webdriver.Chrome()
self.browser.get("http://jandan.net/")
self.browser.maximize_window()
self.browser.implicitly_wait(3)
def get_page_title(self):
self.page = self.browser.page_source
# 非贪婪匹配,匹配所有满足'target="_blank">....</a></h2>'格式的信息,结果显示是一个列表
self.titles = re.findall(r'target="_blank">(.*?)</a></h2>',self.page)
for title in self.titles:
print(title)
if __name__ == '__main__':
jian_dan = JianDan()
jian_dan.get_page_title()
结果