文章目录
- 一、selenium爬取动态网页
- 二、爬虫案例分析
- 三、哈希hash算法与RSA加密
一、selenium爬取动态网页
1、动态网页认知
- 爬虫其实就是在模仿浏览器的行为
- 应对要多次数据的交互模拟的网站,我们有时会遇到像淘宝这样的大型网站,对数据版权看得特别重的,它们的网站有大量的工程师和技术人员去维护,它们也可能在技术手段上采用多次交互数据包的方式来完成网站服务器与用户浏览器之间的交互。如果此时还采用传统的分析数据包的方式会比较的复杂,难度较高。
- 对于这类网页的爬取,我们的解决方案是: Selenium + Chrome驱动。
2、工具的介绍
url编码与解码在线测试工具:http://tool.chinaz.com/tools/urlencode.aspx
在线正则表达式测试工具:https://tool.oschina.net/regex
3、Selenium的认识
一个Web自动化测试工具,最初是为了网站自动化测试而开发的;我们玩游戏有按键精灵; Selenium 也可以做类似的事情,但是它是在浏览器中做这样的事情。
安装:pip install selenium
然后就可以在Python中from selenium import webdriver来测试是否装好。
4、爬虫方案的选择
对Selenium + Chrome驱动这个方案,从理论上来说,只要是用户能够访问的数据,都可以抓取到,但是,从时间、空间、效率上来说,这个方案有些缺陷,尤其是时间方面,可能需要多次尝试。
因此,如果能够使用的get和post的地方,最好就不用selenium
二、爬虫案例分析
1、获取id或者xpath实现登陆
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time
browser = webdriver.Chrome()
def openbrowser():
url = "http://index.baidu.com/"
browser.get(url)
browser.find_element_by_xpath('//*[@id="home"]/div[1]/div[2]/div[1]/div[5]/span/span').click()
time.sleep(3)
account = "XXXX"
passwd = "YYYY"
try:
browser.find_element_by_id("TANGRAM__PSP_4__userName").send_keys(account)
browser.find_element_by_id("TANGRAM__PSP_4__password").send_keys(passwd)
browser.find_element_by_id("TANGRAM__PSP_4__submit").click()
except:
browser.find_element_by_id("TANGRAM_12__password").send_keys(account)
browser.find_element_by_id("TANGRAM_12__userName").send_keys(passwd)
browser.find_element_by_id("TANGRAM_12__submit").click()
time.sleep(3)
2、翻页处理
from selenium import webdriver
import time
cur_driver = webdriver.Chrome()
def go_next_page(cur_driver):
try:
next_page = cur_driver.find_element_by_xpath("").get_attribute('href')
cur_driver.get(next_page)
time.sleep(3)
return True
except Exception as e:
print(e)
print("next page is not found!")
return False
3、滚屏操作
def scroll_to_bottom():
print("scroll down")
for i in range(50):
weibo_driver.excute_script('window.scrollTo(0,document.body.scrollHeight)')
html = weibo_driver.page_source
tr = etree.HTML(html)
next_page_url = tr.xpath("")
if len(next_page_url) > 0:
return next_page_url[0].get('href')
if len(re.findall("点击重新输入",html)) > 0:
print("加载失败,请重新加载!")
weibo_driver.find_element_by_link_text("点击重新载入").click()
time.sleep(2)
三、哈希hash算法与RSA加密
1、哈希算法
import hashlib
def hashStr(ss):
h = hashlib.md5()
h.update(ss.encode("utf-8"))
return h.hexdigest()
chunkSize = 4096
def hashFile(hashName):
h = hashlib.sha256()
with open(hashName,"rb") as f:
while True:
chunk = f.read(chunkSize)
if not chunk:
break
h.update(chunk)
return h.hexdigest()
if __name__ == "__main__":
print(hashStr("hello world"))
print(hashFile("note.txt"))
2、RSA加密
- RSA加密算法是一种非对称加密算法,加密算法不重要,秘钥才能保密。
- 秘钥:如果加解密用同一个秘钥,对称加密;如果加解密用两个不同的秘钥,非对称加密(有两个秘钥:公钥,私钥)
- 用公钥加密的数据需要使用私钥来解;用私钥加密的数据需要使用公钥来解;公钥可以随便给别人,私钥不能给
- HTTPS使用的是非对称加密:服务器、客户端、浏览器
- 通信的过程:服务器把数据用私钥加密,把加密之后的数据和公钥一起发给客户端;完成一次通信。
- 客户端把要发给服务器的数据用服务器所给的公钥加密,然后传给服务器;完成一次通信,服务器可以用私钥来解密。
n = p*q,当n是一个巨大的数时,理论上在有限的时间之内这个两个质数p,q是分解不出来。则p,q是私钥,n就是公钥
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)