提示:该段代码只可爬取4399页面的代码和图片,适合新手爬虫入门学习
代码
代码如下:
import urllib.request
import re
import webbrowser
import requests
from urllib.request import urlopen#用于获取网页
from bs4 import BeautifulSoup#用于解析网页
res=requests.get('http://www.4399.com/')
res.raise_for_status()#查看状态判断异常
f=open('C:\\Users\\YANGNAI\\Documents\\4399页面.txt',"wb")#抓取的网页代码保存位置
for chunk in res.iter_content(100000):
f.write(chunk)
m=input()
webbrowser.open(m)
url="http://www.4399.com/" #4399的网站
respose1=urllib.request.urlopen(url)
page=respose1.read()
listurl=re.findall(r'http://[a-zA-Z0-9\._/]+\.jpg',str(page))
i=0
for u in listurl :
print('正在下载中...')
f=open('C:\\Users\\YANGNAI\\Pictures\\Camera Roll\\'+str(i)+'个.jpg',"wb+")#抓取网页上的图片并保存
rep= urllib.request.urlopen(u)
buf= rep.read()
f.write(buf)
print("下载完成"+str(i)+"张图片")
i+=1
print("全部下载完成")
html = urlopen('http://www.4399.com/')
bsObj = BeautifulSoup(html, 'html.parser')
t1 = bsObj.find_all('a')
for t2 in t1:
t3 = t2.get('href')
print(t3)
总结
文件保存的地址根据个人进行设置,python模块记得下载,根据名称pip install xxx就可。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)