[python爬虫] 爬取图片无法打开或已损坏的简单探讨

2023-11-11

        本文主要针对python使用urlretrieve或urlopen下载百度、搜狗、googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨。同时,作者将进一步帮你巩固selenium自动化操作和urllib库等知识。
        感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~

一. 引入Selenium自动爬取百度图片

        下面这部分Selenium代码的主要功能是:
            1.先自动运行浏览器,并访问百度图片链接:http://image.baidu.com/
            2.通过driver.find_element_by_xpath()函数获取输入框的位置;
            3.在输入框中自动输入搜索关键词"邓肯",再输入回车搜索"邓肯"相关图片;
            4.再通过find_element_by_xpath()获取图片的原图url,这里仅获取一张图片;

            5.调用urllib的urlretrieve()函数下载图片。
        最后整个动态效果如下图所示,但是图片却无法显示:


        代码如下:

# -*- coding: utf-8 -*-
import urllib
import re
import time
import os
from selenium import webdriver          
from selenium.webdriver.common.keys import Keys 
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.action_chains import ActionChains         

#Open PhantomJS
#driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
driver = webdriver.Firefox() 
wait = ui.WebDriverWait(driver,10)

#Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
driver.get(url)
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")  
elem_inp.send_keys(name)  
elem_inp.send_keys(Keys.RETURN)
time.sleep(5)

#Get the URL of Pictures
#elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a")
elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")
elem_url = elem_pic.get_attribute("src")
print elem_url

#Download Pictures
driver.get(elem_url)
urllib.urlretrieve(elem_url,"picture.jpg")
print "Download Pictures!!!"

二. 简单分析原因及知识巩固

       1.urllib.urlretrieve()
       通过urlretrieve()函数可设置下载进度发现图片是一下子就加载的。这里给大家巩固这个urlretrieve函数的方法和Python时间命名方式,代码如下:

# -*- coding: utf-8 -*-
import urllib
import time
import os

#显示下载进度
def schedule(a,b,c):
    #a:已下载的数据块 b:数据块的大小 c:远程文件的大小
    per = 100.0 * a * b / c
    if per > 100 :
        per = 100
    print '%.2f%%' % per

if __name__ == '__main__':
    url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
    #定义文件名 时间命名
    t = time.localtime(time.time())
    #反斜杠连接多行
    filename = str(t.__getattribute__("tm_year")) + "_" + \
               str(t.__getattribute__("tm_mon")) + "_" + \
               str(t.__getattribute__("tm_mday"))
    target = "%s.jpg" % filename
    print target
    urllib.urlretrieve(url,target,schedule)
    print "Download Picture!!!"

        发现该图片的大小仅为168字节,其中输出结果如下图,获取的URL地址如下:
http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg 
而换张图片是能显示下载进度的,如我的头像。显然我想让程序加个进度就能爬取图片的想法失败。头像地址:http://avatar.csdn.net/F/8/5/1_eastmount.jpg

        猜测可能获取的百度URL不是原图地址,或者是个服务器设置了相应的拦截或加密。参考"Python爬虫抓取网页图片",函数相关介绍如下:

>>> help(urllib.urlretrieve)
Help on function urlretrieve in module urllib:
urlretrieve(url, filename=None, reporthook=None, data=None)

参数url:
    指定的下载路径
参数 finename:
    指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)
参数 reporthook:
    是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,
    我们可以利用这个回调函数来显示当前的下载进度。
参数 data:
    指 post 到服务器的数据,该方法返回一个包含两个元素的(filename, headers)元组,
    filename 表示保存到本地的路径,header 表示服务器的响应头。

       2.urllib2.urlopen()
       换个方法urlopen()实现,同时设置消息头试试,并输出信息和图片大小。

# -*- coding: utf-8 -*-
import os      
import sys    
import urllib
import urllib2

#设置消息头
url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \
        AppleWebKit/537.36 (KHTML, like Gecko) \
        Chrome/35.0.1916.114 Safari/537.36',
    'Cookie': 'AspxAutoDetectCookieSupport=1'
}
request = urllib2.Request(url, None, header)
response = urllib2.urlopen(request)
print response.headers['Content-Length']

with open("picture.jpg","wb") as f:
    f.write(response.read())
print response.geturl()
print response.info()    #返回报文头信息
print urllib2.urlopen(url).read()
        返回内容是”HTTPError: HTTP Error 403: Forbidden“,Selenium打开如下:


        其中403错误介绍如下,服务器拒绝服务:


        换成我的博客图像那张图是能下载的,同时设置消息头和代理,推荐一篇文章:
        [Python]网络爬虫(五):urllib2的使用细节与抓站技巧


三. 解决方法

        主要参考三篇文章和自己的一些想法:
        selenium+python 爬取网络图片(2) -- 百度
        Python 3 多线程下载百度图片搜索结果
        CSDN博客搬家到WordPress  - curl设置headers爬取

        第一个方法 F12审查元素和SRC的骗局
        这是感谢"露为霜"同学提供的方法,如果你通过浏览器点开百度搜索"邓肯"的第一张图片,复制网址后,会发现图片真实的地址为:
        http://gb.cri.cn/mmsource/images/2015/11/22/sb2015112200073.jpg
        此时你再分析百度搜索页面,你会发现"F12审查元素和获取src元素的行为欺骗了你",正是因为它俩定位到了错误的图片链接。而真实的URL是在"ul/li/"中的"data-objurl"属性中。

        代码如下:

# -*- coding: utf-8 -*-
import urllib
import re
import time
import os
from selenium import webdriver          
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui        
from selenium.webdriver.common.action_chains import ActionChains

#Open PhantomJS
#driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
driver = webdriver.Firefox() 
wait = ui.WebDriverWait(driver,10)

#Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
driver.get(url)
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")  
elem_inp.send_keys(name)  
elem_inp.send_keys(Keys.RETURN)
time.sleep(5)

#Get the URL of Pictures
num = 1
elem_pic = driver.find_elements_by_xpath("//div[@class='imgpage']/ul/li")
for elem in elem_pic:
    elem_url = elem.get_attribute("data-objurl")
    print elem_url
    #Download Pictures
    name = "%03d" % num
    urllib.urlretrieve(elem_url, str(name) + ".jpg")
    num = num + 1
else:
    print "Download Pictures!!!"
        运行代码成功爬取了9张图片,显然成功了!虽然最后报错:IOError: [Errno socket error] [Errno 10060] ,只爬取了9张图片,但是至少可以正确解决了该问题。运行截图如下所示:
        同样的道理,googto的elem.get_attribute("src")改成elem.get_attribute("data-imgurl")即可获取正确的图片地址并正确下载。
        PS:百度图片动态加载的功能是非常强大的,当你的鼠标拖动时,它会自动增加新的页面,在<ul>中包括新的一批<li>张图片,这也是不同于其它网页在右下角点击"1、2、3..."翻页的,可能也会成为海量图片爬取的又一难点。

        第二个方法 Selenium使用右键另存为
        还是使用老的链接,虽然读取是无法显示的,但尝试通过Selenium的鼠标右键另存为功能,看能不能爬取成功。

# -*- coding: utf-8 -*-
import urllib
import re
import time
import os
from selenium import webdriver          
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui        
from selenium.webdriver.common.action_chains import ActionChains

#Open PhantomJS 
driver = webdriver.Firefox()
wait = ui.WebDriverWait(driver,10)

#Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
driver.get(url)
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")  
elem_inp.send_keys(name)  
elem_inp.send_keys(Keys.RETURN)
time.sleep(5)

#Get the URL of Pictures
elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")
elem_url = elem_pic.get_attribute("src")
print elem_url

#鼠标移动至图片上 右键保存图片
driver.get(elem_url)
print driver.page_source
elem = driver.find_element_by_xpath("//img")
action = ActionChains(driver).move_to_element(elem)
action.context_click(elem) #右键  

#当右键鼠标点击键盘光标向下则移动至右键菜单第一个选项
action.send_keys(Keys.ARROW_DOWN)
action.send_keys('v') #另存为
action.perform()
print "Download Pictures!!!"
        运行效果如下图所示。虽然它能实现右键另存为,但是需要手动点击保存,其原因是selenium无法操作操作系统级的对话框,又说"set profile"代码段的设置能解决问题的并不靠谱。通过钩子Hook函数可以实现,以前做过C#的钩子自动点击功能,但是想到下载图片需要弹出并点击无数次对话框就很蛋疼,所以该方法并不好!
        钩子函数java版本结合robot可以阅读下面这篇文章:
        selenium webdriver 右键另存为下载文件(结合robot and autoIt)

 

        第三个方法 通过Selenium自动点击百度的下载按钮
        其实现过程就是通过Selenium找到"下载"按钮,再点击或获取链接即可。
        该方法参考文章:selenium+python 爬取网络图片(2) -- 百度
        同时,这里需要强调百度动态加载,可以通过Selenium模拟滚动窗口实现,也参考上面文章。其中核心代码为:
        driver.maximize_window()
        pos += i*500   # 每次下滚500
        js = "document.documentElement.scrollTop=%d" % pos
        driver.execute_script(js)

       第四个方法 百度图片解码下载及线程实现
       参考文章:Python 3 多线程下载百度图片搜索结果

       最近看了一些优秀的文章,真心感觉自己缕蚁一般,太过渺小,还有好多知识需要学习啊!加油~而且不知道现在自己做的这些东西是否有用?心理的几个想法一直还未实现,挺担心的。还是自己博客描述那句话:
       无知的自己 · 乐观的面对 · 谦逊的学习 · 低调的前行 · 更要会生活
       希望文章对你有所帮助,如果有错误或不足之处,还请海涵~
      (By:Eastmount 2015-12-07 清晨6点  http://blog.csdn.net/eastmount/  

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

[python爬虫] 爬取图片无法打开或已损坏的简单探讨 的相关文章

随机推荐

  • vivado烧录程序搜索不到设备,烧录卡住不动

    烧录程序找不到设备或者设备不可用 烧录过程卡主不动 可以排除驱动问题的前提 解决方法 1 先观察jtag的指示灯 红灯有问题 可能fpga电源未开 接口松动 观察板子的初始程序是否启动成功 如果没有启动成功 jtag指示器也会是绿的 但是搜
  • springboot 过滤器异常处理,filter exception catch

    参考地址 java How to manage exceptions thrown in filters in Spring Stack Overflow
  • 经验积累①:关于设备程序的版本迭代方案详解

    关于设备程序的版本迭代方案详解 一 案例描述 对于嵌入式应用层来说 需要对设备的很多参数进行保存 为了使得这些配置参数掉电不丢失 因此在flash中生成配置文件用于保存设备参数 每当设备重启后 将参数读出 重发给设备 由于生成了可变的配置文
  • event_base_loop

    函数 int event base loop struct event base int 等待事件被触发 然后调用它们的回调函数 这是 event base dispatch的更灵活版本 默认情况下 这个循环会一直运行 直到没有添加的事件
  • 在macOS下安装和配置MySQL数据库

    一 到社区下载安装包 官网地址 MySQL MySQL Community Downloadshttps dev mysql com downloads MySQL Download MySQL Community Serverhttps
  • 身边的逻辑学——过度概括(1)

    过度概括 overgeneralization 概括与过度概括有何不同 概括知识是暂定的 因为它基于对经验的概括 原则上 下一个经验很可能出乎你的意料之外 使你 我们每个人 不得不对先前概括得出的结论感到怀疑 了解概括的本质有助于发现真理
  • C/C++ vs2017连接MySQL数据库 - 增删改查(详细步骤)

    在开发中 数据库是必不可少 这篇文章将介绍使用C C 如何进行连接MySQL数据库 并实现增删改查操作 注意 此篇文章所讲的是C C 如何操控MySQL进行简单的 常用的 增删改查 的操作 目录 一 配置Visual Studio 二 C
  • 不可不说的Java“锁”事

    前言 Java提供了种类丰富的锁 每种锁因其特性的不同 在适当的场景下能够展现出非常高的效率 本文旨在对锁相关源码 本文中的源码来自JDK 8 使用场景进行举例 为读者介绍主流锁的知识点 以及不同的锁的适用场景 Java中往往是按照是否含有
  • ACL访问控制列表原理及实例

    目录 一 ACL概述 1 ACL访问控制列表作用 2 ACL访问控制列表工作原理 3 ACL访问控制列表处理过程原则 二 ACL访问控制列表类型 1 标准访问控制列表 2 扩展访问控制列表 三 配置实例 1 要求 用标准访问控制列表 vla
  • qt modules public internal 私有头文件 private

    qt对源码进行了分层 把数据成员都单独拉到一个 p h的头文件中 形成internal部分的接口类Qt之二进制兼容 qt p h 文件的用途是什么 qt不建议用户使用internal部分的接口类 因为不同平台和不用版本的qt interna
  • sort函数的时间、空间复杂度

    sort函数进行排序的时间复杂度为n log2n 原理 不是简单的快排 STL的sort 算法 数据量大时采用Quick Sort 分段递归排序 一旦分段后的数据量小于某个门槛 为避免Quick Sort的递归调用带来过大的额外负荷 就改用
  • Grade for Android(从 Gradle 和 AS 开始)

    http www open open com lib view open1451536597026 html 正如大家所见 这是本英文书 而由于国内的gradle翻译资料不全 所以特次开辟专栏 翻译gradle for android这本书
  • 基于JWT的springboot权限验证技术实现

    JWT简介 Json Web Token JWT JSON网络令牌 是为了在网络应用环境间传递声明而制定的一种基于JSON的开放标准 RFC 7519 JWT是一个轻便的安全跨平台传输格式 定义了一个紧凑的自包含的方式用于通信双方之间以 J
  • 通过Navicat创建ER图技巧笔记

    1 通过已有数据库逆向创建模型时 切忌一次生成所有表ER图 建议先将所有表添加到模型 然后依次从上至下添加到图表 2 单张图表可以通过图表模式进行重命名 在左侧图表窗口最上方 右键当前图表 gt 重命名 gt 修改 3 单张图表不宜过大 4
  • 解决vscode jupyter启动kernel错误的方案Failed to connect to Jupyter notebook.

    最近在vscode里面运行 ipynb文件的时候经常性地会出现报错情况 报错的图片内容如下 Failed to connect to Jupyter notebook 经过网上一番查阅方法之后 终于将配件搭建好了 解决方法为输入如下命令 p
  • 【Unity 学习笔记】动画系统(续)和事件

    在上一篇笔记中 我们使用Unity的动画系统实现了移动和跳跃的动画 在这一篇笔记中我们将使用Unity事件的方式来实现受伤和死亡的动画 首先创建一个受伤动画 由于素材中没有现成的受伤动画 我们只能手动创建一个简陋的闪烁动画 主要现实在角色受
  • java变量的类别和作用范围

    1 类别及作用范围 类变量 在类中用static修饰的字段 存储位置 方法区 生命周期 随着JVM的消亡而消失 生命周期最长 局部变量 在方法中存在的 或者形参 存储位置 栈帧中 生命周期 随着方法的调用而存在 生命周期最短 实例变量 在类
  • GCC编译器-<嵌入式Linux应用程序开发标准教程>-华清远见

    3 3 gcc编译器 GNU CC 简称为gcc 是GNU项目中符合ANSI C标准的编译系统 能够编译用C C 和Object C等 语言编写的程序 gcc不仅功能强大 而且可以编译如C C Object C Java Fortran P
  • LA@特征值和特征向量的性质

    文章目录 方阵特征值和特征向量的性质 特征值之和 特征值之积 推论 特征值判定方阵的可逆性 证明 小结 导出性质 可逆矩阵的特征值性质 转置矩阵和特征值 矩阵多项式的特征值 不同特征值的特征向量线性无关定理 推论 推广 特征向量线性组合 特
  • [python爬虫] 爬取图片无法打开或已损坏的简单探讨

    本文主要针对python使用urlretrieve或urlopen下载百度 搜狗 googto 谷歌镜像 等图片时 出现 无法打开图片或已损坏 的问题 作者对它进行简单的探讨 同时 作者将进一步帮你巩固selenium自动化操作和urlli