Python3 urllib图像检索

2023-12-09

我正在编写一个小的 Python 脚本来通过谷歌图像抓取图像。我已经成功地将我想要的图像的网址放在一个方便的列表中。现在，我只需要抓住它们......

对于每个图像网址我这样做：

    print("Retrieving:{0}".format(sFinalImageURL))
    sExt = sFinalImageURL.split('.')[-1]
    #u = urllib.request.urlopen(sFinalImageURL)
    try:
        u = urllib.request.urlopen(sFinalImageURL)
    except:
        print("error: cannot retrieve image")
        continue
    raw_data = u.read()
    print("read {0} bytes".format(len(raw_data)))
    u.close()
    global sImagesFolder
    try:
        f = open("{0}/{1}_{2}.{3}".format(sImagesFolder,sImage,i,sExt),'wb')
        f.write(raw_data)
        f.close()
    except:
        print("couldn't write to {0}/{1}_{2}.{3}".format(sImagesFolder,sImage,i,sExt))
    print()

以下是我遇到的问题：

即使我可以直接在浏览器中打开 URL，尝试打开一些 URL 也会出现 403 错误。那么图像服务器不喜欢 HTTP 请求标头中的某些内容...有什么想法吗？

这是一些输出：

Retrieving:http://upload.wikimedia.org/wikipedia/commons/thumb/4/43/Timba%2B1.jpg/220px-Timba%2B1.jpg

error: cannot retrieve image

Retrieving:http://upload.wikimedia.org/wikipedia/commons/thumb/2/26/YellowLabradorLooking_new.jpg/260px-YellowLabradorLooking_new.jpg

error: cannot retrieve image
Retrieving:http://1.bp.blogspot.com/-7SsJ1n3RdoA/Tf07NOgD5nI/AAAAAAAAABo/tl8qLLIU01Y/s1600/english-shepherd-dog-0003.jpg

read 11123 bytes

Retrieving:http://completedogfood.net/wp-content/uploads/2010/07/complete-dog-food.bmp
read 419630 bytes

维基百科似乎只允许访问真实的浏览器。
该问题可以通过指定一个来解决User-Agent真实浏览器的字符串，因为Python的urllib发送类似的东西Python-urllib/3.2默认情况下。

这是一个有效的示例（使用User-Agent我使用的浏览器的字符串）：

url = 'http://upload.wikimedia.org/wikipedia/commons/thumb/4/43/Timba%2B1.jpg/220px-Timba%2B1.jpg'
user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.19 (KHTML, like Gecko) Ubuntu/12.04 Chromium/18.0.1025.168 Chrome/18.0.1025.168 Safari/535.19'
u = urllib.request.urlopen(urllib.request.Request(url, headers={'User-Agent': user_agent}))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

urllib

Python3 urllib图像检索的相关文章

为什么 python 对于共享锁抛出“multiprocessing.managers.RemoteError”？

我正在使用 python 3 6 7 和 Ubuntu 18 04 运行以下脚本后每个进程都有自己的共享锁 from multiprocessing import Process Manager def foo l1 with l1 pr
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
找不到仅适用于数字的 Tesseract 4.0 tessdata

正如这篇文章中所说 pytesseract 仅使用 tesseract 4 0 数字不起作用 https stackoverflow com questions 46574142 pytesseract using tesseract 4
带圆角的 Seaborn 条形图

我正在尝试绘制一些条形图但想控制角的圆度我尝试按照堆栈问题中提供的答案进行操作Matplotlib 中带圆角的条形图 https stackoverflow com questions 58425392 bar chart with r
如何在 Windows 上使用 Python 3.6 来安装 Python 2.7

我想问一下如何使用pip install对于 Python 2 7 当我之前安装并使用 Python 3 6 时我现在必须使用 Windows 上的 Python 版本 pip install 继续安装 Python 3 6 我需要使用以
ipython3 笔记本垂直边距/标记线为 80 个字符

如何使 ipython3 笔记本在 80 个字符处显示垂直边距标记线如何获取 ipython3 笔记本中的 i bar 位置例如第 30 行第 56 个字符这些功能有助于编写符合 PEP8 的代码 Spyder 中提供了这些功能更
将此 MATLAB 代码转换为 Python 时我做错了什么？

我正在努力将生成波形的 MATLAB 代码转换为 Python 就上下文而言这是原子力显微镜带激发响应的模拟与代码错误无关在 MATLAB 中从 r vec 生成的图形与我在 Python 中生成的图形不同我是否正确地将 MATLA
python：动态添加属性到内置类

为什么它不适用于内置类使用子类是修复它的最佳方法还是会遇到一些隐藏的问题 a a p 1 raises AttributeError class B dict pass b B b p 1 works 编辑我最初的评论是它不起作用b不
Python 3.4.3 tkinter - 程序在声明 IntVar 或任何其他 tkinter 数据类型时冻结

上一主题 Python 3 4 tkinter checkbutton变量处理不起作用响应 https stackoverflow com questions 33711472 python 3 4 tkinter checkbutton
从终端调用时 uvicorn 不工作

我尝试通过 pip3 在系统上安装 uvicorn 这有效但是我无法从命令行运行相同的命令有关如何解决此问题的任何指示 Requirement already satisfied uvicorn in home vhawk19 loca
将 csv 文件按多列拆分为 panda 数据框

我有一个包含多列的 tsv 文件有 10 多列但对我来说重要的列是名称为 user name shift id url id 的列我想创建一个数据框首先根据用户名分隔整个 csv 文件即只有具有相同用户名的行才会分组在一起从该块
如何将时间间隔划分为不同长度的部分？

我有一个从 0 到t 我想把这个区间分成一个以2 25 2 25 1 5为周期的累积序列方法如下 input start 0 stop 19 output sequence 0 2 25 4 5 6 8 25 10 5 12 14 25
Python（openpyxl）：将数据从一个excel文件转移到另一个（模板文件）并用另一个名称保存，同时保留模板

我有一个templateexcel 文件名为template xlsx其中有许多张我想从单独的地方复制数据 csv文件到第一页template xlsx 命名为data 并将新文件另存为result xlsx同时保留原来的模板文件我想粘
如果新文件不存在则写入新文件，如果存在则追加到文件

我有一个程序可以写入用户的highscore到一个文本文件该文件由用户选择时命名playername 如果具有该特定用户名的文件已经存在那么程序应该附加到该文件以便您可以看到多个highscore 如果具有该用户名的文件不存在例如
仅打印字符串中的元音

我是Python新手我正在尝试打印字符串中的所有元音因此如果有人输入嘿一切都好吗所有元音都需要打印但我不知道怎么做所以这不是计算元音而是打印元音现在我已经得到了这个 sentence input Enter your s
当我运行反应脚本“yarn start”时，我到index.html中的manifest.json的链接有效，但当我运行“python3 manage.py runserver”时则无效

当我运行 yarn start 时我的index html 文件中的manifest json 链接工作正常但是当我运行时 python3 manage py runserver 我在终端得到的只是 Not Found manifest
需要根据数据框中的行号应用不同的公式

我正在努力在数据框中找到某种移动平均值该公式将根据正在计算的行数而变化实际场景是我需要计算Z列 Edit 2 以下是我正在使用的实际数据 Date Open High Low Close 0 01 01 2018 1763 95 176
在 SQLAlchemy 中，过滤器是在连接之前还是之后应用？

使用 SQLAlchemy 我执行如下查询 import models as m import sqlalchemy as sa s session maker q s query m ShareCount m Article join m
为什么 pip 已经是最新的了却要求我升级？

我全新安装了 python 3 7 1 64 位并使用最新的 pyCharm 作为我的 IDE 我在这台机器上没有安装其他 python 我去安装 numpy 并收到以下消息 venv C Users John PycharmProjec
“KMeans”对象没有属性“k”

我使用 Yellowbrick 包绘制数据集的肘部曲线以使用 KMeans 作为模型找到数据集的最佳簇数我正在使用 Scikit learn KMeans 和 Yellowbrick kelbowvisualizer 函数生成了肘部曲

随机推荐

正则表达式 - PCRE (PHP) - 单词边界 (\b) 和重音字符

为什么这封信算作单词边界匹配 b在下面的例子中图案 b cum b i Text cum 匹配不需要的 cum 有可能克服这个吗当您添加u正则表达式的修饰符 b cum b iu
在 weblogic 上访问 Mbean

来自 oracle 的文档域运行时 MBean 服务器此 MBean 服务器也充当单个驻留在托管服务器上的 MBean 的访问点我想要做的是利用这个事实来访问分散在多个托管服务器中的所有自定义 mBean 例如假设我有两个节点 se
Roslyn – 自定义构建错误扩展

目前是否有一种方法可以扩展 Roslyn 编译并添加一些自定义规则集这些规则集会破坏构建并显示在 VisualStudio 的错误列表中我搜索 StackOverflow 但没有有效的答案也许最近在这个主题中出现了一些东西或者也许有
与 Mongo 聚合的运算符 $arrayElemAt < 3.2

使用聚合蒙戈框架我怎样才能达到相同的结果蒙戈 as in 蒙戈3 2随着操作 arrayElemAt Mongo 3 2 中的示例收藏 id 1 name dave123 favorites chocolate cake butter
使 JFormattedTextField 接受 3 位以上的小数

我有一个JFormattedTextField它应该能够接受超过 3 位小数的双数它接受条目0 1 0 01 0 001但拒绝0 0001以及具有更多小数位的数字这就是我的代码现在的工作方式 DecimalFormat decimalF
使用 confint() 估计 GLMM CI 时出错

我有一组装有二元响应变量和一组连续变量的 GLMM 我想获得每个模型的置信区间我一直在使用confint 功能在 95 并且与profile方法如果将其应用于没有交互的模型那么它的工作不会出现任何问题然而当我申请时confint
用模板专门化一个模板

我有一个免费函数模板如下所示 template
确认值未从甜蜜警报服务返回

已经创建了甜蜜的警报作为单独的服务我将其注入到我的服务中这就是贴心的提醒服务 function use strict angular module app services factory SweetAlert SweetAlertSe
在 PyCharm 中添加代码模板 - 可能吗？

我想向 PyCharm 添加新的代码模板片段例如我想扩展lw to log write Line here is sould be cursor after code completition from snippet 就像是https
R Xgboost：如何在 Windows 10 上编译具有 GPU 支持的 xgboost

我按照此链接中提供的说明进行操作如何在python windows平台中安装xgboost包 and https xgboost readthedocs io en latest build html installing r pack
单击锚点应该执行 javascript 而不是转到新页面

我有一个 HTML 锚点单击该锚点会使 div 向上或向下滑动我称之为 JQuery 的 slideToggle 功能我的问题当我单击该链接时它不会执行代码而是会转到一个新页面其中 url 是 javascript 代码在我
app.config 文件和 XYZ.settings 文件有什么区别？

我实际上正处于 NET 相关内容的学习阶段我正在探索如何保存应用程序我最终编写了自己的类它将设置保存在 XML 文件中然后我发现 NET 本身支持保存应用程序设置但我找到了两种方法可以做到这一点当我在 Visual Studio
为什么我收到“密钥凭证开始日期无效。”尝试创建 Active Directory 服务主体

我一直在尝试整合一系列围绕创建和刷新 AD 服务主体和应用程序的操作我遇到问题的流程是从 Azure Key Vault 获取证书使用证书进行身份验证创建服务主体和应用程序 PS gt Get AzureKeyVaultCertif
Jquery 可拖动 + 置于前面

我有一个带有多个聊天 DIV 的窗口用户可以在其中与不同的人聊天目前聊天 DIV 可以打开并移动但我看不到将当前选择的 DIV 设置在前面例如当您将鼠标放在 DIV 上时它会进入前台 HTML div class chatMe
将文件上传到 HTML 表单并提交之间会发生什么？

文件上传到 HTML 表单后提交之前会发生什么情况我已将简历上传到该网站https studyhut com employment 然后点击红色X将其删除但我想确保它确实被删除了检查选择文件按钮的元素我发现它的 HTML 是
将键值对拆分为 Google BigQuery 中的列

我对 Google BigQuery 还很陌生而且确实很挣扎我的表有以下内容 order id line items 123 id 1 qy 1 sum 1 00 id 2 qy 6 sum 4 50 456 id 1 qy 3 sum
Web 应用程序会话与令牌的安全性

背景我正在开发一个网络应用程序计划使用spring mvc和春季安全我的计划是使用基于表单的身份验证其中 spring security 验证凭据并设置会话JSESSIONID以便后续请求将根据请求标头中存在的 cookie 进行身
如何删除 HTML 标题元素之间的行距？

我有这个代码 h1 Something h1 h3 Somethings h3 h3 Some other things h3 我认为 HTML 会自动在它们之间添加 1 行间距我希望它们没有 1 行间距我的意思是逐行而不是行间距我
如何在 Windows 服务器上安装 mongrel/rails 的 service_wrapper？

我接到了一项令人不快的任务要安装我在 Windows Server 2008 上编写的 Rails 3 应用程序这绝对不是我的选择承诺提供 Linux 服务器但 I T 在最后一刻撤回了所以请不要建议进行更改环境作为解决方案我
Python3 urllib图像检索

我正在编写一个小的 Python 脚本来通过谷歌图像抓取图像我已经成功地将我想要的图像的网址放在一个方便的列表中现在我只需要抓住它们对于每个图像网址我这样做 print Retrieving 0 format sFinalImage

Python3 urllib图像检索

Python3 urllib图像检索 的相关文章

随机推荐

热门标签

Python3 urllib图像检索的相关文章