Python urlparse:小问题

2024-01-09

我正在制作一个解析 html 并从中获取图像的应用程序。使用 Beautiful Soup 解析很容易,下载 html 和图像也可以使用 urllib2。

我确实在使用 urlparse 从相对路径中创建绝对路径时遇到问题。这个问题最好用一个例子来解释:

>>> import urlparse
>>> urlparse.urljoin("http://www.example.com/", "../test.png")
'http://www.example.com/../test.png'

正如你所看到的,urlparse 并没有去掉 ../ 。当我尝试下载图像时,这出现了问题:

HTTPError: HTTP Error 400: Bad Request

有没有办法解决 urllib 中的这个问题?


“..”会带您进入一个目录(“.”是当前目录),因此将其与域名 url 结合起来没有多大意义。也许你需要的是:

>>> urlparse.urljoin("http://www.example.com","./test.png")
'http://www.example.com/test.png'
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python urlparse:小问题 的相关文章

随机推荐

  • 控制文件下载

    我正在使用 TWebBrowser 为我的程序构建一个更新程序 OnCreate 时 TWebBrowser 导航到给定的 URL 要下载更新 用户需要单击链接 单击链接时会出现此弹出窗口 所以我想知道是否可以 绕过该弹出窗口并允许自动下载
  • JQueryMobile 自动完成点击条目不更改输入值

    我尝试使用 jquery mobile 进行自动完成输入 所以我在这里找到了一个演示 http demos jquerymobile com 1 4 0 listview autocomplete remote http demos jqu
  • Java静态导入导致编译错误。可能是编译器错误?

    这在 Eclipse JDT 中可以正常编译 但在 1 6 30 或 1 7 25 上则不行 package doh import static doh Wtf InnerClass innerclassMethod import java
  • SQL Server 级联

    我正在制作一个网站 用户可以在其中发布 帖子 然后用户可以对这些帖子进行 评论 我有一个包含 3 个表的数据库 一项包含用户信息 一项包含帖子信息 最后一项包含评论信息 我想设置规则 以便如果用户被删除 他们的所有帖子和评论都会被删除 如果
  • Vue 使用 select、v-for 和 v-model 预选值

    我在用着select with v model并有选项v for和对象作为值 选项是一些由id标识的元素 如何根据自定义相等性预先选择选项 在本例中为相等 id场地 我正在寻找类似于 angularjs 的东西track by from n
  • 在多级继承中从子类调用“大”父函数[重复]

    这个问题在这里已经有答案了 public class GrandParent public void walk public class Parent public void walk public class Child public v
  • JavaFX 中的样式文本?

    我正在将聊天客户端从 Swing 切换到 JavaFX 但遇到了图形问题 以前 我使用的是JTextPane插入样式文本 但切换到 FX 后 我找不到能够执行所需操作的单个组件JTextPane做了 并且从this https stacko
  • 在对话框中启用 GPS 后 Android 位置返回 null

    当我进入屏幕时 我会检查 GPS 是否已打开 如果未打开 则会显示启用 GPS 的对话框 当用户单击 是 时 onActivityResult gt GPS 已打开 我尝试获取位置 但始终返回 null 当我在 GPS 已打开的情况下进入屏
  • 意外标记“(”与 mv !(build) 附近出现语法错误

    我正在尝试使用 Jenkins 构建过程运行以下 shell 命令 mv build build 现在构建失败了 bin bash xe tmp jenkins2925091423898519645 sh tmp jenkins292509
  • 如何使用Pandoc图像对齐来对齐同一行中的两个图像?

    从 pandoc 文档我知道如何插入图像 http johnmacfarlane net pandoc README html images http johnmacfarlane net pandoc README html images
  • 在每个视图中包含用户模型

    我正在创建一个具有表单身份验证的 ASP NET MVC4 网站 但在以正确的方式在视图中包含多个模型时遇到了困难 具体来说 有一个属于给定视图的模型 例如 CartModel 但是 考虑到站点的当前 UI 部分视图中使用了一个模型 该模型
  • Helm _helpers.tpl:调用其他模板定义中定义的模板

    头盔 helpers tpl Helm 允许使用进行模板化 https golang org pkg text template 在 Kubernetes 的资源文件中 一个名为 helpers tpl通常用于使用以下语法定义 Go 模板助
  • 更新 Windows 服务的过程?自动还是手动?

    如果我的服务器上有 Windows 服务 更新该服务的 最佳实践 是什么 假设其中有一个错误 或者我需要向它添加更多功能 有没有办法可以关闭服务 修补它并以更自动化的方式启动并运行它 任何带有代码的链接都很棒 好吧 你总是可以在安装程序上升
  • C 标准 I/O 的限制以及为什么我们不能将 C 标准 I/O 与套接字一起使用

    我最近在读CSAPP 在10 9节中 它说标准I O不应该与socket一起使用 原因如下 1 标准I O的限制 限制1 输入函数在输出函数之后 一个输入 如果没有中间调用 函数无法跟随输出函数 fflush fseek fsetpos 或
  • 从 Gradle 运行后台作业

    我创建了一个启动远程作业的任务 例如 task mytask type Exec commandLine ssh args f l me myserver start split 它有效 但是 它似乎等待作业终止 但它永远不会终止 也不应该
  • dev_appserver.py app.yaml 产生: ImportError:导入多数组 numpy 扩展模块失败

    我运行这个命令 dev appserver py app yaml 我收到一个错误 Traceback most recent call last File C Users sehrlich AppData Local Google Clo
  • Javascript:长度方法有效吗?

    我正在做一些 javascript 编码 我想知道 length 方法是否是 预先计算的 或者由 JS 引擎记住 所以 问题是 如果我经常检查数组长度 并且假设我不更改它 通过闭包使其不可变 我是否应该预先计算 length 方法并将其存储
  • 如何为生产中的网站设置代理设置

    我用 Angular 开发了一个网站 并在 proxy conf js 文件中有以下代理设置 const proxyConfig context web api webclients target https 10 109 102 109
  • Python Pandas 按二级索引(或任何其他级别)切片多索引

    有很多关于按级别范围切片多索引的 level 0 的帖子1 http pandas pydata org pandas docs stable advanced html using slicers 但是 我找不到解决我的问题的方法 也就是
  • Python urlparse:小问题

    我正在制作一个解析 html 并从中获取图像的应用程序 使用 Beautiful Soup 解析很容易 下载 html 和图像也可以使用 urllib2 我确实在使用 urlparse 从相对路径中创建绝对路径时遇到问题 这个问题最好用一个