我正在制作一个解析 html 并从中获取图像的应用程序。使用 Beautiful Soup 解析很容易,下载 html 和图像也可以使用 urllib2。
我确实在使用 urlparse 从相对路径中创建绝对路径时遇到问题。这个问题最好用一个例子来解释:
>>> import urlparse
>>> urlparse.urljoin("http://www.example.com/", "../test.png")
'http://www.example.com/../test.png'
正如你所看到的,urlparse 并没有去掉 ../ 。当我尝试下载图像时,这出现了问题:
HTTPError: HTTP Error 400: Bad Request
有没有办法解决 urllib 中的这个问题?
“..”会带您进入一个目录(“.”是当前目录),因此将其与域名 url 结合起来没有多大意义。也许你需要的是:
>>> urlparse.urljoin("http://www.example.com","./test.png")
'http://www.example.com/test.png'
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)