加载带有西里尔字母符号的 url

2023-12-27

我必须加载一些带有西里尔字母符号的网址。我的脚本应该适用于此：

http://wincode.org/%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0 %BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5/ http://wincode.org/%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5/

如果我在浏览器中使用它，它将替换为正常符号，但 urllib 代码失败并出现 404 错误。如何正确解码该网址？

当我直接在代码中使用该 url 时，例如 address = 'that address'，它工作得非常完美。但我使用解析页面来获取这个网址。我有一个内容为西里尔文的网址列表。也许他们的编码不正确？这是更多代码：

requestData = urllib2.Request( %SOME_ADDRESS%, None,  {"User-Agent": user_agent})
requestHandler = pageHandler.open(requestData)

pageData = requestHandler.read().decode('utf-8')
soupHandler = BeautifulSoup(pageData)

topicLinks = []
for postBlock in soupHandler.findAll('a', href=re.compile('%SOME_REGEXP%')):
    topicLinks.append(postBlock['href'])

postAddress = choice(topicLinks)

postRequestData = urllib2.Request(postAddress, None,  {"User-Agent": user_agent})
postHandler = pageHandler.open(postRequestData)
postData = postHandler.read()

  File "/usr/lib/python2.6/urllib2.py", line 518, in http_error_default
    raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 404: Not Found

我有一个内容为西里尔文的网址列表。

好的，如果它包含原始（非 % 编码）西里尔字符，则与示例不同，事实上它根本不是 URL。

包含非 ASCII 字符的地址称为IRI http://en.wikipedia.org/wiki/Internationalized_Resource_Identifier。 IRI 不应该在 HTML 链接中使用，但浏览器往往会修复这些错误。

将 IRI 转换为 URI，然后可以使用它打开urllib，你必须：

使用 Punycode (IDNA) 对主机名部分中的非 ASCII 字符进行编码。
将 IRI 其余部分中的非 ASCII 字符编码为 UTF-8 字节并对它们进行 URL 编码（导致%D0%BF...如示例 URL 中所示）。

一个示例实现 http://blog.elsdoerfer.name/2008/12/12/opening-iris-in-python/.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

加载带有西里尔字母符号的 url 的相关文章

重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
未安装的应用程序的URL方案

简单的问题我正在开发一个将注册自己的 URL 方案的应用程序我计划通过人们最喜欢的 QRCode 阅读器使用 QRCode 启动该应用程序我的问题如果我的应用程序尚未安装在他们的 iPhone iPad 上会发生什么他们会被引导
检测/删除 Python 2 + GTK 中不成对的代理字符

在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
如何使用 xlrd 将新列和行添加到 .xls 文件

如何向 xlrd 中的工作表添加新列和或行我有一个使用 open workbook 读取的 xls 文件我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行但我在 xlrd 文档中找不到任何显示如何添加新行和
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
使 np.loadtxt 使用多个可能的分隔符

我有一个程序可以读取数据文件用户可以选择他们想要使用的列我希望它对于输入文件更加通用有时列可能如下所示 10 34 24 58 8 284 6 121 有时它们可能看起来像这样 10 34 24 58 8 284 6 121 我希
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
Scrapy 抓取并跟踪 href 中的链接

我对 scrapy 很陌生我需要从 url 的主页跟踪 href 到多个深度再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面我的页面的示例 html 是初始页 div class page
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中

随机推荐

从外部 JS 文件导入变量值

我有一个 JS 文件位于目录 c myJSfiles FileNumberOne xyz c myJSfiles FileNumberone xyz var 1 ThisValue1 var 2 ThisValue2 and so on 在
无法通过 Angular 语言服务解析 vscode 中管道调用的签名

我有一个pipesModule in 角度库当我将模块导入到另一个项目时出现错误提示 Unable to resolve signature for pipe invocation在 vs code 中它仍然有效构建没有错误但我不知
iOS 7 UIImagePickerController 导航栏重叠

我在 iOS7 中访问照片库时遇到问题 iOS6 没问题导航栏似乎与相册视图重叠我尝试设置picker edgesForExtendedLayout UIRectEdgeNone 但它不起作用 UIImagePickerControll
使用 Visual Studio 2013 (Express) 进行构建提升

有人使用 Visual Studio 2013 Express 成功构建了 Boost 吗我很困惑这是否可行正如 Boost 网站所述 Visual Studio 2013 Visual C 12 的已知错误 Visual Studio
在树节点上实现执行操作的最佳方法，最好不使用访问者

我有一个用户界面左侧是树视图右侧是查看器有点像电子邮件客户端右侧的查看器显示我在左侧树中选择的任何内容的详细信息用户界面具有添加编辑和删除按钮这些按钮的作用有所不同具体取决于选择树中的节点如果我选择了特定类型的节
PHP 手册 OOP 可见性示例 - 有人可以解释一下吗

我在 PHP OOP 手册中看到了这个http www php net manual en language oop5 visibility php http www php net manual en language oop5 visi
STLpriority_queue的效率

我有一个应用程序 C 我认为 STL 可以很好地服务它priority queue 文档 http www sgi com tech stl priority queue html says Priority queue 是一个容器适配器
WooCommerce 产品模板

我想在 WooCommerce 中移动产品模板上的缩略图将它们放置在大产品图片旁边价格下方并添加到购物车按钮作为标准它们位于产品大图片的正下方不过该模板似乎使用了钩子我之前没有尝试过使用它我发现一个 content sing
使用xstate，是否可以配置一个适用于所有状态并在所有状态和子状态下以相同方式处理的事件？

我是 xstate 的新手我尝试在应用程序中使用它用户可以根据父状态和或子状态在应用程序中请求不同的内容但是无论应用程序处于什么状态子状态用户都应该能够发出一些请求无论之前的状态是什么对这些事件的响应都是相同的如何配置此
在 AngularJS 中解析请求的 URL 的最佳方法

我有一个像这样的网址 http www something com project edit 987654321 解析的最佳方法是什么987654321使用 AngularJS 的 URL 的一部分 Angular 中有辅助函数吗我不想使
谷歌应用程序引擎的 ORM (java)

我开发了 google 端点 API 并使用 JDBC 访问云 sql 数据库现在我想使用 ORM 工具来访问云 sql 数据库那么 Google 应用引擎支持哪些 ORM 工具而不是 JDO 和 JPA 我的意思是 hibernate
修复 Notepad++ 中的 Markdown 样式

我有 Notepad 的 Markdown 样式this guy https github com thomsmits markdown npp 它们看起来很好我在它们身上发现的唯一相当烦人的事情是大胆 or 和斜体 or 分隔符在单
无法将信息添加到 Cloud Firestore

以下代码的目标是从 Android 设备 api 24 将数据保存到 Cloud Firestore 中 public class MainActivity extends AppCompatActivity public static f
如何从 SecurityWebFilterChain 授权中排除执行器

我有WebSecurityConfiguration使用的类SecurityWebFilterChain来授权访问尽管如此我还是想排除actuator因此我有另一个 bean 但端点仍然无法在没有授权的情况下访问 Configurati
将 Python 脚本转换为 Ruby 时出错

我正在使用一个Python脚本它使用xmlrpclib import xmlrpclib srv xmlrpclib ServerProxy http demo myslice info 7080 allow none True auth
有条件的预加载 - Laravel

我有这样的疑问 tournament Tournament with championships championships settings championships category championships tree users
将 C++/CLI 字符串数组转换为字符串向量

我在 C CLI 中有一个参数如下所示 array
如何使用 HtmlAgilitypack 从头开始创建 html 文档

我只想使用敏捷包创建自己的简单文档因此创建一个新的 HtmlDocument 其中仅包含基本容器元素即我怎样才能从头开始执行此操作而不实际加载任何内容的 html 文档更简单 var doc new HtmlDocument var
如何使用Python OpenCV对苹果进行图像分割？

我有浸泡在碘溶液中的苹果片的照片目标是将苹果分割成各个感兴趣的区域并评估每个区域的淀粉水平这是一个学校项目所以我的目标是测试不同的分割方法并客观地找到最佳解决方案无论是单一技术还是多种技术的组合问题是到目前为止我只接近一种方法
加载带有西里尔字母符号的 url

我必须加载一些带有西里尔字母符号的网址我的脚本应该适用于此 http wincode org D0 BF D1 80 D0 BE D0 B3 D1 80 D0 B0 D0 BC D0 BC D0 B8 D1 80 D0 BE D0 B2

加载带有西里尔字母符号的 url

加载带有西里尔字母符号的 url 的相关文章

随机推荐

热门标签