如何使用python获取给定url的原始html文本

2024-04-06

我在 python 中使用 html2text 通过获取任何 URL 来获取 HTML 页面的原始文本（包括标签），但出现错误。

我的代码 -

import html2text
import urllib2

proxy = urllib2.ProxyHandler({'http': 'http://<proxy>:<pass>@<ip>:<port>'})
auth = urllib2.HTTPBasicAuthHandler()
opener = urllib2.build_opener(proxy, auth, urllib2.HTTPHandler)
urllib2.install_opener(opener)
html = urllib2.urlopen("http://www.ndtv.com/india-news/this-stunt-for-a-facebook-like-got-the-hyderabad-youth-arrested-740851").read()
print html2text.html2text(html)

错误 -

Traceback (most recent call last):
  File "t.py", line 8, in <module>
    html = urllib2.urlopen("http://www.ndtv.com/india-news/this-stunt-for-a-facebook-like-got-the-hyderabad-youth-arrested-740851").read()
  File "/usr/lib/python2.7/urllib2.py", line 127, in urlopen
    return _opener.open(url, data, timeout)
  File "/usr/lib/python2.7/urllib2.py", line 404, in open
    response = self._open(req, data)
  File "/usr/lib/python2.7/urllib2.py", line 422, in _open
    '_open', req)
  File "/usr/lib/python2.7/urllib2.py", line 382, in _call_chain
    result = func(*args)
  File "/usr/lib/python2.7/urllib2.py", line 1214, in http_open
    return self.do_open(httplib.HTTPConnection, req)
  File "/usr/lib/python2.7/urllib2.py", line 1184, in do_open
    raise URLError(err)
urllib2.URLError: <urlopen error [Errno 110] Connection timed out>

谁能解释我做错了什么？

如果您不需要 SSL，则此脚本位于Python 2.7.x应该管用：

import urllib
url = "http://stackoverflow.com"
f = urllib.urlopen(url)
print f.read()

and in Python 3.x use urllib.request代替urllib

Because urllib2对于Python 2，在Python 3中它被合并到urllib.

http://是必须的。

EDIT:2020年，你应该使用第3方模块requests. requests可以安装pip.

import requests
print(requests.get("http://stackoverflow.com").text)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

如何使用python获取给定url的原始html文本的相关文章

处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何使跨度标签不可删除？

我正在尝试使 contenteditable div 内的跨度标记不可删除 div Editable span Read Only span div 只读范围确实是只读的但我可以通过单击删除键来删除整个范围有没有一种属性方法可以告诉sp
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
如何通过 jQuery 中的类获取特定 html 元素的innerHTML？

我有这样的 HTML 代码 div class a html value 1 div div class a html value 2 div 我怎样才能访问html value 1 and html value 2使用jquery 分别地
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
仅第一个加载的 Django 站点有效

我最近向 stackoverflow 提交了一个问题标题为使用mod wsgi在apache上多次请求后Django无限加载 https stackoverflow com questions 71705909 django infini
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
如何在画布上所有其他内容后面绘制图像？ [复制]

这个问题在这里已经有答案了我有一块画布我想用drawImage在画布上当前内容后面绘制图像由于画布上已经有内容我正在使用字面上的画布来创建包含图像的画布因此我无法真正先绘制图像所以我无法使用drawImage在我呈现其余内容之前
CSS 精灵按钮

这些精灵按钮让我抓狂我几乎可以让他们工作但不完全是我正在玩这个非常简单的精灵图像我有一个 jsfiddle 项目 gt gt 这里如果你想看的话但如果你只想看一下代码就在下面 http jsfiddle net jp2code
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
Service Worker 与 Shared Worker

Service Worker 和 Shared Worker 有什么区别我什么时候应该使用 Service Worker 而不是 Shared Worker 反之亦然 Service Worker 具有共享 Worker 之外的附加功能
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解

随机推荐

Android线程可运行性能

我想知道两种不同的启动可运行方法的性能和 cpu ram 要求我有一些代码每 10 毫秒收集一次传感器数据并将这些值插入到后台线程上的数据库中使用单线程执行器 Executor服务创建如下 executor Executors new
ng2 - DevExtreme 与 Telerik Kendo UI [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正在开发一款使用 Angular2 Typescript 和 HTML5 的新软件对于 UI 组件我们有 2 个选项开发极限 Tele
RE 错误：Mac OS X 上的非法字节序列

我正在尝试替换 Mac OS X 上 Makefile 中的字符串以交叉编译到 iOS 该字符串嵌入了双引号命令是 sed i s iphoneos cross llvm gcc O3 iphoneos cross clang Os g
tsvector只支持英文？

我做了以下事情 ALTER TABLE blog entry ADD COLUMN body tsv tsvector CREATE TRIGGER tsvectorupdate BEFORE INSERT OR UPDATE ON blo
在 Google Apps 脚本中将整个工作表替换为另一个工作表

我想要做的是将电子表格中特定工作表中的信息存储起来并在每天结束时将其复制到第二个电子表格中第二个电子表格将根据复制的信息运行复杂的数据透视表和报告而无需全天运行我可以设置一个时间驱动触发器 https developers goog
ASP.Net MVC 的身份验证引擎（如 Devise for Rails）？

设计认证宝石 http github com plataformatec devise http github com plataformatec devise 是一个 Rails 工具用于在 Rails 应用程序中对用户进行身份验证并设
假设采用公历，为什么在日期中添加 86,400（一天）的时间间隔始终无法解决问题？

我创建了一种方法来计算一周的第一天和最后一天方法是将一天的时间间隔 86 400 添加到日期然后乘以所需的天数一位同事评论道添加 86 400 的倍数永远不是答案 https stackoverflow com a 17259765
我的应用程序在 Android Studio 上安装失败
编辑注册表值

我想更改 PocketPC 上的注册表值我运行了以下代码 if enabled dwData 120 if RegSetValueEx HKEY LOCAL MACHINE T System CurrentControlSet Contr
分块解密媒体文件并通过 AVPlayer 播放

我有一个mp4 video file我是谁encrypting保存并decrypting通过 AVPlayer 播放 Using CRYPTOSWIFT Library for encrypting decrypting 当我一次解密整个文
通过 $http 角度服务将大字符串传递到 api 控制器

我有一个大字符串现在我想通过 http 角度服务将数据传递到 api 控制器我已经输过很多次了这是我的大字符串 var strObj countryName null cityName null stateName null obje
Java Long 基本类型最大限制[重复]

这个问题在这里已经有答案了我使用的是 Long 基元类型每当我的 generateNumber 方法被调用时它就会加 1 如果Long达到了他的最大极限会发生什么会抛出任何异常还是会重置为最小值这是我的示例代码 class Lon
如何缩小 json 响应？

你好最近在一次采访中我回答了这个问题如何缩小 json 响应 name sample name product sample product address sample address 这是什么问题我不知道如何缩小及其背后的过程谁
添加新字段时，动态生成的表单字段会失去价值

我正在使用 javascript 生成动态字段集为了添加字段我使用以下函数这个函数实际上添加了多个字段添加测试 function addTest var location document getElementById addTes
Bookdown：设置分页符

我不知道如何在 R bookdown 中进行分页分页符是指一页内的内容显示为一个网站默认情况下每个新部分前面总是有一个分页符例如 Chapter 1 所以如果我跑render book每个部分都成为一个 html 文件但是如果
启用允许排序时，ASP.NET GridView 标题行文本为空

我正在解决有趣的问题我的应用程序中有一个 gridview 单击按钮后在 OnClick 事件中我试图获取选定的行和标题行当网格不可排序 AllowSorting false 时一切正常这是我访问标题行单元格的方式 GridVi
将 APK 上传到 Play 商店时出现“‘android:icon’属性：属性不是字符串值”错误

背景经过这么多小时的空闲时间我准备将我的第一个应用程序发布到 Play 商店但遗憾的是我在上传签名的应用程序时遇到了困难我已经使用我创建的密钥库成功导出了应用程序全部通过 Eclipse 和 ADT 因此我将签名的 APK 上传到
如何求整个网页的高度？

我正在研究一种捕获网站屏幕截图的解决方案我正在使用 slimerjs org 中提到的默认示例来完成工作这个工具的屏幕截图非常棒但我需要拍摄网站的全高屏幕截图当捕获类似网站的屏幕时http www yellowpages com h
Amazon AWS SQS - 将 QueuePolicy 应用于现有队列

如果我通过 Cloudformation 创建 SQS 队列您是否可以在创建 SQS 队列后附加第二个 QueuePolicy 如果我运行以下配置 Resources SQSQueue Properties QueueName Ref S
如何使用python获取给定url的原始html文本

我在 python 中使用 html2text 通过获取任何 URL 来获取 HTML 页面的原始文本包括标签但出现错误我的代码 import html2text import urllib2 proxy urllib2 ProxyH

如何使用python获取给定url的原始html文本

如何使用python获取给定url的原始html文本 的相关文章

随机推荐

热门标签

如何使用python获取给定url的原始html文本的相关文章