使用python将某个网站的HTML保存在txt文件中

2023-12-27

我需要将任何网站的 HTML 代码保存在 txt 文件中，这是一个非常简单的练习，但我对此表示怀疑，因为有一个函数可以执行此操作：

import urllib.request

def get_html(url):
    f=open('htmlcode.txt','w')
    page=urllib.request.urlopen(url)
    pagetext=page.read() ## Save the html and later save in the file
    f.write(pagetext)
    f.close()

但这行不通。

最简单的方法是使用网址检索 https://docs.python.org/2/library/urllib.html#urllib.urlretrieve:

import urllib

urllib.urlretrieve("http://www.example.com/test.html", "test.txt")

对于Python 3.x，代码如下：

import urllib.request    
urllib.request.urlretrieve("http://www.example.com/test.html", "test.txt")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

Parsing

python3x

urllib

使用python将某个网站的HTML保存在txt文件中的相关文章

使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
使用 IE9、10、11 的 CSS 将比例打印到 50% 等百分比

Zoom css 属性不适用于 IE9 10 11 观察到打印预览 UI 令人不安默认比例为缩小以适合当我将此比例从缩小更改为适合 50 时页面显示正常打印预览任何人都可以帮助我如何使用 CSS 代码将比例设置为 50 为页
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
如何将本地文本文件上传到文本区域（网页内）

我是一名新手程序员需要一些帮助来弄清楚如何将本地文本文件上传到我正在构建的网站内的文本区域我非常精通 HTML CSS 对 Javascript JQuery 有相当的了解而且我刚刚学习 PHP 您能提供的任何帮助我将不胜感激我有一
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
如何使用 Javascript 在 html 文件中搜索字符串？

我有 5 个 html 文件并且有一个搜索表单我想用它来搜索这些 html 文件中的文本
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
如何在亚马逊 EC2 上调试 python 网站？

我是网络开发新手这可能是一个愚蠢的问题但我找不到可以帮助我的确切答案或教程我工作的公司的网站用 python django 构建托管在亚马逊 EC2 上我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库我有帐户信
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
如何从namedtuple实例列表创建pandas DataFrame（带有索引或多索引）？

简单的例子 from collections import namedtuple import pandas Price namedtuple Price ticker date price a Price GE 2010 01 01 30

随机推荐

python所有可能的2个列表元素对，并获取该对的索引[重复]

这个问题在这里已经有答案了假设我有两个列表 a list 1 2 3 b list 4 5 6 所以我可以有 9 对这样的列表成员 1 4 1 5 1 6 2 4 2 5 2 6 3 4 3 5 3 6 现在给定上面的两个列表成员我可
Jquery 如何使用历史记录插件？

在我的网络应用程序中我使用 ajax 现在我希望后退和前进浏览器按钮能够工作所以我去寻找一个jquery历史记录插件并找到了这个 http stilbuero de jquery history http stilbuero de jq
使用fabric.js在node.js中渲染和操作服务器端画布

我正在尝试将fabric js v0 9 21 在ubuntu 12 04上通过npm安装与node js一起使用来在服务器上渲染画布稍后可以在没有客户端交互的情况下进行操作和扩展为了进行实验我在客户端创建了一个简单的画布然后使用
Java 泛型：在 arraylist（无界通配符类型）上，add 和 addAll 方法的行为不同

直接来说这是一个例子 ArrayList
Mac 上的 RTLD_FIRST 是否能完成 Linux 上 RTLD_DEEPBIND 的工作？

我对 Linux 上 RTLD DEEP BIND 的理解是如果主程序中有一个函数 A 并且动态链接库称为 lib 中有两个函数 A 和 B 其中 B 定义为 B A 那么对 B 的调用最终总是会从库中调用 A 这是 RTLD FIRS
Pandas `agg` 列出，“AttributeError / ValueError：函数不减少”

很多时候我们表演的时候groupby使用 pandas 进行操作时我们可能希望在多个系列中应用多个函数 groupby agg https pandas pydata org pandas docs stable generated pa
如何禁用点击但仍允许在 iframe 中滚动？

我的页面上显示了一个固定高度的面板中的 iframe 但 iframe 中呈现的页面要大得多我不希望用户能够单击 iframe 中的任何内容我知道对此的一般解决方案是在 iframe 顶部放置一个不可见的 div 来禁用所有交互但是
如何获取 Objective-C 字典中每个键的值？

我正在维护一个NSMutableDictionary它保存键和值对现在我需要对其中的每个值执行一些操作如何从字典中检索值 this is NSMutableDIctionary NSMutableDictionary dictobj N
如何在 Perl 中引用列表？

我读到scalars arrays and list 我不确定是什么意思list 例如 5 apple x 3 14 is a list 但是实际引用列表的变量是什么列表只是初始化数组的一种方式还是已知的数据结构如何在 Perl 中引用
如何从构建到发布管道获取TFS/AzureDevOps中的变量值？

我在 TFS AzureDevops Build 定义中定义了一个变量假设它是time 并在我的构建定义中使用 PowerShell 任务分配值 Like Type 内联脚本内联脚本 date Get Date Format g Wri
在Delphi中连接Mysql数据库的最佳方式是什么

在 Delphi 中连接到 Mysql 5 1 x 时最好使用什么组件为什么没有其他数据库组件可以击败 DevArt DB 组件他们有MyDac http www devart com mydac and UniDac http ww
如果编译器兼容 Cpp0x，#define 是什么？

当编译器符合 Cpp0x 时是否有任何官方或非官方的 defines 更好的是对于特定的 Cpp0x 功能 cpp0xlambda cpp0xrvalue 等网上没找到这方面的资料对于根据 16 8 1 的 C 03 预定义宏名称
Facebook iframe 无法在 IE 中运行；会话/登录问题？

我的 Facebook canvas iframe 应用程序有问题我正在使用会话来构建一个简单的问卷式应用程序每页上都有一个问题提交表单时答案将存储在会话数组中并且页码会加一然后显示下一个问题简单的东西然而这个应用程序适用
为 GWT Comet 使用大气

我正在寻找一个简单的框架来为我的 GWT 应用程序实现 Comet 我查看了似乎不活跃的 gwt rocket 然后查看了不活跃的 gwt comet 然后查看了已移入大气项目的atmosphere gwt comet 最后尝试从大气中实
nextjs 用于身份验证的路由中间件

我正在尝试找出一种适当的身份验证方法我知道这是一个敏感的话题GitHub 问题页面 https github com zeit next js issues 153 我的身份验证很简单我在会话中存储 JWT 令牌我将其发送到不同的服务
如何将参数从外部汇编器子例程传递回 cobol 程序？

我试图从用汇编程序编写的外部子例程传回参数调用例程是在 cobol 中外部汇编例程的参数如下所示 01 CALCSHRS PARMS 05 CS DEPOSIT AMT PIC 9 5 V99 COMP 3 05 CS SHARE PR
将多个数据合并为一个数据

我有这样的数据 CCSKIYEARDOULE CCSKIYEAR 92 93 92 92 93 93 94 95 94 94 95 95 96 97 97 但我想要这样的输出 CCSKIYEARDOULE CCSKIYEAR 92 93 9
使用远程验证进行多字段验证

我有以下模型 public class Customer public string FirstName get set public string LastName get set Remote CardExisting Validati
如何使用 O(n) 时间和 O(1) 空间成本就地合并两个排序整数数组

例如给定一个整数数组及其两个连续序列的开始位置即 b1 和 b2 此外还提供了位置 last 该位置指示第二个序列的结束位置从数组 b1 到数组 b2 1 和从数组 b2 到数组 last 都是分开的顺序如何将它们合并到位使用 O
使用python将某个网站的HTML保存在txt文件中

我需要将任何网站的 HTML 代码保存在 txt 文件中这是一个非常简单的练习但我对此表示怀疑因为有一个函数可以执行此操作 import urllib request def get html url f open htmlcode

使用python将某个网站的HTML保存在txt文件中

使用python将某个网站的HTML保存在txt文件中 的相关文章

随机推荐

热门标签

使用python将某个网站的HTML保存在txt文件中的相关文章