将 HTML 源代码保存到文件

2023-11-24

如何在 Python 3 中将网站的源代码复制到文本文件中?

编辑: 为了澄清我的问题,我有以下内容:

import urllib.request

def extractHTML(url):
    f = open('temphtml.txt', 'w')
    page = urllib.request.urlopen(url)
    pagetext = page.read()
    f.write(pagetext)
    f.close()

extractHTML('http:www.google.com')

我收到 f.write() 函数的以下错误:

builtins.TypeError: must be str, not bytes

import urllib.request
site = urllib.request.urlopen('http://somesite.com')
data = site.read()
file = open("file.txt","wb") #open file in binary mode
file.writelines(data)
file.close()

未经测试但应该可以。

编辑:针对 python3 进行了更新

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将 HTML 源代码保存到文件 的相关文章

随机推荐

  • 扩展 Node.js 中的 TypeScript Global 对象

    我有一个 node js 应用程序 它将一些配置信息附加到global object global myConfig a 1 b 2 TypeScript 编译器不喜欢这样 因为Global类型没有名为的对象myConfig TS2339
  • 如何将 WebBrowser 渲染到设备上下文?

    我想渲染一个网页 即TWebBrowser 到设备上下文 我想使用 Internet Explorer 的布局引擎将内容呈现到设备上下文 即图元文件 pdf 图元文件 从 Internet Explorer 9 开始IHTMLElement
  • 350GB SVN 存储库至少为分支/标签等最简单的任务创建了 1MB 修订版

    当我注意到我的存储库大小以每天 1GB 的速度增加时 这一切就开始了 我做了一个简单的测试 创建了大小为 35KB 的现有文件夹的分支 标签 我记下修订号并转到 REPO db revs
  • 使用 IronPython 通过 C# .NET 导入 Python 模块

    我正在尝试使用 IronPython 通过 C NET 运行 Python 类 Python 类导入的几个模块是 import collections import nltk classify util 为了在运行 IronPython 时
  • Django 1.2 对象级权限 - 第三方解决方案?

    Locked 这个问题及其答案是locked因为这个问题是题外话 但却具有历史意义 目前不接受新的答案或互动 由于 Django 1 2 Final 即将发布 我很好奇是否已经有项目使用新的对象级权限 行级权限系统 Django 权威 这是
  • 原因:retrofit.RetrofitError:方法 POST 必须有请求正文

    我正在使用 Retrofit 进行 API 后调用 在尝试访问端点时收到以下错误 Caused by rx exceptions OnErrorNotImplementedException method POST must have a
  • UNIX 域套接字和 Cocoa

    我想在 Cocoa 应用程序中使用 UNIX 域套接字实现 IPC 但我对此没有经验 我找到了苹果的CF本地服务器示例项目 但它是用 C 编写的 看起来相当复杂 是的 我已经阅读了其中的大部分内容 CFLocalServer 中演示的技术是
  • 使用 groupby 获取组中具有最大值的行

    如何找到 pandas DataFrame 中具有最大值的所有行count分组后的列 Sp Mt 列 示例1 以下数据框 Sp Mt Value count 0 MM1 S1 a 3 1 MM1 S1 n 2 2 MM1 S3 cb 5 3
  • 为什么必须定义未使用的虚函数?

    我觉得很奇怪的是 与未使用的普通函数不同 未使用的虚拟函数仍然必须被定义 我对隐含的内容有些了解vtables and v指针它们是在创建类对象时创建的 这在某种程度上回答了这个问题 必须定义该函数 以便可以定义指向虚函数的指针 但这将我的
  • 在 cabal 上使用 extra-lib-dirs 的相对路径

    我有一个 C 库 myboo 其中包含 Makefile 我想制作这个库的包装 我不想将其安装到 usr local 中 因为 myboo 不是主要模块 另外 建议我构建 myboo 而不是动态库 但作为静态库 我制作自定义Setup py
  • Dapper 和 MS Access - 读取有效,写入无效

    让我们首先解决这个问题 我一直在使用 MS Access DB 而且无法更改它 这工作正常 using OleDbConnection conn ConnectionHelper GetConnection conn Open var re
  • Grails 文件上传问题

    我正在尝试模拟 grails 网站的文件上传代码 但遇到了一些问题 我使用的代码与找到的相同here 这是我的代码
  • 从外部调用 React 组件方法

    我想从 React 元素的实例调用 React 组件公开的方法 例如 在这个jsfiddle 我想打电话给alertMessage方法从HelloElement参考 有没有一种方法可以实现这一点而无需编写额外的包装器 Edit 从 JSFi
  • XSLT 样式表用空的配对标签替换自关闭标签

    我正在使用 XSLT 处理 ASP Net web config 文件以插入一些额外的 log4net 配置 它由称为 NANT 标准任务的应用
  • Firebase Unity3D 桌面应用程序 (Mac/PC) - 是否有效?

    Firebase 在此处的文档中 文件 A https firebase google com docs unity setup 它声称它现在适用于桌面版本 因此 您可以统一创建 Mac 应用程序或 Windows 应用程序 它确实可以在
  • 动态单选按钮控制

    代码 private void createRadioButton final RadioButton rb new RadioButton 5 for int i 0 i lt 5 i rb i new RadioButton this
  • 实体框架:单例 ObjectContext - 好、坏还是想太多?

    这个想法是创建一个公开上下文但处理它在 Web 应用程序中的存储的类 目前 这就是我所拥有的 public class EntityContext private static String MAIN CONTEXT KEY MainCon
  • GAE/J 请求日志格式细分

    以下是 GAE 控制台日志记录的示例 https i stack imgur com M2iJX png for readable high res version 我想提供文件的详细信息 显示在折叠 摘要 视图和展开 详细 视图中 我将填
  • 有人成功构建了 Cygwin 版本的 GHC 吗?

    有没有人成功构建了 GHC 的 Cygwin 版本 自从 Haskell 从使用 Cygwin 切换到 MinGW 来自哈斯克尔网站 GHC 的目标是 MinGW 而不是 Cygwin 原则上可以构建一个针对 Cygwin 的 GHC 版本
  • 将 HTML 源代码保存到文件

    如何在 Python 3 中将网站的源代码复制到文本文件中 编辑 为了澄清我的问题 我有以下内容 import urllib request def extractHTML url f open temphtml txt w page ur