仅使用内置库使用 Python 制作基本的网络抓取工具 - Python

2023-11-25

学习Python，我试图制作一个没有任何第三方库的网络爬虫，这样这个过程对我来说就不会被简化，而且我知道我在做什么。我浏览了一些在线资源，但所有这些资源都让我对某些事情感到困惑。

html 看起来像这样，

<html>
<head>...</head>
<body>
    *lots of other <div> tags*
<div class = "want" style="font-family:verdana;font-size:12px;letter-spacing:normal"">
<form class ="subform">...</form>
<div class = "subdiv1" >...</div>
<div class = "subdiv2" >...</div>
    *lots of other <div> tags*
</body>
</html>

我想要刮刀提取<div class = "want"...>*content*</div>并将其保存到 html 文件中。

我对如何解决这个问题有一个非常基本的想法。

import urllib
from urllib import request
#import re
#from html.parser import HTMLParser

response = urllib.request.urlopen("http://website.com")
html = response.read()

#Some how extract that wanted data

f = open('page.html', 'w')
f.write(data)
f.close()

标准库附带了各种结构化标记处理工具，您可以使用它来解析 HTML，然后搜索它以提取您的 div。

那里有很多选择。你用什么？

html.parser看起来是显而易见的选择，但我实际上会从ElementTree反而。它是一个非常好的、非常强大的 API，网络上有大量的文档和示例代码可以帮助您入门，并且有很多专家每天使用它来帮助您解决问题。如果事实证明 etree 无法解析您的 HTML，您将不得不使用其他东西......但首先尝试一下。

例如，通过对 HTML 片段进行一些小修复，使其实际上有效，因此实际上有一些文本值得从您的 div 中删除：

<html>
<head>...</head>
<body>
    *lots of other <div /> tags*
<div class = "want" style="font-family:verdana;font-size:12px;letter-spacing:normal">spam spam spam
<form class ="subform">...</form>
<div class = "subdiv1" >...</div>
<div class = "subdiv2" >...</div>
    *lots of other <div /> tags*
</div>
</body>
</html>

您可以使用这样的代码（我假设您知道或愿意学习 XPath）：

tree = ElementTree.fromstring(page)
mydiv = tree.find('.//div[@class="want"]')

现在您已经获得了对div与类"want"。您可以通过以下方式获取其直接文本：

print(mydiv.text)

但如果你想提取整个子树，那就更容易了：

data = ElementTree.tostring(mydiv)

如果你想把它包装在一个有效的<html> and <body>和/或删除<div>本身，您必须手动完成该部分。该文档解释了如何使用简单的树 API 构建元素：您创建一个head and a body放入html，然后粘上div in the body, then tostring the html，就是这样。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

仅使用内置库使用 Python 制作基本的网络抓取工具 - Python 的相关文章

将 Poetry 与 PyEnv 一起使用并遇到 Python 版本问题

我正在使用 WSL2 Ubuntu 我一直在学习使用 Fastapi 进行后端 API 开发的课程我相信我的 Ubuntu 默认 python 是 3 8 我正在尝试使用 python 3 10 0 进行开发我做了以下事情 pyenv安
UnicodeDecodeError：“utf-8”编解码器无法解码位置 14 中的字节 0xb9：起始字节无效

我正在使用 Django REST 进行文件上传测试 Python3 6 2Django1 11djangorest框架 3 6 4Excel OSX 15 38 170902 操作系统 10 12 6 过去使用普通照片文件可以成功完成此操
如何使用 Twython 将 oauth_callback 值传递给 oauth/request_token

Twitter 最近刚刚强制执行以下规定 1 您必须通过oauth callbackoauth request token 的值这不是可选的即使您已经在 dev twitter com 上设置了一个如果您正在执行带外 OAuth 请通
类型错误：translate() 只接受一个参数（给定 2 个参数）[重复]

这个问题在这里已经有答案了我的代码在 python 2 x 版本上运行良好但是当我尝试在 python 3 x 版本上运行它时出现错误主题需要缩写短信编码中的任何消息 Code def sms encoding data star
将相同的 Patch 实例添加到 matplotlib 中的多个子图中

我正在尝试将补丁的相同实例添加到 matplotlib 中的多个轴这是最小的例子 import matplotlib pyplot as mpl plt import matplotlib patches as mpl patches f
在Python中清理属于不同语言的文本

我有一个文本集合其中的句子要么完全是英语印地语或马拉地语每个句子附加的 id 为 0 1 2 分别代表文本的语言无论任何语言的文本都可能有 HTML 标签标点符号等我可以使用下面的代码清理英语句子 import HTMLPars
如何使用 ipywidgets 创建动态依赖下拉菜单？

我创建了一个带有两个下拉菜单的表单我的目标是使一个下拉列表依赖于另一个下拉列表这张图说明了我的目标和目前的情况 https i stack imgur com o9k5G png 下面的示例代码可以在 Google Colab 或 Ju
如何解决CDK CLI版本不匹配的问题

我收到以下错误此 CDK CLI 与您的应用程序使用的 CDK 库不兼容请将CLI升级到最新版本云程序集架构版本不匹配支持的最大架构版本为 8 0 0 但发现为 9 0 0 发出后cdk diff命令我确实跑了npm instal
Python 在 64 位 vista 上获取 os.environ["ProgramFiles"] 的错误值

Vista64 计算机上的 Python 2 4 3 环境中有以下2个变量 ProgramFiles C Program Files ProgramFiles x86 C Program Files x86 但是当我运行以下命令时 impo
如何不断地将 STDOUT 发送到我的 python TCP 服务器？

我有简单的 python echo 服务器它使用套接字并向客户端回显随机数我有另一个程序每 2 秒将值打印到标准输出如果它只是一个脚本我可以像这样重定向 stdout python script py 并像这样在脚本中获取它da
Phantomjs page.content 未检索页面内容

我使用 Phantomjs 来抓取使用 JavaScript 和 Ajax 加载动态内容的网站我有以下代码 var page require webpage create page onError function msg trace v
telethon 库：如何通过电话号码添加用户

我正在研究 Telegram 的 Telethon 库它可以使用 Telegram API 充当 Telegram 客户端重要提示这是电报客户端 API https core telegram org telegram api 而不是
在 Qt 5 中嵌入 Python

我想将 Python 解释器嵌入到 Qt 5 应用程序中我在 Qt 5 中有一个工作应用程序但是当我把 include
Django - 使 ModelForm（ImageField 的）仅接受某些类型的图像

我将 Pillow 2 3 0 与 Django 一起使用并且在 models py 中有一个 ImageField 如下所示 class UserImages models Model user models ForeignKey Us
列表中的“u”是什么意思？

这是我第一次遇到这种情况刚刚打印了一个列表每个元素似乎都有一个u在它前面即 u hello u hi u hey 它是什么意思为什么列表的每个元素前面都会有这个由于我不知道这种情况有多常见如果您想了解我是如何遇到它的我会很乐意
python：xml.etree.ElementTree，删除“命名空间”

我喜欢 ElementTree 解析 xml 的方式特别是 Xpath 功能我有一个带有嵌套标签的应用程序的 xml 输出我想按名称访问此标签而不指定名称空间这可能吗例如 root findall molpro job 代替 ro
如何正确将 tflite_graph.pb 转换为 detector.tflite

我正在使用tensorflow对象检测API使用tensorflow中的ssdlite mobilenet v2 coco 2018 05 09来训练自定义模型模型动物园 https github com tensorflow models
AES 在 cryptojs 中加密并在 python Crypto.Cipher 中解密

使用 js CryptoJS 加密并使用 python crypto Cipher 解密时出现问题这是我在js中的实现附加 iv 与加密消息并使用 base64 进行编码
Pandas 2 个字段中唯一值的数量

我正在尝试查找覆盖 2 个字段的唯一值的数量例如一个典型的例子是姓氏和名字我有一个数据框当我执行以下操作时我只获取每列的唯一字段数在本例中为最后一个和第一个不是复合体 df Last Name First Name nu
使用 python/scipy 进行 voronoi 和 lloyd 松弛

如何使用 Qhull 确定哪些 voronoi 单元按索引是正确的由现有顶点组成我正在尝试使用 LLoyds 算法和 scipy spatial Voronoi 它是 Qhull 的包装器生成的输入来执行约束松弛就代码而言

随机推荐

调整张量内的单个值——TensorFlow

我觉得问这个问题很尴尬但是如何调整张量内的单个值假设您只想将 1 添加到张量中的一个值通过索引来做到这一点是行不通的 TypeError Tensor object does not support item assignment 一
Spring Data REST - 检测到具有相同关系类型的多个关联链接

我正在尝试做一个简单的 Spring 应用程序它需要公开 REST 端点并将其保存到关系数据库我拿了你的示例项目 http spring io guides gs accessing data rest 我能够执行您指南中提到的所有操作
错误 ITMS-90086：缺少 64 位支持。提交失败，在 iTunes 上提交应用程序时出现错误

我尝试通过应用程序加载器上传我的应用程序但我从 iTunes 商店收到错误消息错误 ITMS 90086 缺少 64 位支持从 2015 年 2 月 1 日开始提交到 App Store 的新 iOS 应用程序必须包含 64 位支持
C# 定时器在一定数量的滴答后自动停止

如何在一定数量的滴答声或 3 4 秒后停止计时器所以我启动了一个计时器我希望在 10 个滴答声或 2 3 秒后自动停止 Thanks 你可以保留一个计数器例如 int counter 0 然后在每个刻度中您都会增加它超过限制后您可
如何在 Android 中自定义 SeekBar 的外观？

I use a SeekBar在我的应用程序中我想对其进行一些自定义我已经想出了如何改变Drawable用于拇指和背景我的问题是如何改变尺寸SeekBar 如果我只是改变高度SeekBar like this theViewis on
如何使用 gstreamer 以 h265 进行流式传输？

我正在尝试同时使用最新的 gstreamer 和 x265enc 我看到有人已经发布了一些提交http cgit freedesktop org gstreamer gst plugins bad log ext x265 gstx265e
git local master分支停止跟踪remotes/origin/master，无法推送

就在我以为我已经掌握窍门的时候git checkout b newbranch 提交提交提交 git checkout master git merge newbranch git rebase i master git Pushgit
如何在 PyCharm 中远程调试

我现在面临的问题是我通过 SSH 在远程主机上部署 Python 代码脚本传递一些参数并且必须由特定用户运行我创建的 PyCharm 运行调试配置通过不同用户通过 SSH 连接无法与实际运行脚本的用户连接我想通过 PyCharm
找不到用于签名配置“调试”的密钥库文件 D\Telegram-master\TMessagesProj\config\release.keystore

我下载了新版本的 Telegram 当运行它时出现此错误 Keystore file D Telegram master TMessagesProj config release keystore not found for signin
Android HttpClient Cookie

Android HttpClient 是否可以自动管理 cookie 它确实支持它阅读下面的帖子似乎在调用执行时必须传递相同的 HttpContext response httpClient execute httpPost local
不必要的水平滚动条jqGrid

在我的 jqGrid 使用版本 4 0 0 中我得到了一个不必要的水平滚动条但也有一个垂直滚动条此问题仅出现在 Chrome 和 Firefox 中但不会出现在 Internet Explorer 中看起来表格宽度的计算有问题因
Java Swing：实现输入值的有效性检查

在我的 Swing 应用程序中用户必须在切换到下一个窗口之前插入数字和值现在作为一个干净的程序应该检查每个输入是否有效如果无效则会显示错误消息并且不会打开下一个窗口该检查的结构如下示例 Button buttonToOpenN
使用 .htaccess 从 URL 中删除 PHP 文件扩展名

我刚刚在 Ubuntu 12 上安装完 LAMP 堆栈并遇到了 Apache 的 htaccess 文件的问题我启用了重写和重定向 mods 并且 htaccess 文件正在工作如果不存在 www URI 将重定向到 www 但无论我
如何使用 GWT 检查给定的图像 URL 是否存在？

我想检查给定的 URL 是否存在并且它是一个图像以便创建一个new Image String url 从中如果给定的 URL 不是图像那么它应该返回错误我一直在寻找同样的东西我想确定何时未从 URL 加载图像有一个 ErrorH
如何使用 Angular 动态加载 CSS

在过去的几天里我一直在尝试解决这个问题的几个答案建议和教程但不幸的是他们都没有成功最接近的是这样的 https juristr com blog 2019 08 dynamically load css angular cli 但它
如何交换字符串中的两个字符？

我想写一个函数如下输入字符串 A int i 0 输出将 i 1 处的字符与 i 处的字符交换的字符串 A 什么是clean能够实现这一目标的解决方案我目前的解决方案是 let mut swapped input str 0 i t
React中createStore和createStoreWithMiddleware有什么区别？

我找到了两种配置 redux createStore 的方法 1 https github com TeamWithBR SampleProjectTodo blob master src store configureStore js 2
ASP.NET MVC - 填充下拉列表

我是 ASP NET MVC 新手我试图弄清楚如何根据数据库中的值创建基本下拉列表在 ASP NET Web 表单中我知道我可以加载如下下拉列表页面 aspx
检查数组是否有一个或多个空值[重复]

这个问题在这里已经有答案了我有数组 var 如果数组中的一个或多个元素为空我的意思是字符串是我想返回 FALSE 我觉得array filter 是更好的方法但我不知道如何以这种方式过滤它我该怎么做函数emptyElement
仅使用内置库使用 Python 制作基本的网络抓取工具 - Python

学习Python 我试图制作一个没有任何第三方库的网络爬虫这样这个过程对我来说就不会被简化而且我知道我在做什么我浏览了一些在线资源但所有这些资源都让我对某些事情感到困惑 html 看起来像这样 lots of other div t

仅使用内置库使用 Python 制作基本的网络抓取工具 - Python

仅使用内置库使用 Python 制作基本的网络抓取工具 - Python 的相关文章

随机推荐

热门标签