编写一个 python 脚本，递归地遍历页面上的链接

2024-02-26

我正在为我的学校做一个项目，我想在其中比较诈骗邮件。我找到了这个网站：http://www.419scam.org/emails/ http://www.419scam.org/emails/现在我想做的是将每个骗局保存在单独的文档中，然后我可以分析它们。到目前为止，这是我的代码：

import BeautifulSoup, urllib2

address='http://www.419scam.org/emails/'
html = urllib2.urlopen(address).read()
f = open('test.txt', 'wb')
f.write(html)
f.close()

这以文本格式保存了整个 html 文件，现在我想删除该文件并将 html 链接的内容保存到诈骗中：

<a href="2011-12/01/index.htm">01</a> 
<a href="2011-12/02/index.htm">02</a> 
<a href="2011-12/03/index.htm">03</a>

etc.

如果我明白了，我仍然需要更进一步并打开保存另一个 href。知道如何在一个 python 代码中做到这一点吗？

谢谢你！

您在 BeautifulSoup 中选择了正确的工具。从技术上讲，您可以在一个脚本中完成所有操作，但您可能想要对其进行分段，因为看起来您将处理数以万计的电子邮件，所有这些都是单独的请求 - 这将需要一段时间尽管。

这一页 http://www.crummy.com/software/BeautifulSoup/bs4/doc/会对您有很大帮助，但这里只是一个帮助您入门的小代码片段。这将获取作为电子邮件索引页的所有 html 标记，提取其 href 链接并在 url 前面附加一些内容，以便可以直接访问它们。

from bs4 import BeautifulSoup
import re
import urllib2
soup = BeautifulSoup(urllib2.urlopen("http://www.419scam.org/emails/"))
tags = soup.find_all(href=re.compile("20......../index\.htm")
links = []
for t in tags:
    links.append("http://www.419scam.org/emails/" + t['href'])

're' 是Python 的正则表达式模块。在第五行中，我告诉 BeautifulSoup 在 soup 中查找 href 属性与正则表达式匹配的所有标签。我选择此正则表达式是为了仅获取电子邮件索引页面，而不是该页面上的所有 href 链接。我注意到索引页面链接的所有 URL 都具有这种模式。

拥有所有正确的“a”标签后，我循环遍历它们，通过执行 t['href'] 从 href 属性中提取字符串，并将 URL 的其余部分附加到字符串的前面，以获取原始字符串 URL。

通读该文档，您应该了解如何扩展这些技术来抓取单独的电子邮件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

编写一个 python 脚本，递归地遍历页面上的链接的相关文章

xlrd.biffh.XLRDError：Excel xlsx 文件；不支持[重复]

这个问题在这里已经有答案了我正在尝试使用读取启用宏的 Excel 工作表pandas read excel与 xlrd 库它在本地运行良好但是当我尝试将其推送到 PCF 时我收到此错误 2020 12 11T21 09 53 441
如何使用 pyinstaller 包含文件？

我也使用 tkinter 使用 python 3 7 编写了一个程序由于我使用的是外部图片因此当我将所有内容编译为一个 exe 时我需要包含它们我试过做 add data bg png files 但我仍然收到此错误 tkinter
Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可

随机推荐

Chrome 中大图像的淡入淡出

我在大图像中淡入淡出时遇到一些问题但仅限于 Chrome 这是绝对基本的设置 document ready function var img new Image img hide load function this fadeIn 300
GWT：如何抑制超链接，以便它不会更改我的历史标记

我想让我的超链接像按钮一样工作仅响应 Click 事件但是当您单击它们时它们会自动更改历史记录令牌这会弄乱我的应用程序中的历史记录机制有没有办法抑制超链接的默认行为以便它不会更改历史标记我尝试将 targetHistoryT
Javascript 数组排序是异步的吗？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案 Javascript Array sort 函数是异步的吗我不这么认为但是当我运行以下代码时它似乎确实是 alph
vs code 终端每次都会更改为 powershell [重复]

这个问题在这里已经有答案了在 Vs code 更新 1 60 0 后终端打开 powershell 但默认保持不变 git bash 如果我创建新终端那么它会打开 git bash 当我启动应用程序时它看起来像然后我必须创建新的
Python初始化

我有这个代码 def init self a b c d self a a self b b etc 我正在考虑将其替换为 def init self a b c d args locals for key in args self dic
ASP .NET MVC5 中的 CORS

我有一个 MVC 项目其中有几个想要公开跨域的 JSON 控制器方法不是整个网站只是这两种方法我基本上想要这篇文章中针对 cors 所说的确切内容 http enable cors org server aspnet html ht
过滤 fiddler 仅捕获特定域的请求

我不确定如何修改 CustomRules js 文件以仅显示特定域的请求有谁知道如何做到这一点这很容易做到在过滤器选项卡上单击仅在过滤器包含时显示然后键入您的域
如何使用 Enthought python (Canopy) 安装 CVXOPT

在开始之前让我为这篇文章添加替代标题如何使用 Intel MKL 编译 CVXOPT 如何更改 CVXOPT 中的 init py 以使用 Intel MKL 进行编译让我解释一下这个问题我正在尝试使用 Enthought pyth
JUnit4 和 JUnit5 测试未在 IntelliJ 中运行

我试图在 IntelliJ IDEA 2017 1 5 的同一个项目中使用 JUnit4 和 JUnit5 测试到目前为止所有测试都基于 JUnit4 我添加了jupiter platform and vintage对我的 pom xm
clang++ 和 O2 的未定义引用

我正在一个项目上尝试 CLang 3 4 和 libc 但在发布模式下出现奇怪的链接错误 home wichtounet dev eddic src ast Operator cpp 17 error undefined reference
如何调整规范模式来评估对象的组合？

我知道规范模式描述了如何使用类的层次结构来实现ISpecification
Xcode 并排代码比较选项在哪里？

从 Xcode 13 开始代码比较默认不再是并排差异一定还有办法做到这一点我正在努力寻找选择点击Code Review 屏幕截图上的蓝色按钮一个箭头指向左侧另一个箭头指向右侧或在View Menu 然后在第二个图标上选择S
关闭 Twitter Bootstrap Navbar 过渡动画

就像http twitter github com bootstrap http twitter github com bootstrap 我现在工作的网站是响应式的我想删除过渡动画当我单击折叠的导航栏菜单按钮时上图是我所问问题的截图
如何使用 IIS 为 Amazon EC2 服务器启用 FTP 被动模式

我最初在使用 pagelime 时遇到了问题它要求用户使用被动模式并且不支持主动模式让主动模式工作起来非常简单但让被动工作模式需要付出更多的努力我正在使用带有 IIS 的 Amazon EC2 服务器以及 FTP 站点以下链接最终
使用Composer的开发/生产切换时如何正确部署？

Composer 可以选择仅在开发时加载多个依赖项因此这些工具不会安装在生产环境中在实时服务器上理论上这对于仅在开发中有意义的脚本非常方便例如测试假数据工具调试器等解决的方法是添加一个额外的require dev使用开发中所
在循环中连接 PyQt4 中的槽和信号

我尝试使用 PyQt4 构建一个计算器但从按钮连接 clicked 信号无法按预期工作我为 for 循环内的数字创建按钮然后尝试连接它们 def init self for i in range 0 10 self numberBut
类似于 C 中的宏的功能

我试图理解像宏这样的函数的概念但是有几点让我困惑例如说我们有 define Max a b a gt b a b 我这样称呼它 int i Max 4 5 这将评估相当于的条件表达式a gt b 如果是则a 否则b 但我对 Max 函数
在 JavaFX 中安全地关闭/删除 ImageView 文件

我有一个 JavaFX 应用程序它显示 VBox 中某个文件夹中的所有图像 VBox 的构建如下 try DirectoryStream
Android 应用程序谷歌地图显示灰色瓷砖而不是地图！

我在这里完美地遵循了本指南并再次浏览了一遍但是当我在 google avd 上运行该程序时页面加载但只出现灰色图块并且没有显示应有的地图有人有什么想法吗 Thanks 几天前我遇到了同样的问题并发现与 APK 签名相关的某些内
编写一个 python 脚本，递归地遍历页面上的链接

我正在为我的学校做一个项目我想在其中比较诈骗邮件我找到了这个网站 http www 419scam org emails http www 419scam org emails 现在我想做的是将每个骗局保存在单独的文档中然后我可以分析

编写一个 python 脚本，递归地遍历页面上的链接

编写一个 python 脚本，递归地遍历页面上的链接 的相关文章

随机推荐

热门标签

编写一个 python 脚本，递归地遍历页面上的链接的相关文章