Python爬虫如何获取页面内所有URL链接？本文详解

2023-11-17

如何获取一个页面内所有URL链接？在Python中可以使用urllib对网页进行爬取，然后利用Beautiful Soup对爬取的页面进行解析，提取出所有的URL。

什么是Beautiful Soup？

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快。

全部代码：

from bs4 import BeautifulSoup

import time,re,urllib2

t=time.time()

websiteurls={}

def scanpage(url):

websiteurl=url

t=time.time()

n=0

html=urllib2.urlopen(websiteurl).read()

soup=BeautifulSoup(html)

pageurls=[]

Upageurls={}

pageurls=soup.find_all("a",href=True)

for links in pageurls:

if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:

Upageurls[links.get("href")]=0

for links in Upageurls.keys():

try:

urllib2.urlopen(links).getcode()

except:

print "connect failed"

else:

t2=time.time()

Upageurls[links]=urllib2.urlopen(links).getcode()

print n,

print links,

print Upageurls[links]

t1=time.time()

print t1-t2

n+=1

print ("total is "+repr(n)+" links")

print time.time()-t

scanpage("http://news.163.com/")

利用BeautifulSoup还可以有针对性的获取网页链接：Python爬虫获取网页上的链接，通过beautifulsoup的findall()方法对匹配的标签进行查找。
最后注意：光理论是不够的。这里顺便送大家一套2020最新python入门到高级项目实战视频教程，可以去小编的Python交流.裙：七衣衣九七七巴而五（数字的谐音）转换下可以找到了，还可以跟老司机交流讨教！

本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python高效学习方法

python

Python爬虫如何获取页面内所有URL链接？本文详解的相关文章

向 polls urls.py 添加额外的过滤器会导致测试失败

按照 djangoproject 的教程我尝试让 urls py 过滤掉没有选择下面 urlpattern 的民意调查 urlpatterns patterns url r ListView as view queryset Poll o
合并数据框中的值以写入 Excel

我有一个看起来像的数据框 column1 column2 column3 colum4 column5 1 r n 1 r s 1 r n 2 r s 3 r n 3 2 r n 1 r s 1 r n 4 r s 4 r n 5 3 r
如何在不破坏默认行为的情况下覆盖 __getattr__ ？

我如何覆盖 getattr https docs python org 3 reference datamodel html object getattr 类的方法而不破坏默认行为压倒一切 getattr 应该没事 getattr 仅作为
如何使用 boto3 从 AWS Cognito 获取经过身份验证的身份响应

我想使用 boto3 获取访问 AWS 服务的临时凭证用例是这样的我的 Cognito 用户池中的用户登录到我的服务器我希望服务器代码为该用户提供访问其他 AWS 服务的临时凭证我有一个存储我的用户的 Cognito 用户池我有一
[python]没有属性“TessBaseAPI”

当我编译代码时出现错误 import tessercat api tesseract TessBaseAPI 错误是 AttributeError 模块对象没有属性 TessBaseAPI 我已经安装了tesseract via pip
比较两个文本文件并计算差异

我一直在尝试在Python中比较两个文本文件本质上我想打开它们并一次比较一个字符如果字符不同则向计数器添加1 然后显示该值这是我到目前为止所拥有的 usr bin env python diff 0 import random im
来自数据框 groupby 的条形图

import pandas as pd import numpy as np import matplotlib pyplot as plt df pd read csv arrests csv df df replace np nan 0
什么时候用==，什么时候用is？

奇怪的是 gt gt gt a 123 gt gt gt b 123 gt gt gt a is b True gt gt gt a 123 gt gt gt b 123 gt gt gt a is b False Seems a is b
如何将一串Python代码编译成一个可以调用函数的模块？

在 Python 中我有一串 Python 源代码其中包含以下函数 mySrc def foo print foo def bar print bar 我想将这个字符串编译成某种形式类似模块的对象这样我就可以调用代码中包含的函数这是我
获取 HTML 代码的结构

我正在使用 BeautifulSoup4 我很好奇是否有一个函数可以返回 HTML 代码的结构有序标签这是一个例子 h1 Simple example h1 p This is a simple example of html page
如何将 pip 指向 Mercurial 分支？

我正在尝试通过 pip 将我的应用程序安装到 virtualenv 进行测试安装时效果很好default or tip像这样 pip install e hg https email protected cdn cgi l email p
如何将字符串方法应用于数据帧的多列

我有一个包含多个字符串列的数据框我想使用对数据帧的多列上的系列有效的字符串方法我希望这样的事情 df pd DataFrame A 123f 456f B 789f 901f df Out 15 A B 0 123f 789f 1 45
Numpy 通过一个数组的值总结另一个数组

我正在尝试找到一种矢量化方法来完成以下任务假设我有一个 x 和 y 值的数组请注意 x 值并不总是整数并且可以为负数 import numpy as np x np array 1 1 1 3 2 2 2 5 4 4 dtype flo
django 中的“管理器”是什么？

我已经阅读了Django官方中的定义文档 https docs djangoproject com en dev topics db managers 我仍然对什么感到困惑Manager does 文档说它们允许您操作数据库表模型但我仍
让 TensorFlow 在 ARM Mac 上使用 GPU

我已经安装了TensorFlow在 M1 上 ARM Mac 根据这些说明 https github com apple tensorflow macos issues 153 一切正常然而模型训练正在进行CPU 如何将培训切换到GPU
Docker Build 找不到 pip

尝试关注一些 1 https aws amazon com blogs aws run docker apps locally using the elastic beanstalk eb cli 2 http docs aws amazo
在Python中将罗马数字转换为整数

根据 user2486 所说这是我当前的代码 def romanMap map M 1000 CM 900 D 500 CD 400 C 100 XC 90 L 50 XL 40 X 10 IX 9 V 5 V 4 I 1 return
Python 可以替代 Java 小程序吗？

除了制作用于物理模拟如抛射运动重力等的教育性 Java 小程序之外还有其他选择吗如果你想让它在浏览器中运行你可以使用PyJamas http pyjs org 这是一个 Python 到 Javascript 的编译器和工具集
Chrome + 另一个进程：进程间通信比 HTTP/XHR 请求更快？

我有一个进程 1 对视频流进行实时图像处理我需要在 Chrome 中的 HTML 页面中渲染该视频同一台计算机上的进程 2 在canvas or img or videoHTML5 元素由于我有 1000x1000 像素 x 3 字节
使用Python的线程模块调用ctypes函数比使用多处理更快？

我一生都无法找出这个问题的答案我编写了一个可以执行数百次繁重计算的脚本我有一个绝妙的主意将这些计算任务编写为 C 然后使用 Python 的 ctypes 与它们交互我心想我什至可以使用并行性进一步优化它我最初的方法是使用线程

随机推荐

循环神经网络（RNN）的基本原理及LSTM的基本结构

来源于课上实验结果清晰遂上传于此实验环境TensorFlow1 14 该课件仅用于教学请勿用于其他用途详细参考实验笔记实验视频一实验目的学习掌握循环神经网络 RNN 的基本原理及LSTM的基本结构掌握利用LSTM神经元
vulfocus靶场安装教程

背景漏洞把场是目前每个安全人员以及想学习信息安全的人必备的东西但目前商业化产品居多还有一些类似dwwa sqlilabs这类的开源项目但是漏洞环境比较固定使用完一次后就失去其作用搭建的成本过高每次启动的流程会比较繁锁甚至很多
【react】对state的理解

state是类创建的实例对象上的一个状态属性想要改变类的实例对象的值就要用到构造器但由于类组件都是继承的React内置的Component类继承的类要写构造器的话就必须写super 改变state this state xxx
TIP Spring-boot健康检查查看详细信息

Spring boot提供了健康检查的手段定期检查应用各个组件的状态并提供了一些通用组件的检查比如MySQL Redis等可以使用下面的命令查看应用的健康状态 curl localhost port health 如果应用有异常会
GhostNetV2学习笔记

GhostNetV2学习笔记 GhostNetV2 Enhance Cheap Operation with Long Range Attention Abstract 轻量级卷积神经网络 CNNs 是专为在移动设备上具有较快推理速度的应用
Deployment Controller 典型使用场景

1 重新调度 Rescheduling 不管想运行 1 个副本还是 1000 个副本副本控制器都能确保指定数量的副本存在于集群中即使发生节点故障或 Pod 副本被终止运行等意外状况 2 弹性伸缩 Scaling 手动或者通过自动扩容代理
【科普】CRC校验（一）什么是CRC校验？

目录 CRC 循环冗余校验 CRC 校验码的生成 CRC 的发送方与接收方发送方接收方除法异或运算示意图 CRC 循环冗余校验 CRC Cyclic Redundancy Check 循环冗余检验是一种用于检测数字数据错误的技术作
不用JS，教你只用纯HTML做出几个实用网页效果

转载请注明出处葡萄城官网葡萄城为开发者提供专业的开发工具解决方案和服务赋能开发者原文出处 https blog bitsrc io pure html widgets for your web application c90155
Python - 遍历列表

方法1 for循环直接遍历 lists m1 1900 m2 2000 for item in lists print item 注同JAVA中的foreach循环一样用for循环遍历列表并不能改变列表中的数据项的值 lists m1
校验密码复杂度（规则：长度8-30，必须包含数字、字母、特殊符号）、校验用户名（规则：长度4-19，包含数字、字母，不包含特殊字符）

校验密码复杂度规则长度8 30 必须包含数字字母特殊符号校验用户名规则长度4 19 包含数字字母不包含特殊字符
RHEL8网络管理

RHEL8网络管理服务 NetworkManager早期的设计目的是为了统一网络配置表示以后所有的网络相关的配置都使用NetworkManager来实现 NetworkManager服务提供了3种工具用来配置网卡参数都不需要去手动修改网
【每日多题之贪心】

文章目录 1 分割平衡字符串 1 1 题目描述 1 2 题目分析 1 3 代码实现 2 最少操作数使数组递增 2 1 题目描述 2 2 题目分析 2 3 代码实现 3 卡车上的最大单元数 3 1 题目描述 3 2 题目分析 3 3 代码实现
使用UML编写Java应用程序

引言统一建模语言 Unified Modeling Language 简写为UML 是一种通用的模拟语言它可以用于确定展示和记录软件系统的设计过程统一建模语言中的图形标记尤其是用于面向对象的软件设计它有两大优点 1 UML是国际
iframe添加loading效果

问题当一个页面嵌入iframe时 iframe加载会有延迟即在iframe元素展现前嵌入iframe的父页面会有一段白屏情况用户感知不到iframe页面在加载体验效果不是很好解决方法为了提升用户体验让用户感知到当前页面在加载
FISCO BCOS离线搭建单机单群组4节点

系列文章目录第一章 FISCO BCOS在线搭建单机单群组4节点文章目录系列文章目录前言一安装准备 1 安装依赖包 2 创建操作目录 3 下载脚本三搭建单群组4节点联盟链 1 暂停并清除FISCO BCOS 2 搭建区块链
Python实战

逆向完美世界登录 js代码调试阶段 1 查看密码关键字段 2 Ctrl shift f全局搜索 password 找到相关js文件 3 从代码的setpublickey encrypt关键字可以看出使用了非对称加密算法 4 此处打断点再
ubuntu 使用FFTW快速计算离散傅里叶变换

FFTW the Faster Fourier Transform in the West 是一个快速计算离散傅里叶变换的标准C语言程序集其由MIT的M Frigo 和S Johnson 开发可计算一维或多维实和复数据以及任意规模的DF
解决Xilinx_ISE 14.7在Win10下选择“open project”崩溃闪退的问题

解决Xilinx ISE 14 7在Win10下选择 open project 崩溃闪退的问题问题描述 ISE 14 7对win10无法完美支持在使用64位ISE时点击OPEN之类的东西时程序都会崩溃虽然使用32位不会有这个问题但是
nvidia-docker容器迁移导致GPU启动失败解决方案

引言起因是最近发现一个很有趣的问题当我的docker容器迁移到另一台服务器去因为GPU版本不一致导致项目启动是会报错为 CUDA error CUDA ERROR NO DEVICE no CUDA capable device is
Python爬虫如何获取页面内所有URL链接？本文详解

如何获取一个页面内所有URL链接在Python中可以使用urllib对网页进行爬取然后利用Beautiful Soup对爬取的页面进行解析提取出所有的URL 什么是Beautiful Soup Beautiful Soup提供一些简单

Python爬虫如何获取页面内所有URL链接？本文详解

如何获取一个页面内所有URL链接？在Python中可以使用urllib对网页进行爬取，然后利用Beautiful Soup对爬取的页面进行解析，提取出所有的URL。

Python爬虫如何获取页面内所有URL链接？本文详解 的相关文章

随机推荐

热门标签

Python爬虫如何获取页面内所有URL链接？本文详解的相关文章