7. python爬虫——基于xpath爬取58同城房源信息

2023-11-03

python爬虫——基于xpath爬取58同城房源信息

1、需求
2、分析
3、代码
4、实现效果

1、需求

获取58同城上所有房源的标题信息
https://bj.58.com/ershoufang/
在这里插入图片描述

2、分析

使用抓包工具进行分析
在这里插入图片描述

发现所有的房源标题信息，均存在于ul属性class=house-list-wrap下的li标题中

用xpath形式写为：//ul[@class=“house-list-wrap”]/li

在这里插入图片描述
具体的内容存在于li标签下第二个div标签的a标签中。

用xpath形式写为：//ul[@class=“house-list-wrap”]/li/div[2]/h2/a/text()

3、代码

from lxml import etree
import requests

if __name__ == "__main__":
    url = 'https://bj.58.com/ershoufang/'
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'
    }
    # 爬取到页面源码数据
    page_text = requests.get(url=url,headers=headers).text
    # 数据解析
    tree = etree.HTML(page_text)
    # 存储li标签对象
    li_list = tree.xpath('//ul[@class="house-list-wrap"]/li')
    with open('./58.txt','w',encoding='utf-8') as fp:
        for li in li_list:
            title = li.xpath('./div[2]/h2/a/text()')
            print(title)
            fp.write(title+'\n')

4、实现效果

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

网络爬虫

python

大数据

7. python爬虫——基于xpath爬取58同城房源信息的相关文章

如何在Python中对两个字符串进行按位异或？

我想在 python 中执行两个字符串的按位异或但 python 中不允许字符串的异或我该怎么做您可以将字符转换为整数并对它们进行异或 l ord a ord b for a b in zip s1 s2 这是一个更新的函数以防您需
当遵循文档代码时，Python 多处理返回 AttributeError [重复]

这个问题在这里已经有答案了我决定尝试使用多处理器模块来帮助加速我的程序为了弄清楚这一点我尝试使用有关多处理的官方 python 文档中的一些代码示例第一次尝试介绍 https docs python org 3 library m
如何获取 Pandas df.merge() 不匹配的列名称

给出以下数据 data df pd DataFrame Reference A A A B C C D E Value1 U U U V W W X Y Value2 u u u v w w x y index 1 2 3 4 5 6 7
Django：NoReverseMatch at /'myapp'不是注册的命名空间

我在模板渲染期间遇到此错误我想做的是允许用户上传 csv 然后将数据处理到模型中第 109 行出错 myapp 不是已注册的命名空间这是我的第 109 行代码
使用 selenium 和 python 在网页网格中抓取 javascript 数据

我的问题是我需要包含网站子域的网格中的所有数据https applipedia paloaltonetworks com https applipedia paloaltonetworks com 包含名称类别子类别风险技术的数据
如何在redis中使用python删除排序集中的项目

如何使用 python 删除排序集中大于某个值的项目 key foo pipe redis master conn pipeline pipe zadd key 1 a pipe zadd key 2 b pipe zadd key 3 c
python 函数 *args 和 **kwargs 以及其他指定的关键字参数

我有一个 Python 类它的方法应该以这种方式接受参数和关键字参数 class plot def init self x y self x x self y y def set axis self args xlabel x ylabe
使用 Python 访问内存映射文件

我希望利用激战 2 中的内存映射文件该文件旨在链接到 Mumble 以获得位置音频该文件包含有关字符坐标的信息和其他有用的信息我已经能够使用此脚本访问坐标信息 import mmap import struct last while
并行执行按位运算的代码

我有这段代码通过将该 AU 矩阵的每个字节 8 个元素打包到 A 中来减少内存消耗从而使 100k 200k 矩阵占用更少的空间正如您所期望的这段代码需要永远运行我也计划将行数增加到 200k 我正在一个非常强大的实例 CPU 和
如何在 dash/plotly 中使用 iframe？（Python/HTML）

我正在创建一个仪表板我想使用这个交互式地图网站链接 https www ons gov uk peoplepopulationandcommunity healthandsocialcare causesofdeath articles
os.walk 无需深入研究下面的目录

我该如何限制os walk只返回我提供的目录中的文件 def dir list self dir name whitelist outputList for root dirs files in os walk dir name for f
Python Jinja2 调用宏会导致（不需要的）换行符

我的 JINJA2 模板如下所示 macro print if john name if name John Hi John endif endmacro Hello World print if john Foo print if joh
将 postgres 连接到 django 时遇到问题

以下文档来自Django Postgres 文档 https docs djangoproject com en 4 1 ref databases postgresql notes我添加到我的settings py 在我设置的设置中 DA
如何向 Jupyter (ipython) 笔记本自动添加扩展？

我已经安装了扩展 calico document tools 我可以使用以下命令从 Jupyter 笔记本中加载它 javascript IPython load extensions calico document tools 如何为每个
dask分布式内存错误

在分布式作业上运行 Dask 时我在调度程序上遇到以下错误 distributed core ERROR Traceback most recent call last File usr local lib python3 4 dist
抓取 Shopee API v4

我有一个最终项目其中我想要检索的数据是通过在shopee上抓取数据来获取的但是当我在隐藏的API上抓取shopee时遇到问题当我在Insomnia脚本上尝试时脚本会运行但是当我尝试时在本地或 google colab 脚本上这是
Python - 将列表作为参数传递给 SQL，以及更多变量

我试图在 python 3 6 中将未知数量的参数传递给 SQL Server 这是我使用 pypyodbc 的代码 cursor cnxn cursor theargs 1033286869 1053474957 1063654630 1
Mac 无法安装 Tensorflow

我检查了我的 pip3 和 python3 版本 tensorflow MacBook Pro de Hector 2 tensorflow hectoresteban pip3 V pip 10 0 1 from Users hector
合并共享属性的节点

EDITED 我真的需要 Networkx graph 专家的帮助假设我有以下数据框我想将这些数据框转换为图表然后我想根据描述和优先级属性将两个图映射到相应的节点 df1 From description To priority 10
定义Python类时，如何在其中设置随机变量？

假设我有一个名为Person 其中只有该人的姓名和性别性别应从男性和女性中随机选择为此我导入random randint 功能根据随机int确定随机性别 import random class Person alias random

随机推荐

决策树——依据水果特征分类

文章目录一获取数据集 1 提取数据 2 划分数据二计算信息增益 1 信息熵 2 计算信息增益三绘制决策树四分类预测一获取数据集水果中苹果和杨桃外部特征比较鲜明例如下面两张苹果杨桃图片苹果颜色为红色形状大致为椭圆
优化代码逻辑之 K-近邻算法之鸢尾花实例使用Spark实现KNN的Demo2

这篇代码是KNN的优化代码就是 flatMap里面的结构转换和aggregate的应用感觉有点难理解但是思想简单首先要知道这个优化是基于有个大数据的思想分而治之求出一份数据最大的前一百个数如果数据太多内存太小则将数据切割
AndroidStudio AIDL 示例代码详细步骤

AIDL Android Interface Definition Language 即Android接口定义语言最近在看Binder的原理 Android里面AIDL就是Binder的经典实现先记录一下AIDL的使用步骤 1 服务端S
神奇的master公式（递归行为时间复杂度）

master master公式是干嘛的呀 master公式是干嘛的呀 master是一个对于递归行为时间复杂度的估算公式为 T N a T N b O N d 不用急我们来举一个栗子我们先来看看二分法求最大值的代码 public int
疯狂的程序员--绝影

该博客转自新浪博客作者疯狂之桥网址 http blog sina cn dpool blog s blog a46817ff010157cf html vt 4 今天看到绝影的CSDN博客由于种种原因被关闭了心中有种说不出的感觉感
python爬虫(一)

目录前言一爬虫简介 1 1 Python爬虫 1 2 robots协议二爬虫分类 2 1 通用网络爬虫 2 2 垂直网络爬虫 2 3 增量式网络爬虫 2 4 分布式网络爬虫 2 5 深度网络爬虫 2 6 搜索引擎爬虫三爬虫构造
[学习交流] OC学习笔记之id类型及应用场景

1 NSObject访问子类方法 NSObject是所有类的基类可以指向任何子类例如 import
【暴力破解】dvwa

dvwa暴力破解练习 1 low 首先进行抓包将包发送到intruder 然后对用户及密码进行暴力破解成功 Mid 在low的基础上添加了一定的时延不适合大量字典但是爆破方式与low相同 High 点击进表单页面抓包包1 放掉之后再
parseInt()详解

可能绝大多数学过js的就知道parseInt 函数这里对小伙伴来说是有一个难点或者说是误区的好吧说的就是我那就是在官方给的解释中我们能看到其中一个参数 radix 文中多次说他为基数千万不要把它理解为要转换的进制看上面的这些可能
docker 重启gitlab_Gitlab+CICD自动化部署Python项目

使用CICD原理当我们push项目到gitlab 就会触发 gitlab ci yml 文件文件里面的 only maste表示当push的分支为master则执行脚本执行时通过tags shell选择已有的runner去执行这时
微信小程序——关于时间

获取当前时间 var time new Date var year dateNow getFullYear var month dateNow getMonth 1 var day dateNow getDate var date year
【2023最新版】Linux (WSL：Ubuntu22.04)安装Go1.20.6+Win11：安装Go1.20.6+GoLand2023.1.4+配置环境

目录一 Windows安装Go 1 下载地址 2 安装 3 配置Go环境变量位置默认添加的环境变量修改环境变量新建以下文件夹检查二 Linux WSL 安装Go 1 下载 2 解压缩 3 查看安装在系统上的Go版本 4 设置G
《操作系统》- 操作系统的基本概念

目录一操作系统的概念 1 1 操作系统的分类 1 2 计算机系统的构成 1 3 操作系统都做了哪些事二操作系统的目标和功能 2 1 操作系统的目标 2 2 操作系统的功能三操作系统的特征 3 1 并发 3 2 共享 3 3 虚拟
Java垃圾回收机制深入理解

文章目录一简介二 Java内存结构三什么是垃圾四垃圾收集算法 1 标记清除算法 Mark and Sweep 2 复制算法 Copying 3 标记整理算法 Mark and Compact 4 分代收集算法 Genera
微软live服务器地址,在Mail中设置windows Live hotmail方法

Mail是苹果系统的内置软件是一款非常棒的软件用起来很自然起码和outlook比起来给人的感觉是这样接下来是小编为大家收集的在Mail中设置windows Live hotmail方法希望能帮到大家在Mail中设置windows
c++ 在一行中输入若干个数，以空格间隔

在一行中输入若干个数以空格间隔直到输入回车以结束这是我在做PTA的题的时候发现回车输入逻辑有先后区别题目如下给出若干个正整数请找出出现次数最多的数输入格式在一行中输入若干个数以空格间隔读入数的总个数不超过5000 输出格
ModuleNotFoundError: No module named ‘distutils.util 的解决方法

ModuleNotFoundError No module named distutils util 的解决方法使用 curl https bootstrap pypa io get pip py o get pip py sudo py
python轮胎缺陷检测_基于数字图像处理的轮胎缺陷检测

摘要随着汽车工业和道路交通运输业的迅猛发展由于子午线轮胎具有胎面不容易变形比较良好的稳定性使用安全和耐用等特点并且子午线轮胎的功能明显优越于普通斜交胎其应用越来越普遍已成为世界轮胎发展中的主要产品但是子午线轮胎在制造过程中工
Navicat for mysql连接mysql时遇到的问题及其解决方法

今天电脑重新装mysql 遇到了一个问题 authentication plugin caching 大概这样懒得写了找了好多教程乱七八糟的就是解决不了最后找到一篇博客https blog csdn net u011182575 a
7. python爬虫——基于xpath爬取58同城房源信息

python爬虫基于xpath爬取58同城房源信息 1 需求 2 分析 3 代码 4 实现效果 1 需求获取58同城上所有房源的标题信息 https bj 58 com ershoufang 2 分析使用抓包工具进行分析发现所有的房