Python爬虫

2023-11-03

文章目录

1.概述

最近看到一句话，感觉很扎心，这句话是”任何一个男孩子小时候的梦想，绝对不是买套房“。

其实，刚从象牙塔步入社会的时候，不曾想过房的事情。记得2016年房价猛涨，方才对房有了一些认知而已。直到随着年龄的增长，房子的故事便不得不需要展开了。

北上广深如今的房价又到了什么样惊人的数值呢？从贝壳找房最新的贝壳指数来看：北京是6.13万，上海5.62万，广州2.86万，深圳7.05万。

今天，我们从贝壳找房爬取了 8万+二手房源信息，看看在北京的二手房都是什么样的存在。

通过本篇，大家可以在了解北京二手房多维度信息的同时学习Python的re正则表达式、pandas数据处理以及绘图库(pyecharts、seaborn)柱状图+饼图+直方图+箱线图+map+热力图+堆叠图和高德api的使用等。

数据说明：

数据来源：贝壳找房-二手房
数据日期：2020年12月28日
数据量级：82,346（含车位，数据处理阶段清洗）

工具环境

Python 3.8.5

库	用途
requests	爬虫请求网站数据
re	正则解析网页数据及数据清洗
pandas	数据清洗及统分
pyecharts	绘图
matplotlib	绘图
seaborn	绘图

2.数据采集

贝壳找房的数据爬取比较简单，简单的翻页规律和HTML网页文本解析。我们编写for循环，用requests请求数据，再用re正则表达式进行房源数据解析即可。

鉴于整个爬虫过程并不复杂，这里亦不细说，后续专题介绍如何获取全部数据。

网页源数据

房源数据解析代码如下：

# 请求网页数据函数
def get_html(url, proxies):
    try:
        rep = requests.get(url, headers= header, proxies= proxies, timeout=6)
    except Exception as e :
        print(e)
        proxies = get_proxies()
    rep = requests.get(url, headers= header, proxies= proxies, timeout=6)
    while  rep.status_code != 200:
        proxies = get_proxies()
        rep = requests.get(url, headers= header, proxies= proxies, timeout=6)        
    html = rep.text
    html = re.sub('\s', '', html) # 将html文本中非字符数据去掉        
          
    return html,proxies
# 循环请求每页数据
num = 0
for page in range(1,pages+1):
    items = []
    time.sleep(random.random())
    info_url = f'{url}/pg{page}'
    try:
        info_html, proxies = get_html(info_url, proxies)
    except Exception as e:
        print(e)
        continue

    sellListContent = re.findall(r'<ulclass="sellListContent"log-mod="list">(.*?)</ul>', info_html)[0]
    Lists = re.findall(r'<liclass="clear">(.*?)</li>', sellListContent)

    for List in Lists:
        try:
            # 获取房屋信息
            item = {}
            item['标题'] = re.findall(r'detail"title="(.*?)"data-hreftype=', List)[0]
            item['房子ID'] = re.findall(r'housedel_id=(\d+)&', List)[0]
            item['地址'] = re.findall(r'<ahref="(.*?)">(.*)</a>', List)[0][1]
            item['详情页'] = re.findall(r'<ahref="(.*?)">(.*)</a>', List)[0][0]
            item['详情'] = re.findall(r'<spanclass="houseIcon"></span>(.*?)</div>', List)[0]
            item['总价'] = re.findall(r'<divclass="totalPrice"><span>(\d+\.?\d*)</span>(.*?)</div>', List)[0][0]
            item['总价单位'] = re.findall(r'<divclass="totalPrice"><span>(\d+\.?\d*)</span>(.*?)</div>', List)[0][1]
            item['均价'] = re.findall(r'<divclass="unitPrice".*<span>(.*?)</span></div></div></div>', List)[0]
            item['关注人数'] = re.findall(r'<spanclass="starIcon"></span>(.*?)</div>', List)[0]
            item['地区'] = areaName
            item['价格区间'] = priceRange
            item['户型'] = layout
            items.append(item)
            num = num+1
            print(f'{num}个房子信息已经采集!')

        except Exception as e:
            print(e)
            print(item)
            continue

说明：

由于翻页最多支持100页，每页约30个房源数据，如果我们想获取全部的数据，需要注意两点：

可以通过进行更细颗粒度的筛选后再进行url的组合，一般来说可以通过区域和价格区间和户型进行组合即可，我这边即是采用这种组合策略；
由于网站对同IP的访问频率和次数是有限制的，因此需要用到代理IP，购买付费的代理IP就可满足学习需求了，在requests.get()函数中加上proxies参数即可。

3.数据清洗

这部分我们用到pandas和re，主要是过滤非住宅房源的车位数据信息，解析房源更多有用信息。

3.1.读取数据

import pandas as pd
import re

df = pd.read_excel('贝壳在售二手房数据20201228.xlsx')
df.sort_values(by='总价')

原始数据预览

我们可以看到，在原始数据中详情包含的信息较多，比如楼层、户型、面积、建筑年份和朝向等等，对于地下室和底层的部分大多数都是车位，索性就不考虑这部分数据，这部分我们后续进行清洗。同时，在均价和关注人数中也都包含更多信息需要我们解析出来。

3.2.去掉车位(地下室)数据

# 车位条件，不一定严谨
mask = ((df['详情'].str.contains('地下室')) 
#         & (df['详情'].str.contains('1室'))
#         &(~df['详情'].str.contains(r'地下室\(共[2-9]|[1-9]\d+层\)'))
       )|((df['详情'].str.contains('底层')) & (df['详情'].str.contains('1室'))
           &(~df['详情'].str.contains(r'底层\(共[2-9]|[1-9]\d+层\)'))
         )
# 房子
house = df[~mask]
# 车位
carport = df[mask]
carport.sort_values(by='总价')

车位及部分别墅数据

哈哈，有点尴尬，部分别墅被误处理了。不过没事，别墅咱们就先不考虑，毕竟更买不起！

3.3.房源信息解析

# 详情信息解析
s = '中楼层(共9层)|2007年建|1室1厅|24.78平米|北'
# s = '地下室|2014年建|1室0厅|39.52平米|东'
# s = '底层(共2层)5室3厅|326.56平米|东南西北'
# s = '地下室1室0厅|11.9平米|南'
# re.split(r'(.+?)(\(共(.*)层\))*(\|((.*)年建)*\|)*?(\d+室.*?)\|(.*)平米\|(.*)',s)
re.split(r'(.+?)(?:\(共(.*)层\))?(?:\|(.*)年建\|)*?(\d+室.*?)\|(.*)平米\|(.*)',s)

详情信息解析结果

我在操作的时候用的是注释掉的正则表达式部分，后来在交流群里询问大佬明神后知道了**?

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫的相关文章

动态向类添加类方法

我有以下片段 FEED TYPES fan mail Fan Mail review Review tip Tip fan user Fan User fan song Fan Song fan album Fan Album played
使用 Python Multiprocessing Pool.map() 的问题在 Python 3.7.2 中变得棘手，但在 3.6.2 中很快完成

我刚刚将Python从3 6 2 gt 3 7 2并且遇到了问题multiprocessing图书馆我在 Django 应用程序中使用它该应用程序在工作函数中使用 Django 特定的函数见下文在我的代码中我有以下内容 impor
sklearn 估计器管道的参数无效

我正在实现 O Reilly 书中的一个示例 Python 机器学习简介使用 Python 2 7 和 sklearn 0 16 我正在使用的代码 pipe make pipeline TfidfVectorizer LogisticRe
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
为什么需要在 Python 方法中显式使用“self”参数？ [复制]

这个问题在这里已经有答案了当在 Python 中的类上定义方法时它看起来像这样 class MyClass object def init self x y self x x self y y 但在其他一些语言中例如 C 您可以使用
如何（重新）命名 pandas 数据框中的空列标题而不导出到 csv

我有一个熊猫数据框df1带有一个索引列和一系列未命名的值我想为未命名的系列指定一个名称到目前为止我知道的唯一方法是导出到df1 csv using df1 to csv df1 csv header Signal 然后使用以下命令重新
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
无法在 virtualenv 中安装 libxml2

我有一个问题libxml2蟒蛇模块我正在尝试将其安装在python3 虚拟环境使用以下命令 pip install libxml2 python3 但它显示以下错误 Collecting libxml2 python3 Using cac
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
查找正在导入哪些 python 模块

从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典您可以检查其键以查看导入的模块 See http docs python org library sys html
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
更改 Matplotlib 投影轴的背景颜色

我正在尝试使用 Cartopy 创建一个图形该图形需要在未投影的轴上绘制投影轴这是一个尽可能简单的代码版本它将轴上的内容替换为背景颜色 import matplotlib pyplot as plt import cartopy cr
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

Linux编码修改

1 查看当前系统默认采用的字符集 locale 2 查看系统当前编码 echo LANG 如果输出为 en US UTF 8 英文 zh CN UTF 8 中文 3 查看系统是否安装中文字符集 locale a grep zh 如果出现了
JS的深拷贝函数

自定义深拷贝函数引入的赋值指向同一个对象相互之间会影响对象的浅拷贝只是浅层的拷贝内部引入对象时依然会相互影响对象的深拷贝两个对象不再有任何关系不会相互影响 function isObject value const va
flask 开发Restful API ：post get

命令行安装flask pip install flask 新建脚本api py from flask import Flask from flask import request import json app Flask name app
使你的IT职业生涯更上一层楼de14条建议

摘要升值为企业IT部门的领导者是大部分IT技术人员职业生涯的最终追求但从一般大众中脱颖而出并非易事仅仅把本职工作干好远远不够还需要IT技术人员展示出投身于技术发展的奉献精神及伴随技术发展而发展的能力升值为企业IT部门的领导者
OpenGL坐标变换及其数学原理，两种摄像机交互模型（附源程序）

OpenGL坐标变换及其数学原理两种摄像机交互模型附源程序实验平台 win7 VS2010 先上结果截图文章最后下载程序解压后直接运行BIN文件夹下的EXE程序 a 鼠标拖拽旋转物体类似于OGRE中的 OgreBites Cam
频繁跳槽是职场走下坡路的开始，Java程序员注意：跳槽前，你该考虑5个问题

本文转载自频繁跳槽是职场走下坡路的开始 Java程序员注意跳槽前你该考虑5个问题职场上跳槽是所有职场人都会遇到的问题关于职场跳槽的理由笔者做了以下盘点和直接领导的矛盾导致离职逃避问题而离职工作压力大挣钱少而离职总之
Harbor安装及简单使用

在虚拟机初始化的基础上安装Docker wget O etc yum repos d CentOS Base repo http mirrors aliyun com repo Centos 7 repo wget https mirro
2020-06-11

你需要继续学习这样一来如果有机会的话你应该可以往前进一步
【C语言】让你不再害怕指针——C指针详解(经典,非常详细)

https blog csdn net qq 41035588 article details 79673674
java 读取excel数据

本文共介绍两种方式第一种是常规POI读取第二种是大文件读取依赖包
OpenCV3.3 + Python3.6 开发环境配置

2018 9 6 更新 Anaconda3 5 2 0版本 Python 3 6 下OpenCV 3 安装今天重新安装了 Python 的环境发现在新版本 Anaconda3 下安装配置 OpenCV 3 十分简单在 Anaconda
【ubuntu虚拟机命令】+ 【mysql数据库】

ubuntu虚拟机命令 cd 进入家目录 ll 查看文件列表 rm rf 目录名删除目录 sudo su 从用户切换到 root su ubuntu 从 root 切换到用户 vi bim 打开文件 i 编辑文件退出 esc 保存退出
40-400-020-运维-优化-使用MySQLTunner优化MySQL

文章目录 1 概述 2 安装MySQL 3 下载 4 报告分析 1 概述 MySQLTuner 是一个 Perl 脚本可以用来分析您的 MySQL 性能并且基于收集到的信息给出相应的优化建议这样子您就可以调整 my cnf 从而优化
关于colmap+nerf对数据集进行预处理的使用总结

前言零零碎碎的东西太多有必要统一记录一下因为是回忆步骤所以可能有不准确的地方 Colmap的使用 1 下载下载链接 colmap 下载之后直接解压就能使用点击COLMAP bat 2 colmap 这里到处都是很详细的操作步骤
Chisel3 - util - LockingArbiter

https mp weixin qq com s 5oAwH3scumARzPidRBfG2w 带锁多入单出仲裁器输出会被锁定指定的时钟周期参考链接 https github com freechipsproject chisel3 b
单片机系统中实用的按键驱动（STM32、51都适用）

目录 1 自己使用的按键驱动 1 1 驱动源码 1 2 使用方法 2 另一种按键驱动 2 1 驱动源码 2 2 使用方法在我们嵌入式开发中产品上往往少不了按键一个好的按键驱动可以满足不同场合的客户需求这里我分享几个实用的按键驱动希
Python机器学习笔记使用sklearn做特征工程和数据挖掘

特征处理是特征工程的核心部分特征工程是数据分析中最耗时间和精力的一部分工作它不像算法和模型那样式确定的步骤更多的是工程上的经验和权衡因此没有统一的方法但是sklearn提供了较为完整的特征处理方法包括数据预处理特征选择降维等
西门子S7-300 PLC 的50个经典问题

1 使用CPU 315F和ET 200S时应如何避免出现通讯故障消息使用CPU S7 315F ET 200S以及故障安全DI DO模块那么您将调用OB35 的故障安全程序而且您已经接受所有监控时间的默认设置值并且愿意接收通
Linux 小结

前言为了便于理解本文从常用操作和概念开始讲起虽然已经尽量做到简化但是涉及到的内容还是有点多在面试中 Linux 知识点相对于网络和操作系统等知识点而言不是那么重要只需要重点掌握一些原理和命令即可为了方便大家准备面试在此先将一
Python爬虫

文章目录 1 概述 2 数据采集 3 数据清洗 3 1 读取数据 3 2 去掉车位地下室数据 3 3 房源信息解析 4 数据处理及可视化 4 1 各地区二手房源数 4 2 各地区二手房均价 4 3 各地区二手房总价 4 4 各地区二手房