python链家新房信息获取练习

2023-11-02

使用python对链家新房相关数据进行爬取，并进行持久化存储。

文章目录

前言
一、页面分析
二、代码编写
- 1.数据库表的建立
- 2.代码编写
结果

前言

保持练习

以下是本篇文章正文内容，下面案例可供参考

一、页面分析

老样子进行页面分析，ul下的li中存放着我们想要的信息，没什么好讲的。
在这里插入图片描述
理清楚思路，对所有一共八十几个页面进行访问，随机伪装机型和ip代理，并找到链接的请求格式。

接下来只需要使用xpath定位到相关的元素信息即可，将解析的数据存入数据库中。
进入代码编写阶段。

二、代码编写

1.数据库表的建立

代码如下：

CREATE TABLE `xinfang` (
  `id` int(255) NOT NULL AUTO_INCREMENT,
  `name` varchar(255) DEFAULT NULL,
  `resblock_type` varchar(10) DEFAULT NULL,
  `sale_status` varchar(10) DEFAULT NULL,
  `area` varchar(10) DEFAULT NULL,
  `location` varchar(255) DEFAULT NULL,
  `resblock_room` varchar(10) DEFAULT NULL,
  `resblock_area` varchar(30) DEFAULT NULL,
  `main_price` varchar(150) DEFAULT NULL,
  `second` varchar(30) DEFAULT NULL,
  `img_url` varchar(255) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=843 DEFAULT CHARSET=utf8;

2.代码编写

代码如下：

import requests
from lxml import etree
from fake_useragent import UserAgent
import random
import pymysql

# 代理池
proxy_pool = [{'HTTP': '112.84.53.165:9999'}, {'HTTP': '171.35.169.58:9999'}, {'HTTP': '49.86.180.142:9999'},
              {'HTTP': '113.194.131.190:9999'}, {'HTTP': '110.243.22.233:9999'}, {'HTTP': '123.169.163.99:9999'},
              {'HTTP': '123.163.117.140:9999'}, {'HTTP': '113.195.20.166:9999'}, {'HTTP': '114.235.23.237:9000'},
              {'HTTP': '202.109.157.64:9000'}, {'HTTP': '171.35.175.31:9999'}, {'HTTP': '113.195.168.235:9999'},
              {'HTTP': '125.108.75.135:9000'}, {'HTTP': '123.101.237.3:9999'}, {'HTTP': '139.155.41.15:8118'},
              {'HTTP': '118.212.104.240:9999'}]
# 伪装头
headers = {
    'Referer': 'https://nj.fang.lianjia.com/',
    'User-Agent': UserAgent().random
}

if __name__ == '__main__':
    print('打开数据库...')
    # 打开数据库
    conn = pymysql.Connect(host='localhost', port=3306, user='root',
                           password='', db='spider', charset='utf8')
    # 链接模板 使用format填充
    base_url = 'https://nj.fang.lianjia.com/loupan/pg{}/'
    # 存放url的数组
    data = []
    print('初始化数据...')
    for i in range(1, 86):
        # 循环写入url
        data.append(base_url.format(i))
    print('开始爬取...')
    # 遍历url 请求网址 并解析
    for url in data:
        # get请求访问 使用代理
        response = requests.get(url=url, headers=headers, proxies=random.choice(proxy_pool))
        # etree解析
        res_data = etree.HTML(response.content.decode())
        # xpath定位到所有的li
        lis = res_data.xpath('//li[@class="resblock-list post_ulog_exposure_scroll has-results"]')
        # 在循环的li下进行解析
        for li in lis:
            # 图片地址
            img_url = li.xpath('./a/img/@data-original')[0].split('.592x432.jpg')[0]
            # 小区名字
            name = li.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-name"]/a[1]/text()')[0]
            # 以下都是相关信息 就不做赘叙
            resblock_type = li.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-name"]/span[1]/text()')[0]
            sale_status = li.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-name"]/span[2]/text()')[0]
            area = li.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-location"]/span[1]/text()')[0]
            location = li.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-location"]/span[1]/text()')[0] + '/' + \
                       li.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-location"]/span[2]/text()')[0] + '/' + \
                       li.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-location"]/a[1]/text()')[0]
            resblock_room = li.xpath('./div[@class="resblock-desc-wrapper"]/a[@class="resblock-room"]/span[1]/text()')
            # 有些数据为空 要进行替换 否则数据库写入报错
            if resblock_room:
                resblock_room = resblock_room[0]
            else:
                resblock_room = '暂无信息'
            resblock_area = li.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-area"]/span[1]/text()')
            if resblock_area:
                resblock_area = resblock_area[0]
            else:
                resblock_area = '暂无信息'
            main_price = li.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-price"]/div[@class="main-price"]/span[@class="number"]/text()')[0]
            second = li.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-price"]/div[@class="second"]/text()')
            if second:
                second = second[0]
            else:
                second = '暂无信息'
            # sql语句
            sql = 'insert into xinfang(name, resblock_type, sale_status, area, location, resblock_room, resblock_area, main_price, second, img_url) values ("{}", "{}", "{}", "{}", "{}", "{}", "{}", "{}", "{}", "{}")'.format(
                name, resblock_type, sale_status, area, location, resblock_room, resblock_area, main_price, second,
                img_url)
            cursor = conn.cursor()
            # 事务 提交 回滚
            try:
                cursor.execute(sql)
                conn.commit()
            except Exception as e:
                print(e)
                conn.rollback()
    print('爬取结束关闭数据库...')
    # 关闭数据库链接 程序结束
    conn.close()

结果

程序运行结果如下：
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python链家新房信息获取练习的相关文章

错误：process_executor.py:702: ... 当一些作业被分配给执行器时，工作人员停止了。这可能是由于工作超时太短造成的

根据主题中的错误修复方法是什么环境 Python 3 9 或 3 10 Windows 10 x64 使用时出现错误joblib https joblib readthedocs io en latest 对于并行处理 result c
如何使用 Python 3 绕过 HTTP Error 403: Forbidden with urllib.request

您好不是每次都这样但有时在尝试访问 LSE 代码时我会收到每一个烦人的 HTTP 错误 403 禁止消息任何人都知道我如何仅使用标准 python 模块来克服这个问题遗憾的是没有漂亮的汤 import urllib request
Virtualenv 在 OS X Yosemite 上失败并出现 OSError

我最近更新到 OSX Yosemite 现在无法使用virtualenv pip 每当我执行 virtualenv env 它抛出一个 OSError Command Users administrator ux env bin pytho
将非常大的Python列表输出保存到mysql表中

我想将 python 生成的列表的输出保存在 mysql 数据库的表中该表如下所示 mysql 中的 myapc8 表 https i stack imgur com 4B4Hz png这是Python代码在此输入图像描述 https
在python中将数据库表写入文件的最快方法

我正在尝试从数据库中提取大量数据并将其写入 csv 文件我正在尝试找出最快的方法来做到这一点我发现在 fetchall 的结果上运行 writerows 比下面的代码慢 40 with open filename a as f writ
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
是否可以从 Julia 调用 Python 函数并返回其结果？

我正在使用 Python 从网络上抓取数据我想使用这些数据在 Julia 中运行计算是否可以在 Julia 中调用该函数并返回其结果或者我最好直接导出到 CSV 并以这种方式加载数据绝对地看PyCall jl https gith
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
Plotly：如何检查基本图形结构（版本 4）

对于旧版本的plotly 例如在 Jupyterlab 中您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
给定一个排序数组，就地删除重复项，使每个元素仅出现一次并返回新长度

完整的问题我开始在线学习 python 但对这个标记为简单的问题有疑问给定一个排序数组就地删除重复项使得每个元素只出现一次并返回新的长度不分配另一个数组的额外空间您必须通过修改输入来完成此操作数组就地具有 O 1 额外内
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
定义在文本小部件中双击时选择哪些字符

在 Windows 上双击文本小部件中的单词也将选择连接的标点符号有什么方法可以定义您想要选择的角色吗 tcl wordchars该变量的值是一个正则表达式可以设置它来控制什么被视为单词字符例如通过双击 Tk 中的文本来选择单
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

常见的错误-04

引言在公司配置新电脑环境时候在安装和配置完所有VSCode软件以及C 环境后 ubuntun环境下尝试使用debug进行代码调试遇到了在debug过程中不输出结果的bug 如下图未输出array以及zheli 解决方法在ubun
vue3+ts中对getCurrentInstance的使用

1 在main js中挂载一个全局属性拿axios举例 import App from App vue import axios from http 封装的axios方法 const app createApp App 创建应用 app
【100%通过率】【华为OD机试 c++/java/python】对称字符串【 2023 Q1 A卷

华为OD机试题目列表 2023Q1 点这里 2023华为OD机试刷题指南点这里题目描述对称美学对称就是最大的美学现有一道关于对称字符串的美学已知第 1 个字符串 R 第 2 个字符串 BR 第 3 个字符串 RBBR 第
resetlog

来自于itpub的一篇文章 http space itpub net 16628454 很多人说 resetlogs就是不完全恢复这是不对的做不完全恢复必须使用resetlogs 但resetlogs也可以做完全恢复而noresetl
# 第四届蓝桥杯JavaB组省赛-马虎的算式

第四届蓝桥杯JavaB组省赛马虎的算式题目描述小明是个急性子上小学的时候经常把老师写在黑板上的题目抄错了有一次老师出的题目是 36 x 495 他却给抄成了 396 x 45 但结果却很戏剧性他的答案竟然是对的因为 36 4
解决idea文件properties中文乱码问题

有时候将项目代码拉取至本地用idea打开时会出现中文乱码问题遇到这种问题不要慌重新设置一下编码为UTF 8即可那么如何将idea的编码统一设置为UTF 8格式呢接下来我们一一解决此类问题 1 打开idea编译器有时候会看到打开的文
WebGIS工程师进阶训练营

WebGIS工程师进阶训练营 1 WebGIS课程综述 2 多类情景部署SuperMap iServer 2 1 Linux环境部署SuperMap iServer 2 2 war包部署 2 3 常见问题排查 3 SuperMap iSer
word添加、更新目录

1 显示导航窗口视图导航窗口 2 文档中的目录 2 1 插入目录引用目录 2 2 更新目录方式一点击下图更新目录方式二引用更新目录
WinForm使用鼠标裁剪图像

之前做一个试卷识别的项目的时候需要预先将各个部分裁剪开然后进行识别而网上的裁剪函数都是记录鼠标的位置然后进行裁剪 public static Bitmap PartDraw Image src Rectangle cutpart 切割图片
（休息几天）读米什金之货币银行学——货币与汇率

1货币当一国货币升值时相对于其他货币价值上升则该国商品在国外变得更贵而外国商品唉本国则变得更便宜相反一国货币贬值则该国商品在国外更便宜而外国商品在本国则变得更贵货币升值使得本国制造的商品在国外竞争力下降而国外商品在本国竞
Koa2.js router 异步返回ctx.body失效的问题

koa2 js 用router返回数据时正常写法如下我是将接口封装了一个很普通的koa2 js get请求 router put getUserInfo ctx next gt const data ctx request body
PHP自己的框架2.0版本目录结构和命名空间自动加载类（重构篇一）

目录 1 目录结构演示效果 2 搭建目录结构以及入口public gt index php 3 引入core下面core gt base php 4 自动加载实现core gt fm gt autoload php 5 框架运行文件cor
Basic Level 1012 数字分类 (20分)

题目给定一系列正整数请按要求对数字进行分类并输出以下 5 个数字 A 1 A 1 A1 能被 5 整除的数字中所有偶数的和 A 2
matlab 取余(rem)和取模(mod)的区别

取余 rem 和取模 mod 的区别 Matlab 生成机制取余采取fix 函数向0方向取整取模采取floor 函数向无穷小方向取整当A B异号时其实同号也是这个规律取余结果和A同号取模结果和B同号 PS 在js c
ASP .net core 整合 nacos 通过Spring Cloud Gateway 网关访问

ASP net core 整合 nacos 通过Spring Cloud Gateway 网关访问使用vs创建web项目选择api 注意这里要取消掉Https配置否则使用网关转发也需要配置为https请求这里我们直接取消添加nacos
WebRTC实现多人视频聊天

写在前面实现房间内人员的视频聊天由于并未很完善所以需要严格按照步骤来当然基于此完善就是时间的问题了架构整个设计架构如下图片来自于参考博文我使用的是第一种Mesh 架构无需任何流媒体服务器直接利用成熟的WebRTC 协议
windows10进程查询命令、端口占用查询命令、杀进程命令

windows环境下编码开发经常遇到端口占用问题解决时需要找到对应进程杀掉释放占用自己常用的几项操作命令如下首先打开Windows的命令窗口键盘 win R 输入cmd 回车 1 查询端口被占用的进程命令 netstat ao
马虎的算式有一次，老师出的题目是：36 x 495 = ?他却给抄成了：396 x 45 = ? 但结果却很戏剧性，他的答案竟然是对的！！

马虎的算式小明是个急性子上小学的时候经常把老师写在黑板上的题目抄错了有一次老师出的题目是 36 x 495 他却给抄成了 396 x 45 但结果却很戏剧性他的答案竟然是对的因为 36 495 396 45 17820 类似这样
信息传递【NOIP2015】【强连通分量 Tarjan】

题目链接题目描述有 n 个同学编号为 1 到 n 正在玩一个信息传递的游戏在游戏里每人都有一个固定的信息传递对象其中编号为 i 的同学的信息传递对象是编号为Ti的同学游戏开始时每人都只知道自己的生日之后每一轮中所有人会同
python链家新房信息获取练习

使用python对链家新房相关数据进行爬取并进行持久化存储文章目录前言一页面分析二代码编写 1 数据库表的建立 2 代码编写结果前言保持练习以下是本篇文章正文内容下面案例可供参考一页面分析老样子进行页面分析 u