python爬取豆瓣租房信息

2023-05-16

文章目录

任务描述
完整代码
运行结果

任务描述

使用python爬虫，实现获取豆瓣“北京租房”的租房信息，并筛选适合个人的房源存入Excel。使用方法都写在注释里了，请认真阅读哦~

完整代码

import time  # 设置爬虫等待时间

import requests  # 获取网页数据
import xlwt
from bs4 import BeautifulSoup  # 解析网页数据

"""
获取豆瓣租房信息
获取excel后可能会产生空白行，为了表示每一页的信息独立开
也可以根据该操作去除 https://jingyan.baidu.com/article/cbcede075ad25202f50b4d52.html
"""


# 获取豆瓣网址并解析数据
def get_douban_books(url, num):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }
    res = requests.get(url, headers=headers)  # requests发起请求，静态网页用get
    soup = BeautifulSoup(res.text, 'html.parser')

    m = n = num

    item_a_title = soup.find_all("td", class_="title")
    for item in item_a_title:
        tag_a = item.find("a")
        name = tag_a["title"]
        link = tag_a["href"]

        # TODO 第一种方式：排除不想租的位置或者某些条件（例如位置，钱数，例如：八通线，2700）
        # not_contains = ["八通线", "天通苑", "宋家庄", "龙泽", "后沙峪", "亦庄", "密云", "房山", "通州",
        #                 "石景山",
        #                 "2700", "2800", "2900", "3000", "3100", "3200", "3300", "3300", "3400"]
        #
        # flag = False
        # for nc in not_contains:
        #     if nc in name:
        #         flag = True
        # if not flag:
        #     # print("[{}]({})".format(name, link))
        #     sheet.write(m, 0, name)
        #     sheet.write(n, 1, link)
        #     m += 1
        #     n += 1

        # TODO 第二种方式：添加想租的位置或者某些条件（例如位置，钱数，例如：八通线，2700）
        contains = ["牡丹园" "健德门", "西土城", "北土城", "安贞门", "惠新西街南口", "芍药居", "十号线",
                    "10号线", "1分钟", "2分钟", "3分钟", "4分钟", "5分钟"]
        for c in contains:
            if c in name:
                sheet.write(m, 0, name)
                sheet.col(0).width = 256 * len(name)
                sheet.write(n, 1, link)
                sheet.col(1).width = 256 * len(link)
                m += 1
                n += 1


# 定义保存Excel的位置
workbook = xlwt.Workbook()  # 定义workbook
sheet = workbook.add_sheet('豆瓣租房')  # 添加sheet
head = ['租房信息', '地址']  # 表头
for h in range(len(head)):
    sheet.write(0, h, head[h])  # 把表头写到Excel里面去
    sheet.col(0).width = 512 * 50
    sheet.col(1).width = 256 * 50

# 填写需要获取的页数
# all_page = 1
all_page = int(input("请填写需要获取的页数："))
# 每页个数
page_size = 30
url = 'https://www.douban.com/group/beijingzufang/discussion?start={}'
urls = [url.format(num * page_size) for num in range(all_page)]
page_num = [num * page_size + 1 for num in range(all_page)]
for i in range(all_page):
    get_douban_books(urls[i], page_num[i])
    print("==========第" + str(i + 1) + "页，完成==========")
    # 暂停 1 秒防止访问太快被封
    time.sleep(1)

# 保存 Excel 文件
workbook.save('./douban_zufang.xls')
print("写入完成！")

运行结果

租房信息

毕竟是爬取信息，可能会遇到网站更新抵制反爬，如果遇到什么问题或者有其他问题，在下面留言，我看到了会及时回复的哦

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬取豆瓣租房信息的相关文章

求二维数组最大值

JaVa求二维数组最大值 public static void main String args TODO Auto generated method stub int a 61 1 2 3 4 5 6 7 8 9 int re 61 ma
打印杨辉三角形JAVA数组方法

打印杨辉三角形 public static void main String args TODO Auto generated method stub putYhTriangle 10 打印杨辉三角形 public static void
九宫格随机数Java数组

无法判断是否重复了 public class Deno7 public static void main String args 声明一个3行3列的数组 int array 61 new int 3 3 int b for int i 61
开发一个表示坐标点的类Point，该类对外提供以下公有实例方法：

开发一个表示坐标点的类Point xff0c 该类对外提供以下公有实例方法 xff1a a 设置横纵坐标 b 偏移横坐标 c 偏移纵坐标 d 偏移横纵坐标 e 求本点到另外一个点的距离勾股定理 f 求本点到另外一个点与x轴夹角的余弦值 g
开发一个人类，具有实例属性身高，体重，星座，有如下实例方法：

import java util Random 开发一个人类 xff0c 具有实例属性身高 xff0c 体重 xff0c 星座 xff0c 有如下实例方法 xff1a a 初始化方法 xff1a 内部随机产生身高 xff08 140 200
【百度智能云】基于http3的xcdn 开放直播方案设计与实践

大神柯老师现有的融合CDN 0 需要集成sdk sdk 是集成在端侧缺点 sdk 对端侧有影响多云模式下 sdk不互通 XCDN 设计目标保持现有cdn的优势承载各种业务直播点播让各家的cdn互通 cdn 厂家屏蔽了差异性
开发一个表示图书的Book类

Book类型 public class Book 1 开发一个表示图书的Book类该类具有私有的实例属性 xff1a 编号名称作者价格出版社出版日期等信息并且该类为上述属性提供公有的get和set方法 xff0c 同时该类还具
ATM管理者操作界面

ATM界面 import java util Scanner public class AccountView private AccountManger am 61 new AccountManger public void regist
Java类的操作

银行账户类 package com github Mrtiang public class Account 创建账户属性 private int id private double balance private double annual
javase类的简单应用圆与圆柱类

圆类 package com github MrtianSuper public class Circle private double radius 61 1 设置圆的半径无参数构造方法 public Circle this radiu
Java银行账户可透支类

账户类 java package com github Mrtiang public class Account 创建账户属性 private int id private double balance private double ann
java继承的概念与相关应用

继承 1 继承概述需求说明 xff1a 设计两个类 xff1a Dog和Penguin 问题 xff1a 其中属性和方法有大量的重复 xff0c 可以优化 xff0c 使用继承继承使用的关键字 xff1a extends xff1a 扩
Java类与继承

继承二 1 static关键字使用场景 xff1a 当某些场景下不需要创建多个内容 xff0c 每个类的实例对象共享一个内容时就可以使用static关键字来修饰含义 xff1a static表示静态内容 xff0c 使用stati
继承，static关键字，abstract，单例模式

1 为什么要有类的继承性类的继承性可以减少代码冗余度 xff0c 提高代码复用性 xff0c 提高代码操作效率 2 继承的格式 xff08 语法 xff09 子类 extends 父类 3 子类继承父类后有哪些不同子类范围大于父类 xf
KVM详解（一）——KVM基础知识

今天继续给大家介绍Linux运维相关知识 xff0c 本文主要内容是KVM的基础知识一虚拟化简介 xff08 一 xff09 虚拟化概述在计算机中 xff0c 虚拟化技术是一种资源管理技术 xff0c 可以将计算机的各硬件资源 xff
Linux桌面图形化安装详解

今天继续给大家介绍Linux相关知识 xff0c 本文主要内容是Linux xff08 CentOS7 xff09 图形化GUI页面安装详解一 Linux GUI图形化页面简介尽管在运维工作中 xff0c 我们很少在Linux上安装图形
【MediaSoup c#】 worker的创建

js rust 不太熟 c 似乎还好懂一些学习media soup 的各个组件及大体使用方式学习其设计理念 MediasoupServer 管理worker列表 worker的表达是通过 IWorker 抽象类拥有一个observer
KVM详解（三）——KVM创建虚拟机

今天继续给大家介绍Linux运维相关知识 xff0c 本文主要内容是在KVM上创建虚拟机一安装准备在前文KVM详解 xff08 二 xff09 KVM安装部署中 xff0c 我们安装了KVM 今天 xff0c 我们就来创建一个KVM的
KVM详解（九）——CentOS6虚拟机关机失败问题解决

今天继续给大家介绍Linux运维相关知识 xff0c 本文主要内容是CentOS6虚拟机关机失败问题解决一问题描述当我们使用KVM安装CentOS6系统后 xff0c 会发现一个问题 xff0c 即无法通过virsh shutdown
Python循环结构详解

今天继续给大家介绍Python相关知识 xff0c 本文主要内容是Python循环结构循环是一种编程语言的重要结构 xff0c 在Python中 xff0c 存在着两种循环 xff0c 一种是遍历循环 xff0c 一种是while循环一

随机推荐

Ubuntu配置sudo命令不需要输入密码

执行以下命令 xff1a span class token function sudo span visudo span class token comment sudo visudo默认使用的编辑器是nano xff0c 使用上下键移动
智慧社区信息管理系统的设计与实现（论文打包下载）

摘要近几年来 xff0c 随着网上支付方式的普及 xff0c 越来越多的人选择使用网上支付 xff0c 但由于网上支付的方式还未普及到生活的各方面 xff0c 因此本系统的完成将为物业小区提供合理的线上管理模式 xff0c 代替传统的线
vsftp配置详解篇

在配置安装vsftpd过程中 xff0c 我遇到了很多坑 xff1f 查了上百篇博客 xff0c 才把这些坑一一填满这里记录是为了方便后来者查阅 xff0c 我也是个小白有问题请不要客气 xff0c 直接喷就是了 xff01 vsftp
RNN构建语言模型（用前一个单词预测下一个单词）

训练RNN的时候 xff0c 根据反向传播 xff0c 梯度会不断相乘 xff0c 很容易出现梯度消失和梯度爆炸通常的解决方法 xff1a 对于梯度爆炸 xff1a Gradient Clipping xff1a 如果梯度太大就把它往下卡
pytorch中使用tensorboard绘制Accuracy/Loss曲线（train和test显示在同一幅图中）

因为tensorboard可以在同一幅图中显示不同文件夹下的曲线 xff0c 所以将train和test分别存到不同的文件夹里就可以在同一副图中展示 xff0c 简要记录代码 from torch utils tensorboard imp
Android Studio 查看当前显示的 activity

在修复bug时 xff0c 首先需要定位到是哪个activity出现的问题 xff0c 这时可以使用adb工具 abd工具在SDK目录下的platform tools文件夹下 1 打开Android Studio的Terminal xff0
MyBatis：使用MyBatis Generator快速完成Springboot项目数据层开发

使用场景当我们使用Springboot整合Mybatis时 xff0c 我们就需要为数据库中的每一个表分别写出 xff1a 实体类Mapper xml文件Mapper接口如果数据库中有很多表 xff0c 这个过程就会非常的繁琐而MyB
【MediaSoup】mediasoup-sfu-cpp ： demo 和MediaSoup实例

MediaSoup mediasoup sfu cpp vs2022 构建完成了构建下面分析其线程模型 main 进程创建一个独立server线程支持ws 作为一个oatpp的组件存在 D span class token punct
“jar中没有主清单属性”问题的解决方法

今天想要把springboot项目打成jar包部署在服务器上 xff0c 但是在使用 java jar XXX 指令时遇到了 jar中没有主清单属性的问题在官网上看到这样一段话 xff0c 发现是因为pom文件里没有加上repackag
《Java高并发程序设计》阅读笔记

第一章 1 同步和异步 2 并发和并行 3 临界区 xff1a 表示一种公共资源 xff0c 可以被多个线程使用 xff0c 但是每一次只能有一个线程使用它 xff0c 一旦临界区资源被占用 xff0c 其他线程想要使用这个资源就必须等待
Android生物认证Biometric 四十行代码轻松实现面部识别、指纹认证

Biometric Biometric是谷歌官方提供的生物识别验证类库 xff0c 能调用包括目前Android设备上搭载的指纹人脸虹膜等系统级的生物认证 xff08 目前大多数的国内定制ROM可能因为安全问题 xff0c 仅支持指纹
Excel 文件导出，兼容IE（web前后台导出方法）

Excel 文件导出前台导出前台导出是指使用前台页面的数据导出到本地文件 XML文件和Excel文件之间可以相互转换 xff0c 因此可将 XML 数据从 Web 服务中导入到 Excel 工作表中使用隐藏的Table存放需要导出的数
ftp——java上传总是返回false

由于目录权限的问题权限改为777 xff0c 则上传成功
c# 数据保存为PDF（二）（Aspose pdf篇）

文章目录前言关于Aspose PDF使用Aspose Pdf常用的命名空间和类库1 创建简单的PDF文档2 美化PDF样式2 1 创建测试数据2 2 项目头部样式2 3 全部代码小结附录参考前言项目中需要将数据导出存为PDF格式 x
Linux java编译报错找不到或无法加载主类

编译运行有两个步骤 xff1a javac LinuxJava java 不报错 java LinuxJava 报错我发现的问题是我再复制的时候将该文件头部的包名路径带上了 xff0c 去掉在运行就不报错了错误例子 xff1a pack
zookeeper java.net.ConnectException: 拒绝连接 (Connection refused)

首先说一下网上我查到的解决方案 xff1a https blog csdn net qq 34841911 article details 79165778 但是并没有解决我的问题我的方案 xff1a 可能会出现的错误第一个 Refus
python安装parsel（lxml）失败

我遇到的三个错误 error Microsoft Visual C 43 43 14 0 is required Get it with 34 Microsoft Visual 下载安装Microsoft Visual C 43 43 Bu
Linux搭建Eclipse che

文章目录安装docker xff1a 删除老版本的docker安装所需的软件包设置稳定的仓库 xff08 阿里云的docker仓库 xff09 下载服务器的包信息 xff0c 以便于下次查询某包的下属版本时 xff0c 快速查找安装doc
【github】Connection reset by 20.205.243.160 port 443

被github正确的ip和443端口拒绝经常出现 xff1a zhangbin 64 LAPTOP DFV9CMRA MINGW64 g CDN net libuv dev net uv new kcp imui gl span clas
python爬取豆瓣租房信息

文章目录任务描述完整代码运行结果任务描述使用python爬虫 xff0c 实现获取豆瓣北京租房的租房信息 xff0c 并筛选适合个人的房源存入Excel 使用方法都写在注释里了 xff0c 请认真阅读哦完整代码 span cla

python爬取豆瓣租房信息

文章目录

任务描述

完整代码

运行结果

python爬取豆瓣租房信息 的相关文章

随机推荐

热门标签

python爬取豆瓣租房信息的相关文章