python网络爬虫--项目实战--scrapy爬取贝壳网(7)

2023-11-13

一、完整代码

bk.py

import json

import scrapy

from ScrapyAdvanced.items import HouseItem


class BkSpider(scrapy.Spider):
    name = 'bk'
    allowed_domains = ['bj.ke.com']
    start_urls = ['https://bj.ke.com/ershoufang/']

    def parse(self, response):

        # house_list_position = response.xpath("//div[@class='address']/div/div/a/text()").extract()
        # # 存在脏数据  一个空的脏数据 一个 正常数据
        # house_list_info = response.xpath("//div[@class='address']/div[@class='houseInfo']/text()").extract()
        house_list_address = response.xpath("//div[@class='address']")
        house_list_titles = response.xpath("//div[@class='title']/a/text()").extract()
        for i in range(len(house_list_address)):
            title = house_list_titles[i]

            house = house_list_address[i]
            position = house.xpath("./div/div/a/text()").extract_first()
            info = "".join(house.xpath("./div[@class='houseInfo']/text()").extract()).replace("\n", "").replace(" ","")
            tags = ";".join(house.xpath("./div[@class='tag']/span/text()").extract())
            total_price = house.xpath("./div[@class='priceInfo']/div[@class='totalPrice']/span/text()").extract_first() + "万"
            unit_price = house.xpath("./div[@class='priceInfo']/div[@class='unitPrice']/span/text()").extract_first()

            house_item = HouseItem()
            house_item["title"] = title
            house_item["position"] = position
            house_item["info"] = info
            house_item["tags"] = tags
            house_item["total_price"] = total_price
            house_item["unit_price"] = unit_price

            yield house_item

        page_info = json.loads(response.xpath("//div[@class='page-box house-lst-page-box']/@page-data").extract_first())
        page_url = response.xpath("//div[@class='page-box house-lst-page-box']/@page-url").extract_first()
        total_page = page_info.get("totalPage")
        current_page = page_info.get("curPage")
        # 当前页面不是总页面的时候， 也就是说 不是最后一页， 去请求下一页
        if current_page != total_page:
            url = page_url.replace("{page}", str(current_page+1) + "/")
            yield response.follow(url=url, callback=self.parse)

        # 当前页是第一页，发送请求后面所有的页
        # if current_page == 1:
        #     for i in range(2, total_page):
        #         url = page_url.replace("{page}", str(i))
        #         yield response.follow(url=url, callback=self.parse)

items.py

class HouseItem(scrapy.Item):

    title = scrapy.Field()
    position = scrapy.Field()
    info = scrapy.Field()
    tags = scrapy.Field()
    total_price = scrapy.Field()
    unit_price = scrapy.Field()

pipelines.py

class HousePipeline():

    def process_item(self, item, spider):

        if isinstance(item, HouseItem) and isinstance(spider, BkSpider):
            # 存储
            with open("house_list.csv", "a", encoding="utf-8") as house_file:
                csv_writer = csv.writer(house_file)
                row = [it[1] for it in item.items()]
                csv_writer.writerow(row)
		return item

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python网络爬虫

xpath

URL

python网络爬虫--项目实战--scrapy爬取贝壳网(7) 的相关文章

点击jtable中的超链接？

如何为中的每条记录启用超链接JTable 我想要做的是用户可以单击超链接然后该超链接将显示他们可以编辑更新的信息或者如何启用表数据的就地编辑另一个问题是我目前正在使用以下方式来显示不同的屏幕但这不是一种优雅的方式我知道我们应
django 尝试了这些 url 模式

当我尝试访问我的站点时它会给出以下信息使用 mysite urls 中定义的 URLconf Django 按以下顺序尝试了这些 URL 模式管理员当前 URL 与其中任何一个都不匹配如果我访问该网站并附加 admin 它会将我带
用于从链接中选择文本的 xpath 表达式

我有这样的html文件内容 a class bf title Link to book href book 229920 book name a 帮我构造 xpath 表达式来获取链接文本书名我尝试使用 a 但表达式计算时没有结果如果
xpath 根据子值选择父级

我希望选择状态为实时的每个活动我在 Drupal 的 XPath XML 解析器中使用它并具有上下文基本查询和 xpath 查询字段上下文这是基本查询所有其他查询都将在此上下文中运行我目前有语境 event status
HTMLUNIT getformbyname 网站中未指定表单名称

我正在尝试使用 HTMLUNIT 单击网站上的按钮我按照本教程进行操作http htmlunit sourceforge net gettingStarted html http htmlunit sourceforge net gett
PHP - 将文件系统路径转换为 URL

我经常发现项目中的文件需要从文件系统和用户浏览器访问一个例子是上传照片我需要访问文件系统上的文件以便可以使用 GD 来更改图像或移动它们但我的用户还需要能够从类似以下的 URL 访问文件example com uploads myp
如何对URL进行分类？ URL 的特点是什么？如何从 URL 中选择和提取特征

我刚刚开始研究分类问题这是一个两类问题我的训练模型机器学习必须决定预测是允许 URL 还是阻止它我的问题非常具体如何对 URL 进行分类我应该使用普通的文本分析方法吗 URL 的特点是什么如何从URL中选择和提取特征我假
Bash 的源命令无法处理从互联网上卷曲的文件

我正在尝试使用curl从互联网获取脚本文件如下所示 source lt curl url echo done 我看到的是完成得到了回响before卷曲甚至开始下载文件这是实际的命令和输出 bash 3 2 source lt cur
PHP显示图片从url到主页

在没有人回答这个问题之后Php Rss feed 在 CDATA gt content encoded 中使用 img https stackoverflow com questions 31771729 php rss feed use
如何从 URL 字符串中删除某些参数？

我有这个var存储表示充满参数的 URL 的字符串我正在使用 AngularJS 我不确定是否有任何有用的模块或者可能使用纯 JavaScript 来删除不需要的 URL 参数而无需使用正则表达式例如我需要删除 month 05并且
XPath 从子元素中排除文本

我正在寻找输出 50ml milk 从以下代码 ul class ingredients list group li 50ml a href glossary milk class tooltip processed milk div cl
Web 应用程序中的 PathLocationStrategy 与 HashLocationStrategy

使用的优点和缺点是什么 PathLocationStrategy 默认的 HTML 5 PushState 样式 HashLocationStrategy 哈希 URL 样式例如使用哈希位置策略将阻止通过 ID 滚动到元素的功能但某些
由于连接超时，无法通过 ImageIO.read(url) 获取图像

下面的代码似乎总是失败 URL url new URL http userserve ak last fm serve 126 8636005 jpg Image img ImageIO read url System out printl
Django NoReverseMatch

我有以下设置 landing pages views py urls py In urls py当我尝试访问时我有以下内容 competition from django conf urls defaults import from dj
如何忽略xpath中的第一个元素

如何忽略第一个元素并获取其余元素 ul li a href some link a li li a href some link 2 a li li a href link i want to find a li ul Thanks 如果您
如何将 URL 参数转换为 JavaScript 对象？ [复制]

这个问题在这里已经有答案了我有一个像这样的字符串 abc foo def 5Basf 5D xyz 5 我怎样才能将它转换成这样的 JavaScript 对象呢 abc foo def asf xyz 5 到了 2021 年请认为这个已
如何在 J2EE 中进行动态 URL 重写

回到我的 ASP NET 时代我使用URL重写器 NET http urlrewriter net 进行动态 URL 重写基本上它是一个 HTTPModule 可以拦截页面请求并根据您定义的规则重写 URL 与 MOD REWRITE
将文本中的 URL 替换为 HTML 链接

不过这是一个设计例如我放置了一个链接例如 http example com http example com in textarea 我如何让 PHP 检测到它是http 链接然后将其打印为 print a href http w
从 SQL XML 列中的元素获取属性名称

对于此 xml 在 SQL 2005 XML 列中
python lxml 使用iterparse编辑并输出xml

我已经在 lxml 库上摆弄了一段时间了也许我没有正确理解它或者我错过了一些东西但我似乎无法弄清楚在捕获某个 xpath 后如何编辑文件并且然后能够在逐个元素解析时将其写回到 xml 中假设我们有这个 xml 作为示例

随机推荐

华为OD机试 Java 实现【密码强度等级】【牛客练习题】，附详细解题思路

一题目描述密码按如下规则进行计分并根据不同的得分为密码进行安全等级划分 1 密码长度 5 分小于等于4 个字符 10 分 5 到7 字符 25 分大于等于8 个字符 2 字母 0 分没有字母 10 分密码里的字母全都是小大
解决 Windows11 无法安装 ISE Design Suite 14.7—— 用 VMware 虚拟机安装 ISE Design Suite 14.7

前言学校计组实验数电实验需要用ISE 我的电脑又升级到windows11 不能装ISE了实在没办法只能在虚拟机中装win10环境再把下载好的ISE安装包拖到win10环境的虚拟机里然后就安装成功了下面是成功截图前提是安装好了
android 文件组指定应用程序,Android11(30)/Android10(29)分区存储-相关接口

Android11 30 Android10 29 分区存储相关接口 Android11 30 Android10 29 分区存储相关接口本文仅仅是接口说明对于具体的使用方式后续会说明为了让用户更好地管理文件并减少混乱 Andr
mysql.cj.jdbc_Mysql版本java问题(com.mysql.cj.jdbc.Driver和com.mysql.jdbc.Driver)

老版本com mysql jdbc Driver已弃用 String url1 jabc mysql 127 0 0 1 3306 test String url1 jabc mysql localhost 3306 test 新版用com
java 访问 https网站,java用ssl和url共同类实现访问某https网站

package test import java io import java net import java security cert CertificateException import java security cert X50
LCD12864驱动（Proteus中用51单片机驱动AMPIRE128X64）

致谢先贴张图来感谢一下我那傻逼的王志学长要不是你给我的资料跟我用的LCD型号不一样我TM早就驱动起来了填坑 1 TMD Proteus的AMPIRE128X64这个型号的LCD内部没有所谓的ASCII码解码器所以在驱动的时候就不能
windows编译ACE_6.4.5中ACE的x64静态库时x86与x64冲突

以release x64编译ACE静态库时报错如下 gt LINK warning LNK4068 未指定 MACHINE 默认设置为 X86 报ACE obj fatal error LNK1112 模块计算机类型 x64 与目标计算机
welsh颜色迁移算法实现过程-python版

很久很久以前笔者曾经研究学习过welsh算法并用c 实现过见链接 welsh颜色迁移算法实现过程后来心血来潮想再看看效果却发现opencv的版本已经更迭变化太快了且有学友也想复现一下实验效果因此决定用再用python实现一次改
Ai&Bd资料

Ai Bd资料收集目录 Ai Bd资料收集 1 1 人工智能AI 1 1 1 产业规模头部企业占比 1 1 1 1 总体产业规模 1 1 1 2 投资热点 2 1 1 3头部企业占比 3 1 2 技术流派 4 1 2 研判未来3 5年产
搭建Prometheus监控报警服务

什么是Prometheus Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库 TSDB Prometheus使用Go语言开发是Google BorgMon监控系统的开源版本 2016年由Google发起Li
关于端口协议Up down的一点理解

在处理网络障碍的时候经常需要查看端口的状态端口所配协议的状态使用一些常用的工具里投入ping等命令进行测试然后大家有没有发现路由器或者三层交换机针对于广域网的端口的查看和以太网的端口查看包括ping等有很大区别在此将自己的理解概
数据结构与算法--分治策略

目录 1 分治概念 2 递归的概念递归 3 分治策略的 1 分治策略的特征 2 分治法步骤 4 栈的面试题 5 示例 1 示例1求解n的阶乘 1 分析 2 阶乘可递归的定义为 3 递归程序 4 图解递归过程代码的调动过程 5 图解递归过程
git提交多个文件到远程服务器,解决使用commit提交大文件无法推送到远程库问题及git rebase使用详解...

解决这个问题并没有特别的删除提交历史中某个文件然后重新push 但是由于开始的使用失误中间有使用git rebase和git reset命令处理所以特此记录下大文件无法push到远程仓库问题首先故事事故的起因是这样的某
SpringJDBC与声明式事务操作

文章目录 Spring JDBC与事务操作一 Spring整合JDBC的环境一添加依赖坐标二添加jdbc properties的配置三创建Spring的配置文件四配置数据源五 JDBC测试二持久层账户模块操作例一
qt中的菜单QMenu QAction

Qt中要建立菜单有三个类很重要 QMenuBar QWidget parent 0 QMenu QWidget parent 0 QMenu const QString title QWidget parent 0 QAction QOb
Spring AOP三种方式定义增强

一通过实现 implements 的方式增强 BeforeLog package cn log import java lang reflect Method import org springframework aop MethodBe
几个算法举例。

如何计算某个数x是否是2的幂次方因为若y为2的幂则为x 2 y 在2进制位的表示中在第y 1位上为1 其余为0 则 x 1 x 0 即可以得出x是否为2的幂次方百鸡问题若公鸡价钱为5 母鸡价钱为3 小鸡价钱为1 3 则100元买10
【python】python实现类似fiddler 底层抓包

Fiddler抓包 Fiddler抓包代理 Fiddler 是一款用于网络抓包和调试的工具它的底层抓包采用了代理服务器技术当 Fiddler 启动时它会在本地计算机上创建一个代理服务器该代理服务器会拦截通过计算机网络传输的所有网络请
常用正则表达式
python网络爬虫--项目实战--scrapy爬取贝壳网(7)

一完整代码 bk py import json import scrapy from ScrapyAdvanced items import HouseItem class BkSpider scrapy Spider name bk a

python网络爬虫--项目实战--scrapy爬取贝壳网(7)

一、完整代码

python网络爬虫--项目实战--scrapy爬取贝壳网(7) 的相关文章

随机推荐

热门标签