【python实战】爬一爬某二手车的买卖数据

2023-11-07

在这里插入图片描述

获取当前页面下的车型的表显里程等数据
在这里插入图片描述

结果如下：
请添加图片描述
直接讲代码实现

代码实现基本分四步
    1.发送请求
    2.获取数据
    3.解析数据
    4.保存数据

1.发送请求

import requests
url ='https://www.XXX.com/china/list/'

2.获取数据

#header 和cookies 数据直接F12里的数据粘贴过来
response = requests.get('https://www.XXX.com/china/list/', cookies=cookies, headers=headers)
html_data = response.text

用network定位后发现，都是静态网页，所以要用到xpath模块


import parsel
select =parsel.Selector(html_data)

这里要获得车型的网址，经过定位后,用正则取出来网址

//ul[@class="viewlist_ul"]/li/a[@class="carinfo"]/@href

detail_url_list = select.xpath('//ul[@class="viewlist_ul"]/li/a[@class="carinfo"]/@href').getall()

3.解析数据
细节不表，直接上代码


for detail_url in detail_url_list[:-1]:
    if detail_url.split('/')[1] == '':
        detail_url = 'http:'+detail_url
    else:	
        detail_url ='http://www.XXX.com' + detail_url
    # print(detail_url)
    detail_html = requests.get(detail_url,headers=headers).text
    detail_select = parsel.Selector(detail_html)
    brand_name = detail_select.xpath("string(//h3[@class='car-brand-name'])").get("").strip()
    biaoxian = detail_select.xpath("//ul[@class='brand-unit-item fn-clear']/li[1]/h4/text()").get("").strip()
    shangpai = detail_select.xpath("//ul[@class='brand-unit-item fn-clear']/li[2]/h4/text()").get("").strip()
    dangwei = detail_select.xpath("//ul[@class='brand-unit-item fn-clear']/li[3]/h4/text()").get("").strip()
    location = detail_select.xpath("//ul[@class='brand-unit-item fn-clear']/li[4]/h4/text()").get("").strip()
    standard   = detail_select.xpath("//ul[@class='brand-unit-item fn-clear']/li[5]/h4/text()").get("").strip()
    price = detail_select.xpath('string(//span[@id="overlayPrice"])').get("").strip()
    indict_price = detail_select.xpath('//s[@class="price-nom"]/text()').get("")
    print(brand_name,biaoxian,shangpai,dangwei,location,standard,price)

就得到如下的数据
在这里插入图片描述
4.保存数据
这里可以保存成csv格式

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

汽车

网络爬虫

爬虫

【python实战】爬一爬某二手车的买卖数据的相关文章

如何有效地从连续字符串中提取文字单词？ [复制]

这个问题在这里已经有答案了可能的重复如何将没有空格的文本拆分为单词列表 https stackoverflow com questions 8870261 how to split text without spaces into li
如何忽略传递给函数的意外关键字参数？

假设我有一些功能 f def f a None print a 现在如果我有一本字典比如dct a Foo 我可以打电话f dct 并得到结果Foo打印但是假设我有一本字典dct2 a Foo b Bar 如果我打电话f dct2
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
检测/删除 Python 2 + GTK 中不成对的代理字符

在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
使用 python 只读取 Excel 中的可见行

我想只读取 python 中 Excel 工作表中的可见行输入 Excel表所以当我过滤时作为 python 中的输出在本例中我将仅获得可见数据 1 行这是我的代码 from openpyxl import load workbo
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
如何在交互式绘图（Python）中获得鼠标指向的（x，y）位置？

我使用 ipython 笔记本带有魔法 matplotlib nbagg 我正在审查matplotlib widget Cursor但仅查看光标widgets Cursor http matplotlib org 1 4 3 exampl
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

字节跳动实习记录

秋招秋招能拿到字节跳动offer是我没有想到的暑期只是拿到深圳一家小公司的offer 没有大厂实习经验秋招迅雷一面挂腾讯二面挂能拿到的只有富途和深信服的offer 本打算去富途但是后面又接到字节跳动的面试通知原来笔试过了但是
STM32 DMA传输中断方式配置源代码

stm32单片机源程序 include pbdata h void RCC Configuration void void GPIO Configuration void void NVIC Configuration void void
jenkins 集成单元测试

1 jenkins 集成单元测试 1 1先来一张图趋势图和最新测试结果出现的前提必须有一次成功的测试通过才能出现 1 2 点击红色可以看到具体那个单元测试类报错点到具体的测试类会显示对应方法和错误原因 2 配置 pip流水线代码
Mysql5.7报错get db conn fail this authentication plugin is not supported

系统环境CentOS 6 x Mysql5 7 1 前言在部署open falcon的时候第一启动有很多模块都失败查看log日志有如下报错 2019 01 04 10 33 13 db go 22 g InitDB get db co
完全平方数算法题

题目描述对于一个序列牛牛每次可以将序列中任意一个位置上的数乘上任意一个质数现在他想知道至少需要多少次操作才能使得该序列中的任意两个不同位置的数相乘都为完全平方数完全平方数对于x 若其可以写成 i i x i i x
目标检测——Bridging the Gap Between Anchor-based and Anchor-free Detection via ATSS

question1 1 什么是anchor based anchor free answer 1 目标检测算法一般可分为anchor based anchor free 两者融合类区别就在于有没有利用anchor提取候选目标框 2 A a
QT学生信息管理系统

QT学生信息管理系统项目描述效果图登录页面管理员页面用户页面数据库表用户表学生表项目描述使用QT5 14和SQLite3 本项目分为登录界面管理员界面用户界面等界面使用QStackedLayout实现页面布局及切换
10大网络安全攻击手段及防御方法总结（下）

6 分布式拒绝服务 DDOS DDoS攻击本身不能使恶意黑客突破安全措施但会令网站暂时或永久掉线相关数据显示单次DDOS攻击可令小企业平均损失12 3万美元大型企业的损失水平在230万美元左右 DDoS旨在用请求洪水压垮目标Web服
JAVA求解【乱序整数序列两数之和绝对值最小】

题目给定一个随机的整数可能存在正整数和负整数数组 nums 请你在该数组中找出两个数其和的绝对值 nums x nums y 为最小值并返回这个两个数按从小到大返回以及绝对值每种输入只会对应一个答案但是数组中同一个元素不
移动端H5页面在微信浏览器内audio无法自动播放问题解决

相信许多小伙伴都遇见过这话种情况在微信浏览器内添加的audio 无法自动播放之前写过好多那种活动页添加的背景音乐都可以自动播放直到后来ios 增加了限制就出现了这个问题怎么解决的只需给audio标签增加一个属性就可以解决如下图
二、MySQL入门

1 如何查看MySQL是否运行 1查看进程 root sc mysql ps awx grep mysqld 12953 pts 1 S 0 00 bin sh usr local mysql bin mysqld safe datadir
JVM运行原理及Stack和Heap的实现过程

Java语言写的源程序通过Java编译器编译成与平台无关的字节码程序 class文件也就是0 1二进制程序然后在OS之上的Java解释器中解释执行而JVM是java的核心和基础在java编译器和os平台之间的虚拟处理器注本网
js wangEditor富文本编辑器
收藏清单:Java测试相关资源汇总

收藏清单 Java测试相关资源汇总 Virtual environments 虚拟化环境 Vagrant 配置简单可信赖的虚拟化环境管理工具 Docker docker就不用多说了 Performance stress load 性能测试
36-Jenkins-Job迁移

Job迁移前言 1 安装插件 2 配置信息 3 使用插件前言本篇来学习Jenkins中如何快速迁移job 在工作中可能会遇到这样的场景即需要把一个Jenkins上的job迁移到另外一台Jenkins上那怎么做比较好呢一起来学习下
Shader Graph2-PBR介绍之表面属性（图解）

PBR的实现由光线和表面属性决定下面我们介绍一下表面属性这个5个属性在ShaderGraph的根节点是经常的看到左侧是Unity中的右侧是UE中的在没有Metallic金属的情况下基础颜色值就决定了颜色的漫反射值也就是说基础颜
gitee在README.md中添加图片

前言在使用gitee的添加README md文件的时候有时候会希望能放一些效果图来实现展示效果实现步骤 1 在项目中添加你的效果图片比如我的就放在 assets 1 png 然后提交上去 2 打开你的项目找到刚到图片然后点击 3
Elasticsearch学习系列一（部署和配置IK分词器）

优质资源分享学习路线指引点击解锁知识定位人群定位 Python实战微信订餐小程序进阶级本课程是python flask 微信小程序的完美结合从项目搭建到腾讯云部署上线打造一个全栈订餐系统 Python量化交易实战入门级手
基于深度学习的图像分类任务实现（二）卷积神经网络分类器&基于Residual Bolck的卷积神经网络分类器

文章目录 1 代码编写思路 2 卷积神经网络分类器 2 1基本原理 2 2 代码实现 2 3 运行结果 3 基于Residual Bolck的卷积神经网络分类器 3 1基本原理 3 2代码实现 3 3模型结构可视化 3 4运行结果实现多种
【python实战】爬一爬某二手车的买卖数据

获取当前页面下的车型的表显里程等数据结果如下直接讲代码实现代码实现基本分四步 1 发送请求 2 获取数据 3 解析数据 4 保存数据 1 发送请求 import requests url https www XXX com chi

【python实战】爬一爬某二手车的买卖数据

【python实战】爬一爬某二手车的买卖数据 的相关文章

随机推荐

热门标签

【python实战】爬一爬某二手车的买卖数据的相关文章