汽车之家各种车型参数爬虫

2023-10-27

汽车之家各种车型参数爬虫

结果如下：

本案例使用jupyter notebook，用到requests，BeautifulSoup，lxml，urlencode ，pandas五个库，爬取下来的数据如下图所示：
在这里插入图片描述

详细过程：

整个过程分成三个部分：
1，爬取汽车之家各个品牌（譬如奥迪）汽车对应的链接
2，爬取每一个品牌下各个汽车系列（譬如奥迪A3）的链接
3，使用2得到的链接爬取每个汽车系列的参数（譬如奥迪A3的发动机，价格，变速箱，颜色，用户评分等等）

先引入所需要的库，其中最后一个库的作用是将我们后面要用到的parms参数转化为字符串形式，代码如下：

import requests#request包
from bs4 import BeautifulSoup
import pandas as pd#pandas库用来储存结果
import lxml
from urllib.parse import urlencode

1，爬取汽车之家各个品牌（譬如奥迪）汽车对应的链接。

如图所示，我们要的是这一部分内容，那这一部分的内容怎么得到呢？
在这里插入图片描述
右键——检查——network——然后刷新浏览器，服务器会返回很多个包，下图所示的这个包即为我们想用的

它的页面如下图所示，然后我们直接复制它的链接即可进行爬取，链接如下： https://car.autohome.com.cn/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId=0%20&fctId=0%20&seriesId=0.
在这里插入图片描述
编写爬虫方法：

def getLongPage():
    url = 'https://car.autohome.com.cn/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId=0%20&fctId=0%20&seriesId=0'
    headers = {
   
        'Referer': 'https://car.autohome.com.cn/',
        'Sec-Fetch-Mode': 'no-cors',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
    }
    try:
        r = requests.get(url ,headers = headers)
        if r.status_code == 200:
            r.encoding = r.apparent_encoding#此处将编码改成网页的编码样式，防止出现乱码
            soup = BeautifulSoup(r.text, "lxml")
            return soup
    except:
        print("爬取失败！"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

汽车之家各种车型参数爬虫的相关文章

查找 with: 块中定义的函数

这是一些代码理查德琼斯的博客 http www mechanicalcat net richard log Python Something I m working on 3 with gui vertical text gui labe
Python3 查找 2 个列表中有多少个差异才能相等

假设我们有 2 个列表 always具有相同的长度和always包含字符串 list1 sot sot ts gg gg gg list2 gg gg gg gg gg sot 我们需要找到其中有多少项list2应该改变以便它等于lis
如何为多组精灵创建随机位置？

我尝试使用 blit 和 draw 方法进行 for 循环并为 PlayerSprite 和 Treegroup 使用不同的变量 for PlayerSprite in Treegroup surface blit PlayerSprit
使用Python将图像转换为十六进制格式

我的下面有一个jpg文件tmp folder upload path tmp resized test jpg 我一直在使用下面的代码 Method 1 with open upload path rb as image file enco
Python 中的这种赋值方式叫什么？ a = b = 真

我知道关于元组拆包 http docs python org tutorial datastructures html tuples and sequences但是当一行中有多个等号时这个赋值被称为什么阿拉a b True 它总是让我有
字典的嵌套列表

我正在尝试创建dict通过嵌套list groups Group1 A B Group2 C D L y x 0 for y in x if y x 0 for x in groups d k v for d in L for k v in
在 Mac 上安装 Pygame 到 Enthought 构建中

关于在 Mac 上安装 Pygame 有许多未解答的问题但我将在这里提出我的具体问题并希望得到答案我在 Mac 上安装 Pygame 时遇到了难以置信的困难我使用 Enthought 版本 EPD 7 3 2 32 位它是我的默认框
Python int 太大，无法放入 SQLite

我收到错误 OverflowError Python int 太大无法转换为 SQLite INTEGER 来自以下代码块该文件约25GB 因此必须分部分读取 length 6128765 Works on partitions of
urllib2.urlopen() 是否实际获取页面？

当我使用 urllib2 urlopen 时我在考虑它只是为了读取标题还是实际上带回整个网页 IE 是否真的通过 urlopen 调用或 read 调用获取 HTML 页面 handle urllib2 urlopen url html
负整数的Python表示

gt gt gt x 4 gt gt gt print b format x x 4 100 gt gt gt mask 0xFFFFFFFF gt gt gt print b format x mask x mask 4294967292
在谷歌Colab中使用cv2.imshow()

我正在尝试通过输入视频来对视频进行对象检测 cap cv2 VideoCapture video3 mp4 在处理部分之后我想使用实时对象检测来显示视频 while True ret image np cap read Expand di
Python 矩阵每一行的总和

lista 1 2 3 4 5 6 7 8 9 print lista def filas lista res for elemento in lista x sum lista elemento res append x print re
WindowsError：[错误 5] 访问被拒绝

我一直在尝试终止一个进程但我的所有选项都给出了 Windows 访问被拒绝错误我通过以下方式打开进程一个python脚本 test subprocess Popen sys executable testsc py 我想杀死那个进程
是否可以写一个负的python类型注释

这可能听起来不合理但现在我需要否定类型注释我的意思是这样的 an int Not Iterable a string Iterable 这是因为我为一个函数编写了一个重载而 mypy 不理解我我的功能看起来像这样 overload
CSV 在列中查找最大值并附加新数据

大约两个小时前我问了一个关于从网站读取和写入数据的问题从那时起我花了最后两个小时试图找到一种方法来从输出的 A 列读取最大日期值将该值与刷新的网站数据进行比较并将任何新数据附加到 csv 文件而不覆盖旧的或创建重复项目前 100
如何在单独的文件中使用 FastAPI Depends 作为端点/路由？

我在单独的文件中定义了一个 Websocket 端点例如 from starlette endpoints import WebSocketEndpoint from connection service import Connectio
Pandas 在特定列将数据帧拆分为两个数据帧

I have pandas我组成的 DataFrameconcat 一行由 96 个值组成我想将 DataFrame 从值 72 中分离出来这样一行的前 72 个值存储在 Dataframe1 中接下来的 24 个值存储在 Data
具有指定置信区间的 Seaborn 条形图

我想在 Seaborn 条形图上绘制置信区间但我已经计算出置信区间如何让 Seaborn 绘制我的置信区间而不是尝试自行计算它们例如假设我有以下 pandas DataFrame x pd DataFrame Group 1 0 5
使用“pythonw”（而不是“python”）运行应用程序时找不到模块

我尝试了这个最小的例子 from flask import Flask app Flask name app route def hello world return Hello World if name main app run deb
从时间序列生成日期特征

我有一个数据框其中包含如下列 Date temp data holiday day 01 01 2000 10000 0 1 02 01 2000 0 1 2 03 01 2000 2000 0 3 30 01 2000 200 0 30

随机推荐

FastSpeech2论文中文翻译

FastSpeech2 论文的翻译翻译的挺差的大概是那意思只翻译了摘要模型部分和实验部分摘要高级的TTS模型像fastspeech 能够显著更快地合成语音相较于之前的自回归模型而且质量相当 FastSpeech模型的训练依赖于
Linux下libxml库编程（－）

http leansmall blog 163 com blog static 51617691200811171530183 1 编写说明本文档主要介绍XML的基本知识及如何利用libxml来操作xml文件 2 XML基础 XML是eX
Telegram死循环（已解决）

简介 Telegram 中文叫做电报作为一款安全的轻量级的即时通讯软件是我们在进行国际通信与外国友人或者身处外地的游子的一种通讯选择但是这个软件有一个 BUG 就是如果我们之前已经在一台设备上登陆过自己的账号那么如果再次登录的时
23.8.16.git clone -b branchName http://xx.xx.x.x.xx.git解析

git clone 表示使用git克隆远程仓库代码 b 这是branch的简写代表分支的意思 branchName 代表远程仓库的分支名也就是要克隆的指定分支名 http xx xx x x xx git 这是远程仓库的url地址
Vue3 -- 自定义指令directive

目录自定义指令directive 局部自定义指令全局自定义指令自定义指令动态参数函数简写传参给自定义指令总结自定义指令directive 在Vue中除了像v model 和 v show这样的默认内置的指令外 Vue 也允许注
go语言实战-----27-----mysql增删改查、预处理、事务、第三方库sqlx

一 mysql增删改查 Mysql准备工作首先我们建库建表以方便进行测试运行下面sql文件 CREATE DATABASE IF NOT EXISTS go test use go test CREATE TABLE user id
2022年广东省中职组“网络空间安全”赛题及赛题解析（超详细）

2022年广东省中职组网络空间安全赛项模块B解析 2022年中职组广东省区竞赛任务书模块 B 基础设施设置与安全加固 1000分 B 1 Apache安全配置 B 2 隐写术应用 B 3 Python程序渗透 B 4 代码渗透测试 B
Pandas 之过滤DateFrame中所有小于0的值并替换

Outline 前几天数据清洗时有用到pandas去过滤大量数据中的负值把过滤出来的负值替换为 NaN 或者指定的值故做个小记录读取CSV文件代码 import pandas as pd import numpy as np
万能指针：void * 指针

背景最近看到void 类型的指针不知道该怎么处理特别学习一下适用语言 C C 当中都可以使用但就目前认知水平 C当中用的较为普遍一些 void 指针的机制指针从某种程度上来说无非就是一个地址它的类型只是用于说明数据结构的指针
RISC-V指令集是一种精简的、可编程的指令集，它主要用于实现各种复杂的数据处理与控制任务。它提供了一系列简单的、可编程的指令，可以用来实现复杂的操作，比如addi指令，它可以将一个常数（如0x1）加...

RISC V指令集是一种精简可编程的指令集可以用来实现复杂的数据处理和控制操作它提供了一系列简单可编程的指令例如addi指令它可以将一个常数加到寄存器中并将结果存储到另一个寄存器中从而实现特定的操作
小白学Linux之#pragma的用法

预编译指令 pragma的用法最近在看开源项目中的代码时发现许多地方都用到了 pragma的程序因此就问了下谷歌老师总结了下 pragma预编译指令的常用用法现在和大家分享下一 pragma最常用的方法 1 progma pa
【Node】package.json文件

package json 文件详解前言一 package json 文件作用二 package json 文件创建三 package json 文件示例四 package json 文件配置说明五项目依赖六开发依赖七 Node j
【Linux】工具（5）——gdb

今天我们来到Linux工具的最后一篇博客 gdb的使用目录一 Linux下的release和debug 二 gdb常用指令选项一 Linux下的release和debug 我们先来写一个Makfile 来方便我们编译代码再来写一个t
C# 中的多线程和异步编程

目录前言 1 并发并行异步同步的概念区别以及使用场景 1 并发和并行 2 同步和异步 3 何时使用多线程编程何时使用异步编程 2 基础知识 1 简介及概念 1 1Join 和 Sleep 1 2线程是如何工作的 1 3线程 v
MySql事务和存储引擎

目录一 MySQL 事物 1 事务的概念 2 事务的ACID特点 2 1 1 原子性 2 1 2 一致性 2 1 3 隔离性 2 1 4 Mysql 及事物隔离级别查询全局事务隔离级别查询会话事务隔离级别设置全局事务隔离级别设置会
DRF---序列化组件

目录序列化器Serializer 序列化组件基本使用使用序列化类序列化多条数据使用序列化类序列化单条数据反序列化新增修改新增视图类序列化类视图类序列化类序列化类的常见字段类和常见参数常用字段类型选项参数通用
【Linux线程同步】生产者消费者模型

文章目录 1 peach 线程互斥中可能还会存在的问题 peach 2 peach 线程同步 peach 2 1 apple 同步概念与竞态条件 apple 2 2 apple 条件变量函数 apple lemon 初始化 lemon le
Qt5.15源码编译详解

1 请先参考 https blog csdn net weixin 60395515 article details 127284046 spm 1001 2014 3001 5501 2 有以下几个不同的地方需要修改 Qt5的mkspec
超详细解决困扰人的python典例：“有n个人围成一圈”式n里挑一

自学python No 2 引语题目案例实现 range 函数 append 函数 pop 函数完整代码引语记录学习路程抛砖引玉如有更好的算法或者出现错误欢迎指点题目有n个人围成一圈顺序排号从第一个人开始报数从1到
汽车之家各种车型参数爬虫

汽车之家各种车型参数爬虫结果如下本案例使用jupyter notebook 用到requests BeautifulSoup lxml urlencode pandas五个库爬取下来的数据如下图所示详细过程整个过程分成三个部分 1

热门标签