python数据分析-基于Python的房屋均价数据可视化分析

2023-05-16

1.内容简介
首先通过爬虫采集上所有常熟售房网房源数据，并对采集到的数据进行清洗；然后，对清洗后的数据进行可视化分析，我们可以了解到目前市面上不同地区房源均价及房源分布情况，帮助我们进行购房决策。

2.应用技术介绍

1）Python网络爬虫技术

Scrapy

Xpath

2）Python数据分析技术

Numpy

Matplotlib

Pandas
3) 存储
Mysql

Redis

3.房源数据采集
1）分析网站
在这里插入图片描述
可以看到上面可见的有四个区域，后面数据跑完发现抓取到一个其他区域（不在列表上)

可以看到有用数据大概就这些，将其存储到数据库。
2）存储到数据库的部分字段数据

在这里插入图片描述
有251042条数据

比较简单，代码此处就不贴出来了。

4.数据可视化
在数据清洗完成后，我们就可以开始对数据进行可视化分析。该阶段主要是对数据做一个探索性分析并将结果可视化呈现，帮助人们更好、更直观的认识数据，把隐藏在大量数据背后的信息集中和提炼出来。本文主要对房源的总价地区等属性进行了分析。

数据可视化分析主要步骤如下：

1）首先将数据写入csv文件
代码如下：

import pymysql
import pandas as pd
from study_nlp.settings import local_db_config, column_list, use_list, changshu_areaDict, QUERY_SQL
import matplotlib.pyplot as plt


class WriteToCsv(object):
    # 初始化参数 连接数据库，创建游标对象
    def __init__(self, areaId):
        self.areaId = areaId
        self.conn = pymysql.Connect(**local_db_config)
        self.cursor = self.conn.cursor()

    # 关闭数据库和游标对象
    def __del__(self):
        self.cursor.close()
        self.conn.close()

    # 读取数据库数据
    def read(self):
        query_sql = QUERY_SQL.format(self.areaId)
        self.cursor.execute(query_sql)
        datas = self.cursor.fetchall()
        return datas

    def write(self):
        # 将数据转化为DataFrame数据格式
        df = pd.DataFrame(self.read(), columns=column_list)
        # 筛选有用列
        df = df.loc[:, use_list]
        # 写入数据
        pd.DataFrame.to_csv(df, f"./changshu_{changshu_areaDict.get(self.areaId)}.csv", encoding='utf-8')
        print('{}数据写入成功'.format(changshu_areaDict.get(self.areaId)))

将其封装：

def store_data():
    for areaId in changshu_areaDict.keys():
        test = WriteToCsv(areaId)
        test.write()
    
if __name__ == '__main__':
    # 首先将数据库数据存储到本地 csv格式
    store_data()

运行结果：
在这里插入图片描述

这是数据已经写入到csv文件中了
在这里插入图片描述

2) 计算总价均价，并绘制成折线图
代码如下：

def average(area):
    data = pd.read_csv(f"./changshu_{area}.csv", encoding='utf-8')
    # 保留两位小数
    print('{}房屋均价为{}'.format(area, data['allPrice'].mean().round(2)))
    return data['allPrice'].mean().round(2)


def show_chart(area_list, average_allPrice_list):
    df = pd.DataFrame({'area': area_list, 'average': average_allPrice_list})
    fig, ax = plt.subplots()
    ax.plot(df['area'], df['average'], 'b')
    ax.plot(df['area'], df['average'], 'or', markersize=3)

    for x, y in zip(area_list, average_allPrice_list):
        plt.text(x, y, y, ha='center', va='bottom', fontsize=10)
    ax.set_ylim(0, 5000000
                )
    # 用来正常显示中文标签
    plt.rcParams['font.sans-serif'] = ['SimHei']
    # 用来正常显示负号
    plt.rcParams['axes.unicode_minus'] = False
    # 标题
    plt.title('常熟各地区房屋每套均价', fontsize=16)

    # 横坐标描述
    plt.xlabel('地区', fontsize=13)
    # 纵坐标描述
    plt.ylabel('均价/元', fontsize=13)
    # 设置画布大小
    # plt.figure(figsize=(20, 5))
    # 设置数字标签
    plt.savefig('./changshu.png')

    plt.show()


if __name__ == '__main__':
    # 地区名称列表
    area_list = list(changshu_areaDict.values())
    # 地区对应总价平均值
    average_allPrice_list = []
    # 读取csv数据并计算房屋总价平均值
    for area in area_list:
        average_allPrice_list.append(average(area))
    # 绘制图表
    show_chart(area_list, average_allPrice_list)

运行结果：
在这里插入图片描述

生成折线图：
在这里插入图片描述
完整代码：

import pymysql
import pandas as pd
from study_nlp.settings import local_db_config, column_list, use_list, changshu_areaDict, QUERY_SQL
import matplotlib.pyplot as plt


class WriteToCsv(object):
    # 初始化参数 连接数据库，创建游标对象
    def __init__(self, areaId):
        self.areaId = areaId
        self.conn = pymysql.Connect(**local_db_config)
        self.cursor = self.conn.cursor()

    # 关闭数据库和游标对象
    def __del__(self):
        self.cursor.close()
        self.conn.close()

    # 读取数据库数据
    def read(self):
        query_sql = QUERY_SQL.format(self.areaId)
        self.cursor.execute(query_sql)
        datas = self.cursor.fetchall()
        return datas

    def write(self):
        # 将数据转化为DataFrame数据格式
        df = pd.DataFrame(self.read(), columns=column_list)
        # 筛选有用列
        df = df.loc[:, use_list]
        # 写入数据
        pd.DataFrame.to_csv(df, f"./changshu_{changshu_areaDict.get(self.areaId)}.csv", encoding='utf-8')
        print('{}数据写入成功'.format(changshu_areaDict.get(self.areaId)))


def store_data():
    for areaId in changshu_areaDict.keys():
        test = WriteToCsv(areaId)
        test.write()


def average(area):
    data = pd.read_csv(f"./changshu_{area}.csv", encoding='utf-8')
    # 保留两位小数
    print('{}房屋均价为{}'.format(area, data['allPrice'].mean().round(2)))
    return data['allPrice'].mean().round(2)


def show_chart(area_list, average_allPrice_list):
    df = pd.DataFrame({'area': area_list, 'average': average_allPrice_list})
    fig, ax = plt.subplots()
    ax.plot(df['area'], df['average'], 'b')
    ax.plot(df['area'], df['average'], 'or', markersize=3)

    for x, y in zip(area_list, average_allPrice_list):
        plt.text(x, y, y, ha='center', va='bottom', fontsize=10)
    ax.set_ylim(0, 5000000
                )
    # 用来正常显示中文标签
    plt.rcParams['font.sans-serif'] = ['SimHei']
    # 用来正常显示负号
    plt.rcParams['axes.unicode_minus'] = False
    # 标题
    plt.title('常熟各地区房屋每套均价', fontsize=16)

    # 横坐标描述
    plt.xlabel('地区', fontsize=13)
    # 纵坐标描述
    plt.ylabel('均价/元', fontsize=13)
    # 设置画布大小
    # plt.figure(figsize=(20, 5))
    # 设置数字标签
    plt.savefig('./changshu.png')

    plt.show()


if __name__ == '__main__':
    # 首先将数据库数据存储到本地 csv格式
    store_data()
    # 地区名称列表
    area_list = list(changshu_areaDict.values())
    # 地区对应总价平均值
    average_allPrice_list = []
    # 读取csv数据并计算房屋总价平均值
    for area in area_list:
        average_allPrice_list.append(average(area))
    # 绘制图表
    show_chart(area_list, average_allPrice_list)

总结：
常熟不同地区房屋均价很明显，当然这只是大概，没有根据房屋类型分类，数据不是很精确，但是应该可以看出一点点吧，各位。
本文章全系对技术的兴趣爱好,欢迎大家学习交流。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python数据分析-基于Python的房屋均价数据可视化分析的相关文章

具有多个输入的kerasvalidation_data

我尝试使用validation data方法但是有问题 model fit X macd train X rsi train X ema train Y train sample weight sample weight validati
当默认 pip 为 pip2 时，升级 pip3 的正确格式是什么？

我为两者开发Python 2 and 3 因此我必须同时使用pip2 and pip3 使用时pip3 我收到此升级请求最后两行 pip3 install arrow Requirement already satisfied use
Cython 函数中的字符串

我想这样做将字符串传递给 Cython 代码 test py s Bonjour myfunc s test pyx def myfunc char mystr cdef int i for i in range len mystr err
合并数据框中的值以写入 Excel

我有一个看起来像的数据框 column1 column2 column3 colum4 column5 1 r n 1 r s 1 r n 2 r s 3 r n 3 2 r n 1 r s 1 r n 4 r s 4 r n 5 3 r
SQLAlchemy：检查给定值是否在列表中

问题在 PostgreSQL 中检查某个字段是否在给定列表中是使用IN操作员 SELECT FROM stars WHERE star type IN Nova Planet SQLAlchemy 的等价物是什么INSQL查询我尝试过
为什么我不能“string”.print()？

我的理解print 在 Python 和 Ruby 以及其他语言中它是字符串或其他类型上的方法因为它的语法非常常用打印嗨 works 那么为什么不呢 hi print 在 Python 中或 hi print在红宝石工作当你
将分布拟合到直方图

I want to know the distribution of my data points so first I plotted the histogram of my data My histogram looks like th
Microsoft Azure 数据仓库和 SqlAlchemy

我正在尝试使用 python 的 sqlalchemy 库连接到 microsoft azure 数据仓库并收到以下错误 pyodbc Error HY000 HY000 Microsoft ODBC SQL Server Driver
Python `concurrent.futures`：根据完成顺序迭代 future

我想要类似的东西executor map 除了当我迭代结果时我想根据完成的顺序迭代它们例如首先完成的工作项应该首先出现在迭代中等等这样当且仅当序列中的每个工作项尚未完成时迭代就会阻塞我知道如何使用队列自己实现这一点但我想知道
在Python中确定句子中2个单词之间的邻近度

我需要确定 Python 句子中两个单词之间的接近度例如在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意该词
如何将列表中的每个项目转换为字符串，以便连接它们？ [复制]

这个问题在这里已经有答案了我需要加入一个项目列表列表中的许多项目都是从函数返回的整数值 IE myList append munfunc 我应该如何将返回的结果转换为字符串以便将其加入列表我是否需要对每个整数值执行以下操作 myLis
如何让 Python 找到 ffprobe？

I have ffmpeg and ffprobe安装在我的 mac macOS Sierra 上并且我已将它们的路径添加到 PATH 中我可以从终端运行它们我正在尝试使用ffprobe使用以下代码获取视频文件的宽度和高度 impor
与 GNU Make 等 Python 相关的并行任务并发

我正在寻找一种方法或者可能是一种哲学方法来如何在 python 中执行类似 GNU Make 的操作目前我们使用 makefile 来执行处理因为 makefile 非常擅长通过更改单个选项 j x 进行并行运行此外 gnu mak
无法在 Windows 服务器上使 SVN 预提交脚本失败

我正在编写一个 SVN pre commit bat 文件该文件调用 Python 脚本来查询我们的问题跟踪系统以确定用户提供的问题跟踪 ID 是否处于正确的状态例如打开状态并与正确的关联项目 SVN 服务器运行 Windows
Python中的MariaDB连接器无法连接到远程服务器

我使用与远程 Mariadb 服务器的连接已有几个月了今天无法再通过 macOS 上的 python mariadb 模块和 mariadb 连接器建立连接基本安装如下 brew install mariadb connector c
用户的完整 UNIX 用户名

想知道您是否知道是否有一种巧妙的方法可以从 shell 获取完整的用户名示例如果我的 UNIX 用户名是 froyo 那么我想获取我的全名在本例中如系统中注册的那样 froyo Abhishek Pratap Finger 命令可以
如何有效地计算另一列中每个元素的较大元素的数量？

我有以下内容df name created utc 0 t1 cqug90j 1430438400 1 t1 cqug90k 1430438400 2 t1 cqug90z 1430438400 3 t1 cqug91c 143043840
使用 Python 进行 Google 搜索网页抓取 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近为了工作中的一些项目学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取我发现几
Chrome + 另一个进程：进程间通信比 HTTP/XHR 请求更快？

我有一个进程 1 对视频流进行实时图像处理我需要在 Chrome 中的 HTML 页面中渲染该视频同一台计算机上的进程 2 在canvas or img or videoHTML5 元素由于我有 1000x1000 像素 x 3 字节
将字典写入 csv 时遇到问题，其中键作为标题，值作为列

我有一本字典看起来像 mydict foo 1 2 bar 3 4 asdf 5 6 我正在尝试将其写入 CSV 文件使其看起来像 foo bar asdf 1 3 5 2 4 6 我花了最后一个小时寻找解决方案我发现的最接近的解决方

随机推荐

linux用户创建及权限、用户组设置

用户创建和删除用户创建和删除都需要在root权限下操作 1 创建用户命令 xff1a adduser 按照提示输入密码输入命令 xff1a cat etc passwd 查看用户id xff0c 组和权限等 debian user x
Selenium-API操作

Selenium API操作一元素定位1 如何进行元素定位 xff1f 2 浏览器开发者工具2 1 如何使用浏览器开发者工具 3 元素定位方式3 1 id定位3 1 1 id定位方法3 1 2 案例3 1 3 案例实现步骤分析 3 2
电脑网页打开巨慢但是网络正常

1 Internet选项设置搜索Internet explorer Internet选项高级选项卡中选重置 2 修改dns 搜索栏中搜索网络连接 WLAN中属性 ipV4中属性改为114 114 114 114 3 网络重置右键Wi
虚拟机设置静态IP（虚拟机将IP设置成和自己电脑一个网段）

打开网络连接 xff0c 查看相关网络配置信息 xff1a 1 查看自己电脑的IP配置信息 xff0c 如下图 xff1a 并记录下子网掩码IP 默认网关IP和首选DNS服务器IP 2 查看虚拟机网络配置 xff1a 发现IP地址并不是一个
80端口被占用的两种解决方案 - 超详细（已解决）

一先用快捷键win 43 R打开运行 xff0c 输入 cmd 点击确定进入命令点击回车确定调出管理员命令提示符 xff0c 然后输入命令 netstat ano xff0c 查看端口占用信息二这个时候我们会看到端口号已被使用 xff
copilot 让AI帮你编程（人工智能自动完成）

copilot 让AI帮你编程 xff08 人工智能自动完成 xff09 官方地址前不久 xff0c GitHub和OpenAI联合为程序员们送上了编程神器 GitHub Copilot 但是 xff0c Copilot目前不提供公开使用
linux申请内存失败,Linux 内存分配失败（vm.overcommit_memory的内存分配参数详解）

摘自 xff1a linux申请内存失败 Linux 内存分配失败关于overcommit memory 袁廷翠09050082的博客 CSDN博客 1 问题现象和分析 xff1a 测试时发现当系统中空闲内存还有很多时 xff0c 就报内
System.DllNotFoundException:“Unable to load DLL ‘XXX.dll‘ or one of its dependencies: 找不到指定的模块。 (0x8

问题说明在项目使用时使用c 代码调用c 43 43 的dll时遇到了下面问题 xff1a 原本以为c 调用时只需要一个最终的DLL文件放置在同一目录下就可以了 xff0c 但是一直会出现 System DllNotFoundExcepti
arduino的入门作品——简单的记忆机器人

arduino的入门作品简单的记忆机器人作为新手小白但却有这一颗激情与热爱的心的我 xff0c 在昨天上午看到一个记忆机械手的视频后实在是按耐不住自己的浮躁之心连夜赶工 xff0c 费时12个小时终于把记忆机器人完成了虽然做工极其
[HPM] Error occurred while trying to proxy request

突然出现的报错 xff1a span class token namespace HPM span Error occurred span class token keyword while span trying to proxy req
使用过vmware 或者其他的模拟器再开启wsl2闪退处理

使用了一次VMware xff0c 重新开启hyper v和虚拟化 xff0c 打开wsl2时 xff0c 发现Ubuntu 18 04闪退在powershell里面执行 wsl 报错 xff1a 请启用虚拟机平台 Windows 功能并
经典递归问题（一）数鸭子问题（Java）

题目一一个人赶着鸭子去每个村庄卖 xff0c 每经过一个村子卖去所赶鸭子的一半又一只这样他经过了七个村子后还剩两只鸭子 xff0c 问他出发时共赶多少只鸭子 xff1f 经过每个村子卖出多少只鸭子 xff1f 根据题目分析 xff0c
mysql-group分组之后取每组最新的一条记录

mysql group分组之后取每组最新的一条记录 1 背景有个业务场景需要获取每个设备最新时间的异常记录还有当前状态和部署位置 xff0c 然后返回给前台渲染记录一下写的sql以及里面一些小坑 2 分析首先查询涉及两张表 xff0c
Centos7开放及查看端口

Centos7开放及查看端口开放端口 firewall span class token operator span cmd span class token operator span zone 61 public span class
ubuntu18.04 远程桌面连接失败的来龙去脉

用vm安装了ubuntu18 04服务器版 xff0c 顺利的安装上GNOME桌面 xff0c 系统能够本地开启桌面系统说句实话 xff0c 第一次登陆ubuntu的桌面时 xff0c 看到炫彩的效果 xff0c 还是小小的震撼了一把 x
SQL-入门-02(1)

MySQL 02 比较运算符逻辑运算符使用 AND 连接多条件使用 OR 连接多个条件使用 NOT 过滤不满足条件的数据 xff08 理解题意看题意确定逻辑 xff09 特殊条件使用 IN 查询多条件使用 NOT IN 排除使用 BETW
Python requests抓取有道翻译最新版破解js加密

Python requests抓取有道翻译最新版破解js加密目标网站 xff1a http fanyi youdao com 1 寻找数据 F12 进去Network 调试多次 xff0c 翻译后的数据放在 json里数据放在接口下
python requests 最新抓取百度翻译内容，js逆向，亲测有效

python requests 抓取百度翻译 js破解最新版上一篇文章写了有道翻译抓取 xff0c 朋友圈的大佬说试试抓取百度翻译 xff01 xff0c 于是我就抱着试一试的心态开始写了目标网站 xff1a https fanyi
python多线程爬虫与单线程爬虫效率效率对比

前言我们之前写的爬虫都是单个线程的 xff1f 这怎么够 xff1f 一旦一个地方卡到不动了 xff0c 那不就永远等待下去了 xff1f 为此我们可以使用多线程或者多进程来处理首先声明一点 xff01 多线程和多进程是不一样的 xff
python数据分析-基于Python的房屋均价数据可视化分析

1 内容简介首先通过爬虫采集上所有常熟售房网房源数据 xff0c 并对采集到的数据进行清洗 xff1b 然后 xff0c 对清洗后的数据进行可视化分析 xff0c 我们可以了解到目前市面上不同地区房源均价及房源分布情况 xff0c 帮助我

python数据分析-基于Python的房屋均价数据可视化分析

python数据分析-基于Python的房屋均价数据可视化分析 的相关文章

随机推荐

热门标签

python数据分析-基于Python的房屋均价数据可视化分析的相关文章