采集校园卡消费信息可视化(安徽工商职业学院)

2023-10-29

闲的没事干,分析下我自己的一卡通消费信息。

使用了以下技术进行数据分析并且环境已经搭建好。

Hadoop hive mysql sqoop centos7 python zeppelin

思路:

python爬自己的消费记录,存入到mysql sqoop把数据转移到hive,基于zeppelin可视化。

爬虫部分

一卡通网站

 

爬取前F12看下抓包数据 ,要爬取的URL​​​​​​​

 

cookie登录用

表单携带的数据sdate开始日期 edate结束日期 account为学号对应的卡号

执行爬虫代码,并保存到数据库。​​​​​​​

 

mysql查看

数据导入

sqoop把mysql数据导入到hive(hive要提前好库) 

完成

hive数据

zeppelin简单分析可视化

查看数据

查看表结构

原表数据字段类型需要重新转换,建个新表加载进去

加载数据,顺便把消费里面的-去掉方便统计

insert into table sh select date,place,cmoney,split(cmoney,'-')[1] as new_xiaofei,chongzhi,surplus from ahbvc_sh;

需要把日期分割出来,方便分组

加载到新表

 新表数据

看一看充值记录(2020-10-10 到 2022-10-13)

 总共充值金额(不知不觉充了一万多了)

每日消费金额(可以看出每天10-30块钱很密集,怎么有条记录一天消费76?一年后才知道,心痛)

看一下(难不成被盗用了 实在想不起来咋花的了。)

每月吃七块套餐次数

每月吃八块套餐次数

对比挺有意思,2022年之前大部分吃饭都是八块的套餐,2022年之后七块(懂得都懂

每月消费金额,基本上用来吃饭

 每年消费金额(2020 1816元占了17% ,2021 5779元占了54%,2022 3066元占了29%)

 各个区域消费(一楼食堂吃的最多花了9164)

 刷卡次数

 随便练习,apache开源组件 禁止用于非法用途

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

采集校园卡消费信息可视化(安徽工商职业学院) 的相关文章

随机推荐

  • BugKu CTF(杂项篇MISC)--where is flag 4

    BugKu CTF 杂项篇MISC where is flag 4 文章目录 BugKu CTF 杂项篇MISC where is flag 4 膜拜大佬 题目1 txt 用到的python知识 python base64 base64字符
  • adb卸载自带应用

    adb shell pm uninstall k user 0 com baidu input huawei 卸载自带应用
  • 无法连接ssh的原因

    我先问大家一个问题 ssh协议是什么呢 ssh应该很多人都知道他的用途 ssh就是远程会话登录会话 利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题 ssh的原理 在A上使用ssh连接B机 A向B发送连接请求 B收到请求后 将自己
  • Spark中的 官方求PI案例

    官方求PI案例 1 进入 opt module spark standalone 2 开启spark集群 sbin start all sh 3 写案例 bin spark submit class org apache spark exa
  • Python实战:python URL请求地址的拼接,标准库urllib.parse详解

    目录 使用urllib parse urljoin 方法拼接URL 使用urllib parse urlencode 方法拼接查询参数 urlparse urlsplit urldefrag urlunparse urlunsplit 手写
  • Linux nc(NetCat)命令详解

    http blog csdn net wang7dao article details 7684998 NetCat 在网络工具中有 瑞士军刀 美誉 其有Windows和Linux的版本 因为它短小精悍 1 84版本也不过25k 旧版本或缩
  • sqlmap (os-shell)

    Dancing with your ghost 环境准备 Kali IP 10 10 16 128 win 7 IP 10 10 16 131 使用 phpstudy 搭建 sql 注入漏洞环境 NAT 网络连接 漏洞源码 查看源码可以得知
  • OpenGL学习之路18---- 点光源

    代码放在github上 根据教程 ogldev一步步开始 记录学习历程 之前学习了三个基于平行光的光照模型 相关博文如下 OpenGL学习之路15 环境光 OpenGL学习之路16 漫射光 OpenGL学习之路17 镜面反射光 平行光没有起
  • gensim 将文本变成一个向量 DOCtoVEC

    D2V
  • Cascade network——multi-stage refinement

    文章目录 List Preview AttractioNet 2016 CRAFT CRAFT Objects from Images 2016 CC Net chained cascade network for object detec
  • jar包手动添加到本地maven仓库详解

    第一步 下载需要添加的jar包 可以在maven库中查找下载 也可以在对应官网下载 maven库网址 需要验证是真人 https mvnrepository com 第二步 将下载的jar包放到指定位置 位置自己指定 用得到 建议放在mav
  • css-将网页全局置灰

    亲测百分之百有效 在一些情况下需要将网页的全局颜色进行置灰处理 但是又不能影响到其他属性 此时我们只需要在主框架的样式中增加该属性即可 filter grayscale 100
  • Java的String相关的加号+和append比较

    上例子 package com smile core public class StringAppend public static void main String args 字符串常量用 连成串 实际上等于一个字符串 效率最高 long
  • C++ STL 互斥体

    mutex 互斥量 非定时的互斥体类 标准库包含两个非定时的互斥体类 std mutex std recursive mutex 每个类都支持下列方法 lock 阻塞直到取到锁 trylock 立刻返回获取锁结果 unlock 已经拥有st
  • linux线程学习(二)

    上一个linux线程学习是不带锁的线程不安全形式 只要不用共享资源还是可以的 但实际工作中我们遇到的往往是需要保障线程的访问的 因此这里实现了一个简单的线程池 为线程池的实现提供思路 Status类封装了环境变量与锁 作为一种状态保障线程的
  • Python错误:UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte...

    错误提示如下 tf2 C Users user gt python Python 3 7 6 packaged by conda forge default Mar 5 2020 14 47 50 MSC v 1916 64 bit AMD
  • libcurl教程

    这个文档是小编在curl官网上使用谷歌翻译翻译的 详细信息看官网 curl 基本描述 本文档试图描述使用 libcurl 编程时要考虑的一般原则和一些基本方法 本文将主要关注 C 接口 但可能会很好地适用于其他接口 也会讲解一些个C接口相似
  • mongodb设置账号密码授权案例

    1 给admin授权管理员权限 gt use admin gt db createUser user admin pwd 123456 roles role root db admin 如果需要修改admin密码 gt db changeU
  • 链表有环(引申题:环在哪里)

    public class Test private static class ListNode int value ListNode next public static boolean hasCycle ListNode head if
  • 采集校园卡消费信息可视化(安徽工商职业学院)

    闲的没事干 分析下我自己的一卡通消费信息 使用了以下技术进行数据分析并且环境已经搭建好 Hadoop hive mysql sqoop centos7 python zeppelin 思路 python爬自己的消费记录 存入到mysql s