采集校园卡消费信息可视化（安徽工商职业学院）

2023-10-29

闲的没事干，分析下我自己的一卡通消费信息。

使用了以下技术进行数据分析并且环境已经搭建好。

Hadoop hive mysql sqoop centos7 python zeppelin

思路：

python爬自己的消费记录，存入到mysql sqoop把数据转移到hive，基于zeppelin可视化。

爬虫部分

一卡通网站

爬取前F12看下抓包数据，要爬取的URL

cookie登录用

表单携带的数据sdate开始日期 edate结束日期 account为学号对应的卡号

执行爬虫代码，并保存到数据库。

mysql查看

数据导入

sqoop把mysql数据导入到hive（hive要提前好库）

完成

hive数据

zeppelin简单分析可视化

查看数据

查看表结构

原表数据字段类型需要重新转换，建个新表加载进去

加载数据，顺便把消费里面的-去掉方便统计

insert into table sh select date,place,cmoney,split(cmoney,'-')[1] as new_xiaofei,chongzhi,surplus from ahbvc_sh;

需要把日期分割出来，方便分组

加载到新表

新表数据

看一看充值记录（2020-10-10 到 2022-10-13）

总共充值金额（不知不觉充了一万多了）

每日消费金额（可以看出每天10-30块钱很密集，怎么有条记录一天消费76？一年后才知道，心痛）

看一下（难不成被盗用了实在想不起来咋花的了。）

每月吃七块套餐次数

每月吃八块套餐次数

对比挺有意思，2022年之前大部分吃饭都是八块的套餐，2022年之后七块（懂得都懂）

每月消费金额，基本上用来吃饭

每年消费金额（2020 1816元占了17% ，2021 5779元占了54%，2022 3066元占了29%）

各个区域消费（一楼食堂吃的最多花了9164）

刷卡次数

随便练习，apache开源组件禁止用于非法用途

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

信息可视化

python

Hadoop

hive

爬虫

采集校园卡消费信息可视化（安徽工商职业学院）的相关文章

在 Pandas 中按日期获取有效合约

我在检测 pandas DataFrame 中的活动合约方面遇到了一些困难假设每一行都是一个协商对于每一行我有两列 initial date 和 end date 我想知道的是按日期划分的活跃合约数量到目前为止我做了一个非常低效的方
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

我正在尝试找到解决方案但无法理解我做错了什么在我的 Linux 服务器上我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
在径向（树）网络x图中查找末端节点（叶节点）

给定下图是否有一种方便的方法来仅获取末端节点我所说的端节点是指那些具有一个连接边的到节点我认为这些有时被称为叶节点 G nx DiGraph fromnodes 0 1 1 1 1 1 2 3 4 5 5 5 7 8 9 10 ton
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
如何使用Python的super()来更新父值？

我对继承很陌生之前所有关于继承和 Python 的 super 函数的讨论都有点超出我的理解我当前使用以下代码来更新父对象的值 usr bin env python test py class Master object mydata
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
将 Pandas 列中的列表拆分为单独的列

这是我在 pandas 数据框中的特征列 Feature Cricket 82379 Kabaddi 255 Reality 4751 Cricket 15640 Wildlife 730 LiveTV 13 Football 4129
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
select() 可以在 Windows 下使用 Python 中的文件吗？

我正在尝试在 Windows 下运行以下 python 服务器 An echo server that uses select to handle multiple clients at a time Entering any line o
Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

我正在尝试为我的功能绘制图表但不断收到此错误 ValueError RGBA sequence should have length 3 or 4 每当我只有 6 种形状时代码就可以完美运行但现在我将其增加到 10 种它就不起作用了
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f

随机推荐

BugKu CTF(杂项篇MISC)--where is flag 4

BugKu CTF 杂项篇MISC where is flag 4 文章目录 BugKu CTF 杂项篇MISC where is flag 4 膜拜大佬题目1 txt 用到的python知识 python base64 base64字符
adb卸载自带应用

adb shell pm uninstall k user 0 com baidu input huawei 卸载自带应用
无法连接ssh的原因

我先问大家一个问题 ssh协议是什么呢 ssh应该很多人都知道他的用途 ssh就是远程会话登录会话利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题 ssh的原理在A上使用ssh连接B机 A向B发送连接请求 B收到请求后将自己
Spark中的官方求PI案例

官方求PI案例 1 进入 opt module spark standalone 2 开启spark集群 sbin start all sh 3 写案例 bin spark submit class org apache spark exa
Python实战：python URL请求地址的拼接，标准库urllib.parse详解

目录使用urllib parse urljoin 方法拼接URL 使用urllib parse urlencode 方法拼接查询参数 urlparse urlsplit urldefrag urlunparse urlunsplit 手写
Linux nc(NetCat)命令详解

http blog csdn net wang7dao article details 7684998 NetCat 在网络工具中有瑞士军刀美誉其有Windows和Linux的版本因为它短小精悍 1 84版本也不过25k 旧版本或缩
sqlmap (os-shell)

Dancing with your ghost 环境准备 Kali IP 10 10 16 128 win 7 IP 10 10 16 131 使用 phpstudy 搭建 sql 注入漏洞环境 NAT 网络连接漏洞源码查看源码可以得知
OpenGL学习之路18---- 点光源

代码放在github上根据教程 ogldev一步步开始记录学习历程之前学习了三个基于平行光的光照模型相关博文如下 OpenGL学习之路15 环境光 OpenGL学习之路16 漫射光 OpenGL学习之路17 镜面反射光平行光没有起
gensim 将文本变成一个向量 DOCtoVEC

D2V
Cascade network——multi-stage refinement

文章目录 List Preview AttractioNet 2016 CRAFT CRAFT Objects from Images 2016 CC Net chained cascade network for object detec
jar包手动添加到本地maven仓库详解

第一步下载需要添加的jar包可以在maven库中查找下载也可以在对应官网下载 maven库网址需要验证是真人 https mvnrepository com 第二步将下载的jar包放到指定位置位置自己指定用得到建议放在mav
css-将网页全局置灰

亲测百分之百有效在一些情况下需要将网页的全局颜色进行置灰处理但是又不能影响到其他属性此时我们只需要在主框架的样式中增加该属性即可 filter grayscale 100
Java的String相关的加号+和append比较

上例子 package com smile core public class StringAppend public static void main String args 字符串常量用连成串实际上等于一个字符串效率最高 long
C++ STL 互斥体

mutex 互斥量非定时的互斥体类标准库包含两个非定时的互斥体类 std mutex std recursive mutex 每个类都支持下列方法 lock 阻塞直到取到锁 trylock 立刻返回获取锁结果 unlock 已经拥有st
linux线程学习(二)

上一个linux线程学习是不带锁的线程不安全形式只要不用共享资源还是可以的但实际工作中我们遇到的往往是需要保障线程的访问的因此这里实现了一个简单的线程池为线程池的实现提供思路 Status类封装了环境变量与锁作为一种状态保障线程的
Python错误：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte...

错误提示如下 tf2 C Users user gt python Python 3 7 6 packaged by conda forge default Mar 5 2020 14 47 50 MSC v 1916 64 bit AMD
libcurl教程

这个文档是小编在curl官网上使用谷歌翻译翻译的详细信息看官网 curl 基本描述本文档试图描述使用 libcurl 编程时要考虑的一般原则和一些基本方法本文将主要关注 C 接口但可能会很好地适用于其他接口也会讲解一些个C接口相似
mongodb设置账号密码授权案例

1 给admin授权管理员权限 gt use admin gt db createUser user admin pwd 123456 roles role root db admin 如果需要修改admin密码 gt db changeU
链表有环（引申题：环在哪里）

public class Test private static class ListNode int value ListNode next public static boolean hasCycle ListNode head if
采集校园卡消费信息可视化（安徽工商职业学院）

闲的没事干分析下我自己的一卡通消费信息使用了以下技术进行数据分析并且环境已经搭建好 Hadoop hive mysql sqoop centos7 python zeppelin 思路 python爬自己的消费记录存入到mysql s

热门标签