用于python环境下的数据操作_写给非计算机相关专业的同学——从零开始如何用python处理数据（包括如何安装环境）...

2023-11-10

文章目录

1. 使用语言和包

1.2 pandas包的安装(这里只是一个例子)

2. 要做的一个数据处理

2.1 数据处理的需求：

2.2 代码实现

2.2.1 思路

2.2.2 读入原来的表

2.2.3 找到速度为零的所有记录

2.2.4 找到对应的车(要删的)

2.2.5 写一个新的表格(删除操作完成后)

2.3 代码执行

3. 代码放上来吧：

这篇博客是一个经济管理学院的同学让我帮忙处理数据之后，心血来潮写一篇教程类的博客，面向的是非计算机专业的同学，所以比较基础

1. 使用语言和包

这里我用的是python进行处理。So, why python?

Python语法相对简单，不是程序员的话，当做工具来用还是不错的。(如果是程序员，我建议还是C语言起步，充分了解相关概念和语法，其他的语言相比C语言都多多少少做了简化)

其次Python里面封装好的包有很多很多，所以很多操作，我们不需要自己写函数，大大减少了在写代码上花费的时间

比较安全，这里说的有点牵强，不过我也要强调一下。曾经在C语言里面学习的指针，其值是一个内存地址。如果你代码能力不足，不小心让指针指向某个甚至某几个系统的变量，然后你还做了数据的更改，可能你的系统就被你弄坏了。Python大多数情况不需要你自己去定义，去写指针。所以，我说比较安全

1.1 python环境安装

这里我就用这位同学的电脑当做实例来讲解。

首先python她的电脑上是有的。按下"win+R"：

输入CMD，然后确定

弹出的窗口中输入python，然后回车：

可以看到她安装的是python3.8，对于pandas这个包，版本已经足够了。

如果第一次安装当然直接装python3.8就好，如果之前装过，且版本在python2的时代，那你就比较麻烦啦，首先去装一个python3，然后后面需要在pycharm中更改python interperter，改为python3.

至于安装python我不想多讲，给个链接自己体会吧：

python3安装教程

接下来去官网下载pycharm，并安装

这里给个链接吧：

这个家伙是下载网址的连接

一般情况下，刚刚安装好的pycharm打开以后会出现这个情况：

那是因为你的pycharm还没有导入python interpreter，接下来点击左上角的file->settings

这里选择Project下的Python Interpreter:

啊！居然是空的。。。当然是空的啦，需要手动添加一下interpreter，点左上角那个齿轮，然后点add

接下来把你的之前安装好的python放进来就可以了：

1.2 pandas包的安装(这里只是一个例子)

这边数据处理我选择用的是pandas，其他的包安装起来都是一样的

上一步添加好了python的包之后，就能看到有这两个家伙已经在这里了：

接下来我们要去安装pandas，我仅提供一种安装方案吧，其他的去Baidu上都有

点击右边的“+”或者按下"ALT+INSERT"

如果在国内的话，我建议做这样一个操作，就是把下载地址改为清华源。国外的小伙伴们就不用啦，点击下方的Manage Repositories，进入下面这个页面：

点击右边的"+"，输入这个地址：

https://pypi.tuna.tsinghua.edu.cn/simple

然后把原先那个可以删了，点击确定。然后返回刚刚那个界面，在上方搜pandas，点击下面的install package就行了

然后你就会发现它在自动安装了：

2. 要做的一个数据处理

安装好了上述东西只是一个开始，接下来的东西才是重点–数据处理

由于不同数据的不同处理多种多样，我也不方便一次全讲了，只好拿这个例子，给尝试进行数据处理的同学们做一个示范：

2.1 数据处理的需求：

拿到一个很大的表，表里面每一行为一条记录，我现在要找出速度(第7列)都为0的车牌号(第3列)，并且删除它们。

举个例子，下表中，7057和9205的两辆车是没有速度为0的记录的，所以是铁定不删的

然后是5052这辆车，有速度为0的记录，并且有速度不为0的记录，所以也是不删的(这里代码写不好的话，可能会误删)

最后是5752这辆车，所有的记录中，速度都为0，所以是需要删除的

这里就用一个简单的例子展示一下怎么用python

2.2 代码实现

这里如果我从零开始讲python的话，又可以写一本书了，所以，基础知识仍然是跳过，我只讲思路，然后直接给代码。当然我会尽力讲的细一些

2.2.1 思路

先读入的数据在一个二维数组中存储

先找出所有速度为零的行(返回一个包含所有行号的一位数组即可)

然后找到对应的车牌号，这些车都被列入即将删除的列表

然后找该车牌号所有的记录中的速度，如果出现非0，就不删，其他的都是一定要删的

2.2.2 读入原来的表

首先，这张csv表应该放在python工程的目录下，目录在这里打开

接下来打开那张表，我直接写了一个函数，输入是该文件的文件名(不要打.csv)，然后返回一个二维数组

def read_data(file_name = 'old'):

with open('{}.csv'.format(file_name), 'r', encoding='utf-8') as rf:

data = (csv.reader(rf))

return data

2.2.3 找到速度为零的所有记录

找出所有速度为零的行(返回一个包含所有行号的一位数组即可)

这里给新手的提示，首先数组是0开始的，所有第7列这边就要写6

其次表格里存的0，我们读进来以后其实是字符，而非一个整数，所以这里是‘0’

#这个是用来找哪一行有0的函数！！

def find_zeros(table):

rownums = []

for rownum in range(len(table)):

if (table[rownum][6] == '0'):

rownums.append(rownum)

return rownums

2.2.4 找到对应的车(要删的)

然后找到对应的车牌号，这些车都被列入即将删除的列表

然后找该车牌号所有的记录中的速度，如果出现非0，就不删，其他的都是一定要删的

#这个函数用来找那些要删的车，返回的是一个行号的列表

def find_all_zero_cars(table,zero_rownums):

row_of_car_nums=[]

#find all the cars

car_number=[]

for rownum in zero_rownums:

car_number.append(table[rownum][2])

for number_of_car in range(len(car_number)):

going_be_deleted = True

for i in range(len(table)):

if ((table[i][2] == car_number[number_of_car]) and not(table[i][6]=='0')):

going_be_deleted = False

if (going_be_deleted):

row_of_car_nums.append(car_number[number_of_car])

return row_of_car_nums

2.2.5 写一个新的表格(删除操作完成后)

def delete_data(car_numbers):

file_new = 'new_data.csv'

file_old = 'old.csv'

with open(file_old,'r',newline='',encoding='utf-8')as file_old,

open(file_new,'w',newline='',encoding='utf-8') as file_new:

f_csv_old = csv.reader(file_old)

f_csv_new = csv.writer(file_new)

for i, rows in enumerate(f_csv_old): # 保留header

if i == 0:

f_csv_new.writerow(rows)

break

for index in range(len(car_numbers)):

for rows in f_csv_old:

if rows[2] != car_numbers[index]:

f_csv_new.writerow(rows)

os.remove("old.csv")

2.3 代码执行

代码的执行都是在main函数中的，所以，想要执行上面的函数，就需要在main函数中调用。

这里在提示新手一下，上面的包安装后需要Import一下

import csv

import os

import data_dispose

if __name__ == '__main__':

table = read_data()

print(len(table))

delete_data(data_dispose.find_all_zero_cars(table,data_dispose.find_zeros(table)))

之后点击右上角的执行按钮就可以运行了

执行之后我们会发现这里多了一个"new_data.csv"

打开后发现就是处理结束后的表：

3. 代码放上来吧：

这个家伙是代码

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于python环境下的数据操作

用于python环境下的数据操作_写给非计算机相关专业的同学——从零开始如何用python处理数据（包括如何安装环境）... 的相关文章

Anaconda3 2023安装包下载及安装教程

软件介绍 Anaconda 是一个开源的包环境管理器其包含了conda Python等180多个科学包及其依赖项可以用于在同一个机器上安装不同版本的软件包及其依赖并能够在不同的环境之间切换安装步骤 1 选中下载好的安装包右键选择
OpenGL驱动质量的事实现状（精简翻译版）

原文 http richg42 blogspot com 2014 05 the truth on opengl driver quality html 一厂商A 为大多数开发者所使用功能最全测试得最好几乎是事实上的标准驱动其驱动
软件开发工具的作用

软件开发不是工程更多的像是一门艺术不但靠逻辑更需要靠直觉软件开发中辅助设计的工具只是一个工具不要为了工具而去用工具发挥工具的好处吸收使用多个工具不生搬硬套认识到每个工具都有其局限性因为每个工具只是表述软件设计或者开发中的一个
对于Excel界址点坐标批量转SHP方法——模型构建器

关于Excel界址点批量转SHP 对界址点进行处理将所有地块界址点全部放在一起字段名地块编号唯一拐点编号 X Y 必备先将整个表加载到arcgis中然后导出界址点 SHP 按照字段编号进行分类组模型构建器对界址点 s
阿里arthas web-console arthas-tunnel-server 支持wss

arthas tunnel server 没有找到 wss web console js 线上需要https访问无法在https中去访问 ws 需要支持wss 特殊修改处理下 arthas web console 源码下载说明https
frp内网穿透搭建

为什么需要内网穿透功能从公网中访问自己的私有设备向来都是一件难事自己的台式机 NAS等等设备它们可能处于路由器后或者运营商因为IP地址短缺不给你分配公网IP地址果我们想直接访问这些设备远程桌面远程文件 SSH等等一般来说要通
如何在Jupyter Notebook中自由切换conda虚拟环境pythtorch_gpu

一般情况 jupyter note在启动时是与conda的默认虚拟环境 base root 连接不能和新建虚拟环境pytorch gpu相连接这需要安装一些插件来建立连接需要安装的插件及过程 1 首先在conda中激活虚拟环境pyt
WDA学习笔记（一）环境准备

前言 WDA目前在ABAP市场上有一定的需求例如万科恒大碧桂园这些地产大佬们都用了一些BOPF的东西多一个技能就多一些机会现在来系统了解一下WDA吧 WDA Web Dynpro For Aabap 和WDJ Web Dynpro
css多个class时的选择器用法

http stackoverflow com questions 1041344 how can i select an element with multiple classes answertab active tab top 例如 a
dw超链接标签_Dreamweaver如何建立超链接?DW建立超链接方法介绍

超级链接一般具有三个特点蓝色下划线和手形标记那么Dreamweaver如何建立超链接下面小编就为大家介绍DW建立超链接方法来看看吧软件名称 Adobe Dreamweaver CS3 官方中文安装版软件大小 76 2MB更新时
控制 matplotlib 子图大小

效果图代码 import numpy as np import matplotlib pyplot as plt 调整 matplotlib 子图的大小 x1 np linspace 0 0 5 0 x2 np linspace 0 0
Flink分布式执行包括调度、通信机制、检查点

Flink的分布式执行包括两个重要的进程 master和worker 执行Flink程序时多个进程参与执行即作业管理器 Job Manager 任务管理器 Task Manager 和作业客户端 Job Client Flink程序需要
考研DS备考

23考研算法复习一图论相关算法 1 拓扑排序 2 最小生成树 2 1 Prim算法朴素实现 2 2 最小生成树Kruskal实现 3 最短路 3 1朴素版Dijkstra 3 2Bellman ford 3 3Floyd 二排序相关算
Python 快速获取文件夹中的所有文件名，并保存到txt文件中

下面的代码可以读取文件夹中的所有文件名并记录到txt文件中可以应用到如深度学习制作数据集等场景中 usr bin env python encoding utf 8 import os img path images img list
Windows防火墙阻止了远程调试

问题当调试数据库里的存储过程时提示 Windows防火墙当前阻止了远程调试当接着打开SQL Server的时候提示远程过程调用失败解决办法 1 当遇到远程过程调试失败
windows下查看GPU使用率

进入C Program Files NVIDIA Corporation NVSMI 在此处打开cmd 输入nvidia smi 第一行Driver Version 表示驱动是385 54 第二行中第一行表示GPU序号名字 Persis
python作业题

1 输入三个坐标表示三角形的三个顶点计算三角形的面积 import math x1 y1 x2 y2 x3 y3 eval input x1 y1 x2 y2 x3 y3 如果不在一条直线上就构成了三角形 if x1 x2 y1 y2 x
GMM-HMM在语音识别中的应用

1 语音识别系统的基本结构 2 涉及算法 3 GMM高斯混合模型 3 1高斯混合模型的基本概念高斯混合模型是指具有如下形式的概率分布模型 p y k 1k k y k p y arrowvert theta sum k 1 k alpha
docker redis单例安装

环境 windows docker desktop 版本 19 03 12 1 下载redis的docker镜像 docker pull redis 6 0 8 2 设置docker共享目录 docker中的共享目录即能将宿主的文件同步到

随机推荐

Pandas

文章目录 1 什么是Pandas 2 Pandas的数据结构 2 1 Series 2 1 1 Series的创建 2 1 2 Series的属性 2 2 DataFrame 2 2 1 DataFrame的创建 2 2 2 DataFra
在linux上odoo搭建

一配置Postgresql数据库 1 安装Postgresql root runner home sg os apt get install postgresql 2 配置postgresql 拷贝 var lib postgresql
Centos7五步安装Docker并解决docker官方镜像无法访问问题

根据官方文档 https docs docker com install linux docker ce centos 搭建docker 1 卸载docker旧版本 sudo yum remove docker docker client
C++实现——小孩分糖果问题

include
el-dialog组件实现可以拖拽移动功能

面向百度编程的小白最近遇到一个el dialog实现拖拽移动的需求翻了翻饿了么官网发现el dialog并没有关于这一块的属性方法所以与大家分享一下有关的方法首先新建一个js文件 directive js文件用于详情对话框可移动 i
python4行代码实现九九乘法表

九九乘法表是python的循环嵌套两次利用range 相乘并输出 for i in range 1 10 for j in range 1 i 1 print sx s s j i i j end print
QThread线程的运行和退出

关于QT退出线程一直迷迷糊糊的凑活着能用就行出了问题总觉得莫名其妙现在静下心来总结一下感谢 QThread的用法开启与退出 Qt QThread 这是我见过解析最全面的一片文章线程运行有两种方式 include
Python图像处理

1 图像平滑图像平滑是指受传感器和大气等因素的影响遥感图像上会出现某些亮度变化过大的区域或出现一些亮点也称噪声这种为了抑制噪声使图像亮度趋于平缓的处理方法就是图像平滑图像平滑实际上是低通滤波平滑过程会导致图像边缘模糊化图像
关于FlashDB的应用-GD32F450上

一介绍 1 FlashDB是什么是用于嵌入式的数据库存储 2 FlashDB谁整出来的是armink 朱天龙 3 FlashDB依赖于什么片内或者片外的Flash存储 FAL 4 FAL什么 FAL Flash Abstractio
制作搭建宠物商城小程序，打造便捷的宠物购物体验

随着宠物市场的不断发展宠物商城小程序成为了满足宠物爱好者需求的重要工具在现代社会宠物已经成为人们生活中不可或缺的一部分作为宠物爱好者我们对于宠物食品用品医疗保健品等需求日益增长而宠物商城小程序则为我们提供了一个便捷高效的购物
在Matlab2018b中配置MinGW-w64 C/C++ 编译器

在Matlab2018b跑代码时输入mex setup 报错错误使用 mex 未找到支持的编译器您可以安装免费提供的 MinGW w64 C C 编译器在 https jmeubank github io tdm gcc artic
最详细的堆排序---排序算法，思路清晰动图讲解，五分钟搞懂！

堆排序同步微信公众号乐享Coding 欢迎你的关注介绍利用堆这种数据结构而设计的一种排序算法堆排序是一种选择排序它的最坏最好平均时间复杂度均为O nlogn 它是不稳定排序对于堆排序难点在于二叉树的顺序数组储存到大顶堆小
psm倾向得分匹配法举例_基于R：使用“lalonde”数据集探讨倾向值匹配方法(PSM)的效果...

1 导言 PSM 即倾向值匹配法是处理社会研究反事实问题以得到因果效应的重要技术之一胡安宁 2020 概而言之即先将多维的混淆变量降维成单维的倾向值然后让接受实验处理的个体与未接受实验处理的个体基于倾向值进行匹配当倾向值相同时
java——equals(),hashCode()重写与不重写区别

1 总结 1 两个obj 如果equals 相等 hashCode 一定相等 2 两个obj 如果hashCode 相等 equals 不一定相等 2 不重写equals hashCode 不重写的时候比较两个对象是否相等默认跟效果
QT中实现当前时间实时更新

如果是通过qt designer弄了个lcdNumber 想通过这个控件显示时间那么你可以这么做在 h文件中 1 添加头文件 include
龙书学习笔记

目录第一章引论 1 1 语言处理器 1 2 一个编译器的结构 1 2 1 词法分析 1 2 2 语法分析 1 2 3 语义分析器 1 2 4 中间代码生成
计算机网络八股文

浏览器输入一个网站后具体发生了什么进行DNS解析操作根据DNS解析结果查找到服务器IP地址通过IP寻址找到服务器并利用三次握手建立TCP连接浏览器生成HTTP保温发送HTTP请求等待服务器响应服务器处理请求返回服务器根
高速USB 2.0的CMSIS-DAP调试器：CMSIS-DAP正确打开方式（3月18日更新速度和稳定性）

3月18日注修改USB最大包长度到1024 HS支持 USB初始化前增加等待100ms CMSIS DAP Debugger 是 ARM 发布的面向 Cortex 系列 MCU 的开源 Apache 2 0协议 JTAG 与 SWD 调试
解决github长期未登录，ssh keys过期的问题——git@github.com: Permission denied (publickey).

首先声明在我的PC端同时存在着github与gitlib的ssh keys 今天想看一个github上的项目发现git pull的时候又permission denied了如下图所示处理办法很简单只要把ssh key再加一遍就好了
用于python环境下的数据操作_写给非计算机相关专业的同学——从零开始如何用python处理数据（包括如何安装环境）...

文章目录 1 使用语言和包 1 2 pandas包的安装这里只是一个例子 2 要做的一个数据处理 2 1 数据处理的需求 2 2 代码实现 2 2 1 思路 2 2 2 读入原来的表 2 2 3 找到速度为零的所有记录 2 2 4 找到对

用于python环境下的数据操作_写给非计算机相关专业的同学——从零开始如何用python处理数据（包括如何安装环境）...

用于python环境下的数据操作_写给非计算机相关专业的同学——从零开始如何用python处理数据（包括如何安装环境）... 的相关文章

随机推荐

热门标签