data analysis --python on Jupyter

2023-11-11

data cleaning (data analysis 第一步)

1. detect and delete wrong data

1.find the wrong data and make sure the data indeed wrong, if so use del statement to delete it
For instance, remove the row with the index 149 from a data set data stored as a list of list, you can use the code del data[149]
make sure you run the delstatement only once, otherwise you’ll delete more then more row. You may try the length of data set to figure out weather you have delete it.

2.remove duplicate entries

1.make sure there do exits duplicate,take one as an example
make sure there do have duplicates
2. find all the duplicates:
设置两个数组,一个用来保存有重复的,另一个保存unique ones,遍历所有数据,若在保存唯一数组中已有就加入到重复数组中, 否则append到唯一数组中
有多少个重复的
3. remove the duplicate selectively
例如?可以选择保留最大值的数据项在这里插入图片描述
solution:
· 新建一个字典,使得每一个unique中的name都是一个key,对应的value是该name的app最高的下载量
· 用该字典新建一个新的数据集,即最后需要的新数据集
代码如下:用reviews_max保存每一个app name和最大的review值,建立两个新数据集,遍历原始数据。若app name和review和reviews_max中的对应的上则添加入新的clean数据集中,利用already_added防止二次添加在这里插入图片描述
检验成功:
只有一行了

3.Removing non-English apps

1.In Python, strings are indexable and iterable, which means we can use indexing to select an individual character, and we can also iterate on the string using a for loop.
在这里插入图片描述
2.用上述方法删除不符合条件的

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

data analysis --python on Jupyter 的相关文章

随机推荐

  • RT-Thread内核启动流程

    一般了解一份代码大多从启动部分开始 同样这里也采用这种方式 先寻找启动的源头 RT Thread 支持多种平台和多种编译器 而 rtthread startup 函数是 RT Thread 规定的统一启动入口 一般执行顺序是 系统先从启动文
  • Git rebase -i 合并多次提交

    我们在开发项目的过程中可能提交了多次代码 但有时候需要合并多次commit 实现的效果如下 如果你需要合并多个commit就通过Git log看下查你要合并commit的ID 记住最早的commit ID 如 123abc git reba
  • 什么是MVVM,vue的MVVM原理

    1 Mvvm定义MVVM是Model View ViewModel的简写 即模型 视图 视图模型 模型 指的是后端传递的数据 视图 指的是所看到的页面 视图模型 mvvm模式的核心 它是连接view和model的桥梁 它有两个方向 一是将
  • [906]git设置忽略文件.gitignore

    在仓库目录下新建一个名为 gitignore的文件 因为是点开头 没有文件名 没办法直接在windows目录下直接创建 必须通过右键Git Bash 按照linux的方式来新建 gitignore文件 gitignore文件对其所在的目录及
  • KeyError错误

    KeyError错误出现时可能是检索不到这个键名 就我自己碰到的这个问题来说 是编码的原因 前因是用了一个别人写的读取标定参数的函数 def read calib file path taken from https github com
  • 用一个数组表示股票每天的价格,数组的第i个数表示股票在第i天的价格。 如果只允许进行一次交易,也就是说只允许买一支股票并卖掉,求最大的收益。

    用一个数组表示股票每天的价格 数组的第i个数表示股票在第i天的价格 如果只允许进行一次交易 也就是说只允许买一支股票并卖掉 求最大的收益 提示 从前向后遍历数组 记录当前出现过的最低价格 作为买入价格 并计算以当天价格出售的收益 作为可能的
  • Kati详解-Android10.0编译系统(五)

    Android取经之路 的源码都基于Android Q 10 0 进行分析 Android取经之路 系列文章 系统启动篇 Android系统架构Android是怎么启动的Android 10 0系统启动之init进程Android10 0系
  • GDI+ 中图像基本变换

    背景 图形变换是指对绘制的图形进行平移 旋转 伸缩等操作 由 Graphics 类提供对应的成员函数进行实现 平移变换 概述 平移变换将所绘制图形的坐标 x y 全部平移一个增量 dx dy 对应成员函数 TranslateTransfor
  • 有向图和有权图的邻接矩阵表示法

    矩阵有多少行多少列 取决于顶点的个数 有向的 称作弧 v2没有发出任何胡 v3发出一条到v4的 到其他顶点都没有弧 记为0 邻接矩阵的每一行记录了什么 记录了以当前的顶点出发的弧 即出度边 以当前顶点的为弧尾的值 每一列是什么呢 比如 v1
  • Android 中自定义ViewGroup实现流式布局的效果

    博主前些天发现了一个巨牛的人工智能学习网站 通俗易懂 风趣幽默 忍不住也分享一下给大家 点击跳转到网站 前言 自定义View与自定义ViewGroup的区别 自定义View 在没有现成的View 需要自己实现的时候 就使用自定义View 一
  • cin,cout和scanf,printf速度差距

    这道题的数据量大概在1e5左右 第1 2行为C C 输入输出加速后cin cout的耗费时间 第3行为不加速的 cin cout的时间 第4行为scanf printf的时间
  • 【51单片机实验笔记】声学篇(一) 蜂鸣器基本控制

    目录 前言 硬件介绍 PWM基础 蜂鸣器简介 原理图分析 蜂鸣器驱动电路 软件实现 蜂鸣器短鸣 蜂鸣器功能封装 总结 前言 蜂鸣器在生活中的应用实则相当广泛 通过本章你将学会制造噪声 笑 你将学会驱动它们 并发出响声 硬件介绍 PWM基础
  • 常用植被物候提取方法 (TIMESATE/R语言/Python)

    文章内容仅用于自己知识学习和分享 如有侵权 还请联系并删除 一 Background 这篇文章介绍的非常全面 物候的提取通常包含两个步骤 1 曲线的重构拟合 curve fitting 和 2 物候矩阵的提取 phenological me
  • linux系统运维工程师面试题集锦(一)

    1 常见Linux的发行版有哪些 并描述不同发行版之间的联系与区别 Fedora 是基于RHEL CentOS Scientific Linux 和Oracle Linux的社区版本 相比RHEL Fedora打包了显著的更多的软件包 SU
  • Vue使用debugger

    vue开发时会遇到需要调试代码的情况 使用debugger可以很方便的进行debug 1 build webpack dev conf js 将devtool cheap module eval source map 改为devtool e
  • datasource无法加载问题

    解决办法 将静态资源导入去掉 这里我是确保代码 jar包与yaml正确的情况下发现的 将pom文件中自己写的静态资源导入删掉
  • android 多线程异步下载文件,造轮子之 Android 多线程多任务断点续传下载器(设计篇)...

    前段时间面试 被问到 app 的自动更新是怎么做的 文件下载怎么实现的 用了多线程吗 是否支持断点续传 一下蒙逼 因为直接用第三方框架实现的文件下载 这些问题完全没想过 回来后觉得这里面其实涉及很多知识点 就打算自己动手封装一个支持多线程多
  • NLP(四十一)使用HuggingFace翻译模型的一次尝试

    本文将如何如何使用HuggingFace中的翻译模型 HuggingFace是NLP领域中响当当的团体 它在预训练模型方面作出了很多接触的工作 并开源了许多预训练模型和已经针对具体某个NLP人物训练好的直接可以使用的模型 本文将使用Hugg
  • Windows安装Maven教程

    一 Maven介绍 Maven是一种流行的构建工具 用于管理Java项目的构建过程 依赖项和项目生命周期 它提供了一种简单而灵活的方式来构建 测试和部署Java应用程序 Maven使用一个XML配置文件来定义项目的结构和构建过程 通过这个配
  • data analysis --python on Jupyter

    data cleaning data analysis 第一步 1 detect and delete wrong data 1 find the wrong data and make sure the data indeed wrong