在数据分析过程中,主要是以下几个过程:
一、明确分析目的
首先要明确自己的分析目的,只有明确目的的分析才能更有效的解决自己的问题,打到自己的目的。(大量数据,试探性的分析除外,但是即使是试探性的分析过程,前期也是需要一个假设的分析目的的。)
二、数据整理
数据整理过程主要包括三个方面:收集数据,评估数据,清洗数据。
(1)、收集数据
我们在数据分析的过程中,可以从多个方面进行数据的收集,主要有一下几个方面:
- 从HTML中收集数据
- 从HTTP(URL)中收集数据
- 从内部数据库导出数据
- 目前现有的数据
下面主要对上面的数据分析方法的概念及在Python中使用的函数进行简单的介绍,具体的使用方法和函数使用会进行在其他的博文中进行介绍和实例。
- 从HTTP(URL)中收集数据
URL称之为统一资源定位符,它是对可以从互联网上得到的资源的位置和访问方法的一种简介的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
从URL中获取数据主要是应用requests库中的get函数,详情请参看:http://blog.csdn.net/weixin_41100555/article/details/79130580
(2)、评估数据
评估数据主要分为目测评估和编程评估两种。
评估出来的数据问题主要是质量(内容)问题和整洁度(格式)问题。
(3)、清洗数据
清洗数据主要是将评估出来的数据问题,进行清洗整理,让数据变得干净整洁,易于分析
三、数据分析
四、数据可视化
五、形成数据报告