漫谈数据挖掘从入门到进阶

2023-11-06

做数据挖掘也有些年头了，写这篇文一方面是写篇文，给有个朋友作为数据挖掘方面的参考，另一方面也是有抛砖引玉之意，希望能够和一些大牛交流，相互促进，让大家见笑了。

入门：

数据挖掘入门的书籍，中文的大体有这些：

Jiawei Han的《数据挖掘概念与技术》

Ian H. Witten / Eibe Frank的《数据挖掘实用机器学习技术》

Tom Mitchell的《机器学习》

TOBY SEGARAN的《集体智慧编程》

Anand Rajaraman的《大数据》

Pang-Ning Tan的《数据挖掘导论》

Matthew A. Russell的《社交网站的数据挖掘与分析》

很多人的第一本数据挖掘书都是Jiawei Han的《数据挖掘概念与技术》，这本书也是我们组老板推荐的入门书（我个人觉得他之所以推荐是因为Han是他的老师）。其实我个人来说并不是很推荐把这本书。这本书什么都讲了，甚至很多书少有涉及的一些点比如OLAP的方面都有涉猎。但是其实这本书对于初学者不是那么友好的，给人一种教科书的感觉，如果你有大毅力读完这本书，也只能获得一些零碎的概念的认识，很难上手实际的项目。

我个人推荐的入门书是这两本：TOBY SEGARAN的《集体智慧编程》和Ian H. Witten / Eibe Frank的《数据挖掘实用机器学习技术》

《集体智慧编程》很适合希望了解数据挖掘技术的程序员，这本书讲述了数据挖掘里面的很多实用的算法，而且最重要的是其讲述的方式不是像Han那种大牛掉书袋的讲法，而是从实际的例子入手，辅以python的代码，让你很快的就能理解到这种算法能够应用在哪个实际问题上，并且还能自己上手写写代码。唯一的缺点是不够深入，基本没有数学推导，而且不够全面，内容不够翔实。不过作为一本入门书这些缺点反而是帮助理解和入门的优点。

推荐的另一本《数据挖掘实用机器学习技术》则相对上一本书要稍微难一点，不过在容易理解的程度上依然甩Han老师的书几条街，其作者就是著名的Weka的编写者。整本书的思想脉络也是尽可能的由易到难，从简单的模型入手扩展到现实生活中实际的算法问题，最难能可贵的是书的最后还稍微讲了下如何使用weka，这样大家就能在学习算法之余能够用weka做做小的实验，有直观的认识。

看完上述两本书后，我觉得大体数据挖掘就算有个初步的了解了。往后再怎么继续入门，就看个人需求了。

如果是只是想要稍微了解下相关的技术，或者作为业余爱好，则可随便再看看Anand Rajaraman的《大数据》以及Matthew A. Russell的《社交网站的数据挖掘与分析》。前者是斯坦福的"Web挖掘"这门课程的材料基础上总结而成。选取了很多数据挖掘里的小点作为展开的，不够系统，但讲的挺好，所以适合有个初步的了解后再看。后者则亦是如此，要注意的是里面很多api因为GFS的缘故不能直接实验，也是个遗憾

如果是继续相关的研究学习，我认为则还需要先过一遍Tom Mitchell的《机器学习》。这本书可以看做是对于十多年前的机器学习的一个综述，作者简单明了的讲述了很多流行的算法（十年前的），并且对于各个算法的适用点和特点都有详细的解说，轻快地在一本薄薄的小书里给了大家一个机器学习之旅。

进阶：

进阶这个话题就难说了，毕竟大家对于进阶的理解各有不同，是个仁者见仁的问题。就我个人来说，则建议如下展开：

视频学习方面：

可以看看斯坦福的《机器学习》这门课程的视频，最近听说网易公开课已经全部翻译了，而且给出了双语字幕，更加容易学习了^_^

书籍学习方面：

我个人推荐的是这样：可以先看看李航的《统计学习方法》，这本书着重于数学推导，能让我们很快的对于一些算法的理解更加深入。

有了上面这本书的基础，就可以开始啃一些经典名著了。这些名著看的顺序可以不分先后，也可以同时学习：

Richard O. Duda的《模式分类》这本书是力荐，很多高校的数据挖掘导论课程的教科书便是这本（也是我的数据挖掘入门书，很有感情的）。如果你不通读这本书，你会发现在你研究很多问题的时候，甚至一些相对简单的问题（比如贝叶斯在高斯假设下为什么退化成线性分类器）都要再重新回头读这本书。

Christopher M. Bishop的《Pattern Recognition And Machine Learning》这本书也是经典巨著，整本书写的非常清爽。

《The Elements of Statistical Learning》这本书有句很好的吐槽“机器学习 -- 从入门到精通”可以作为这本书的副标题。可以看出这本书对于机器学习进阶的重要性。值得一说的是这本书虽然有中文版，但是翻译之烂也甚是有名，听说是学体育的翻译的。

Hoppner, Frank的《Guide to Intelligent Data Analysis》这本书相对于上面基本经典巨著并不出名，但是写的甚好，是knime官网上推荐的，标榜的是解决实际生活中的数据挖掘问题，讲述了CRISP-DM标准化流程，每章后面给出了R和knime的应用例子。

以前写过的读书笔记http://www.cnblogs.com/flclain/archive/2012/11/23/2785079.html

项目方面：

事实上，我觉得从进阶起就应该上手一些简单的项目了。如果不实践只是看书和研究算法，我觉得是无法真正理解数据挖掘的精髓所在的。打个简单的比方，就算你看完了C++ Primer、effective C++等等书籍，如果自己不写C++，那么自己也就会停留在 hello world的级别。实践出真知非常切合数据挖掘这门学科，实际上手项目后才会发现什么叫"80%的准备，20%的建模"，real world的问题我认为并不是仅仅靠modeling就能很好的解决的。详细的可以看看《Guide to Intelligent Data Analysis》就能略知一二。如果上手做推荐或者一些简单的项目，也可以考虑用用mahout，推荐的入门手册是《mahout in action》。项目问题说来话长，有时间会以CRISP流程为引单独作文，这里也就不详谈了。

软件方面：

我常用而且推荐的软件有如下，这里只是简单的列出，以后有时间再详细分析和写出入门：

Weka Java的软件，可以集成到自己的项目中

Orange 一个用python写的数据挖掘开源软件，界面做的很漂亮，可以做图形化实验，也可以用python调用编程。

Knime 和Orange类似，特点是可以集成weka和R等开源软件

SAS的EM模块以及R 还有最最经典的matlab大大

不过引用余凯大大的一个weibo来说

“不用Matlab的理由太多，稍微列一下，大家补充吧:

1. 积重难返，最后工作效率反而越来越低；

2. follow production protocol, 相当于学习无数程序员的实践经验；

3. 不能驾驭算法和系统的人不能真正作出有实用价值的研究成果；

4. 百度腾讯阿里谷歌面试通不过；

5. Matlab很贵”

这里有篇文有简要的介绍上面的部分开源软件http://www.oschina.net/question/12_14026

再往后：

再往后的其实就是我就是觉得是学数学了，然后就是深入读一些你感兴趣的topic的书籍和paper，接项目，做项目了。发展有数据分析师或者去专门的企业做数据研究员，当然混学术界的我就不清楚了。

（作者最后留下了联系方式，以后有机会一定多向牛人请教）

初略写完发现成一篇长文了，最近也是在做一个用眼底照片预测stroke的项目，比较忙，等闲下来以后也会写些算法或者软件或者实际项目的心得的文。当然也只是我个人粗浅的想法，也希望能和大家有所交流，相互促进，我个人邮箱是flclain@gmail.com，豆瓣主页是 http://www.douban.com/people/45119625/，有什么问题可以在帖子里讨论，也可邮件或者豆邮交流^_^

（本文转自：http://www.cnblogs.com/flclain/archive/2012/12/22/2829317.html）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

漫谈数据挖掘从入门到进阶的相关文章

Cython 回调适用于函数，但不适用于绑定方法

我正在实现一个基于 cython 的 C 库接口我实现了一个回调系统它可以与普通函数一起使用但在传入绑定方法时会奇怪地失败这是我的 cython 代码的一部分 cdef extern from VolumeHapticTool h
如何计算 numpy 数组中元素的特定范围

我有一个像这样的数组 import numpy as np data np array 0 0 0 1 1 1 0 0 0 0 1 1 1 1 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0
分类报告 - 精度和 F 分数定义不明确

我从 sklearn metrics 导入了classification report 当我输入我的np arrays作为参数我收到以下错误 usr local lib python3 6 dist packages sklearn met
对 numpy 数组的每 n 个元素求平均值

我有一个 numpy 数组我想创建一个新数组它是每个连续三元组元素的平均值因此新数组的大小将是原始数组的三分之一举个例子 np array 1 2 3 1 2 3 1 2 3 应该返回数组 np array 2 2 2 谁能建议一
在 opencv 中一次性将旋转和平移结合起来

我有一段用于旋转和平移图像的代码 Point2f pt 0 in rows double angle atan trans c trans b 180 M PI Mat r getRotationMatrix2D pt angle 1 0
在matlab中融合2个以上的图像

在 MATLAB 中如何融合两个以上的图像例如我想要做什么imfuse但对于超过 2 个图像使用两张图像这是我的代码 A imread file1 jpg B imread file2 jpg C imfuse A B blend
字符串中数字的连续相加

我是一名正在学习 python 的新程序员并且在如何完成此任务方面遇到了困难所以本质上我有一个从文件导入的数字字符串需要读取并且需要将第一个数字的总和添加到第二个数字并将其转换为正确的 ascii 字符因此例如如果我正在读取字符
python解释器自动重启而不返回答案

调用递归函数时 python解释器会自动重新启动吗我正在编写一个快速排序算法并尝试对一个大的数字数组顺序 10 4 进行排序但是当我尝试对整个数组进行排序时 python 正在重新启动即给我重新启动并且存储在内存中的所有值函
代码终止后保持 matplotlib / pyplot 窗口打开

我希望 python 绘制一个图在不阻塞控制流的情况下显示它并在代码退出后使图保持打开状态这可能吗这个以及相关的主题存在于许多其他线程中见下文但我无法让情节保持开放且非阻塞例如如果我使用pyplot ion before p
Python 中 Matlab 'fscanf' 的等价物是什么？

Matlab函数fscanf 似乎很强大 python 或numpy 中是否有相同的等效项具体来说我想从文件中读取矩阵但我不想迭代每一行来读取矩阵类似的东西来自 matlab 用于读取 2D 1000x1000 矩阵 matrix
使用 Django 添加额外 \\ 字符的 JSON 编码

我正在尝试创建一个函数将包含消息和 Django 模型实例的字典转换为 JSON 然后我可以将其传回客户端例如我在 models py 中定义了模型 Test from django db import models class Te
Django 模板：输出带有所有小数位的浮点数

我如何在 django 模板中输出这个数字小数位数是可变的我事先不知道 x 0 000015 1 x 输出是 1 5e 05 2 x stringformat f 输出是 0 000015 这不是本地化的应该有逗号我需要对输出进行本
Python列表错误还是我错了？

我构建了一个 3 级嵌套列表 run on Python 3 2 3 32 bit on Win 7 L2 list 0 for i in range 2 L3 list L2 for i in range 3 L4 list L3 for
如何在Python Selenium中获取WebElement的类名？

我使用 Selenium WebDriver 来抓取从网页中获取的用 JavaScript 编写的表格我正在迭代表行列表每行可能属于不同的类别我想获取此类的名称以便我可以为每一行选择适当的操作 table body table f
Spyder 内联绘图

设置 Anaconda 2 0 0 Win 64 Spyder Anaconda 附带的 2 3 0rc 我配置图形工具 gt 首选项 gt iPython 控制台 gt 图形 gt 图形后端 gt 内联但无论我做什么图形总是在单独的
Django 自定义文件存储系统

我有一个自定义存储 import os from django core files storage import Storage class AlwaysOverwriteFileSystemStorage Storage def get
将连续行与相同的列值合并

我有一个看起来像这样的东西我该如何处理 0 d 0 The DT 1 Skoll ORGANIZATION 2 Foundation ORGANIZATION 3 4 based VBN 5 in IN 6 Silicon LOCATIO
具有默认参数的Python类构造函数[重复]

这个问题在这里已经有答案了可能的重复 Python 中的最不令人惊讶可变默认参数 https stackoverflow com questions 1132941 least astonishment in python the m
使用 Pandas 来“applymap”来访问索引/列？

解决以下 pandas 问题的最有效方法是什么这是一个简化的示例其中包含数据框中的一些数据 import pandas as pd import numpy as np df pd DataFrame np random randint
pyodbc 无法正确处理 unicode 数据

我确实使用 pyodbc 成功连接了 MySQL 数据库并且它可以很好地处理 ascii 编码的数据但是当我打印使用 unicode utf8 编码的数据时它引发了错误 UnicodeEncodeError ascii codec c

随机推荐

PYQT5表格及样式设置方法

PYQT5遇到的问题和解决 1 给table添加样式 table 透明度设置构造一个含图片的label 再用setCellWidget把label插入单元格 1 给table添加样式 1 qApp setStyleSheet font s
《因果学习周刊》第6期：因果推荐系统

No 06 智源社区因果学习组因果学习研究观点资源活动关于周刊因果学习作为人工智能领域研究热点之一其研究进展与成果也引发了众多关注为帮助研究与工程人员了解该领域的相关进展和资讯智源社区结合领域内容撰写了第6期
【GeekUninstaller】卸载程序

软件介绍删除不了的文件或者软件可以下载试试不需要安装文章目录前言一如何下载二使用步骤 1 安装完之后自动打开前言 GeekUninstallers是一款高效快速小巧免费的软件卸载与清理工具旨在帮助用户删除系统上安装
caffe源码追踪--syncedmem

首先来看看caffe include caffe syncedmem hpp ifndef CAFFE SYNCEDMEM HPP define CAFFE SYNCEDMEM HPP include
深度学习之 python pandas

在数据科学领域 pandas是非常有用的工具在数据科学细分领域大数据通常和深度学习有关这部分本篇博客从pandas重要函数开始到数据变换以及数据分析 pandas提供了数据变换数据清理数据可视化以及数据提取等主要数据处理功能
tar -xf_linux 解压缩命令tar

linux环境下常见的压缩文件格式 tar tar gz tar bz2 tar xz 参数 c create create a new archive 创建文件 x extract get extract files from an ar
静态资源上传七牛云

一七牛云SDK function 请参考demo的index js中的initQiniu 方法若在使用处对options进行了赋值则此处config不需要赋默认值 init options 即updateConfigWithOptio
Python爬虫实战(五) :下载百度贴吧帖子里的所有图片

准备工作目标网址 https tieba baidu com p 5113603072 目的下载该页面上的所有楼层里的照片第一步分析网页源码火狐浏览器 gt 在该页面上右击查看页面源代码会打开一个新的标签页第二步查找图片源
ue4蓝图中的customevent和function的细微差别。

在调用第三方库时我用customEvent时可以调用LowEntryHttpRequest中的 Executes the request This blueprint can NOT execute several HTTP Reque
记录一下浏览器缩放和移动端缩放的区别，其实两者是有很大的不同的，之前一直搞不明白。

直接问AI它们之间的区别的话是这么回答的浏览器缩放和移动端缩放是两种不同的概念它们涉及到用户在不同设备上改变网页内容大小的方式以下是它们的主要区别浏览器缩放 Desktop Browser Zoom 浏览器缩放是指在桌面计算机浏览
以太坊学习计划1

1 如果链接远程链需要上链才可以打开服务才可以 2 开启本地geth 服务下载https geth ethereum org downloads 默认启动geth服务不启动rpc服务手动用命令行启动 geth rpc 代码端调用
C++的使用小教程8——多态与接口

C 的使用小教程8 多态与接口 1 什么是多态与接口 2 实现方式 3 应用实例学习好幸苦 1 什么是多态与接口 C 多态意味着调用成员函数时会根据调用函数的对象的类型来执行不同的函数接口描述了类的行为和功能而不需要完成类的特定实现
Qgis国际化

参考文章 QT实现多国语言几点需要注意的 1 pro文件生成方法 2 ts文件生成方法输入命令 lupdate f code QT Code QtApplication2 QtApplication2 QtApplication pro
Vit，DeiT，DeepViT，CaiT，CPVT，CVT，CeiT简介

Vit 最基础的就是将transformer的encoder取出来输入图像大小维度 B C H W 将图片不重叠地划分为H patch height w patch weight个patch 每个patch为patch height p
Spark相关问题

Spark相关问题 Hadoop FileFormat接口问题 Hadoop FileOutputFormat在写入数据的时候先写到临时目录最后写入最终目录临时目录到最终目录的过程中需要做文件树合并合并过程中有大量Rename操作 F
Hash函数

概述 Hash函数散列函数是一种将任意长度的数据映射到有限长度的域上通俗来讲就是将一串任意长度的数据进行打乱混合转换为一段固定长度的数据输出这段数据便成为输入数据的一个指纹特征 Hash函数的首要目标是保证数据的完整性而不
css连续的纯数字或字母强制换行

white space normal word break break all
一些网站1

N1BOOK平台 Nu1L Team Nu1L Team 0004 Median of Two Sorted Arrays LeetCode Cookbook 题库力扣 LeetCode 全球极客挚爱的技术成长平台
解决shell断开后java进程被结束

偶尔会碰到用SecureCRT在shell启动java进程并后台运行命令最后加的时候因为断电死机等原因断开shell 然后进程被结束了运维大佬也说用他们的工具启动进程后一断开连接进程就结束了后来查到是因为shell在断开的时候会向
漫谈数据挖掘从入门到进阶

做数据挖掘也有些年头了写这篇文一方面是写篇文给有个朋友作为数据挖掘方面的参考另一方面也是有抛砖引玉之意希望能够和一些大牛交流相互促进让大家见笑了入门数据挖掘入门的书籍中文的大体有这些 Jiawei Han的数据挖掘概念与

漫谈数据挖掘从入门到进阶

漫谈数据挖掘从入门到进阶 的相关文章

随机推荐

热门标签

漫谈数据挖掘从入门到进阶的相关文章