之前一直有朋友叫我列一个数据科学的书单,说实话这件事情我是犹豫了很久的。有两个原因,其一是因为自己读书太少才疏学浅,其二我觉得基于我个人观点认为“好”的书其实可能对于很多人是不一定合适的。
不过,明天正好是世界读书日,所以这里从一个(在读的统计PhD学生➕即将去旧金山的某Startup进行Data Science暑期实习的准数据科学家)的角度,给大家列一个书单吧,里面有我读过的书,也有我想读的书。
我的原则是尽可能推一些新书,和我自己所认为的“好书”。不过我觉得,我介绍的书当中可能有不少的书在之前的回答里都有提到了,那也是难免的。毕竟很多好书都是得到了大家的一致认可的。
对于读过的书我可能会给一点点小短评,对于我想读但是没读过的书我就不发表什么太多看法了。这个书单,算是对自己过去阅读的总结,也算是未来给自己所提的要求。如果对其他人有那么一点点用,那也是极好的。
------------4.23 Update--------------------------------
这里想澄清一个误会,有些知友以为我这些书都看完了,怎么可能嘛2333。里面有些书是我读过的,有些书是我正在读的,有些书是我打算看的(todo list)。另外这个书单里面有些书,我认为是值得从头到尾看完的,有些书是适合看一部分的,还有些书是你在做项目,解决一个特定问题的时候才需要去翻查的。这些说明我会慢慢补上(施工ing)。
还有人问我怎么找到这些书的电子版的。有个论坛,叫经管之家(原人大经济论坛)我觉得不少人应该都听说过吧,我在里面混了8,9年了。
--------------------------------------------
第一部分:数据科学家核心技能(Data Scientist Core Skills)
1. 概览(Overview):
The Data Science Handbook: Advice and Insights from 25 Amazing Data Scientists (看完了)
业内老司机给数据科学新人的一些建议
<img src="https://pic2.zhimg.com/v2-06f61afb9fbcd875fd8d6ec2e0e94f11_b.jpg" data-rawwidth="331" data-rawheight="499" class="content_image" width="331">
Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking (看完了)
<img src="https://pic1.zhimg.com/v2-fb2744ae718cc4fdb1f0ec2fec947a8c_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">
Doing Data Science: Straight Talk from the Frontline(看完了)
<img src="https://pic1.zhimg.com/v2-626cae9b0212b471ba0227a5b613c2a8_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
2. 数学(Maths):
多变量微积分(multivariate calculus):
我是觉得看MIT这门课的前两个Chapter就OK了。
https://ocw.mit.edu/courses/mathematics/18-02sc-multivariable-calculus-fall-2010/index.htm
线性代数(Linear Algebra):
这本书对应课程绝对良心:
https://ocw.mit.edu/courses/mathematics/18-06sc-linear-algebra-fall-2011/index.htm
<img src="https://pic2.zhimg.com/v2-6dd99244782b1126057063eaac2381c1_b.jpg" data-rawwidth="376" data-rawheight="474" class="content_image" width="376">
3. 概率论与统计(Probability And Statistics):
Introduction to Probability, Statistics, and Random Processes(还没看)
一本手把手教你概率论的书,相应学习网站上书和视频都有。
https://www.probabilitycourse.com/
<img src="https://pic2.zhimg.com/v2-50bda82b370e05f7e650713537a04e69_b.jpg" data-rawwidth="384" data-rawheight="499" class="content_image" width="384">
OpenIntro Statistics(看完了)
至今见到最好的一本统计学入门书,同样相应学习网站上书和视频都有。
OpenIntro
<img src="https://pic3.zhimg.com/v2-2dad0c6dfffd43e9a72520bb2f4ee9f2_b.jpg" data-rawwidth="400" data-rawheight="500" class="content_image" width="400">
Statistical Inference(看完了)
不少美国大学统计系研究生第一年的教材,推荐给想系统学习数理统计的同学。
<img src="https://pic2.zhimg.com/v2-414be2813d05267624b8155c6b7d5765_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
Applied Linear Statistical Models(看了一半)
我觉得是把线性模型讲得很好的一本书
<img src="https://pic2.zhimg.com/v2-9d990717bee529b5107616ce2e0e81e9_b.jpg" data-rawwidth="400" data-rawheight="500" class="content_image" width="400">
An Introduction to Generalized Linear Models(看完了)
广义线性模型入门简介
<img src="https://pic1.zhimg.com/v2-2fe742ecd125baf78ace2b4fb2dc12c4_b.jpg" data-rawwidth="321" data-rawheight="499" class="content_image" width="321">
All of Statistics: A Concise Course in Statistical Inference(正在看)
注意,我觉得这本书是给的统计底子很好的人复习用的,不适合自学。
<img src="https://pic3.zhimg.com/v2-4c26ce3abcb6c5e3ffbabee27ece36f2_b.jpg" data-rawwidth="332" data-rawheight="499" class="content_image" width="332">
Computer Age Statistical Inference: Algorithms, Evidence, and Data Science (正在看)
Efron和Hastie两位大师通过这本书给了大数据时代的统计学一个非常现代和全面的介绍。
<img src="https://pic3.zhimg.com/v2-9866b935f1505ff8df8a25b4d1637e4e_b.jpg" data-rawwidth="330" data-rawheight="499" class="content_image" width="330">
Statistics in a Nutshell: A Desktop Quick Reference(翻查用)
案头的统计学速查手册
<img src="https://pic4.zhimg.com/v2-eda8df12e7ca0c46c59e311667a1a8cb_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
贝叶斯统计(Bayesian Statistics)
Bayes' Rule: A Tutorial Introduction to Bayesian Analysis(还没看)
贝叶斯统计101
<img src="https://pic4.zhimg.com/v2-aea2317b707bd9f1ce258af6e6049eaf_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
Think Bayes: Bayesian Statistics in Python(还没看)
简介怎么用Python做贝叶斯统计
这里可以免费下载:http://www.greenteapress.com/thinkbayes/thinkbayes.pdf
<img src="https://pic4.zhimg.com/v2-22e3de0c16d8b2ed76865b0c819b0fa3_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">
Bayesian Methods for Hackers(还没看)
更加深入地介绍怎么用Python做贝叶斯统计。
在线版本:CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers
<img src="https://pic3.zhimg.com/v2-369f0ebeb979f3806142f39e33ebfbea_b.jpg" data-rawwidth="383" data-rawheight="499" class="content_image" width="383">
Practical Statistics for Data Scientists: 50 Essential Concepts(读完了)
我在实习期间抽空看完的一本书,这本书应该算是填平课堂的统计学和工业界数据科学的一本很好的参考指南。写得比较简洁但是直击要点,而且给出了很多reference。
这本书的github:andrewgbruce/statistics-for-data-scientists
这本书的Amazon 链接:Practical Statistics for Data Scientists: 50 Essential Concepts (9781491952962): Peter Bruce, Andrew Bruce: Books
<img src="https://pic4.zhimg.com/v2-09244663a417c84aaedd4b36ce66d863_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">
4. 机器学习(Machine Learning)
我觉得机器学习不能沉溺于理论,要尽快开始动手把玩一些实际数据集来加深对算法的理解。所以我打算推荐一些Hands-on(手把手)的书。
An Introduction to Statistical Learning: with Applications in R(看完了)
通过R讲解算法的统计学习入门书,估计被推荐烂了(笑)。可以在这本书的网站上找到这本书的pdf和数据集。
http://www-bcf.usc.edu/~gareth/ISL/
相关课程
https://lagunita.stanford.edu/courses/HumanitiesSciences/StatLearning/Winter2016/about
<img src="https://pic3.zhimg.com/v2-64589f8d1caa18e69f6c6d13b6786fea_b.jpg" data-rawwidth="332" data-rawheight="499" class="content_image" width="332">
Applied Predictive Modeling(看完了)
黄皮书,没啥好多说的。准备面试和工作的时候必读。
<img src="https://pic2.zhimg.com/7a0593ebc0bdb7ea8dbc771ef84d6a4d_b.jpg" data-rawwidth="315" data-rawheight="499" class="content_image" width="315">
Python Machine Learning(基本上看完了)
手把手教你用sklearn做机器学习,同样是工作必备。
<img src="https://pic4.zhimg.com/4631c616b0ccb44ae1dabb82ced3a2f7_b.jpg" data-rawwidth="406" data-rawheight="500" class="content_image" width="406">
Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies(看了一半)
我觉得这本书特别适合我这种脑子不太好的人,因为他会把机器学习算法拆开,结合案例,一步一步地给你讲。
<img src="https://pic3.zhimg.com/v2-e0f9f7e35653957628948081cc9dd8f2_b.jpg" data-rawwidth="389" data-rawheight="499" class="content_image" width="389">
Real-World Machine Learning(看完了)
告诉你工业界的人怎么用Machine Learning解决实际问题的书。建议所有Data Scientist在实习前和全职工作开始前都读一下。
<img src="https://pic3.zhimg.com/v2-e70923544fbd3bd79587a2381d48b226_b.jpg" data-rawwidth="398" data-rawheight="499" class="content_image" width="398">
Learning From Data(看完了)
这本书讲清楚了很多机器学习书中不怎么提到的机器学习理论,比如VC Dimension这种东西。Caltech有公开课,吐血推荐:
https://work.caltech.edu/telecourse.html
<img src="https://pic4.zhimg.com/v2-ff29738930e4b6326c67e7e70b06e977_b.jpg" data-rawwidth="321" data-rawheight="499" class="content_image" width="321">
The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition(看了一半)
大名鼎鼎的ESL,读起来比较累(我太渣),我觉得适合翻查和摘抄。
https://statweb.stanford.edu/~tibs/ElemStatLearn/
<img src="https://pic2.zhimg.com/v2-2f009d4cff98dbb168afd688b9e42559_b.jpg" data-rawwidth="332" data-rawheight="499" class="content_image" width="332">
Pattern Recognition and Machine Learning(正在看)
同样大名鼎鼎的PRML,我个人觉得比ESL好读不少。
<img src="https://pic3.zhimg.com/v2-5b0c7328df61746e5eb5ad4fe313afce_b.jpg" data-rawwidth="370" data-rawheight="499" class="content_image" width="370">
5. 数据挖掘(Data Mining)
数据挖掘中不少东西其实和机器学习是重合的,至于这两个东西有什么区别,可以看看这个回答:https://stats.stackexchange.com/questions/5026/what-is-the-difference-between-data-mining-statistics-machine-learning-and-ai
Principles of Data Mining(还没看)
非常基本的数据挖掘入门书,讲了不少Association Rule的东西
<img src="https://pic4.zhimg.com/v2-e988a90ba6aa1ea282c53f9e18e920e7_b.jpg" data-rawwidth="329" data-rawheight="499" class="content_image" width="329">
Introduction to Data Mining(正在看)
更加深入讲数据挖掘的书,干货很多
<img src="https://pic4.zhimg.com/v2-7ecdccebd1390349a7683fdde016be7b_b.jpg" data-rawwidth="394" data-rawheight="499" class="content_image" width="394">
Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management(还没看)
通过实例讲怎么通过数据挖掘赚顾客钱做生意。
<img src="https://pic1.zhimg.com/v2-920025341c4a09ba85b23c52e5f89588_b.jpg" data-rawwidth="398" data-rawheight="499" class="content_image" width="398">
6. SQL:
SQL怎么入门,网上到处都是教程。书的话我只是觉得这一本Cookbook最好。因为他把很多SQL query里的陷阱都提到了,而且每道题给出了市面上所有流行数据库(MySQL,DB2,Oracle,SQL Server,Postgresql)的Query代码
SQL Cookbook: Query Solutions and Techniques for Database Developers (翻查用)
<img src="https://pic3.zhimg.com/v2-db550a152d078ab1c2a04ee487191a22_b.jpg" data-rawwidth="379" data-rawheight="499" class="content_image" width="379">
7. R:
R in Action(正在看)
有名的R语言实践
<img src="https://pic1.zhimg.com/v2-cbc98249a7e5bfaceb86f5b5db86e8b8_b.jpg" data-rawwidth="398" data-rawheight="499" class="content_image" width="398">
下面是R教主Hadley Wickham的三本书,没啥好太多说的,读就是了:
R for Data Science(正在看)
在线版本:
R for Data Science
<img src="https://pic1.zhimg.com/v2-45c150ae1f6a310db14649100c9f94a0_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
R Packages(还没看)
Welcome · R packages
<img src="https://pic4.zhimg.com/v2-8709f00365918a4216a1a8a3a6d849a7_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">
Advanced R(还没看)
在线版本:Welcome · Advanced R.
<img src="https://pic4.zhimg.com/v2-a093bed8459755c3f5a663f97bd62047_b.jpg" data-rawwidth="331" data-rawheight="499" class="content_image" width="331">
8. Python:
因为不是软件工程师,我Python水平也不高。推荐两本我用来入门和准备继续进一步提高看的书吧。
Think Python(看完了)
这本书我拿来入门的
<img src="https://pic2.zhimg.com/v2-b0149b477b03c2c685a6bf7745c9a011_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">
Fluent Python(还没看)
打算用来Python进阶的
<img src="https://pic4.zhimg.com/v2-63547e2ba39b2870047827e545ab320b_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">
Python for Probability, Statistics, and Machine Learning(还没看)
我打算用来复习概率论和统计学的书(with Python)
<img src="https://pic3.zhimg.com/v2-db93ad71cd1bfc312ac5524973591826_b.jpg" data-rawwidth="343" data-rawheight="499" class="content_image" width="343">
Python Data Science Handbook(翻查用)
一本非常全面的通过Python解决数据科学问题的工作手册。作者给出了这本书全部的Jupyter Notebook:
jakevdp/PythonDataScienceHandbook
<img src="https://pic3.zhimg.com/v2-4322d9a0159ee8cfdb4f10c1da56bbc2_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">
9. 数据科学家面试 (Data Scientist Interview)
Data Science Interviews Exposed(看完了)
几个在美国的中国人数据科学家写的面试准备书。基本给出了所有数据科学面试涵盖的知识点概述,数据科学家面试流程和注意事项,干货满满。仔细读完这本书,数据科学家面试是怎么个一回事儿,基本上你就心中有数了。
<img src="https://pic4.zhimg.com/v2-d356dd6a84e2ef3bb0d1929b45d2b06f_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
Cracking the PM Interview: How to Land a Product Manager Job in Technology(读完了)
在美国,不少数据科学家在公司做的很多工作和产品相关,甚至不少数据科学家被当成半个产品经理用,所以这本产品经理的面试准备书对于数据科学家的面试也很有借鉴意义的。
<img src="https://pic4.zhimg.com/v2-6f4d6f9c93da42072fc4d07f824032cb_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
10. 算法(Algorithm)
数据科学家逃不掉算法,虽然要求不像软件工程师那么高。因为我是Python死忠,所以这里推荐的所有算法书中的算法实现都有用到Python。
Grokking Algorithms: An illustrated guide for programmers and other curious people(看了一半)
非常直观的一本算法入门书中的入门书,这本书作者不仅仅是软件工程师,他还是一个绘本画师,里面所有的插图都是他自己亲手画的,非常的萌。
<img src="https://pic1.zhimg.com/v2-aa2ffcec421aee79e2f7843ceec19d48_b.jpg" data-rawwidth="399" data-rawheight="499" class="content_image" width="399">
Problem Solving with Algorithms and Data Structures Using Python(正在看)
一本用Python讲数据结构和算法的好书,有在线的电子版。
Problem Solving with Algorithms and Data Structures using Python
<img src="https://pic2.zhimg.com/v2-ffb9b1641771d5ece60cf2f9c9a9ef35_b.jpg" data-rawwidth="407" data-rawheight="500" class="content_image" width="407">
Algorithms in a Nutshell: A Practical Guide(翻查用)
算法速查手册,给出了Python的实现。
<img src="https://pic2.zhimg.com/v2-0341e098c9ae6c7fe7b20189b66265c1_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
11. 工作手册(Handbook)
The Data Science Handbook(正在看)
我正在读的,涵盖最全面的一本数据科学工作手册,推荐给想成为“Unicorn"-全栈数据科学家的同学
<img src="https://pic3.zhimg.com/v2-d74e9df23c84691e7f6ffe716572ac52_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
12. 网络爬虫与数据折腾(Web Scraping and Data Wrangling)(还没看)
Web Scraping with Python: Collecting Data from the Modern Web
用Python3手把手教你做爬虫
<img src="https://pic3.zhimg.com/v2-b4ffcd11242fbb5076d3720fff9535ee_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">
Data Wrangling with Python: Tips and Tools to Make Your Life Easier(正在看)
这本书教你怎么把又脏乱差的原始数据清理,整理,折腾成你想要的样子。
<img src="https://pic3.zhimg.com/v2-69df5d1758575e59151a38cbcdc5d482_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">
Regular Expressions Cookbook(翻查用)
我知道很多人不喜欢正则表达式,但是又不得不面对他,经常翻查这本书应该能搞定很多问题。
<img src="https://pic1.zhimg.com/v2-99721c4b65545193d2f3d706f6aac43c_b.jpg" data-rawwidth="372" data-rawheight="499" class="content_image" width="372">
13. 数据可视化与讲故事(Data Visualization and Storytelling)
怎么画出又漂亮又高大上的图表,然后讲一个好故事把你的老板和客户忽悠得一愣一愣的,是一个好的数据科学家的终极大招之一。
Communicating Data with Tableau: Designing, Developing, and Delivering Data Visualizations(还没看)
我知道有些喜欢编程的人瞧不上各种按钮点点点的软件,但是我表示Tableau真的很好用。
<img src="https://pic3.zhimg.com/v2-40ee21bf0ddca9d60a5d89e05dbe3aaa_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
Interactive Data Visualization for the Web: An Introduction to Designing with D3(还没看)
讲怎么用数据可视化工具D3.js。会一些前端技能和Javascript对数据科学家绝对是锦上添花。
<img src="https://pic3.zhimg.com/v2-eac9ebe4997831535ba7856a56f29f9e_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">
Data Visualization with Python and JavaScript: Scrape, Clean, Explore & Transform Your Data(还没看)
一本讲怎么把把Python和Javascript串起来做数据可视化的书,一颗赛艇。
<img src="https://pic4.zhimg.com/v2-4233de861e872a7fdf2057325d943e0f_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
Storytelling with Data: A Data Visualization Guide for Business Professionals(还没看)
教你怎么忽悠人23333
<img src="https://pic2.zhimg.com/v2-177b67adb093634d8809f16ea5aa5fc1_b.jpg" data-rawwidth="401" data-rawheight="500" class="content_image" width="401">
14. A/B 测试(A/B Testing)(看完了)
A / B Testing: The Most Powerful Way to Turn Clicks Into Customers
<img src="https://pic3.zhimg.com/v2-244161cd6d987871354c6c4c60fb5bf6_b.jpg" data-rawwidth="334" data-rawheight="499" class="content_image" width="334">
Designing with Data: Improving the User Experience with A/B Testing(正在看)
Spotify 的 VP of Design and User Experience 写的怎么做AB测试的书。
<img src="https://pic1.zhimg.com/v2-4a9ba18a046b1451b851877e1a66b270_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
-----------------------分割线-------------------------
第二部分:其他技能(Some Other Skills)
这一部分推荐的书,是为那些想成为数据科学家中的超级赛亚人的同学所准备的23333
15. 神经网络与深度学习(Neural Network and Deep Learning)
Make Your Own Neural Network(正在看)
深度学习炒得火热,但是在认真学习Deep Learning之前,各位巨巨们真的不先尝试下推推公式,然后Python从头自己造一个玩具神经网络玩一玩吗,真的很好玩的!
<img src="https://pic3.zhimg.com/v2-ade025f9af129c17d5f2108ad83cd586_b.jpg" data-rawwidth="386" data-rawheight="499" class="content_image" width="386">
Deep Learning(正在看)
这个还有介绍的必要吗(望天)
Deep Learning
<img src="https://pic2.zhimg.com/v2-14aa851db467352ce589e939ebdae11d_b.jpg" data-rawwidth="384" data-rawheight="499" class="content_image" width="384">
Hands-On Machine Learning with Scikit-Learn and TensorFlow(还没看)
我觉得对于DS老司机们来说,这本书的Sklearn部分可以无视,重点放在后半部分怎么用
TensorFlow玩深度学习。
<img src="https://pic2.zhimg.com/v2-1dc2587c1ae3cfb24d7efc08660c5645_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">
16. 信息论(Information Theory)
关于信息论在数据科学上的重要性,可以看看这篇文章:
Data Science and Information Theory
Information Theory: A Tutorial Introduction(还没看)
<img src="https://pic2.zhimg.com/v2-e00038e0c6cfd843ea0a8c96ad0f6b69_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
Information, Entropy, Life and the Universe: What We Know and What We Do Not Know(还没看)
<img src="https://pic2.zhimg.com/v2-05b31041330e720c0ce06a86eb49e3ed_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
17. 因果推断(Causal Inference)
关于因果分析的重要性可以看看这个slides:
http://cds.nyu.edu/wp-content/uploads/2014/04/causal-and-data-science-and-BART.pdf
Causal Inference in Statistics: A Primer(还没看)
<img src="https://pic4.zhimg.com/v2-89988cecab26c1074b62816b3ef15503_b.jpg" data-rawwidth="348" data-rawheight="499" class="content_image" width="348">
Field Experiments: Design, Analysis, and Interpretation (还没看)
<img src="https://pic4.zhimg.com/v2-4ae63d01ada0dc5550f976baa3c276f7_b.jpg" data-rawwidth="331" data-rawheight="499" class="content_image" width="331">
18. 抽样(Sampling)
Sampling(还没看)
<img src="https://pic4.zhimg.com/v2-3e52280ba8b9cb3c86ae74929dcd6343_b.jpg" data-rawwidth="312" data-rawheight="499" class="content_image" width="312">
19. 凸优化(Convex)
Convex Optimization(还没看)
斯坦福的凸优化,课程在这里:
Convex Optimization
另外这本书的网站给出了免费电子书:
Convex Optimization - Boyd and Vandenberghe
<img src="https://pic2.zhimg.com/v2-761152a9852a451c30881625992eef81_b.jpg" data-rawwidth="370" data-rawheight="499" class="content_image" width="370">
20. 增长分析(Growth Analytics)
Lean Analytics: Use Data to Build a Better Startup Faster (Lean Series)(还没看)
<img src="https://pic3.zhimg.com/v2-4f56f98d419bfa768f51c8fc2f21d2c6_b.jpg" data-rawwidth="333" data-rawheight="499" class="content_image" width="333">
Web Analytics 2.0: The Art of Online Accountability and Science of Customer Centricity(还没看)
<img src="https://pic3.zhimg.com/v2-c7293e4f2a06c7e5184f76b397726456_b.jpg" data-rawwidth="399" data-rawheight="499" class="content_image" width="399">
21. 文本挖掘与自然语言处理(Text Mining And Natural Language Processing)
Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit(还没看)
Python NLTK的官方指南,有在线版:
NLTK Book
<img src="https://pic2.zhimg.com/v2-e75e328a8d8b669f37bb3a58aaf47a61_b.jpg" data-rawwidth="381" data-rawheight="499" class="content_image" width="381">
Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data(还没看)
<img src="https://pic4.zhimg.com/v2-f78a6cfc944e727247ad9889fd2dd287_b.jpg" data-rawwidth="329" data-rawheight="499" class="content_image" width="329">
Introduction to Information Retrieval(还没看)
斯坦福的信息萃取,有在线电子版
Introduction to Information Retrieval
<img src="https://pic3.zhimg.com/v2-cb600afb39db8a480b69892e8e0cd73a_b.jpg" data-rawwidth="332" data-rawheight="499" class="content_image" width="332">
数学之美(正在看)
吴军老师的数学之美。
<img src="https://pic4.zhimg.com/38681ce0ddbd22f1cd01b16fa70af657_b.jpg" data-rawwidth="366" data-rawheight="499" class="content_image" width="366">
22. 异常检测(Anomaly Detection)
Fraud Analytics Using Descriptive, Predictive, and Social Network Techniques: A Guide to Data Science for Fraud Detection(正在看)
这本书我正在读,不难读,作为Fraud Detection的概述讲得还是挺细的。
<img src="https://pic3.zhimg.com/v2-a514802008478c0b85b0af8f73a874da_b.jpg" data-rawwidth="336" data-rawheight="499" class="content_image" width="336">
Outlier Analysis(正在看)
<img src="https://pic2.zhimg.com/v2-c2066c1daf99ae06a6a5b93779ad24d1_b.jpg" data-rawwidth="361" data-rawheight="499" class="content_image" width="361">
23. 推荐系统 (Recommender Systems)
Statistical Methods for Recommender Systems(还没看)
<img src="https://pic3.zhimg.com/v2-42a7ddc6a318c74e791b195f1be1b24a_b.jpg" data-rawwidth="325" data-rawheight="499" class="content_image" width="325">
Recommender Systems: The Textbook(还没看)
<img src="https://pic1.zhimg.com/v2-15656bd0c4b29f1f4e9497efcfc9df1c_b.jpg" data-rawwidth="361" data-rawheight="499" class="content_image" width="361">
24. 社交网络分析 (Social network analysis)
Network Science(正在看)
大牛Barabási 今年的力作,关于网络科学的简介。有在线版本,里面的图漂亮得我是跪下了。
Network Science by Albert-László Barabási
<img src="https://pic2.zhimg.com/v2-fffae214c1664bc4a6486022fe43728d_b.jpg" data-rawwidth="380" data-rawheight="499" class="content_image" width="380">
Social and Economic Networks(还没看)
斯坦福教授Matthew O. Jackson的书,在coursera上有这本书的公开课。
Social and Economic Networks: Models and Analysis - Stanford University | Coursera
<img src="https://pic3.zhimg.com/v2-73e0ca0de9c8356a21493e6878a1603e_b.jpg" data-rawwidth="351" data-rawheight="499" class="content_image" width="351">
Social Network Analysis for Startups: Finding connections on the social web(还没看)
一本用Python做社交网络分析的书。
<img src="https://pic3.zhimg.com/v2-498f0563e6aa1ed891c16cdc1d7da08a_b.jpg" data-rawwidth="379" data-rawheight="499" class="content_image" width="379">
25. 时间序列预报(Time Series Analysis and Forecasting)
现在很多时间序列的书,重点放在描述时间序列上,所以会大量介绍ARMA和ARIMA。但是我这里想着重强调的是预报(Forecasting)。这里面有一套方法,个人感觉很少被传统统计系的时间序列课程介绍。
Practical Time Series Forecasting with R: A Hands-On Guide(看完了)
<img src="https://pic4.zhimg.com/v2-17f0914fdccac8e35aa1aa6d1c3beed7_b.jpg" data-rawwidth="350" data-rawheight="499" class="content_image" width="350">
Forecasting: principles and practice(还没看)
这本书也是有在线版本的,和上面那本书互补。
Forecasting: principles and practice
<img src="https://pic3.zhimg.com/v2-2b5250b9886804bc05a646db171869ee_b.jpg" data-rawwidth="348" data-rawheight="499" class="content_image" width="348">
26. 强化学习与人工智能
Reinforcement Learning: An Introduction(还没看)
强化学习入门书,有在线版
http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf
<img src="https://pic2.zhimg.com/v2-f2c2b2c5f64feb1ecee02f958ac9f3a9_b.jpg" data-rawwidth="389" data-rawheight="499" class="content_image" width="389">
Artificial Intelligence: A Modern Approach(还没看)
Google的大佬,研究总监Peter Norvig的书
<img src="https://pic4.zhimg.com/v2-d17caef659daabe5fddf7e6e704b3abf_b.jpg" data-rawwidth="371" data-rawheight="499" class="content_image" width="371">
-----------------------分割线-------------------------
第三部分:休闲读物(Casual Reading)
这部分介绍的书,躺在床上看看很不错。
Soft Skills: The software developer's life manual(还没看)
同软件工程师一样,数据科学家只会写代码和建模是远远不够的。软实力非常非常重要。
<img src="https://pic4.zhimg.com/v2-1b9f4daa6bd12831a932c4776280d40f_b.jpg" data-rawwidth="398" data-rawheight="499" class="content_image" width="398">
The Healthy Programmer: Get Fit, Feel Better, and Keep Coding(还没看)
身体是革命的本钱,身体搞垮了怎么继续用数据科学改变世界呢?另外数据科学家其实和人打交道的机会通常来说要远远多于软件工程师,在这个看脸看身材的时代,你懂的。
<img src="https://pic2.zhimg.com/v2-9dd7c78bd4b81f2043b24d57a1542da1_b.jpg" data-rawwidth="417" data-rawheight="500" class="content_image" width="417">
Exposing the Magic of Design(还没看)
有一个Design Mindset对数据科学家是很加分的哦 :)
<img src="https://pic2.zhimg.com/v2-beaf1e42950ed0f4e59debe79508fcb9_b.jpg" data-rawwidth="331" data-rawheight="499" class="content_image" width="331">
Thinking, Fast and Slow(还没看)
这本书被大V邹昕推荐过。
<img src="https://pic1.zhimg.com/v2-1f0bcb72910d6f75f590f30b53322d04_b.jpg" data-rawwidth="334" data-rawheight="499" class="content_image" width="334">
Naked Statistics: Stripping the Dread from the Data(还没看)
可能是你读过最好玩的统计学读物。
<img src="https://pic4.zhimg.com/v2-0b11bf494faef24752709a217b5263f3_b.jpg" data-rawwidth="334" data-rawheight="499" class="content_image" width="334">
Uncertainty: The Soul of Modeling, Probability & Statistics(正在看)
一本在哲学层面上思考数据科学的书。
<img src="https://pic2.zhimg.com/v2-f8917ee5e5df8879320e05ff309417f9_b.jpg" data-rawwidth="332" data-rawheight="499" class="content_image" width="332">
---------------------------------
大概先到这里吧,豆瓣link什么的之后再慢慢补。
最后祝大家世界读书日快乐,比心~~~
------------------
答主睡前本想拍个图庆祝世界读书日,结果发现玩脱了 ,正在为以后的搬家问题发愁ing
<img src="https://pic4.zhimg.com/v2-96cac7efd618fda66c6d8dda2538aebf_b.jpg" data-rawwidth="2016" data-rawheight="1512" class="origin_image zh-lightbox-thumb" width="2016" data-original="https://pic4.zhimg.com/v2-96cac7efd618fda66c6d8dda2538aebf_r.jpg">