Python Data Science Handbook - Python数据科学手册

图书信息

  • 英文书名:Python Data Science Handbook

  • 中文书名:Python 数据科学手册

  • 作者:[美] Jake VanderPlas

  • 译者:陶俊杰 / 陈小莉

  • 页数:正文 447 页 / 不含附录

  • 英文出版社:O'Reilly Media

  • 中文出版社:人民邮电出版社 / 图灵教育

  • 出版日期:英文原版 2017 / 简体中文版 2018

  • 个人分类:数据科学 / Python

  • ISBN:978-7-115-47589-3

书评

写于2022年2月16日。

这本书买来放在书架上很久了,基本是当做参考书时不时拿出来翻到对应章节。近日深感自己数据科学水平之低,决定从头到尾读一遍,于是花了不少时间把书中的每一份代码都在Jupyter上敲了一遍,然后去看懂了每一块的实现。有一些代码已经过时了,但基本上都可以靠百度和读文档找到应该怎么更新,总体来说问题不大。

个人感觉相比Pandas作者写的那本《利用Python进行数据分析》,这本书更加适合“阅读”,而那本书更适合作为“手册”查阅,这倒是和标题正好相反。这本书确实不那么详细,但读起来很舒服,而且事实上也没必要把文档搬到书上,毕竟人人都会查文档。相比之下《利用Python进行数据分析》学院派的感觉就比较强,易读性比较差。

这本书很让人愉快的是除了NumPy,Pandas,Matplotlib,Seaborn之外,还对Scikit-Learn有一些介绍,个人认为这点介绍已经足够日常数据科学工作使用了。书最后还用HOG+SVM实现了一个人脸特征提取器,确实是很有意思。当然,这么薄的一本书肯定不会有深度学习,只有传统的统计学习知识,比如贝叶斯分类、线性回归、决策树、随机森林、支持向量机、主成分分析、流形学习、K聚类、高斯混合模型这些常用的。

阅读最大的感受就是Matplotlib是真的难用。Python在绘图上的生态真就完全拉了胯,被R的gglot2吊起来打。除此之外重温了NumPy和Pandas的知识,学到了很多新用法,比如Pandas的query方法,很愉快。

总而言之是个人很推荐的数据科学入门书与机器学习前置,学过Python基础就可看,下一本就可以直接读《机器学习实战(第2版)》,然后去PyTorch官网上看一下一小时入门,就可以比较自如地将机器学习和深度学习应用在工作中了。

最后更新于