Python 数据科学

数据科学目前主要使用 Python 与 R。这一部分对 Python 数据科学相关书籍做一下简单总结。关于 R 的相关书籍,请移步下一节“R 语言”。

下面两本书的新版(英文版)都已经出了 Early Release 版本,可以直接在 O'Reilly 官网上找到。Python Data Science Handbook, 2nd目前还处于比较早期的版本,仅更新到 NumPy 部分;而Python for Data Science, 3rd已经基本更新完毕。

  • Python 数据科学手册:中文版正文 447 页,英文原版出版于 2017 年,黑白印刷。个人最推荐的 Python 数据科学领域书籍,涵盖了 IPython、NumPy、Pandas 以及 Matplotlib 这几个数据科学中使用频率很高的第三方库的使用。除此之外,本书还涉及了一部分机器学习的内容,介绍了 scikit-learn 库的使用。书中有一些代码在现在的版本上已经跑不起来了(主要是介绍 Matplotlib 那块),但总体上变化不大,百度就能解决。个人见解,如果参加数学建模竞赛并选择数据洞察方向,且打算用 Python 作为主要编程语言,看这本书基本够了。翻译不错。

  • 利用 Python 进行数据分析(第 2 版):中文版正文 424 页,英文原版出版于 2018 年,黑白印刷。涵盖了 IPython、NumPy、Pandas 以及 Matplotlib 这几个数据科学中使用频率很高的第三方库的使用,但并不涉及 scitkit-learn 库的具体使用。相较上一本更加详细,虽然是 Pandas 作者亲自写的,但个人认为学院派风格较强,阅读稍显乏味。翻译一般。

值得一提的是,Python 数据科学常使用的 Jupyter Notebook 可以在 VSCode 上直接写代码,不用打开网页,并且可以有效利用 VSCode 的智能提示,个人感觉目前已经优于网页版 Jupyter 了,还不了解的可以去试试。

最后更新于