oldratlee / data-science-practice

数据科学实践 | data science practice

Home Page:https://github.com/oldratlee/data-science-practice

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

数据科学实践

数据科学 是指

  1. 数学/统计学
  2. 计算机技术(编程)
  3. 业务领域

三者的交叉应用学科。数据科学这个词近些年火起来,典型事件是2015年2月美国白宫宣布任命曾在多家硅谷科技公司任职的帕蒂尔(DJ Patil)为白宫首位首席数据科学家。

数据科学3者下的两两交叉应用,其实已经广为大家所知:

  1. 数学/统计学 + 计算机技术(编程)
    => 机器学习(Bang!)
  2. 计算机技术(编程) + 业务领域
    => 业务软件开发(平时说的软件工程师)
  3. 数学/统计学 + 业务领域
    => 传统研究

在数据科学火起来之前,大家用的多是『数据分析』这个词。所以2个主题的书一起看,早些年典型的『数据分析』主题的书实际讲的是数据科学的内容。

❤️❤️ 欢迎进入数据科学的世界! ❤️❤️



0. 学习资料/书单

可以看看了解

1. 实践/开发环境搭建

Python已经成为数据科学/机器学习的首选实践/开发环境。
# 当然也可以使用R 或是 Excel,使用不同工具环境都可以实践数据科学。
# Excel,是的,没听错;Excel应该是使用人数最多的数据分析工具。

  • Python繁荣与活跃生态 对 数据科学/机器学习 已经有了成熟的支持。
  • Python作为通用编程语言,相对RExcel而言,灵活性不可比拟。

1.1 Python运行环境搭建

Anaconda

  • 使用AnacondaPython发行版已经成为数据科学/机器学习Python运行环境搭建的最佳实践!
  • Anaconda快速提供了
    • 一个包含各种数据分析、机器学习的库的Python运行环境
    • 不同的Python版本/不同库的隔离环境
  • 而无需在琐碎但没有价值的事情上浪费时间:
    • 各种库的安装过程
    • 不同库不同版本的兼容性问题

下面给下快速搭建数据科学/机器学习的Python运行环境的说明。

1.1.1 安装AnacondaPython发行版

下载地址:

安装好Anaconda之后,执行命令

  • jupyter notebook: 运行基于Web浏览器里的一体化交互式环境
  • ipython:运行加强的python解释器

,运行看看~ 🎉

安装过程,如有问题,更多说明参见

1.1.2 配置镜像源

在国内没有镜像可不行,包安装下载要等死。

  • 配置Anaconda的镜像源

    • 使用清华的镜像。

    • 直接修改配置文件~/.condarc

      channels:
        - defaults
      show_channel_urls: true
      default_channels:
        - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
        - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
        - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
      custom_channels:
        conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
        msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
        bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
        menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
        pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
        simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
    • 或是通过命令行设置(安装好Anaconda之后,包含了conda):

      conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
      conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
      conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
      conda config --set show_channel_urls yes
  • 配置pip的镜像源

    • 修改~/.pip/pip.conf

      [global]
      trusted-host = pypi.douban.com
      index-url = http://pypi.douban.com/simple

如有问题,更多说明参见

1.1.3 Anaconda的使用

下载安装后Anaconda的使用:

  • 常见的Anaconda使用
  • Python环境维护

👉 参见独立的文档:Anaconda的使用

1.2 代码编写的环境

Jupyter Notebook | PyCharm | VS Code

1.2.1 Jupyter Notebook

Jupyter Notebook已经在Anaconda的发行版本中有了。

提供基于Web浏览器里的一体化交互式环境,非常流行。试试用用,你会喜欢的。

1.2.2 PyCharm

IDE王者JetBrains提供Python开发的专业IDE

  • 强劲的代码编写提示支持
  • 内置集成支持
    • 流行Jupyter Notebook的编写
    • Anaconda

如果你是JetBrains/IntelliJ的粉丝更会喜欢。

1.2.3 VS Code

无需多解释。

2. 自己的数据科学学习/实践

About

数据科学实践 | data science practice

https://github.com/oldratlee/data-science-practice


Languages

Language:Jupyter Notebook 100.0%