前面给大家介绍过几个比较好用的命令行数据处理工具:awk、jq、diff等,之前没了解过的同学可以翻看我前面的视频《几个好用的数据处理命令行工具》。
今天再给大家介绍两个数据处理领域,比较常用也比较好用的工具,他们分别是Anoconda和Jupyter Notebook。 Anoconda中文的意思是大蟒蛇(应该就是《小王子》中的那条大蟒蛇^^)。Jupyter一般翻译为朱庇特(他长得可能不太像朱丽叶^^)。
Anaconda
Anaconda的下载与安装
首先在网页浏览器中打开Anaconda的官网,在打开的页面上半部分点击Download。
需要注意的是,我在这篇文章的下载链接中放置的是MacOS的版本,如果你的系统不是MacOS,请选择相应系统的版本进行下载。
Anaconda的主要功能介绍
Anoconda声称提供了在单机上执行Python与R语言数据科学与机器学习的最容易的方式,
迄今为止它集成了超过8000个开源包和库。比如,它集成了Jupyter、Tensorflow、Pandas、Numpy、Matplotlib、Pytorch等等。
它所支持的技术类型包含:
- 基础功能(Jupyter、pandas、SciPy、NumPy)
- 机器学习(Keras、Tensorflow、Pytorch、Scikit-lean)
- 数据可视化(Matplotlib、Bokeh、Plotly、HoloViz)
- 图像处理(Pillow、Scikit—Image、OpenCV)
- 可扩展计算(Numba、Dask、Rapids、Spark)
- 数据管道/ETL(Airflow、Intake)
- 自然语言处理(NLTK、Gensim、spaPy)
- 前瞻领域:人工智能(ONNX、Fairlearn、AIF360、InterpretML、LIME)
如果你对这个项目及领域非常感兴趣,或者想贡献你的一份力量,可以加入NumFOCUS社区。
像其它的组件库一样,Anaconda也有一个开源包和运行环境管理工具--Conda。它可以运行于Windows、macOS、Linux操作系统上,帮助你快速安装、运行、更新依赖包,也可以用它创建、保存、加载或切换本机的Anoconda运行环境。虽然它是为Python语言创建的,但它可以为任何语言打包或进行软件发布。
如果你不习惯在命令行中进行操作,Anaconda为你提供了一个带界面的管理工具--Navigator。它可以帮助你更容易地管理你的应用程序、依赖包及运行环境。
你还可以利用Navigator与社区门户(Nucleus)连接,用于安全地存储你的本地环境到云上。
Anaconda的使用授权与价格
Anaconda分为免费片、专业版、商业版、企业版四个版本。
工具确实非常好用,但它并不是完全免费的。如果你是用于学习、学术研究、爱好等非商业用途,你可以放心免费使用。但如果是用于商业目的,你需要购买授权,好在其专业版本并不是很贵。如果你有安全方面的需求,则需要购买商业版,如果你是私有云用户则需要购买企业版。
Jupyter
Jupyter由两个部分组成,一部分是JupyterLab,另一部分是Jupyter Notebook。
Jupyter主要功能
JupyterLab与Notebook都是用于数据科学与计算的工具。
JupyterLab
JupyterLab是最新基于Web交互的开发环境,具有Notebook的相关功能,具有可扩展的界面,允许用户配置与编排工作流,记录并显示计算过程,也可用于机器学习,是一个具有较高可扩展性的工具。
Jupyter Notebook
Jupyter Notebook是一个原始的Web应用,用于创建与分享计算文档,它提供了简单、流水线式的、文档为中心的用户体验。
另外,Jupyter其实还提供了JupyterHub等更高级的工具,有兴趣的话可以自行研究一下。
Jupyter的安装
JupyterLab的安装与启动
在命令行中执行如下命令开始安装Jupyter Notebook:
pip install jupyterlab
然后通过如下命令即可启动它:
jupyter-lab
Jupyter Notebook的安装与启动
在命令行中执行如下命令开始安装Jupyter Notebook:
pip install notebook
然后通过如下命令即可启动它:
jupyter notebook
另外,你还可以安装与使用IDE版本的Jupyter Notebook。
下面是DataSpell的IDE版本:
下面是VS Code的插件:
panadas & numpy
panadas
panadas是一个建立在Python编程语言基础之上的快速、强大、灵活且易用的开源数据分析与操作工具。