Python庞大的数据科学工具生态系统对用户有很大的吸引力。生态系统如此庞大而丰富的唯一缺点是,有时最好的工具可能会被忽视。
下面介绍了其中几款面向Python的最优秀的或不太知名的数据科学项目。Polars等一些项目得到了比以前更多的关注,但依然值得更广泛的关注,ConnectorX等其他工具则是隐藏的瑰宝。
1. ConnectorX
大部分数据位于数据库的某个地方,但计算操作通常在数据库外面进行。为实际工作从数据库倒腾数据可能会减慢速度。ConnectorX将数据从数据库加载到Python中的许多常见数据整理工具中,并通过尽量减少要完成的工作量来保持高速度。
像后面讨论的Polars一样,ConnectorX在其核心使用Rust库。这便于优化,比如说能够在分区的同时从数据源加载数据。PostgreSQL中的数据可以通过指定分区列来加载。
除了PostgreSQL外, ConnectorX还支持从MySQL/MariaDB、SQLite、Amazon Redshift、Microsoft SQL Server、Azure SQL以及Oracle读取数据。结果可以汇集到Pandas或PyArrow,或者通过PyArrow汇集到Modin、Dask或Polars。
2. DuckDB
使用Python的数据科学人员应该了解SQLite,这是一种用Python打包的小巧、但功能强大且快速的关系数据库。由于它作为进程内库来运行、而不是作为单独的应用程序来运行,因此属于轻量级,且响应迅速。
DuckDB有点像有人回答这个问题:“如果我们设计面向OLAP的SQLite,会怎么样?”与其他OLAP数据库引擎一样,它使用列式数据存储,并针对长时间运行的分析查询工作负载进行了优化。但是它提供了您期望从传统数据库获得的所有功能,比如ACID事务。而且没有单独的软件套件需要配置。您使用单单一个pip install命令,即可在Python环境中让它运行起来。
DuckDB可以直接摄取采用CSV、JSON或Parquet格式的数据。为了提高效率,还可以根据键(比如按年和按月)将生成的数据库划分为多个物理文件。查询起来与任何其他基于SQL的关系数据库相似,但拥有额外的内置特性,比如能够获取数据的随机样本或构造窗口函数。
DuckDB还有一小批实用的扩展,包括全文搜索、Excel导入/导出、直接连接到SQLite和PostgreSQL、Parquet文件导出以及支持许多常见的地理空间数据格式和类型。
3. Optimus
最繁琐的工作之一就是清理和准备数据,用于以DataFrame为中心的项目。Optimus是一种一体化工具集,可用于加载、探索和清理数据,以及将数据写回众多数据源。
Optimus可以使用Pandas、Dask、CUDF(及Dask + CUDF)、Vaex或Spark作为底层数据引擎。数据可以从Arrow、Parquet、Excel、各种常见的数据库源或平面文件格式(比如CSV和JSON)加载,并保存成这些格式。
数据操作API类似Pandas,但添加了.rows()和.cols()访问器,以便易于执行对数据框排序、按列值筛选、根据标准更改数据或根据某些标准缩小操作范围之类的操作。Optimus还随带处理器,用于处理常见的实际数据类型,比如电子邮件地址和URL。
Optimus可能存在的一个问题是,它仍在积极开发中,但上一次正式发布是在2020年。这意味着它可能不像您堆栈中的其他组件那样是最新的。
4. Polars
如果您花费大量时间来处理DataFrame,并且对Pandas的性能限制感到沮丧,不妨使用Polars。这个面向Python的DataFrame库提供了类似Pandas的便捷语法。
不过与Pandas不同的是,Polars使用了一个用Rust编写的库,可以直接最大限度地利用您的硬件。您不需要使用特殊语法来利用并行处理或SIMD等提升性能的功能,都是自动可以利用的。就连像从CSV文件读取这样的简单操作也更快了。
Polars还提供了即时和延迟执行模式,因此查询可以立即执行,也可以延迟到需要时执行。它还提供了流式API,用于增量处理查询,不过许多函数还不能使用流式API。而Rust开发人员可以使用pyo3制作自己的Polars扩展。
5.Snakemake
数据科学工作流很难建立,更难以一致的、可预测的方式建立。Snakemake的创建就是为了实现这一点:在Python中自动建立数据分析机制,同时确保其他人都能得到与您相同的结果。许多现有的数据科学项目都依赖Snakemake。数据科学工作流中的不定因素越多,您就越有可能受益于用Snakemaker自动化处理工作流。
Snakemake工作流类似GNU make工作流:您用规则定义想要创建的东西,这些规则定义了它们接受什么、输出什么以及执行什么命令来做到这一点。工作流规则可以是多线程的(假设这会给它们带来好处),配置数据可以从JSON/YAML文件通过管道导入。您还可以在工作流中定义函数来转换用于规则中的数据,并将在每个步骤采取的操作写入到日志。
Snakemake作业旨在可移植——它们可以部署到任何Kubernetes管理的环境中,或部署到特定的云环境中,比如Google Cloud Life Sciences或AWS上的Tibanna。工作流可以被“冻结”,以使用一些具体的软件包,并且任何成功执行的工作流都可以自动生成单元测试,并加以存储。若是长期存档,您可以将工作流存储为打包文件(tarball)。
原文标题: 5 newer data science tools you should be using with Python ,作者:Serdar Yegulalp
相关领域拓展:(技术前沿)
扯个嗓子!关于目前低代码在技术领域很活跃!
低代码是什么?一组数字技术工具平台,能基于图形化拖拽、参数化配置等更为高效的方式,实现快速构建、数据编排、连接生态、中台服务等。通过少量代码或不用代码实现数字化转型中的场景应用创新。它能缓解甚至解决庞大的市场需求与传统的开发生产力引发的供需关系矛盾问题,是数字化转型过程中降本增效趋势下的产物。
这边介绍一款提升开发效率的工具——JNPF快速开发平台。近年在市场表现和产品竞争力方面表现较为突出,采用的是最新主流前后分离框架(SpringBoot+Mybatis-plus+Ant-Design+Vue3)。代码生成器依赖性低,灵活的扩展能力,可灵活实现二次开发。
以JNPF为代表的企业级低代码平台为了支撑更高技术要求的应用开发,从数据库建模、Web API构建到页面设计,与传统软件开发几乎没有差异,只是通过低代码可视化模式,减少了构建“增删改查”功能的重复劳动,还没有了解过低代码的伙伴可以尝试了解一下。
有了它,开发人员在开发过程中就可以轻松上手,充分利用传统开发模式下积累的经验。所以低代码平台对于程序员来说,有着很大帮助。