Koalas入门教程Koalas简介 Koalas是基于Apache Spark的Python API,提供与panda

Koalas简介

Koalas是基于Apache Spark的Python API,提供与pandas类似的DataFrame API。使用Koalas可以让数据科学家在大数据环境下,通过熟悉的pandas代码进行分布式数据处理。

Koalas DataFrame的底层实现连接到Spark DataFrame,可以互相转换。计算通过延迟评估实现懒执行。

安装Koalas:

pip install databricks-koalas

需要Python 3.5+环境。

启动Spark Session:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("koalas_test").getOrCreate()

导入koalas库:

import databricks.koalas as ks

data = {'a':[1,2], 'b':[3,4]}
df = ks.DataFrame(data)

df = ks.read_csv('data.csv')

df = ks.read_sql('SELECT * FROM table', conn)

Koalas支持类似pandas的基础DataFrame操作,可以快速上手进行分析。