PySpark时间戳(TimeStamp)指南

1,674 阅读4分钟

PySpark TimeStamp

PySpark TimeStamp简介

PySpark TIMESTAMP是一个Python函数,用于将字符串函数转换为时间戳函数。这个时间戳函数是一个格式函数,它的类型是MM - DD - YYYY HH :mm: ss. sss,这表示月,日期,以及由小时,月和秒表示的小时。

这些列被转换为时间戳,可以进一步用于数据分析目的。这是一种转换,可以用来获得PySpark中带有适当月份的准确日期,后面是小时、月和秒。这个PySpark时间戳在数据分析过程中非常有用,因为它记录了数据加载的确切时间戳,可以用于进一步分析。

在这篇文章中,我们将尝试分析使用PYSPARK TIMESTAMP操作的各种方法。
让我们尝试更详细地了解一下PYSPARK TIMESTAMP。

语法。

PySpark TimeStamp函数的语法是。to_timestamp函数是一个将列函数转换为TimeStamp的函数。

df1.withColumn("Converted_timestamp",to_timestamp("input_timestamp")).show(3,False)

  • Df1:使用的数据框架。
  • Withcolumn。用于引入新的列值的函数。它以新的列名为参数,并通过to_timestamp函数,将字符串转换为时间戳值。

它把输入的数据框架作为输入函数,结果被存储在一个新的列值中。

屏幕截图。

PySpark timestamp 1

PySpark中的时间戳工作

让我们看看PYSPARK TIMESTAMP是如何在PySpark中工作的。

Timestamp函数用于将字符串转换为时间和日期的组合。它是一个精确的函数,用于转换,在分析方面有帮助。

时间戳函数有19个固定字符。这包括的格式为。

yyyy-mm-dd hh:mm:ss

每当输入列被传递转换为时间戳时,它就会占用该列的值并返回一个基于日期的数据时间值。转换在一个给定的格式内进行,然后转换后的时间戳作为输出列返回。我们还可以通过使用cast将时间戳函数转换为日期时间。它接受一个日期表达式,时间值被加起来,返回时间戳数据。模式也可以作为一个参数明确地传递,在列数据上定义模式。

让我们通过一些编码例子来检查PySpark TIMESTAMP的创建和工作。

实例

让我们看看PySpark TIMESTAMP操作的一些例子。让我们先在PySpark中创建一个简单的数据框。

df1=spark.createDataFrame( data = [ ("1","Arpit","2021-07-24 12:01:19.000"),("2","Anand","2019-07-22 13:02:20.000"),("3","Mike","2021-07-25 03:03:13.001")], schema=["id","Name","timestamp"]) df1.printSchema() df1.show()

这个数据框架中的timestamp列将被用来转换为timestamp函数。

df1.withColumn("Converted_timestamp",to_timestamp("timestamp")).show(3,False) df1.show()

这里引入了一个新的列,名称为Converted_timestamp。它将字符串转换为时间戳。

屏幕截图。

PySpark timestamp 2

我们也可以明确地传递将用于转换的格式化时间戳函数。

df1.withColumn("Converted_timestamp",to_timestamp(lit(‘2021-07-24 12:01:19.000’),'MM-dd-yyyy HH:mm:ss.SSSS')).show(3,False)

让我们再看一个转换为时间戳函数的例子。

df2 = spark.createDataFrame([('2021-03-28 10:33:03',)], ['time']) df2.select(to_timestamp(df2.time).alias('dtstp')).collect()

这将日期转换为时间戳。

屏幕截图。

PySpark timestamp 3

同样的to_timestamp函数也可以用在PySpark的SQL函数中,也可以用于转换。spark.sql在spark函数中接受to_timestamp函数,并将给定列转换为时间戳。

这些是PySpark中TIMESTAMP的一些例子。

注意。

1.PySpark TIMESTAMP用于将字符串函数转换为时间戳。
2.PySpark TIMESTAMP采取的格式是YYYY-MM-DD HH:MM: SS
3.PySpark TIMESTAMP准确地考虑了数据变化的时间,它可以精确地用于数据分析。
4.PySpark TIMESTAMP将数据框架列作为一个参数进行转换。

总结

从上面的文章中,我们看到了PySpark中TIMESTAMP的工作。从各种例子和分类中,我们试图了解TIMESTAMP函数在PySpark中是如何使用的,以及在编程层面上是如何使用的。所用的各种方法显示了它是如何简化数据分析的模式和一个具有成本效益的模型。

我们还看到了PySpark数据框架中TIMESTAMP的内部工作和优势,以及它在各种编程目的中的使用。此外,语法和例子帮助我们准确地理解了这个功能。

推荐文章

这是一个关于PySpark TimeStamp的指南。在这里,我们讨论了简介、语法、PySpark实例中的时间戳工作以及代码实现。你也可以看看下面的文章来了解更多

  1. PySpark地图分区
  2. PySpark左键连接
  3. PySpark count distinct
  4. PySpark Logistic Regression

The postPySpark TimeStampappeared first onEDUCBA.