Pyspark将时间间隔分为小时时段

发布于

我有一个数据集如下所示,Id对应一个checkin_datetime和一个checkout_datetime

我想把数据变为下面这个样子,就是把时间划到按一个小时划分的时间段里

下面是生成sparkdataframe的代码:
import pandas as pd
data={'ID':[4,4,4,4,22,22,25,29],
'checkin_datetime':['04-01-2019 13:07','04-01-2019 13:09','04-01-2019 14:06','04-01-2019 14:55','04-01-2019 20:23'
,'04-01-2019 21:38','04-01-2019 23:22','04-02-2019 01:00'],
'checkout_datetime':['04-01-2019 13:09','04-01-2019 13:12','04-01-2019 14:07','04-01-2019 15:06','04-01-2019 21:32'
,'04-01-2019 21:42','04-02-2019 00:23'
,'04-02-2019 06:15']
}
d = pd.DataFrame(data,columns= ['ID', 'checkin_datetime','checkout_datetime'])
df=spark.createDataFrame(d)

浏览(193)
评论 1

请登录后发表观点

暂无数据