如何修改代码以支持按月或按周而不是按年进行数据分析

76 阅读3分钟

我正在绘制一个跨度一年的堆积条形图,其中x轴是公司名称,y轴是通话次数,堆叠部分是月份。我希望能够将此图表的运行时间范围缩短到一个月,其中堆叠部分是天,或者缩短到一周,其中堆叠部分也是天。由于我的代码已经围绕年时间范围构建,因此我在这方面遇到了困难。

我的原始输入是一个csv文件。我提取了两行如下所示:

CompanyName     recvd_dttm
Company1        6/5/2015 18:28:50 PM
Company2        6/5/2015 14:25:43 PM
Company3        9/10/2015 21:45:12 PM
Company4        6/5/2015 14:30:43 PM
Company5        6/5/2015 14:32:33 PM

然后我创建了一个如下所示的数据表:

pivot_table.head(3)
Out[12]: 
Month       1   2   3   4   5   6   7   8   9   10  11   12 
CompanyName                                                                     
Customer1   17  30  29  39  15  26  24  12  36  21  18   15  
Customer2   4   11  13  22  35  29  15  18  29  31  17   14
Customer3   11   8  25  24   7  15  20   0  21  12  12   17

我的代码到目前为止如下所示。

首先,我获取一年的数据(对于这个问题,我会将其更改为一个月或一周):

# filter by countries with at least one medal and sort
df['recvd_dttm'] = pd.to_datetime(df['recvd_dttm'])

#Only retrieve data before now (ignore typos that are future dates)
mask = df['recvd_dttm'] <= datetime.datetime.now()
df = df.loc[mask]
# get first and last datetime for final week of data

range_max = df['recvd_dttm'].max()
range_min = range_max - pd.DateOffset(years=1)

# take slice with final week of data
df = df[(df['recvd_dttm'] >= range_min) & 
               (df['recvd_dttm'] <= range_max)]

然后我创建了上面显示的pivot_table。

###########################################################
#Create Dataframe
###########################################################

df = df.set_index('recvd_dttm')
df.index = pd.to_datetime(df.index, format='%m/%d/%Y %H:%M')

result = df.groupby([lambda idx: idx.month, 'CompanyName']).agg(len).reset_index()
result.columns = ['Month', 'CompanyName', 'NumberCalls']
pivot_table = result.pivot(index='Month', columns='CompanyName', values='NumberCalls').fillna(0)
s = pivot_table.sum().sort(ascending=False,inplace=False)
pivot_table = pivot_table.ix[:,s.index[:30]]
pivot_table = pivot_table.transpose()
pivot_table = pivot_table.reset_index()
pivot_table['CompanyName'] = [str(x) for x in pivot_table['CompanyName']]
Companies = list(pivot_table['CompanyName'])
pivot_table = pivot_table.set_index('CompanyName')
pivot_table.to_csv('pivot_table.csv')

然后我使用pivot_table为作图创建一个OrderedDict:

###########################################################
#Create OrderedDict for plotting
###########################################################


months = [pivot_table[(m)].astype(float).values for m in range(1, 13)]
names = ["Jan", "Feb", "Mar","Apr","May","Jun","Jul","Aug","Sep","Oct","Nov", "Dec"]
months_dict = OrderedDict(list(zip(names, months)))

###########################################################
#Plot!
###########################################################


palette = brewer["RdYlGn"][8]

hover = HoverTool(
    tooltips = [
        ("Month", "@months"),
        ("Number of Calls", "@NumberCalls"),
        ]
)
output_file("stacked_bar.html")
bar = Bar(months_dict, Companies, title="Number of Calls Each Month", palette = palette, legend = "top_right", width = 1200, height=900, stacked=True)
bar.add_tools(hover)


show(bar)

请问有没有人对如何修改此代码以使其适用于较短的时间跨度有什么想法?我认为这将在OrderedDict部分进行修改。可能要将len(recvd_dttm)改为迭代?

2、解决方案

回答者1:

  • 按月(例如“2015-07”)

您可以将以下代码:

result = df.groupby([lambda idx: idx.month, 'CompanyName']).agg(len).reset_index()

更改为类似以下内容:

month = '2015-07'
result = df.loc[month].groupby([lambda idx: idx.day, 'CompanyName']).agg(len).reset_index()

并将代码中的“Month”替换为“Day”。在这种情况下,您不必费心使用OrderedDict等,因为它们只是整数。

  • 按周

您可以执行以下操作:

start, end = '2015-07-06', '2015-07-12'
result = df.loc[start: end].groupby(
            [lambda idx: idx.dayofweek, 'CompanyName']).agg(len).reset_index()