我校学生业余生活情况的调查报告

前言

本文已参与「新人创作礼」活动，一起开启掘金创作之路。首先感谢自己的组员，没有他们的支持也不会获奖。

摘要

在当今社会下，业余生活方式是一个重要的议题。因为这关系到我国是否在2035年时实现建成“文化强国”的目标。大学生在以后的社会上发挥作用巨大，因此大学生的业余生活方式至关重要。本文就通过问卷调查、数据分析及可视化、机器学习等方法对于大学生业余生活情况进行了一定的分析。分析发现，当代大学生对于健康的业余生活方式有了解，但是实际上生活方式并不健康或处于“亚健康”状态。而解决这一问题需要从大学生本身的身体素质、心理素质以及社会等多方面来进行调整。其中大学生应注意平时多锻炼身体，保持良好心态，学会辨别社会上的各种言论，而社会上应该在舆论上正确的引导大学生的身心健康，以及文化设施的建设应该更完善，文化服务应该更周到。

问卷调查情况

男女比例

截止2021年9月27日本次问卷调查共有156人参加作答，回答问题的男女比例如图一。由图一读出性别占比分别为：男48.1%，女51.9%。男女比例接近1:1。

pie_男女比例.jpg

年级比例

回答问题的年级比例如图二。

pie_年级比例.jpg 由图二读出年级占比大一、大二、大三、大四、研究生对应的占比分别为：81.4%、9%、2.6%、5.1%、1.9%。说明调查人群的年级多样性较高，但可能更符合大一学生的业余生活偏好。

调查结果概况与分析

我们通过写Python代码以及调用numpy、pandas等数据分析库以及matplotlib数据可视化库对结果进行了一定的分析，分析过程及结果如下。

希望业余时间做的事情

bar_业余生活.jpg 读取数据，61.54%的人选择了读书，占据首位，其次60.24%的人选择了运动，剩下的为57.05%、46.79%，分别为学习和打游戏，占比最低的为网上冲浪和追剧，两项占比持平，均为42.31%。

业余时间经常做的事

pie_经常做事.jpg 读取饼状图，经常做的事占比由高到低为25%、21.8%、14.7%、14.7%、12.2%、11.5%。按降序排序为网上冲浪、打游戏、运动、读书、学习、追剧。

大学生常见健康生活表现偏好

阅读

pie_阅读方式.jpg 读取饼状图，更喜欢用纸质书与电子书占比分别为66.7%、33.3%，纸质书占比远大于电子书占比。由此可见大学生业余生活中阅读时主要阅读纸质书籍。

运动

bar_运动项目.jpg 读取数据，大学生业余时间喜欢做的运动种类有篮球、羽毛球、跑步、游泳、竞走、足球、网球、田径、拳击、帕梅拉、滑雪、跳舞、遛弯、骑车、高尔夫，共计15种。其喜爱人数分别为12、10、8、5、4、3、3、2、2、1、1、1、1、1、1。排名前三的运动为篮球、羽毛球和跑步。

bar_运动场所.jpg 读取数据，大学生业余时间喜欢的运动场所其他、公园、健身房、操场分别为9、17、15、39人次。降序排列为操场、公园、健身房、其他。

人际关系偏好

我们通过写Python代码调用sklearn机器学习库与matplotlib数据可视化库对样本中认为业余生活中与各种人的关系亲密程度进行了PCA降维分析，降维后我们利用sklearn库中的KMeans算法对降维后的二维数据进行类聚分析。此分析过程流程图见图八。

流程图.jpg 在我们将8维数据降维成2维数据后，利用Kmeans算法进行分类。由于原数据共有八种指标，所以原则上我们在进行KMeans分类的K值范围：k∈[2,8]⋂Z。根据图九我们可以观察到CH系数（全称Calinski Harabasz得分，一种用来衡量和筛选KMeans算法合适的k值，CH值越高说明在对应k取值越合适）在k=2和k=3时几乎持平，而在k∈[4,6]⋂Z区间增幅较大，而在k=7和k=8时又几乎持平。本着类聚类别数较少的原则首先确定k值不选用5、6、7、8，而因为k=2和k=3时几乎持平且CH值较低，所以不取2、3。最终选择k=4进行可视化。k值与CH值关系图如下图。

可视化后的散点图如下图。

人际关系_pca.jpg 所有样本的人际关系平均值雷达图如图十一，按照Kmeans算法且k=4时分别分为四类：0、1、2、3。此四类的人际关系平均值雷达图如下图。

人际关系（全体）_radar.jpg

人际关系（kmeans）_radar.jpg

最后我们来统计这四类人际关系偏好各类型占比。读取三可知0、1、2、3类占比分别为：31.4%、10.3%、16.7%、41.7%。

pie_人际关系.jpg

大学生业余生活现状分析

业余时间安排概况分析

由上文1. 希望业余时间做的事情中数据可进行以下分析：

众所周知运动与读书是一个相对比较健康的生活方式，而在此次问卷调查中选择此两项的人数占比排名分别为第一和第二，说明大多数同学对于健康生活方式的理解还是比较正确的。而剩下的网上冲浪、打游戏和追剧则是属于娱乐行为，是用于缓解压力的。

由上文2. 业余时间经常做的事中数据可进行以下分析：

在现实中的大学生业余生活中，读书与运动这两种健康的生活习惯仅排在第三和第四的位置，而其他不良生活习惯均排在较为靠前的位置，于是可以得出结论：现实中大学生的业余生活方式并不健康。

由以上两部分分析可以看出同学们向往健康的生活方式，但实际并不健康。用一句话概括就是：“理想很丰满，现实很骨感。”

接下来我们来对大学生业余生活实现不了自己的计划进行原因猜测。经猜测我们总结出以下几点原因：

(1) 进入大学后同学们进入消沉期使得没有自己的人生目标 [2]

(2) 面对不良诱惑较难控制住自己

(3) 学业压力及其他压力使得娱乐消遣需求增高

(4) 学校风气和社会风气的影响

业余时间阅读偏好分析

由上文3.大学生常见健康生活表现偏好中数据可进行以下分析：

我认为大学生阅读时主要阅读纸质书籍这一现象与两方面的进步有关：资源上和氛围上。首先在资源上，北京市大力支持线下书店。《2020-2021中国实体书店产业报告》显示，2020年我国新开业书店2800余家，北京以639家新开书店数量位居各城市榜首。截至今年6月，北京市共有2055家实体书店，万人拥有实体书店数量超过0.8个，超过纽约、巴黎、东京等城市。[3]政府通过对线下书店的大力支持，使得书店建设进展加快，出现了各种社区书店，使得人们阅读纸质书籍变得方便。

其次，随着线下书店的增加，各种周边服务和活动也相继出现。例如：咖啡饮品、图书漂流等。通过读者与他人推荐书籍、与他人探讨书的内容、与他人探讨心德等行为对读纸质书籍这种行为无形中大力宣传，促进了纸质书籍读者数量的增加。

不过中国城乡出版物发行网点分布不均衡，但这一差距呈缩小趋势。从城乡结构看，中国出版物发行网点数量比约为3∶1。2016年至2019年，乡镇及乡镇以下出版物发行网点数量增长较快，政府引导作用明显。2019年，全国共有县及县以上出版物发行网点18.9万个，同比增长9.16%，乡镇及乡镇以下出版物发行网点7.2万个，同比增长15.59%，快于县及县以上发行网点的增长速度。[4]

综上论述，北京市文化设施中实体书店发展迅速，但还存在发展不平衡，不充分等问题。一旦不平衡、不充分问题被解决，或将更快更好的解决大学生业余生活实际不健康或“亚健康”问题。

业余时间运动偏好分析

由上文3.大学生常见健康生活表现偏好中数据可进行以下分析：

大学生业余生活中喜爱运动项目类型呈多样化，有主体项目和小众项目。我认为篮球、羽毛球和跑步成为排名前三的原因是学校有较为完善的设施以供学生运动。这么认为的证据是大学生业余生活运动最受欢迎的场所是操场。因此突出了学校运动设施对于学生运动偏好的影响，且影响并不小。经猜测我们总结出以下三点原因：

(1)大学期间同学们收入较少所以去其他运动场所消费可能性较小

(2)同学们有较多的生活费但是因为想要减少生活开支而选择较为经济的方式

(3)学校中的运动设施距离宿舍及教学楼近，方便运动、节省时间

根据《中国居民膳食指南科学研究报告2021》中所述，多运动可以降低多种疾病风险，其中包括肥胖、心血管疾病、癌症等。[5]而大学生又是将来社会的栋梁，所以大学生的身体健康至关重要。所以改善学校运动设施至关重要，下文将对如何提高大学生运动人数、种类及质量进行叙述。

人际关系偏好分析

由上文4. 人际关系偏好中数据可进行以下分析：

根据图十一可知大学生业余生活中人际关系整体偏向于与室友相处更多。而又根据图十一和图十二综合分析可将当代大学生的人际关系便好类型分为四类。0类主要是在爱情上略有缺乏，其他关系上比较平均的人群；1类则是整体外向型；2类则是爱情主导且导师缺乏型；3类则是整体内向型。

根据图十则可知特征1的保留成分各自方差百分比约为49.83%，特征二的则为13.64%。具体看散点图，分析出0、2、3类整体类聚而不与1类聚，这说明0、2、3类的人际关系偏好相较于1类更趋同。而根据上文分析的每个类别的偏好特征相互对比可发现0、2、3类在不同的人际关系上都有不同程度的不偏好特征，而1类则基本没有体现出这种不偏好特征。

而根据图十三的数据，我们可以看出3类占比最大，为41.7%。而根据上文分析3类为整体内向型，有根据上文所分析的0、2、3类在不同人际关系上都有不同程的不偏好特征，又根据图十三可读出有不同人际关系上都有不同程的不偏好特征的占89.8%。通过以上说明不难看出内向的人在现代大学生中不是少数，且大多数人都有不同程度的内向倾向，而这一点在爱情上体现的尤为突出。我认为这和是否勇于表达爱有关，而这就关系到性教育问题了，下文将讨论加强性教育的问题。而通过查阅资料新数据显示内向与外向的人占比两者均为50%。[6]而样本中完全内向型为41.7%，低于平均水平8.3%。排除遗传等先天因素，我认为有以下几点原因：

(1) 教育观念的改变

(2) 社会价值观的影响

(3) 互联网技术的发展

其中教育观念上逐渐从应试教育转变成了多元化的教育理念。例如有老师在上课时自费购买小龙虾来让学生解剖，甚至还有老师因为学生对航天领域感兴趣亲自用3D打印技术设计航天器模型等。在教育的同时注重培养学生的学科素质、学科兴趣、社交能力、社会责任感等，使得学生在学习的同时综合的提升自身能力和综合素质。

在社会价值观方面，一直在宣传社会主义核心价值观，使当代的大学生脑海中都能深刻的印下。

互联网也帮助了一部分人从社交恐惧症走出来，虽然使用网络进行沟通并不是最健康的沟通方式，但至少是一定程度上“啃”了不敢沟通的“硬骨头”。

大学生业余生活相关建议与展望

上文已经对大学生业余生活中的各种行为进行了分析，以及点出了暴露的问题。本部分将提出解决这些问题的一些方法以及对大学生业余生活的展望。

首先对于实现不了自己的业余生活目标问题，我认为应该首先应该先做到心中有目标，如果在目标的设定上有困难，应该多于导师、学长、学姐沟通。在面对压力是要学会合理的安排时间，劳逸结合。面对不良诱惑时要克制自己，分析它不好的那面。面对学校风气不正或社会风气不正时应当学会明辨是非，不从众，走正确的道路。学校和社会也应当注重氛围管理，发现风气不良时应及时处理，担负起维持良好氛围的责任。

其次对于阅读偏好问题，我认为还是应当以纸质书籍为主。同学们可以多去学校的图书馆、校外书店等。学校方面也应当做好图书馆管理工作。政府也要注重对于“乡村书店”、“乡村图书馆”的建设，使得城乡差距缩小，保证乡镇的图书供给。

同时对于小众运动类型学校应该给予支持，例如可以发给有小众运动特长学生补贴，支持学生去相应运动场地运动。面对大众运动，学校应当积极维护相关运动场所。

对于性教育问题学校应当加强重视，做到一定要上课，课上要同时有科学和情感上的教学，告诉学生爱情并不是坏事，要在适宜的时期勇于表达。同时政府应当加强对于性教育教材的管理。

总的来说就是学生要加强自身素质，发挥主观能动性，学校和政府要加强基础设施的建设和维护管理，使得发展平衡。

参考文献

[1]李君如,梅黎明.中国特色社会主义与全面建成小康社会[M].中国社会科学出版社,2017. [2]汪艳丽,李斌,宴宁.大学生心理素质训练[M].北京:电子工业出版社,2010 [3]中国书店大会.2020-2021中国实体书店产业报告[R]. [4] 吴赟,叶芃,陈清然.中美实体书店业发展现状与趋势的比较分析[J].科技与出版,2021,(6):29. [5]中国营养学会.中国居民膳食指南科学研究报告(2021)[R].人民卫生出版社,2021. [6]Devora Zack.零社交压力[M].海天出版社,2011.

代码

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
label = ['读书', '学习', '运动', '网上冲浪', '打游戏', '追剧']
value = [14.74, 12.18,14.74, 25, 21.79, 11.54]
plt.pie(value, colors = plt.cm.get_cmap('Set3')(range(len(label))), autopct = '%1.1f%%')
plt.legend(labels = label, loc = 2, bbox_to_anchor = (1.05, 1.0), borderaxespad = 0.)
plt.title('业余时间经常做的事')
plt.rcParams['savefig.dpi'] = 600
plt.tight_layout()
plt.savefig(f'pie_经常做事.jpg', bbox_inches = 'tight')

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
label = ['读书', '学习', '运动', '网上冲浪', '打游戏', '追剧']
value = [61.54, 57.05, 60.26, 42.31, 46.79, 42.31]
plt.bar(range(len(value)), value, color = plt.cm.get_cmap('Set3')(range(len(label))), tick_label = label)
plt.ylim([0, 90])
plt.title('希望业余时间用来做的事情')
plt.rcParams['savefig.dpi'] = 600
plt.tight_layout()
plt.savefig(f'bar_业余生活.jpg', bbox_inches = 'tight')

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

df = pd.read_csv('relationship.csv', index_col = 0, header = 0)
pca = PCA(n_components = 2)
data = pca.fit_transform(df)
labels = df.index
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
fig = plt.figure(1)
ax = plt.subplot(111)
for i in range(len(labels)):
    if labels[i] == 1:
        p1 = ax.scatter(x = data[i][0], y = data[i][1], color = plt.cm.get_cmap('Set3')(0))
    elif labels[i] == 2:
        p2 = ax.scatter(x = data[i][0], y = data[i][1], color = plt.cm.get_cmap('Set3')(1))
    elif labels[i] == 3:
        p3 = ax.scatter(x = data[i][0], y = data[i][1], color = plt.cm.get_cmap('Set3')(2))
    elif labels[i] == 4:
        p4 = ax.scatter(x = data[i][0], y = data[i][1], color = plt.cm.get_cmap('Set3')(3))
    elif labels[i] == 5:
        p5 = ax.scatter(x = data[i][0], y = data[i][1], color = plt.cm.get_cmap('Set3')(4))

ax.legend(handles = [p1, p2, p3, p4, p5], labels = ['大一', '大二', '大三', '大四', '研究生'], loc = 2, bbox_to_anchor = (1.05, 1.0), borderaxespad = 0.)
plt.ylabel(f'PC2({round(pca.explained_variance_ratio_[-1], 4) * 100}%)')
plt.xlabel(f'PC1({round(pca.explained_variance_ratio_[0], 4) * 100}%)')
plt.title('高校学生人际关系PCA散点图')
plt.rcParams['savefig.dpi'] = 600
plt.savefig(f'pca_人际关系.jpg', bbox_inches = 'tight')

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn import metrics

df = pd.read_csv('relationship.csv', index_col = 0, header = 0)
pca = PCA(n_components = 2)
data = pca.fit_transform(df)
scores = []
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
for i in range(2, 9):
    y_pred = KMeans(n_clusters = i, random_state = 9).fit_predict(data)
    score = metrics.calinski_harabasz_score(data, y_pred)
    scores.append(score)
plt.bar(range(2, 9), scores, color = plt.cm.get_cmap('Set3')(range(len(scores))))
plt.plot(range(2, 9), scores, color = 'pink')
plt.rcParams['savefig.dpi'] = 600
plt.title('K值与CH系数关系')
plt.xlabel('K值')
plt.ylabel('CH值')
plt.savefig('k&ch.jpg')

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn import metrics

plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
df = pd.read_csv('relationship.csv', index_col = 0, header = 0)
pca = PCA(n_components = 2)
d = pca.fit_transform(df)
kmeans = KMeans(n_clusters = 4, random_state = 9)
data = kmeans.fit(d)
labels = kmeans.labels_
x0 = df[labels == 0]
x1 = df[labels == 1]
x2 = df[labels == 2]
x3 = df[labels == 3]
plt.scatter(x0[:, 0], x0[:, -1], c = plt.cm.get_cmap('Set3')(0), label = '0')
plt.scatter(x1[:, 0], x1[:, -1], c = plt.cm.get_cmap('Set3')(1), label = '1')
plt.scatter(x2[:, 0], x2[:, -1], c = plt.cm.get_cmap('Set3')(2), label = '2')
plt.scatter(x3[:, 0], x3[:, -1], c = plt.cm.get_cmap('Set3')(3), label = '3')
plt.ylabel(f'PC2(13.64%)')
plt.xlabel(f'PC1(49.83%)')
plt.title('高校学生人际关系PCA+KMeans散点图')
plt.legend(loc = 2, bbox_to_anchor = (1.05, 1.0), borderaxespad = 0.)
plt.rcParams['savefig.dpi'] = 600
plt.savefig(f'pca_kmeans_人际关系.jpg', bbox_inches = 'tight')

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt


plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
labels = np.array(['室友', '同专业同学', '导师班同学', '家人', '校友', '校外朋友', '男（女）朋友', '导师'])
data_len = 8
angles = np.linspace(0, 2 * np.pi, data_len, endpoint = False)
df = pd.read_csv('rlship.csv', header = 0, index_col = 0)
fig = plt.figure()
ax = fig.add_subplot(111, polar = True)
angles = np.concatenate((angles, [angles[0]]))
labels = np.concatenate((labels, [labels[0]]))
for i in range(0,4):
    data = df[df.index == i].mean().to_dict()
    values = np.array(list(data.values()))
    values = np.concatenate((values, [values[0]]))
    ax.plot(angles, values, 'bo-' ,linewidth=2, c = plt.cm.get_cmap('Set3')(i))
    ax.fill(angles, values, facecolor=plt.cm.get_cmap('Set3')(i), alpha=0.5)
ax.set_thetagrids(angles * 180/np.pi, labels)
ax.set_title("人际关系平均值雷达图(Kmeans)", va='bottom')
ax.set_rlim(-2, 2)
plt.style.use('ggplot')
plt.legend(labels = list(range(0, 4)), loc = 2, bbox_to_anchor = (1.05, 1.0), borderaxespad = 0.)
ax.grid(True)
plt.rcParams['savefig.dpi'] = 600
plt.savefig('人际关系（kmeans）_radar.jpg', bbox_inches = 'tight')

点评与建议

基于上学期的思政报告有以下几点可以改正或借鉴其他组:

前言要尽量简要，说重点，跨度不要太大
文章中所有涉及到方法名称的地方统一写公认的英文简写，在报告最后再附上解释说明列表
涉及到的分析代码可不用在文中出现，最后报告后附上GitHub链接进行开源
凡事涉及到的数据部分都要进行相应的检验(例如: 显著性检验，值检验等)
文章结构上注意，讨论的地方只讨论，方法的地方只说方法，结果部分只说结果(模块鲜明，目的明确)
主动附上查重报告继续保持(优点): 角度多样，方法新颖，逻辑严谨，排版舒适，配色鲜明。