less than 1 minute read

数据简陋、分析粗糙,结论仅供图一乐,不对其正确性做任何保证

如果数据侵犯了隐私,请通过本博客仓库的issue反馈,会迅速删除

众所周知,在某些工科学院,本科生的课业压力大,天天卷得要死要活。那么具体的情况是怎么样的呢?作为一门选修课的助教,我试着从回答同学提问的角度管中窥豹,分析一些简单的数据。

数据来源

作为一个助教,有时候会有同学来问问题。在回答问题的同时,我记录了我开始回答问题的时间,相当于打了个表,毕竟也可以作为工作量的体现(虽然并没有什么用)。为了保护同学的隐私,除了我自己回答提问的开始时间,提问者和提问的内容都没有记录。基本上我的回答还是比较及时的,可以粗略认为回答时间和提问时间等同。据此,原始数据为一系列提问时间,每个时间被组织为二元组<日期,时刻>

数据意义和假设

由于原始数据信息量较少,我们在分析前加入了大量假设,所以结果未必正确,仅供图一乐

我们不妨假定,同学们只有在学习遇到问题的时候才会来找助教。反推即来找助教的时候这位同学应该是在学习。因此,这部分数据表示了同学们在学习的部分时间。为了简化问题,可以认为提问时间在全部学习时间中是均匀分布的。因此原始数据的分布也可以反映学习时间的大致分布。

数据预处理

从自身经验出发,DDL是学习的第一动力。所以在原始数据的基础上,增加当前日期离最近DDL的距离。

研究问题

我们尝试基于以下问题考虑如何分析这些数据:

  1. 从宏观的时间来说,日期的分布是否具有意义?
  2. 日期的分布与DDL之间是否有相关性?
  3. 从微观的时间来说,时刻的分布是否具有意义?

数据可视化

根据上面三个问题,对数据进行可视化,结果如下:

日期的分布

日期的分布如图所示。可以看到提问的分布是存在一定高峰的。这应该是受ddl的影响。

date

与DDL距离的分布

接着我们来看一下DDL和提问时间的具体影响,如下图所示。稍微出乎意外的是,实际上大家并不会等到DDL前两天才开始学习。我们可以看到,绝大部分提问集中在4-12天这个区间,也就是说很多人至少会提前一周左右开始学习。具体来说,由于本门课的DDL集中在周三,应该有些同学从提前一周的周末(7+3=10d)就开始准备相关的内容了。然后我们来分析一下尾部(16-20d)的高峰,由于各DDL间平均间隔三周,这个高峰可能是勤奋好学的同学,在任务布置之后快速开始导致的。

submiss

时刻的分布

更进一步,我们也可视化了具体提问的时刻,其统计粒度为小时。可以看到,提问时间存在三个明显的高峰:上午、下午、晚上 10-12点、15-18点、20-22点。这反映了同学们基本上是全天候在学习。尤其值得注意的是,前两个高峰时间段的结束时间都晚于正常的吃饭时间,可见大家经常学习到忘记了饭点。

submiss

结论

对上面的三个问题,可以得到三个结论:

  1. 学习的时间确实和DDL相关;
  2. 大家不会真的拖到DDL前才开始完成任务,而是会提前一周以上的时间开始;
  3. 基本上全天都可以是学习时间,而且同学们很容易学习到忘记饭点。

通过简单分析,可以看出同学们学习都很勤奋。当然,由于数据量较小,且提问时间不能完全反映学习时间,分析上可能存在不足和错误,仅反映大致趋势,供参考。

Updated: