北京大学中国教育财政科学研究所

出版物

科研简报

情感指数对MOOC学生成绩的预测研究

发布时间：2019-09-18

摘要：

MOOC学生情感状态与学习成绩间的关系有助于教师了解学生学习状况并优化教学设计，但少有深入研究。本文用文本分析法定义并计算了一门中文MOOC课程学生的“快乐指数”和“痛苦指数”，发现“快乐指数”与成绩无显著关联，而“痛苦指数”能显著、正向地预测成绩，是MOOC课程的挑战度指数。MOOC平台可设置实时反馈机制，将“痛苦指数”等数据提供给教师，方便及时、针对性优化教学或者提供翻转。同时，“痛苦指数”有潜力成为鉴别MOOC中“水课”的指标。
　　MOOC（Massive Open Online Course）全称为大规模开放式在线课程。自2012年MOOC元年^[1]后，MOOC发展迅猛，三大平台Coursera、Udacity、edX与世界高校合作，使MOOC席卷全球。在中国，2013年前MOOC相关论文在国内期刊上仅发表5篇，但到了2016年，这一数字变为2420篇^[2]。与传统课堂相比，MOOC的核心优势是跨越了空间局限，也使学习时间更加灵活，因而促进了优质教育资源共享。MOOC也面临许多问题，高辍学率[1]是其中最严峻的一项。根据美国宾夕法尼亚大学统计，MOOC平均辍学率高达90%^[3]，这不免让人对其教学效果产生质疑。因此，优化课程设计以提高学生学习动机、增加学习主动性并通过考核，成为MOOC发展的当务之急。

　　课程设计优化需要清楚地知道哪些变量影响学生学业表现。蒋卓轩等发现，学生观看课程视频及提交小测验的次数能预测课程完成率^[4]；Yang等证实学生论坛发帖数与辍学率关系密切^[5]；Ramesh等的研究表明，学生参与课程的行为类型能显著预测成绩^[6]。

　　目前，少有研究关注MOOC学生的情感状态是否能预测成绩。按照维果斯基“最近发展区”理论，学生的发展水平有两种，一种是学生自身所能达到的水平，另一种是通过教育所能达到的潜在水平，两者间差异即为最近发展区。教育应向学生提供有难度、有挑战的教学内容和教学要求以激发学生潜能，使学生到达或超越最近发展区。MOOC课程为高等教育课程，本质上属于高深学问。学生要想在期末考核中取得好成绩，需在学习过程中迎接挑战、投入更多精力，也因此体验更多痛苦情感。本文假设：在MOOC学习过程中学生体验的痛苦情感越强，越可能取得较高成绩。

　　传统课堂中，教师潜意识中通过观察学生面部表情、肢体语言了解学生情感状态反馈，并据此调整语速、讲解重点及提问策略，其过程异常迅速。越有教学经验的教师对课堂中学生情绪反应的判断越迅速和准确，后续教学调整也更有针对性和效率。相比传统课堂，MOOC中教师授课主要是提前录制视频并上传平台，学生通过观看视频学习，教师讲授过程相对固定。此外，MOOC并不能全面、广泛提供翻转课堂以方便线下讨论，师生间少有后期面对面交流。除课程视频外，教师与学生、学生与学生之间唯一可以交流的场景为在线课程论坛。学习越投入、越期待通过考试的学生，越可能就学习中遇到的问题参与讨论，于是论坛发帖成为实时分析MOOC学生情感的一个可靠数据源。

　　本文基于一门中文MOOC的论坛数据，以大数据分析中的文本分析法提取学生情感信息，基于选定的情感词典统计论坛讨论中学生发布的积极、消极情感词语及词频，据此计算“痛苦指数”和“快乐指数”，通过回归分析检验情感指数是否能有效预测成绩。

　　一、研究数据及方法

　　（一）数据

　　本文数据源自北京大学在Coursera上开设的MOOC课程《计算概论A》，该课程始于2014年9月，终于2015年1月，共14，855位学生注册。所有学生中90.9%辍学（没有期末成绩）；9.1%的未辍学学生中，仅1%及格，0.5%成绩超过85分。在课程论坛上，450位学生参与讨论，发布了3，864条帖子，共526，083字；平均每名学生发帖9条，共826字，其中最活跃学生发帖201条，共25，239字。在所有辍学学生中，仅2名在论坛上发言；在所有未辍学学生（共1，347）中，434名在论坛上发言，其中及格学生有116名，占所有及格学生（共148名）的78.4%。

　　（二）方法

　　1.文本分析中的情感信息挖掘

　　人的情感与行为紧密联系，情感因素因而逐渐被金融、教育等领域学者关注^[7-10]。随着大数据时代来临，互联网上积累了大量文本，如新闻稿、论坛发帖、微博等，这些文本成为分析情感信息的良好数据源，利用文本分析进行情感挖掘逐渐成为热点。与教育研究中衡量学生情感状态的问卷法相比，文本分析具有两点优势^[7]：首先避开了问卷法中学生自我评估的缺陷。自我评估一般事后完成，并非即时，其过程与结果受诸多不确定因素干扰，所得出的情感信息可信度较低；其次，基于积累的文本可以灵活分析一段时间内学生的情感信息，而问卷法仅能评估学生填写问卷时对学习过程情感的回忆，且掺杂填写问卷时的个人情感状态。

　　文本分析进行情感信息挖掘的方法主要有两类。

　　第一类是机器学习法。应用时可分三步：第一步，准备好一组打好情感标签的文本；第二步，对文本量化处理。量化过程视不同语言而定，若分析中文文档，需首先运用自然语言处理的分词模型对文档分词；若分析英文文档，因文字自然被空格隔开而无须分词处理。之后，应用文本量化模型将文档转换成向量，常用模型为词包模型（bag-of-words）。假设文档集合对应的词汇表中包含m个词语，运用词包模型将每篇文档转换为一个m维向量，每个分量的值对应一个词语权重。计算词语权重的方法主要有三种。第一种，将词语权重赋值为0或1，指代词语是否在文档中出现；第二种，将词语在文档中出现的频次设为权重，强调频繁出现词语的重要性；第三种，按照词频—逆文档频率（term frequency-inverse document frequency）计算词语权重，权重为两部分乘积：一部分是词语出现频率，即词频除以文档长度；另一部分是逆文档频率，即计算总文档数与包含具体词语的文档数之商，再取对数得出。词包模型仅考虑词语自身而忽略词语顺序（即语境信息），在一些文本分析中表现不尽如人意。为弥补缺陷，有许多更全面的文本量化模型被提出，其中最为直观的是n-grams词包模型（bag-of-n-grams），该模型将n个连续词语组成的词组视作分析单元，并基于词包模型的权重计算方法计算词组权重。第三步，基于量化后的文本训练机器学习分类器，并利用训练好的分类器识别新文本中的情感信息。早期研究中，传统机器学习模型常被用作情感分类器，如林江豪等^[11]通过朴素贝叶斯模型实现了微博情感分类。随着深度学习技术崛起，学者发现深度神经网络在情感分类上的表现优于传统模型，如Lai等证实：相比于逻辑回归与支持向量机，递归神经网络、卷积神经网络在文本数据集上的情感分类准确率较高^[12]。机器学习法能识别否定、反问等特殊情感表达，准确判断较细颗粒文本的情感，但所需数据量较大，且需耗费人工为文本打情感标签，成本较高。

　　第二类是情感词典法。首先准备一个情感词典，包含与各种情感相关的关键词集合；之后基于词典识别文本中的情感词并统计词频；最后基于统计数据计算情感变量值。已有研究中，O'Connor等基于文本分析工具OpinionFinder中的情感词典从tweets中挖掘了用户的积极、消极情感^[13]。Bollen等利用GPOMS工具中的情感词典从微博中抽取了“平静”“警觉”等情感序列^[14]。相比机器学习法，情感词典法无法识别反问等特殊情感表达句式，无法准确判断细颗粒文本情感，但能有效分析长篇文档中的情感信息^[13]。应用情感词典法无需人工标记情感标签，所需数据量较少，运算效率高。

　　基于数据量考虑，本文选用情感词典法分析MOOC学生的两类情感指数——“痛苦指数”和“快乐指数”，对应消极和积极情感，选用词典为提升版NTU情感词典（Augmented NTU Sentiment Dictionary，简称ANTUSD）^[15]。ANTUSD涵盖了ACIBiMA^[16]等五个大型中文语料库信息，包含9,527个积极情感词、11,278个消极情感词，该词典优于多数情感词典之处在于其为每个情感词标记了情感强度，积极情感词的情感强度值为正，消极情感词的情感强度值为负。情感强度的绝对值越大，对应词语表达的情感越强。已有研究表明，基于ANTUSD的情感分类F值达98.2%，可靠性较高^[15]。

　　2.情感指数定义及计算方法

　　情感指数定义与计算方法如下：

　　第一步，将每位学生发帖整合成为一篇文档；第二步，利用Python语言的“jieba”软件包对文档分词处理，删除其中的停用词[2]。本研究中有15位学生的文档仅包含停用词，后续分析基于其余435名学生的文档展开；第三步，基于ANTUSD匹配每篇文档中的积极、消极情感词语并统计词频。本研究对ANTUSD有所扩展，增加了66个独特情感词语和符号，其中31个反映积极情感，35个反映消极情感，并在ANTUSD中寻找其近义词，将近义词的情感强度赋予它们。表1例举了一些人工选取的情感符号及其近义词、情感强度。

　　表1 情感符号及相关信息列举

情感符号	近义词	情感强度
ORZ	膜拜	0. 021
O[∩_∩]O	高兴	0. 434
^_^	高兴	0. 434
:-D	高兴	0. 434
2333	大笑	0. 282

　　第四步，利用公式1、2计算学生的“快乐指数”Poscore和“痛苦指数”Negscore：

　　(1)

　　(2)

　　其中，P_w、N_w代表文档中的积极和消极情感词集合，w为集合中的一个词语；s_w、f_w代表w的情感强度和词频；N为文档长度。Poscore、Negscore的值越大，积极、消极情感越强。

　　表2列出了及格和其余（辍学及未及格）学生的情感指数，其中及格学生的“快乐指数”较低，“痛苦指数”较高。

　　表2 及格、其余发帖学生的情感指数统计

	人数	“快乐指数”		“痛苦指数”
及格学生	116	0. 034	0. 014
其余学生	319	0. 040	0. 012

　　注：表2中不含仅发过停用词的15名学生，因此学生总数为435。

　　3.应用情感指数预测成绩

　　“快乐指数”和“痛苦指数”能否预测学生成绩？以下构建回归模型进行验证。在控制变量部分，除情感指数外，本研究增加了另外四个被现有研究认为能影响成绩的变量^{[4, 5, 17]}，其含义为：

　　表3 模型控制变量

变量	变量描述
TLv	课程视频观看次数
TLd	课程视频下载次数
TFr	论坛读帖次数
TFp	论坛发帖次数

　　与大多数MOOC一样，大部分学生未提供年龄、教育程度等背景，因此无法将其用作控制变量。

　　数据预处理中，先以最大-最小化方法将所有变量转换到[0，1]区间：

　　假设转换变量x，x的取值为（i=1,2,…,k)，则利用公式3将转换成：

　　(3)

　　其中分别代表（i=1,2,…,k)中的最大、最小值。

　　二、结果及分析

　　参与论坛发帖的学生是否比其他学生取得了更好成绩？表4列出了两类学生的未及格、及格及辍学比例，表5列出了两类学生中未辍学学生的平均成绩及t检验P值。结果显示，参与论坛发帖的学生未辍学比例、及格比例及成绩显著更高，学习更投入。

　　表4 发帖、未发帖学生的成绩总结

	未辍学学生		辍学学生
	未及格	及格
发帖学生	329 (73. 1%)	119 (26. 4%)		2 (0. 5%)
未发帖学生	870 (6%)	29 (0. 2%)		13506 (93. 8%)

　　表5 发帖、未发帖学生未辍学成绩对比

学生类型	平均成值	P值
发帖学生	32. 7	<0.001
未发帖学生	9. 3	<0.001

　　基于发帖学生数据，本研究在R语言环境中构建回归模型，利用方差膨胀因子（Variance Inflation Factor，VIF）检测模型自变量间是否存在多重共线问题。若一个自变量的VIF大于10，该变量与其余自变量间存在较强的多重共线性。表6、7展示了模型中自变量的VIF及参数估计结果。

　　表6 模型中各自变量的VIF

Poscore	Negscore	TLv	TLd	TFr	TFp
1. 004	1. 004	1. 12	1. 03	3. 46	3. 26

　　表7 模型参数估计结果

	自变量系数	t值	P值
Poscore	-0.141	-.185	0. 2368
Negscore	0. 23	1. 846	0. 0655	*
TLv	0. 724	9. 055	<0.001	***
TLd	0. 556	5. 368	<0.001	***
TFr	1. 371	5. 035	<0.001	***
TFp	-0.329	-.034	0. 3015
R²（确定性系数）: 0.35
(P≤0.01: *; 0.01<P≤0.05: ; 0.05<P≤0.1: *)

　　表6显示，模型各自变量的VIF均远小于10，与其余自变量间不存在多重共线问题。

　　表7中，学生观看课程视频的次数TLv、下载课程视频的次数TLd、论坛上的读帖次数TFr与成绩显著正相关，这与已有研究结论一致；“快乐指数”与成绩间无显著关联，“痛苦指数”能显著正向预测成绩。

　　为细微剖析“痛苦指数”对成绩的预测效应，本研究特别对单个消极情感词进行了后续分析：首先定义指标Contrib_wn以衡量所有帖子中消极情感词w_n贡献的“痛苦指数”值。Contrib_wn的计算方法为：Contrib_wn= −_n_×_n，其中_n为w_n在所有帖子中出现的频数，_n为w_n的情感强度；接着按Contrib_wn值将所有消极情感词语从高到低排序，筛选出高排位词语；最后筛选提及高Contrib_wn排位词语的帖子并仔细阅读。表8列举了筛选出的消极情感词语及相关发帖。

　　表8 高Contrib_wn值排名的消极情感词语及相关发帖

消极情感词	Contrib_wn		相关帖子
出错	19		在VS里面为什么每次第二次编译都会出错？
纠结	15	扩号匹配的问题纠结几天了，求助。
疑问	12	关于输入值与定义数据类型不符的一点疑问。

　　表8中贡献了较高“痛苦指数”的情感词包括“出错”“纠结”“疑问”等。细读提及这些词语的帖子，可以发现其与学生学习态度无关，但均与具体学习问题相关。以“纠结”一词为例，提及“纠结”的众多帖子都是如下模式：“某某问题让我纠结，求助”。学生发表这类帖子的意图是就具体问题与助教及其他学生讨论以更好掌握知识。因此，“痛苦指数”反映了学生积极的学习动机，反映出学生已较深地进入了学习过程中。

　　三、结论及未来工作

　　MOOC学生的情感状态与学业表现间的关系有助于教师了解学生学习状况。本研究以文本分析中的情感词典法为一门中文MOOC课程每位参与论坛讨论的学生计算了“痛苦指数”和“快乐指数”，构建了回归模型以检验情感指数与期末成绩间的关系。研究显示：相比于辍学、未及格学生，及格学生的“痛苦指数”较高、“快乐指数”较低；“痛苦指数”更高的学生有更积极的学习动机；“快乐指数”与成绩无显著关联，“痛苦指数”能显著、正向地预测成绩。

　　本研究定义的情感指数及其计算是对MOOC发展的原创贡献，对于完善MOOC平台的授课反馈机制具有启发意义。MOOC平台可针对课程论坛添加信息收集功能，实时收集学生发帖数、发帖内容等数据并生成“痛苦指数”“快乐指数”，供教师及时了解学生动态，并据此优化教学。

　　情感指数对于识别MOOC平台上的“水课”也具启发意义。2018年8月，教育部印发《关于狠抓新时代全国高等学校本科教育工作会议精神落实的通知》^[18]，要求整顿本科教育教学秩序，严格过程管理，提出高校要全面梳理课程的教学内容，淘汰“水课”、打造“金课”。所谓“水课”，是内容平淡、枯燥、肤浅且考试非常易通过的课程。学生为轻易到手的学分一般很喜欢选修“水课”，并不关注是否能通过这些课程获取知识和能力。应通过科学规范的课程评价体系及调研、组织学生讨论等方式，挖掘学生的真正需求，提升学业挑战度，加强学习过程考核以激发学生的学习动力和专业志趣，把“水课”变成有高阶性、创新性和有挑战度的“金课”。MOOC“脱水”也值得研究。MOOC平台上是否存在“水课”？根据北京某高校发布的数据，有学生在一个学年内就完成了28门MOOC课程，课程涉及科学、艺术等多个领域，该学生在90%的课程中都取得了90分以上的考试成绩。这当然会引发如下疑问：这些课程考试成绩评判标准是怎样的？课程的学术要求足够严格吗？学生在一学年内的精力是有限的，在学习本校面授课程的同时还能完成28门MOOC课程并取得优秀成绩，这是不是有些不切实际？抑或是这些MOOC是否或多或少掺杂了“水分”？据教育部高教司初步估计，目前我国上线MOOC课程约8100门，高校学生和社会学习者选课人数突破1.4亿人次，超过4300万人次获得了MOOC学分。虽然MOOC的确让很多人受益，但其中的“水课”问题在MOOC发展进程中特别值得重视。

　　如何识别MOOC中的“水课”？通过分析MOOC学生的“痛苦指数”与通过率、期末成绩等指标可初步判断课程是否“注水”。若一门课程对应的“痛苦指数”或论坛参与度较低，但通过率与期末成绩较高，则表明多数学生在较少参与课程讨论情况下顺利结课且成绩优异，该课程即有“水课”嫌疑。设计开发切实可行的MOOC“水课”识别平台成为本研究未来的拓展方向之一。

　　本研究仅分析了一门中文MOOC数据。对于其余学科、其余语言MOOC来说，学生参与论坛讨论是否会有不同行为模式和情感表现？研究结论是否仍适用于这些MOOC？此类问题有待后续研究。假设本文结论普遍适用于其余MOOC，将来即可通过软件开发建立实时情感指数生成系统以促进MOOC教学设计与改进。本研究挖掘情感信息所用方法为情感词典法。未来分析多课程数据时，可先用人工方式准备一组带有情感标签的数据集，之后利用多任务学习框架^[19]、深度学习模型等机器学习法抽取情感信息，以准确识别每一条帖子中表达的情感，使后续精细分析成为可能。例如，帖子中有些与课程内容相关，有些则无关，无关发帖中的情感信息对后续分析可能造成负面影响，机器学习法可探查仅与课程内容相关发帖的情感信息，更准确揭示学生情感与学业成就间的关系。

　　参考文献

　　[1]Pappano, L. The Year of the MOOC[Z]. 2012.

　　[2]何艳君, 马炅. 近两年国内 MOOC 研究现状及发展趋势分析[J]. 中国教育技术装备, 2017(20): 73-75.

　　[3]Koller, D. MOOCs on the move: How coursera is disrupting the traditional classroom [J]. Knowledge@ Wharton Podcast, 2012.

　　[4]蒋卓轩, 张岩, 李晓明. 基于MOOC数据的学习行为分析与预测[J]. 计算机研究与发展, 2015(3): 614-628.

　　[5]Yang, D., et al. Turn on, tune in, drop out: Anticipating student dropouts in massive open online courses[C]. Proceedings of the 2013 NIPS Data-driven education workshop, 2013.

　　[6]Ramesh, A., et al. Modeling learner engagement in MOOCs using probabilistic soft logic[C]. Proceedings of the NIPS Workshop on Data Driven Education, 2013.

　　[7]Villavicencio, F.T., Bernardo, A.B. Positive academic emotions moderate the relationship between self‐regulation and academic achievement[J]. British Journal of Educational Psychology, 2013(83): 329-340.

　　[8]Mega, C., Ronconi, L., De Beni, R. What makes a good student? How emotions, self-regulated learning, and motivation contribute to academic achievement[J]. Journal of Educational Psychology, 2014(106): 121-131.

　　[9]Gilbert, E., Karahalios, K. Widespread Worry and the Stock Market[C]. Proceedings of the ICWSM, 2010.

　　[10]Hanoch, Y. “Neither an angel nor an ant”: Emotion as an aid to bounded rationality[J]. Journal of Economic Psychology, 2002(23): 1-25.

　　[11]林江豪, 等. 一种基于朴素贝叶斯的微博情感分类[J]. 计算机工程与科学, 2012(34): 160-165.

　　[12]Lai, S., et al. Recurrent Convolutional Neural Networks for Text Classification[C]. Proceedings of the AAAI, 2015.

　　[13]O'connor, B., et al. From tweets to polls: Linking text sentiment to public opinion time series [J]. Icwsm, 2010(11): 1-2.

　　[14]Bollen, J., Mao, H., Zeng, X. Twitter mood predicts the stock market[J]. Journal of computational science, 2011(2): 1-8.

　　[15]Wang, S-M., Ku, L-W. ANTUSD: A Large Chinese Sentiment Dictionary[C]. Proceedings of the LREC, 2016.

　　[16]Huang, T-H., Chen, Y-N., Kong, L. Acbima: Advanced chinese bi-character word morphological analyzer[C]. Proceedings of the Eighth SIGHAN Workshop on Chinese Language Processing, 2015.

　　[17]贾积有, 缪静敏, 汪琼. MOOC 学习行为及效果的大数据分析——以北大 6 门 MOOC 为例[J]. 工业和信息化教育, 2014 (9): 23-29.

　　[18]中华人民共和国教育部. 教育部关于狠抓新时代全国高等学校本科教育工作会议精神落实的通知[Z]. 教高函〔2018〕8号, 2018.

　　[19]Liu, P., Qiu, X., Huang, X. Recurrent neural network for text classification with multi-task learning[J]. arXiv preprint arXiv:160505101, 2016.

　　[20]Mikolov, T., et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:13013781, 2013.

　　[1] 辍学在MOOC中指学生期末成绩为0，与实体学校中学生停止学习并放弃学籍的概念有所不同。

　　[2] 停用词即无实际意义的词语，如“哦”“啊”“呢”等。本文使用的停用词列表请见：https://github.com/chdd/weibo/blob/master/stopwords/%E5%93%88%E5%B7%A5%E5%A4%A7%E5%81%9C%E7%94%A8%E8%AF%8D%E8%A1%A8.txt。

相关附件