北京大学中国教育财政科学研究所

出版物

科研简报

PISA2015合作问题解决能力测试的跨语言公平性分析

作者：刘舒畅黄晓婷发布时间：2019-12-11

摘要：

PISA2015首次测试了15岁学生的合作问题解决能力。为保证在不同国家/地区的实施，以英语/法语为母版的PISA被翻译成多种语言版本。在翻译过程中，试题可能会产生差异，因此直接对比不同国家/地区学生的成绩可能存在一定的不科学性。为此文章在双因子模型下，采用条件性Wald-2检验法，检验了合作问题解决能力测试对使用英语版本的新加坡学生和使用中文版本的中国学生是否存在项目功能差异。结果显示：超过30%的试题存在DIF，其中约有50%的试题对新加坡学生有利，另50%的试题对中国学生有利；因此，测试总成绩基本能真实反映两组学生合作问题解决能力的差异，但如果基于单个试题比较学生的表现，则可能得出不准确的结论。

　　国际学生评价项目（Programme for International Student Assessment，PISA）是由OECD组织的、针对全球15岁青少年的测试，内容包括科学素养、数学素养、阅读素养、合作问题解决能力等。2015年，共有72个国家/地区参与了测试。为了保证PISA能够在不同国家/地区实施，以英语或法语为母版的PISA被翻译成多个不同语言版本[1]。当试题被翻译成不同语言版本时，不同语言环境下测试分数的可比性就会受到挑战[2-6]。项目功能差异（Differential Item Functioning，DIF）是指不同组别但能力相同的学生在某个试题上的答对概率存在的差异[7]，是检验测试不同语言版本之间可比性的最佳方法。

　　2015年PISA首次加入了合作问题解决能力测试(Collaborative Problem-Solving Assessment，CPS)。该测试的形式较为特殊，不是常见的选择题，而是使用会话代理技术(Conversational Agent)，要求学生与若干个计算机模拟的团队成员，在一个预设的情境中进行互动，尝试合作解决遇到的问题。在解决问题的过程中，考生需要和计算机模拟的团队成员进行大量的对话交流。考生能否正确理解计算机模拟成员的语言会直接影响其在CPSA中的表现。因此，与其他科目的测试相比，CPSA对翻译的准确性要求更高。

　　在PISA2015的CPSA中，中国学生的平均分为496分，在所有参与CPSA的52个国家/地区中排名第26位，接近OECD的平均水平，其中有28.2%的学生合作问题解决能力的熟练度（proficiency level）在水平1及以下[8]。这一结果与中国学生在PISA科学素养、数学素养测试上的优异表现形成鲜明的对比（中国学生数学素养测试平均分为531分，排名第6位；科学素养测试平均分为518分，排名第10位）。这与已有的研究发现存在一定的差异：OECD国家的PISA数据显示，学生在PISA数学和科学这2门核心科目上的得分与合作问题解决能力存在高相关，合作问题解决能力与数学素养之间的相关为0.7，与科学素养之间的相关达到0.77。此外，研究者们使用各国的合并数据，建立用科学、数学、阅读素养成绩对合作问题解决能力的预测模型，发现中国学生的残差为—17；也就是说，在科学、数学、阅读素养得分相同的情况下，中国学生在CPSA中的得分比所有参与的国家/地区学生的平均分低0.17个标准差。中国学生在CPSA上的异常表现，除了可能是由实际能力差异造成的以外，也有可能是由于测试经翻译后难度产生变化引起的。因此，本文试图运用DIF分析来探究PISA2015中CPSA的跨语言公平性问题。

　　新加坡学生在PISA2015的数学、科学素养测试中表现十分优异，CPSA平均成绩为561分，排名第1位。此外，新加坡学生使用的测试版本是未经翻译的英语版，可以和使用翻译成中文版的中国学生形成有意义的对比。因此，本文将中国学生与新加坡学生作为DIF检验的目标组和对照组，检验CPSA的跨语言公平性。

　　一、研究方法与数据

　　DIF检验一般包含5个步骤：（1）获取作答数据；（2）明确需要进行比对的目标组和对照组；（3）通过锚题匹配学生；（4）选择测量模型并估计DIF指数；（5）对存在显著DIF的试题进行解释[9]。

　　（一）目标组和对照组作答数据

　　首先获取了PISA2015中国4个省份和新加坡全国的数据，中国学生为目标组，新加坡学生作为对照组。由于是选考科目，中国学生的样本量为2935人，新加坡学生的样本量为1819人。作答数据共包含116道题，这些题目中既有二级计分的试题，也有多级计分的试题，分属6个不同的题组。

　　（二）锚题问题与DIF检验方法

　　DIF检验时往往需要先通过锚题来匹配不同组学生的能力，锚题被假定为不存在DIF，一般而言锚题数量越多，对DIF的检验效果也越好[10]。对于锚题的界定可以通过定性方法，依靠测验内容专家对试题质量进行分析，确定若干个不存在DIF的试题作为锚题[11]。但是对于CPSA来说，其试题信息未完全公布，因此无法通过定性的方式判断一个题目是否存在DIF，也无法找出若干个锚题用于DIF检验。

　　针对这一问题，本文采用Wald-2检验方法。Wald-2检验法是在Wald检验法的基础上改进而来的，是一种不要求锚题的2阶段DIF检验方法[12]。第1阶段，限定所有试题的项目参数对不同组学生是一样的，即首先假设所有试题都不存在DIF，将对照组学生的能力平均值固定为0，标准差固定为1，目标组学生的平均能力和标准差进行自由估计；第2阶段，不再限定所有试题的参数对不同组学生都是一致的，同时将第1阶段目标组的估计值作为这一阶段目标组的固定值。以此估计各个试题对不同组学生的项目参数估计值，并结合协方差矩阵进行Wald检验，对于2PL模型，其计算公式如下：

　　（1）

　　其中，为协方差矩阵，检验的自由度df等于项目参数个数，对2PL模型来说df为2。

　　由公式（1）可以看出，Wald-2检验法是通过检验针对不同组学生的项目参数的差异大小来判断试题是否存在DIF。当存在多个项目参数，而项目参数与组别存在交互时，对结果的解释就会存在困难与模糊性，也就是说当试题的一个参数对一组学生更有利，而另一个项目参数对另一组学生更有利时，最终的DIF检验结果就会在一定程度上受到混淆。

　　因此Wald-2检验法在一定条件下可以扩展为条件性DIF检验(Conditional DIF Test)，可以将试题的整体DIF进行分解，对每类项目参数进行单独的DIF检验。在所有项目参数中，试题的难度参数对不同组别学生是否存在差异，对试题的公平性影响更大。试题难度参数的条件性DIF检验方法为：

　　（2）

　　（3）

　　Wald-2检验法通过限制试题对不同组别学生的区分度参数a相等，对截距参数c进行DIF检验，而难度参数b等于-c/a，当a参数相等时，这实际上就是对难度参数b的DIF检验[12]。

　　（三）测量模型的选择

　　Wald-2检验法是一种基于项目反应理论的参数化DIF检验方法，在检验过程中涉及到对项目和被试参数的估计，因此依赖于具体的项目反应模型。而正如前文所言，CPSA包含6个问题解决情境，每个情境下面有若干个试题，题目间相互关联，实际上构成了一个题组（Testlet）。因此CPSA实际上是由若干个题组构成，每个题组下面又包含若干道试题。对于题组结构的测验，由于其违背了标准项目反应理论的局部独立性假设[13]，使用标准项目反应模型会造成参数估计偏差，需要选择题组模型对CPSA进行DIF检验。可以考虑将题组模型作为双因子模型的一个特例，题组效应作为双因子模型中的第二特质，学生能力为双因子模型中的第一特质，并假设题组效应与学生能力是正交的，即不相关[14-16]。双因子模型的数学表达式如下：

　　（4）

　　其中：为学生n的能力；为题组k的题组效应；和分别指题目i对学生能力和题组效应的区分度，两者不尽相同；为题目难度。

　　综上所述，本研究在双因子模型下，采用条件性Wald-2检验法，检验CPSA在难度上对中国学生和新加坡学生是否存在DIF，以此来验证语言版本的差异是否对测试公平性造成了影响。DIF检验主要采用项目反应模型软件flexMIRT进行。

　　二、结果分析

　　首先对2组学生在各题组上的原始得分做描述性统计和显著性差异检验，来了解中国学生与新加坡学生的表现，以及他们在各题组上得分差异的大小（见表1）。其次通过Wald-2检验法对CPSA每道试题的难度进行DIF检测，来验证测试的跨语言公平性，进而分析2组学生在CPSA上的得分差异除了是由学生的能力差异造成的之外，测试的不良性能是否也产生了一定影响。

　　从表1可以看出，中国学生在各题组上的平均得分均低于新加坡学生，且存在显著性差异(P<0.001)。根据Cohen的标准[17]，2组学生在题组2与题组4上的得分差异效应量达到了中等水平(d>0.5)。

　　表1 中国学生和新加坡学生CPSA得分描述性统计结果

题组	总分/分	组别	有效作答人数/人	平均值	标准差	t	d
题组1 公园聚会 (Meeting in the Park)	32	总体	2747	11. 86	3. 11
		中国	1689	11. 42	3. 05	-9.39***	0. 37
		新加坡	1058	12. 55	3. 08	-9.39***	0. 37
题组2 制作电影 (Making a Film)	50	总体	2686	13. 53	4. 99
		中国	1655	12. 46	4. 76	-14.66***	0. 58
		新加坡	1031	15. 26	4. 88	-14.66***	0. 58
题组3 实地考察 (Field Trip)	25	总体	2754	7. 60	3. 40
		中国	1708	7. 03	3. 41	-11.68***	0. 46
		新加坡	1046	8. 53	3. 16	-11.68***	0. 46
题组4 准备报告 (Preparing a Presentation)	57	总体	2683	21. 31	5. 65
		中国	1664	20. 26	5. 77	-13.18***	0. 51
		新加坡	1019	23. 03	4. 98	-13.18***	0. 51
题组5 卫星国 (Xandar)	24	总体	2710	7. 35	2. 22
		中国	1675	7. 12	2. 24	-6.74***	0. 27
		新加坡	1035	7. 71	2. 16	-6.74***	0. 27
题组6 花园 (The Garden)	72	总体	2609	23. 05	7. 75
		中国	1612	21. 88	7. 63	-9.98***	0. 40
		新加坡	997	24. 94	7. 56	-9.98***	0. 40

　　注：表中的平均值指学生在各题组上的原始分，非IRT分数；***代表P<0.001

　　在双因子模型下，使用条件性Wald-2检验法对CPS每道试题的难度进行DIF检测，题目的DIF显著性水平以及DIF效应量情况见表2。从表2可以看出，有64道试题的难度差异达到显著性水平，有48道试题的DIF指数效应量在0.426以上，其中9道试题的效应量在2以上。

　　表2 CPSA在DIF显著性水平以及效应量上的试题分布

项目		试题个数
显著性水平	P<0.05	64
显著性水平	P>0.05	52
效应量	effect size<0.426	68
	0. 426<effect size<2	39
	effect size>2	9

　　参照以往研究[3, 18-19]，考虑到单纯的显著性检验易受样本量大小的影响，我们的DIF检验标准需兼顾显著性检验结果与DIF效应量结果。因此，只有当试题的难度差异显著（p<0.05），且DIF指数效应量达到0.426临界值以上[20]，才判定该试题存在DIF。

　　表3 DIF检验结果

题组	试题总数/道	DIF试题个数	占比/%
题组1 公园聚会 (Meeting in the Park)	15	1	6. 7
题组2 制作电影 (Making a Film)	23	7	30. 4
题组3 实地考察 (Field Trip)	11	2	18. 2
题组4 准备报告 (Preparing a Presentation)	27	7	25. 9
题组5 卫星国 (Xandar)	12	7	58. 3
题组6 花园 (The Garden)	28	13	46. 4
整卷	116	37	31. 9

　　表3为各题组以及整个测验中存在DIF的试题数量。在整个测试的116题中，共有37道试题被判定为存在DIF，占总题量的31.9%。不同题组中，DIF试题占比存在较大差异。其中，题组5含有超过半数的DIF试题；题组6也有46.4%的试题被判定为存在DIF；而题组1则跨语言可比性较高，DIF试题仅占6.7%。对存在DIF的试题进一步分析可以发现：在所有存在DIF的试题中，有21道题有利于中国学生，即这些试题对于中国学生而言难度低于新加坡学生；有16道试题则有利于新加坡学生，即这些试题对于新加坡学生更加简单。

　　初步的DIF检验结果可以看出，有部分试题的DIF效应量很大，这些试题一定程度上会扭曲参数估计以及DIF检验的精确性[19]。因此有必要净化维度，通过逐步删除 DIF效应量最大的试题，来动态地进行DIF检验。删除了DIF效应量大于2的试题，对剩余的107道题重新进行DIF检验，结果见表4。

　　表4 净化维度后的的CPSA在DIF显著性水平以及效应量上的试题分布

项目		试题个数
显著性水平	P<0.05	55
显著性水平	P>0.05	52
效应量	effect size<0.426	66
	0. 426<effect size<2	39
	effect size>2	2

　　由表4可知，剩余题目中仍有55道试题的显著性水平小于0.05，41道试题的DIF效应量在0.426以上。同样以兼顾显著性检验结果与DIF效应量的标准来判定DIF项目，各题组以及整个测验中存在DIF试题的数量见表5。由表5可知，在剩余试题中，共有32道试题被判定为存在DIF，占比从之前的31.9%降至29.9%。分题组来看，题组5仍然有超过50%的试题被判定为存在DIF，题组2、题组6的DIF试题占比有所下降（分别降至23.8%和37.5%），而题组1和题组4的DIF试题占比则略有上升，题组3的DIF试题占比保持不变。对存在DIF的试题进一步分析可以发现，在所有存在DIF的试题中，有18道试题有利于中国学生，另14道试题则更有利于新加坡学生。

　　进一步分析，当删除DIF效应量大于1.5的试题后，DIF检验结果基本保持不变，因此结果不再赘述。

　　表5 净化维度后的DIF检验结果

题组	试题总数/道	DIF试题个数	占比/%
题组一公园聚会 (Meeting in the Park)	14	2	14. 3
题组二制作电影 (Making a Film)	21	5	23. 8
题组三实地考察 (Field Trip)	11	2	18. 2
题组四准备报告 (Preparing a Presentation)	26	8	30. 8
题组五卫星国 (Xandar)	11	6	54. 5
题组六花园 (The Garden)	24	9	37. 5
整卷	107	32	29. 9

　　三、总结和讨论

　　目前，PISA已经成为全球影响最广泛的学生素养评价项目。很多国家/地区会通过与高分国家/地区进行比较，借鉴它们的经验，来改进本国/地区的教育实践。不同语言版本量表之间的可比性是跨地区、跨语言对比的基础。因此，DIF检验对于PISA结果的科学解读有着重要的意义。

　　合作问题解决能力被很多国家列为学生的核心素养。PISA的CPSA结果为我国进一步深化教学改革、提高学生合作解决问题能力提供了参考。CPSA测试形式特殊，涉及大量对话，因此，我们更需要对其跨语言公平性进行检验与探讨，以保证对比不同语言和文化背景的学生成绩时能得到科学的结论。

　　本研究在双因子模型下，采用条件性Wald-2检验法，将新加坡学生和中国学生作为对照组和目标组，对PISA2015的CPSA中英文版本的试题进行了DIF检验。结果表明，整个测试中大约有30%的试题存在显著的DIF，其中题组5的DIF情况最为严重，存在超过一半的DIF试题。在DIF的方向性上，有接近一半的试题更有利于中国学生，而另一半的试题更有利于新加坡学生，因此基于学生测试总成绩的对比可能不至于存在太大的偏差，但基于单个题组（特别是题组5）或试题的对比，则有可能得出不准确的结论。

　　本研究进行的DIF检验仅限于通过统计方法对测试公平性进行分析。由于CPSA的试题尚未公开，无法进行深入的质性研究。未来，可以通过质性研究进一步了解每个DIF试题存在的具体问题，为提升测试公平性的具体措施提供依据。

　　参考文献

　　[1] OECD. PISA 2015 Results EXCELLENCE AND EQUITY IN EDUCATION[EB/OL]. (2016-12-06)[2018-10-23].http://www.oecd.org/publications/pisa-2015-results-volume-i-9789264266490-en.htm

　　[2] Allalouf A. Retaining Translated Verbal Reasoning Items by Revising DIF Items[R]. the Annual Meeting of the American Educational Research Association. New Orleans: 2000.

　　[3] HUANG X, WSLSON M, WANGL. Exploring plausible causes of differential item functioning in the PISA science assessment: language, curriculum or culture[J]. Educational Psychology, 2016, 36(2): 378-390.

　　[4] LE L T. Investigating gender differential item functioning across countries and test languages for PISA science items[J]. International Journal of Testing, 2009, 9(2): 122-133.

　　[5] PRICEL R, OSHIMAT C. Differential Item Functioning and Language Translation: A Cross-National Study with a Test Developed for Certification[R]. the Annual Meeting of the American Educational Research Association. San Diego: 1998.

　　[6] SIRECIS G, Swaminathan H. Evaluating Translation Equivalence: So What's the Big Dif?[R]. the Annual Meeting of the Northeastern Educational Research Association. Ellenville: 1996.

　　[7] WOODS C M, CAI L, WANGM. The Langer-improved Wald test for DIF testing with multiple groups: Evaluation and comparison to two-group IRT[J]. Educational and Psychological Measurement, 2013, 73(3): 532-547.

　　[8] OECD. PISA 2015 Results Collaborative Problem Solving[EB/OL]. (2017-11-21)[2018-10-23].http://www.oecd.org/pisa/pisa-2015-results-volume-v-9789264285521-en.htm

　　[9] 黄晓婷, 韩雨婷, 吴方文. 高考语文作文试题的城乡公平分析[J]. 中国考试, 2018 (2): 1-5.

　　[10] WANG W C, YEH Y L. Effects of anchor item methods on differential item functioning detection with the likelihood ratio test[J]. Applied Psychological Measurement, 2003, 27(6): 479-498.

　　[11] WANG W C, Wilson M. Assessment of differential item functioning in testlet-based items using the Rasch testlet model[J]. Educational and Psychological Measurement, 2005, 65(4): 549-576.

　　[12] LANGER M M. A reexamination of Lord’s Wald test for differential item functioning using item response theory and modern error estimation[D]. Chapel Hill: University of North Carolina, 2008.

　　[13] LEE G, BRENNAN R L, FRISBIE D A. Incorporating the Testlet Concept in Test Score Analyses 1[J]. Educational Measurement: Issues and Practice, 2000, 19(4): 9-15.

　　[14] WAINER H, BRADLOWE T, WANG X. Testlet response theory and its applications[M]. Cambridge: Cambridge University Press, 2007: 110-117.

　　[15] DEMARS C E. Application of the bi‐factor multidimensional item response theory model to testlet‐based tests[J]. Journal of educational measurement, 2006, 43(2): 145-168.

　　[16] DEMARS C E. Confirming testlet effects[J]. Applied Psychological Measurement, 2012, 36(2): 104-121.

　　[17] COHEN J. A power primer[J]. Psychological bulletin, 1992, 112(1): 155.

　　[18] 李付鹏. 能力水平分组对Mantel-Haenszel方法检验DIF效应的影响分析[J]. 中国考试, 2011(9):10-15.

　　[19] 王蕾, 黄晓婷. 国际教育成效评价协会儿童认知发展状况测验项目功能差异分析[J]. 考试研究, 2006(4):96-109.

　　[20] PAEK I. Investigations of differential item functioning: Comparisons among approaches, and extension to a multidimensional context[D]. Berkeley: University of California, 2002.

相关附件