科研简报
科学计量学指标与科研评价 ——走出评价争议的若干思考
作者:杨立英 发布时间:2019-12-13
摘要:

近年来,定量数据在科研评价中的不当使用屡屡引发争议,争议内容涉及科研评价的方方面面。本文并非是对具体科研评价方法或指标的探讨,而是从引发争议的顶层原因来进行思考,以期为走出评价争议、改进国内科研评价体制提供新的视角。思考的内容包括四个方面:一是定量数据与科研评价的背景信息;二是科研评价中争议的不同类型;三是解决争议的思路;四是思考与建议。

  近年来,定量数据在科研评价中的不当使用屡屡引发争议,争议内容涉及科研评价的方方面面。本文并非是对具体科研评价方法或指标的探讨,而是从引发争议的顶层原因来进行思考,以期为走出评价争议、改进国内科研评价体制提供新的视角。思考的内容包括四个方面:一是定量数据与科研评价的背景信息;二是科研评价中争议的不同类型;三是解决争议的思路;四是思考与建议。

  一、背景信息

  什么是科学计量学?科学计量学主要基于科研活动数据,应用定量分析方法,揭示科学活动的普遍规律,为科研绩效评估提供数据参考。科学计量学有两个应用,一是揭示科学活动的普遍规律,二是为科研绩效评估提供数据参考。随着范围的拓展,这两个研究范畴也在不断扩大。科学计量学数据分析在科研评估当中的应用大家已耳熟能详,但是其在揭示科学活动的普遍规律方面的作用有可能被管理部门忽略。今年2月份Nature有一篇论文[1]是关于大团队守旧、小团队创新的研究,利用科学计量学数据和方法揭示团队规模与成果创新性和颠覆性之间的关系,就属于揭示科学活动的普遍规律。

  科学计量学方法和科研评价是什么关系呢?用科学计量学数据,根据评价对象和评价目标,设计相应的评价指标,计算指标“得分”及排名,为科研绩效评价提供数据支撑。需要指出的是,科学计量数据是为科研评价提供数据支撑,而不是提供评价结果。“唯论文、唯影响因子、唯SCI期刊……”都是科学计量学在科研评价当中应用产生的争议。

  二、评价争议

  现在评价争议很多,第一个案例,评价数据(中科院期刊分区表)引发的争议。中科院期刊分区表这一工作由我和我所在团队做了大概20年,在国内科研界影响力非常高,同时争议也非常大。尤其在去年11月份分区表发布了新的分类体系预案之后,关于核物理分类体系设置在核物理界引起了很大争议。争议背后的诉求是什么?是反对用学术期刊影响力来评价个人绩效,还是质疑影响因子指标在期刊评价中的作用,还是取消分区表作为学术期刊评价工具,或者是希望改进分区表或者改进分类体系,为核物理学科发展提供一些支撑?可以说,诉求非常多样化。科学计量数据引发的争议,诉求层次不一样。

  第二个案例,国家清理“四唯或者五唯(唯论文)”政策。2018年7月24日,国务院发布了《关于优化科研管理提升科研绩效若干措施的通知》,其中提到开展“唯论文、唯职称、唯学历”问题集中清理,提到“建立以创新质量和贡献为导向的绩效评价体系,准确评价科研成果的科学价值、技术价值、经济价值、社会价值”等等。实际上对于做科学计量数据和方法研究的人而言,并不是特别清楚“唯论文”的内涵是什么,内涵其实是多样化的:比如,一种理解是唯论文,纠正“单一评价维度”,强调其他评价需求;第二种理解,唯论文(数量),纠正“数量”倾向,引导追求质量。这种不同理解对政策的导向是多元化的,我相信在政策出台的时候管理部门应该是清楚的,但是到下面解读的时候,大家是模糊的,究竟内涵是什么不清楚。

  类似的案例太多了,争议反映了科研评价当中不同层次、不同类型的问题,这些问题怎么解决?如果不能厘清楚不同层次、不同类型的问题,解决方案只能是“头疼医头”甚至“头疼医脚”,难以全面解决科研评价中的争议。(1)“头疼医头”:代表作制度Vs影响因子。代表作制度和影响因子从理念上没有本质区别。代表作制度要提交代表作,现在提交代表作都附上成果发表在哪个期刊上,目前大规模同行评议很难做到完全不看代表作发表在哪个期刊,只看成果内容,其实和影响因子是异曲同工,只不过同行看期刊重要性,也会看内容,但是大规模同行评议更多还是看成果发表在哪里,所以用代表作制度替代影响因子没有特别大的区别。(2)“头疼医脚”:论文发表在祖国大地上Vs摈弃SCI期刊。把论文发在祖国大地上,发展和建设具有影响力的中国期刊,这与把论文投到国际期刊、增强国际影响力是一对“二律背反”的现象,不能因噎废食。

  三、解决思路

  科研评价一定要有系统解决方案,局部的、片断式、单维度的方案不利于根治科研评价的弊端。清理“四唯”,摒弃影响因子,加强国内学术期刊建设,这些目标的实现,需要顶层设计,需要科研管理部门改变现在的政策举措。

  解决思路是什么呢?我的想法是首先绘制科研评价流程图。(1)明确评估对象;(2)确定评估目标,某一个评估对象不一定对应一个评估目标,但二者之间肯定有关系;(3)选择评估方法,评估方法有定量方法也有定性方法,定量方法要筛选数据,进行指标设计,定性方法以同行评议为主;(4)结合定量方法或者定性方法,得出评价结果。这是科研评价全流程,这个流程特别简单,没有什么分歧。

                        

  图1 科研评价流程

  流程下面的具体内容才是经常引发科研评价争议的问题症结。首先,明确评估对象,评估对象可能是不同层次的,可以是机构评价,也可以是学科评价、人员评价、成果评价、期刊评价、项目评估等等。评估对象还可以再进行分类,就是我们平常说的分类评价,比如说人员评价,不同的人员评估对象不一样,比如是科研人员,还是技术人员、管理人员、医生、教师,评估对象首先要定位清楚。

  评估对象确定之后,要确定评估目标。假如说要评估一个科研成果,评估目标可能是多种的,比如可以评估一个成果的学术影响力,也可以评估一个成果的学术原创性,评估科研成果技术转移的价值等等,评估目标不一样,学术影响力和学术原创性有什么区别?现在特别强调评估科研成果的学术原创性,原创性是原创性成果评价的主要核心,但是成果的学术影响力依然非常重要,比如一个领域的综述性成果,从原创性角度讲有可能很低,但是影响力非常大,所以也非常重要。在明确评估对象的基础上,评估目标仍然是多元化的。

  接下来,选择评估的方法。当我们评估科研成果价值时,评估方法与评估目标必须相匹配。如何选择评估方法呢?以成果原创性测度为例,比较公认的方法是,在评估单篇成果原创性的时候同行评议应发挥主体作用。刚才提到Nature上的一篇论文,关于大团队保守、小团队的成果具有颠覆性的研究,颠覆性在某种程度上是测成果原创性,我们需要注意这个指数其实还是在统计学意义上的应用价值是有效的,但是在个案上用这样的指标评价一篇成果的颠覆性来推断其原创性仍然非常危险,对于单篇成果合适的评估方法是同行评议。另外举一个案例,什么样的情况下用定量方法?举一个期刊评价案例,中科院期刊分区表这个工作一直以来的定位就是期刊评价,从2000年开始设计这个产品的时候就在说这个产品是为青年科研人员投稿提供参考。期刊评价测什么?什么样的期刊是好期刊?影响因子这个指标测的是平均影响力。有观点认为又大又强的期刊才是真正意义上的好期刊。强是指平均影响力很高,大是指整体影响力很高。从这个角度看,影响因子指标只关注其中一个维度。

  这么多科研评价当中,争议产生的原因究竟是什么?上文画了科研评价流程图,强调了各个环节要有匹配性:评估对象和评估目标要匹配,评估目标和评估方法要匹配,如果用定量方法,数据和目标也要匹配,指标和评估目标也要匹配。现在很多争议基本上都是由于不匹配产生的,举例来看。(1)评估对象和评估目标不匹配。案例一,“医生评职称,论文似乎也是必要的门槛值”[2],当评估对象是医生的时候,医生这个名称特指去治病救人,应该跟临床有关系,而不是评价一个医生的全部。如果评价一个医生的科研水平,可以用论文评价,当评估医生时去看医生的学术水平,就非常容易引发争议,所以就是一个典型的评估对象和评估目标不匹配。(2)评估目标和评估方法不匹配。案例二,科研评价突出“唯原创性”标准[3],当评估目标是评价一篇成果原创性时,采用定量方法,风险非常大,目前为止至少我不认为定量方法在评价单篇成果原创性时能够发挥特别有效的作用,定量方法是在统计学意义上有效。(3)选择定量方法的时候,评估数据和评估目标不匹配。案例三,习主席在2016年全国科技创新大会上的讲话中提到“广大科技工作者要把论文写在祖国的大地上”的号召,实际内涵是科研人员自己的科学研究工作要推动本国社会经济建设甚至帮助本国学术期刊建设等等。在这种情况下,一方面评估目标是推动本国经济建设,同时又选了外国的数据库,实际上评估目标和评估数据又出现不匹配的问题。(4)指标和评估目标不匹配。一个例子是“论文崇拜撑不起科技强国”[4],另一个例子是“终结影响因子‘暴政’,是时候了”[5]。前者的问题在于科技强国定义要远远大于论文,内涵要丰富得多;后者的问题在于影响因子是评价期刊指标,现在来评价个人绩效,个人成果质量和期刊质量有相关性,但不是完全一致。用论文指标评价科技强国,用期刊影响因子测科学家贡献,这都是有问题的。

  最后,科研评价流程中不同主体发挥的作用不一样。(1)明确评估对象、确定评估目标和选择评估方法,这个工作由科研管理部门完成,只有科研管理部门知道评估对象是谁,知道究竟评什么,同时科研管理部门有权选择评估方法。(2)定量方法,包括数据遴选、指标设计,是科学计量学界的工作。(3)定性方法,同行评议,这是科学共同体发挥作用的场合。

  

  图2 科研评价流程中发挥不同作用的三个主体

  我想试图提出一些系统的解决思路。首先可以系统设计科研评价全流程的《使用指南》,框架已经画出来了,在这个框架当中不同的主体发挥不同的作用,每个环节和下一个环节之间怎么匹配。现在都是在点上出问题,比如“清理四唯”说指标问题,分类评价说评估对象和评估目标之间的匹配问题,说成果评价又是在方法选择和评估目标之间的确定等等,这种问题是不同层次的,如果有一个全流程的《使用指南》这样大的框架,我们至少在大的方向上不会跑偏。第二,要倡导《使用指南》的规范使用。倡导说起来很容易,做起来非常困难,我们的期刊分区表在中国有四百多家用户(高校或科研机构),我们在不断对每个用户讲怎么样用分区表,依然有的用户其实是无视这些,倡导规范使用非常重要。第三,慎重发表科学计量学数据。第四,开展科学计量学评价研究。

  四、思考与建议

  科学计量学界对于科研评价的基本观点虽然已是老生常谈,但国内还在不断争议中。这个观点是说,越往上评价维度越偏宏观,越往下越偏微观,当评价维度越宏观的时候,比如国家或区域层面的科技评价,科学计量学发挥的作用越有效,越往下越微观层面上,比如是科学家个人评价和成果评价,同行评议发挥主体作用越显著。“科学计量学能解决绝大多数宏观的科学计量问题,但很难解决微观的尤其涉及到学者个人的科学计量问题。宏观的科学计量问题包括国家或区域层面的科技评价、科技绩效评估。但并不是说,科学计量学可以解决所有国家或地区的科学计量问题。”“微观层面的,科学计量学大致可以进行学者的影响力评价,但很难进行作者的学术水平、科研质量评价,要做这些评价,相对靠谱的还是同行评议,但我国的同行评议总体上质量也有待提高。”[6]

  

  另外,《莱顿宣言》所提出的十大原则凝练了基于指标的科研评估的规范,这些原则包括:定量评估应当支持而非取代专家的定性评估;评估指标应参考被评估对象的发展目标;重视和保护卓越的英语语种之外的学术研究成果;等等。这些原则在科学计量学界之外还是需要广而告之。

  最后,关于科研评价究竟怎么做?欧洲国家有很多经验可以参考,我们自己有一本期刊(Journal of Data and Information Science,《数据与情报科学学报(英)》, JDIS),也被ESCI收录,这个期刊有一个专辑,邀请七位在科研评价一线做工作的同行介绍挪威模型在欧洲的应用,介绍科研评价的实践经验,这个专辑去年年底出版之后,我们今年又翻译成中文即将发布。

  [1] Lingfei Wu, Dashun Wang, James A.Evans. “Large Teams Develop and Small Teams Disrupt Science and Technology”, Nature, 2019-02-13.

  [2] 科学网胡懋仁博客,《职称、职称,是梦?是痛?》,http://blog.sciencenet.cn/blog-678176-1119059.html.

  [3] 刘立,《科研评价要突出“唯原创性”标准》,《中国科学报》,2019年3月20日.

  [4] 熊丙奇,《论文崇拜撑不起科技强国》,《人才资源开发》2013年第4期。

  [5] 罗晖,《终结影响因子“暴政”,是时候了》,《科技日报》,2017年4月28日. http://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/html/2017-04/28/content_368275.htm?div=-1.

  [6] 俞立平,《科研绩效评价问题之一》,2018.10.21,http://blog.sciencenet.cn/blog-45134-1142119.html.