柯进:科研评价以量称重难掩隐忧

发布者:系统管理员发布时间:2013-05-15浏览次数:31

【核心提示】一年一度的中国科技论文统计报告公布后,引起国内科学界人士和网友的一片质疑。评价就是风向标。但现实中,以论文数量给人才称重的惯性依然存在。中国科技评价体系迫切需要进行一场深刻革命,给科技界建立一套科学合理且能适应创新型国家建设目标的评价体系。

 

图1:SCI收录中国科技论文占世界论文总数比例的变化趋势

图2:SCI收录中国科技论文数量世界排位的变化

图3:我国各十年段科技论文被引用次数世界排位变化

图4:2001-2012年间发表科技论文数20万篇以上的国家(地区)论文数及被引用情况

图5:Ei收录中国科技论文占世界论文总数比例的变化趋势
图6:中国作为第一作者与合作国发表的论文

 

  近日,一份由中国科学技术信息研究所发布的2011年度中国科技论文统计结果显示:2011年,我国机构作者为第一作者发表的国际论文共14.36万篇,发表在各学科最具影响力国际期刊上的论文数量排在世界第二位,其中4.29万篇论文的被引用次数高于学科均线,即论文发表后的影响超过其所在学科的一般水平。
  
  中国科技论文数量的快速增长,似乎让人们看到了中国科技的快速发展,但数量的增长是否就意味着影响力的提升和质量的提高?有学者对此表示了疑问。
   
  论文数量是评价科研工作的唯一标准?
  
  作为每年定期发布中国科技论文发表趋势和状况的一份国内权威统计报告,2011年度中国科技论文统计结果报告主要分析了我国发表的国际论文数量、国际论文被引用情况、国内发表论文数量、国内论文被引用情况,以及我国各学科领域、各地区、各类型机构论文分布和影响等方面的信息。
  
  该报告共两万余字,从中国国际科技论文产出状况、中国国内科技论文产出状况、中国科技期刊相关指标、中国精品科技期刊顶尖学术论文及中国科技图书评价四大部分,分别对国际权威检索数据库和由1998种中国各学科重要科技期刊构成的《中国科技论文与引文数据库》(由中国科学技术信息研究所1987年建立)2011年收录中国科技论文、中国科技期刊情况进行统计,并分析中国科技核心期刊的各项学术指标,评选出中国百种杰出学术期刊。
  
  尽管国际论文数据主要取自国际上颇具影响的文献数据库,但从报告总体来看,论文数量统计是报告的主体。报告的“中国国际科技论文产出状况”部分,统计文本1.2万多字,其中数量统计分析超过总篇幅的1/2,主要是对论文的各学科、各地区、各类型机构分布情况以及世界数量排名情况进行了详细统计。而报告另外约1/2部分的分析文本,虽然对统计年度的论文被引用次数进行相关分析,但依据论文被引用次数对国内高校、科研院所等机构及所在的地区排名,是该部分的主体,超过该部分分析文本的一半。
  
  以论文数量多寡排序的统计,不只是体现在国际排行榜中的位次。事实上,报告从数量维度,也对国内各省市区以及各主要高校、科研院所的论文发表数量进行了类似的“排座次”。
  
  表面上,这些数据及论文数量世界排名的同比分析,反映了中国科技论文的“井喷式”增长。报告依据SCI和EI等数据库收录论文情况,从横向和纵向层面分别对比了中国论文数量的增幅以及在世界排名位次的变化情况。比如,按照该报告的描述,“SCI数据库2011年世界科技论文总数为151.61万篇,比2010年增加了6.7%。2011年收录中国科技论文为16.81万篇,排在世界第二位,位次与2010年持平,占世界份额的11.1%,所占份额提升了1个百分点”。
  
  “这是科学研究还是相声段子?”“怎么又在说赶英超美了,地位超过了又能说明什么?”“这种统计分析太过于美国化,太注重排座次!”……报告公布后,引起国内科学界人士和网友的一片调侃和质疑。
  
  事实上,科学界人士和网友们的质疑并非空穴来风。翻开2011年度中国科技论文统计结果报告,仅中国国际论文部分的分析文本中,“在世界排名X位”字眼共出现了17次。分析文本也多次出现类似“超过法国”、“超过加拿大”等说法。
  
  论文绝对数量的增长,确实能在一定程度上折射近些年中国的科技变化。比如,持续的科技投入相当于给中国这辆飞快行驶的汽车加满了油,马力更猛了,速度更快了,越来越多的科研人员海外学成归国,带来了一些国际视野、先进理念和一些规范方法,使中国能够更快地接近世界科学研究的前沿;此外,不可忽视的一个因素是,现在国内理工科的优秀博士生越来越多,并已成为科研队伍的一支重要力量。
  
  毫无疑问,若单纯以此数据为参照,国人似乎可能会产生这样一种错觉:中国科技研究成果或科技实力出现了“井喷”态势,甚至正在比肩乃至超过美国。
  
  报告用16个页码5000多字的篇幅统计分析了中国国内科技论文情况,统计数据采自中国科学技术信息研究所1987年建立、目前收录1998种中国各学科重要科技期刊的《中国科技论文与引文数据库》。
  
  在“国内科技论文统计结果”部分,报告对国内科技论文数量、地区分布、学科分布、机构分布、经费投入与论文和专利数产出、中国百篇最具影响国内学术论文,进行了数据统计,并根据统计数据对产出论文的地区、机构、高校、科研院所进行了数量和论文被引用率等维度的排名。
  
  在当前国内学术浮躁的大背景下,如果评价过于注重数量统计,不仅极容易使高校、科研院所以及研究者们陷入为研究而研究的恶性循环,而且还容易误导研究者们过于追求论文数量,将论文作为成果的最终形式,这与建立创新型国家的追求其实是背道而驰的。SCI论文被视为高校和科研机构的GDP,近些年一直是衡量大学、科研院所和科学工作者学术水平最重要的甚至唯一标准,评职称、申请经费、评奖、晋升乃至评选院士,几乎都与此挂钩。
  
  在许多高校、科研院所,像《中国社会科学》所获得的科研小时或积分都比较高,不同的学术期刊刊发的论文、不同的出版社出版的著作,累计的科研小时或积分是不一样的,但只要有论文刊发或著作出版,就会有科研考评累计。
  
  以数量为导向的统计,在给国内学术评价“抱薪救火”的同时,也不利于国内良好学术风气的形成。近年来,有关学术造假、剽窃等报道屡见不鲜。原因其实就是评价的导向作祟,如果评价单纯地以发表论文为依据,过于注重数量,就可能会使研究者们迫于职称晋升、业绩提升等现实压力,主动去变更和修改实验数据,或凭空捏造实验数据,甚至抄袭、剽窃他人成果,这可能不是简单的学术道德问题,其实与目前尚不完善的评价机制不无关系。
  
  科研工作者该追求论文还是该追求成果?
  
  毋庸置疑,近年来,我国科技人员不论在国际还是在国内,发表论文的数量确实逐年在增加。2011年度中国科技论文统计结果报告显示,“2002年至2012年(截至2012年11月1日)我国科技人员共发表国际论文102.26万篇,排在世界第二位,比2011年统计时增加了22.3%,位次保持不变”。
  
  但是,若以论文被引用率作为影响力评价的指标,中国科技论文数量飞奔的背后,却依然掩盖不了质量普遍不高的现实。依据刚刚公布的这份统计报告,2002年至2012年11月1日,我国科技人员共发表国际论文102.26万篇,共被引用665.34万次,排在世界第六位,比上一年度统计时提升了一位。我国平均每篇论文被引用6.51次,比上年度统计时的6.21次提高了4.8%。世界平均值为10.60,比上年的10.71次有所降低。2002-2012年间发表科技论文累计超过20万篇以上的国家(地区)共有17个,按平均每篇论文被引用次数排序,我国仅排在第14位。每篇论文被引用次数大于10次的国家有10个。瑞士、美国、荷兰的论文篇均被引用次数达到16次左右。可见,我国平均每篇论文被引用次数与世界平均值还有不小的差距。
  
  当前的现实是,国内科技论文数量繁荣背后的因素是多方面的。多年来,我国论文总量的增长,或与现行学术考核评价机制倒逼存在一定的内在联系,比如,在一些高校、科研机构,一名博士生若不发表几篇SCI论文,甚至一名硕士生在校期间不发表一两篇核心期刊文章,就不能参加毕业答辩。
  
  不过,对中国国际科技论文统计报告的分析表明,评价的倒逼机制不足以解释论文数量的快速增长,因为从世界范围看,学术界的功利心比过去重了。这些年,经济的跨越式增长,影响了中国经济社会的各个角落,包括科学研究在内的许多社会领域对于速度普遍有一种崇拜情结。上海交通大学教授、“千人计划”入选专家蔡申瓯曾对记者说,在中国做科学研究是手机的速度,在美国是电子邮件的速度。
  
  检视世界各国重大科研成果,我们不难发现,科学研究是一种特殊的工作,它在某种意义上是少数人推翻多数人的现有结论或者发现多数人未能发现的事物和规律的一种创新性工作。坐在电脑前,用互联网上的算术方式,永远无法“设计”和解答一项重大科学研究问题。
  
  与哲学上的量变到质变原理不尽相同,在世界科技史上,一个国家论文数量的快速增长似乎并不能捂热一个国家的科技创新市场。几个单项高分撑不起像中国这样的发展中大国,而几个单项不及格却可能导致满盘皆输,中国学术界需要用扎实的研究构筑它总体的坚实。
  
  从2011年度中国科技论文统计结果报告文本来看,两万多字的报告中,“表现不俗”的中国国际论文占比是各界普遍关注的一个焦点(依据中国科学技术信息研究所的界定,按统计年度的论文被引用次数世界均值划一条线,高于均线的论文被称为“表现不俗”论文)。报告显示,2011年度“表现不俗”论文占我国国际科技论文总数的29.8%,就是说,中国国际科技论文只有近30%是在平均水平之上。只有我国50%的国际论文达到“表现不俗”,才能说我国国际论文的整体水平达到世界平均水平。
  
  实际上,报告中的“平均水平”说法很容易给人一种误解,似乎平均水平的论文质量很一般。由于发表论文和论文被引用的主体基本都是欧美等发达国家,世界平均被引用水平其实是一个比较高的水平。比如,日本国际论文迄今为止的篇均被引用率都低于世界平均水平,但是否就能说日本的科技水平低于世界平均水平呢?
  
  显然,论文的被引用率并不能完全体现论文自身的价值和水平。在诺贝尔奖的历史上,不乏有大量研究者的科研成果经过十年甚至几十年的科技发展后,才逐步被人们所接受和认识,并最终引领世界某一领域科技的发展。而这些被束之高阁了几十年的科研成果在当时可能并不被人关注,更谈不上什么引用率。
  
  北京一位学者说,论文只是科研成果的一个报告,成果远比论文重要。如果过于强调论文数量排名,可能形成追求数量攀比的导向,不仅不利于整个国家科技发展,而且误导大量研究者花费大量精力闭门造车,制造大批正确而无用的论文。其实,回顾新中国国成立后的科技发展,“两弹一星”代表了中国在上世纪六七十年代的科研实力和水平,但自始至终没有也不必要发表国际论文。而时下,中国的一些科学研究者孜孜以求地追求的不是成果,而是论文。为了追求影响因子或者提高被引用率,一些研究者甚至动员学生“扎堆”引用自己的论文。这样的论文,对于国家科技创新或者所在领域的引领性究竟有多大?
  
  “中国式”学术评价是否会扼杀创新精神?
  
  按照统计报告,“化学、材料科学、生物、物理、临床医学和数学等6个学科表现不俗的论文最多。能源科学技术、材料科学、化工、食品、农学和水利等6个学科产出的‘表现不俗’的论文占其全部论文的比例较高”。
  
  对此,网友“镜花水月”质疑说,同样是学科,其分类标准模糊而又交叉:化学、材料科学、生物、物理、临床医学和数学等6个学科似乎是按照数理化医分类,能源科学技术、材料科学、化工、食品、农学和水利等6个学科则是按照学科用途划分,而实际上大农学也包括食品和水利。
  
  据中国科学技术信息研究所的解释,在统计时,他们采用汤森路透的数据,第一步只能采用他们的分类,他们将所有学科分为22个学科大类。根据他们的分类,才能把“表现不俗”的论文挑出来。但是,他们对于中国发表的SCI论文,每一篇都按照中国国家标准学科分类代码重新分一次类。于是,根据挑出来的“表现不俗”论文数,再计算出占各学科论文总数的比例。
  
  报告在对国际论文地区分布进行统计分析时,提到“我国‘表现不俗’的论文82.1%由高等学校贡献,16.8%产自研究院所,主要来自北京、上海、江苏、浙江和广东等省”。这个结论一方面正好说明经济发展刺激了论文的增加,另一方面也体现了评价尺度与论文产出的正相关关系。当然,结论背后,或许还能印证的一个事实是:经济快速发展的地区,往往需要解决的科学问题比落后地区多,因此论文产出率相对较高。
  
  对于报告中多次提到的“论文第一作者”的说法,有学者指出,我国某些第一作者论文,并非第一作者做出了主要贡献,而是因为作者所在单位在考核或奖励时只认第一作者论文,于是作者就与外方“商量”,“争”出来一个第一作者。在报告的发布稿中虽然并没有提及和提供具体数据,但统计中学者们发现,像北京大学等中国一些优秀大学的第一作者论文数占其SCI论文总数的比例较低。也就是说,真正优秀的大学科研人员,即便现实中以量考核或以第一作者考核的学术评价机制摆在那里,他们也并不屑于去“争”第一作者地位,而是保持着自己特立独行的学术风格。
  
  然而,在不科学的评价体系之下,像这样的特立独行、不为现实评价所动的研究者究竟有多少,这显然是一个严肃而值得反思的现实问题。
  
  任何一项统计因统计方法和尺度的差异,都难以尽善尽美,只可能是一种参照。但是,在创新型国家战略安排之下,对于2011年度中国科技论文统计结果这份在中国科学界产生强烈导向作用的报告,我们真正需要思考的,或许不是中国国际科技论文在世界排行榜上的位次,也不是哪个机构、哪位学者发表论文的多寡,而是用什么标尺衡量一个科技人员的事业成功与否?
  
  在中国计算机界,李国杰院士可以算得上是一位特立独行的学者。作为中国改革开放后第一批出国留学并最早回国的成功人士,李国杰院士归国后带领团队打破了国际垄断,创建了曙光超级计算机,使中国计算机进入世界前列,推动了中国计算机技术的发展。近年来,他更是带领计算所自主开发出了“龙芯”芯片,应用于各种国产电子设备之中。留在美国的研究者,很多人现在的论文比他多,生活条件比他好,但大多数人都自认为在科学贡献上不如李国杰院士,事业上不如李国杰院士,成就感就差得更远。
  
  对于国内通行的以发表论文为衡量标准的评价体系,国内学者、海归专家无不扼腕叹息。事实上,论文只是研究结果的一部分,并非科学研究的目的,学者发表论文是要让他人了解其科研成果。科技工作者的动力与事业不是几篇论文所能称重的。研究人员专心科研的动力,除了科学发现的惊喜之外,是作为科学家的责任感,是以创新推动人类社会进步的成就感。
  
  在中组部举办的一次“千人计划”座谈会上,蔡申瓯对记者说:“我一直在反思,为什么在中国很多年轻人不愿意做科学?其中很大一部分年轻人是因为待遇低不愿从事科学研究。包括我教的学生中,很多很好的学生说,做科学是永远翻不了身的。所以,在提高年轻人待遇让年轻人安心、专心做科研的同时,我们的科研机构不要追求SCI这些没有意义的指标。这在中国发展初期是需要,但是现在发展已达到相对成熟的时候,就不能再追求这些虚的东西,要真正做深的、和别人不同的前沿的东西。”
  
  实际上,对于多年来简单以论文数量评价人才的弊端,科学界和官方都有清晰的认识。2011年11月教育部下发了《关于进一步改进高等学校哲学社会科学研究评价的意见》。意见提出,从根本上改变简单以成果数量评价人才、评价业绩的做法,摒弃简单以出版社和刊物的不同判断研究成果质量的做法。教育部还明确提出反对各种简单化的科研排名。
  
  教育部有关人士表示,正确认识SCI、SSCI等引文数据在科研评价中的作用,避免绝对化。与此同时,教育部要针对人员、项目、机构、成果等不同评价对象,人文学科和社会科学等不同学科领域,基础研究和应用对策研究等不同研究类型,论文、著作、教材、研究报告、普及读物、非纸质出版物等不同研究成果形式,建立健全符合哲学社会科学特点的分类评价标准体系。
  
  评价就是风向标。但现实中,以论文数量给人才称重的惯性依然存在。中国科技评价体系迫切需要进行一场深刻革命,给科技界建立一套科学合理且能适应创新型国家建设目标的评价体系。
  
   (上图均来自中国科学技术信息研究所发布的2011年度中国科技论文统计结果报告)

点击查看原图