1958年诺贝尔生理学或医学奖获得者乔舒亚·莱德伯格曾说过:“科学的繁荣需要很多条件,但是在这众多的条件中,科学家对本学科发展历史的了解、与同行的有效学术沟通显得尤为重要,阅读科学文献正在成为帮助科学家达到这些目的的最好途径。”

  今年5月, ISI中国区的工作人员石裴在Web of Science检索中国科学家的工作时,发现了复旦大学已故神经生理学家卢于道发表在1931年2月出版的《比较神经内科学期刊》上

  的一篇论文,这篇英文论文主要写的是对负鼠前脑的研究,总共被引用了196次,其中1990年到2004年的引用次数是27次,2004年的引用次数为1次;美国科学家对这篇论文的引用占总数的70%以上。石裴说:“卢先生70多年前的工作至今还在产生影响,这是一个激动人心的发现,说明中国科学家曾经为科学事业做出过重要贡献。如果没有‘世纪科学’项目,我是不可能发现这一事实的。”

  借助于50年前尤金·加菲尔德博士创建的科学引文数据概念、当今计算机数据库的强大力量,以及汤姆森科学信息公司的“世纪科学”(Century of Science)项目,今天,研究人员可在科学之网(Web of Science)上检索到自1900年以来全球出版的重要科学文献、参考文献和被引用信息,人类100年来科学技术的进展和成果以前所未有的方式呈现于世。

  1955年,时任美国约翰·霍普金斯大学韦尔齐索引项目负责人的尤金·加菲尔德(Eugene Garfield)在美国《科学》杂志上发表一篇论文,首次提出利用论文间的相互引用关系来组织和发现科学文献的概念——科学引文数据。

  经过半个世纪的努力,这一充满创新与价值的概念已经发展成为全球最大、最领先的引文索引数据库——Web of Science,其中包括科学引文索引扩展、社会科学引文索引、艺术与人文引文索引和最新化学反应与最新化合物检索五大数据库。

  今年,加菲尔德也迎来80岁的生日,汤姆森公司科学信息研究所(ISI)同时宣布“世纪科学”项目圆满成功,并加入Web of Science。“世纪科学”项目收录了1900年到1944年间高影响力科学期刊上的文献及其引文,自此,Web of Science的回溯数据因此从1945年回推到了1900年。ISI因此将2005年定为“庆祝之年”,并在全球各主要城市举行庆祝活动,中国的庆祝活动6月22日在北京香格里拉饭店举行。

  “世纪科学”项目高级总监菲尔·海勒出席了在北京举行的“庆祝之年”活动,并讲述了寻找百年科学文献的故事。

  为什么要寻找50年前的文献?

  20世纪初,玛丽·居里向科学界宣布了放射性元素钋和镭的发现,人类研究物质与能量的方法发生了根本性变化;

  1905年,爱因斯坦提出狭义相对论,10年后又提出广义相对论,从而提出了一个全新的理论框架;

  1922年,弗雷德里克·班廷和查尔斯·贝蒂发现了胰岛素——一种可以治疗糖尿病的物质;

  1928年,亚历山大·弗莱明发现球菌落可以抑制周围葡萄球菌的生长……

  以上仅仅是20世纪前半个世纪中众多发现中的几个,而仅仅这几项发现就让人类生活发生了翻天覆地的变化,开创了科学发展的新纪元。同时,还有其它不是那么耀眼的科学成就也同样在今天的科学研究中产生着深远的影响。但直到今天,这些记录重要科学发展的文献还被尘封在图书馆或档案馆中,它们只对极少数的人开放,却很难被学者没有限制地广泛使用。

  第二次世界大战后,以美国为主的各国政府将大量经费注入科学研究和开发中,导致文献数量的激增,ISI对文献资料的收集也回溯到1945年。在1945以前,科学研究和信息的交流并不如今天这样发达,而且由于两次世界大战,许多资料零散地分布在不同地方。但是,当研究人员和图书馆人员更为普遍地使用文献索引查询资料时,他们提出了这样的问题:“为什么不回溯得更久远呢?”研究人员的需求表明今天的研究仍然需要年代久远的文献,因此,ISI在1999年提出了寻找百年科学文献的想法,这是一项费时、费力、费钱的工作,经过两年的论证,“世纪科学”项目在2001年启动。项目组办公室设立在爱尔兰利默克(limerick),配备100多名全职员工和150多名兼职员工。

  哪些期刊应该被收录?

  ISI编辑部总监吉姆·特斯塔说:“我们置身于无数期刊当中,问题是哪些期刊是最有用的?”加菲尔德认为,经过筛选、评估的高质量的信息内容才是有价值的。“世纪科学”项目编辑部认为应该收录那些与今天的研究者有关,并且对其重要作用的研究文献。为了做到这一点,编辑们利用了Web of Science中最强大的工具——引文浏览与分析,来确定需要选择的期刊。

  第一步就是从Web of Science中1945年至2004年的引文数据分析开始。从1900年到1944年,哪一篇论文的被引频率是最高的?该论文发表在哪一个公开出版的期刊中?仅这一初步的文献筛选过程就涉及到20万种期刊。下一步则是提炼筛选的结果。编辑们决定从中找出至少被引用次数在50次以上的期刊,通过这一步骤,他们锁定了2000多种重要期刊。

  之后是要对编写的期刊名称进行辨识和统一。ISI期刊收录集团经理认为,早期人们在引用文献时常常不够精确、非常模糊,这是因为早期的科学期刊数量较少,当时行内的科学家彼此都很了解自己专业领域的主要期刊。文献年代越久远,面临的挑战就越大:经过了漫长的岁月,缩写改变了,命名习惯也改变了。利用Web of Science对期刊的被引用进行分析,最终使确认这些刊物的任务得以完成,而且这种分析将选择范围从2000多种期刊归并、缩小到1500多种期刊。

  海勒说,项目组成员在此基础上建立了一个期刊筛选的子库(dataset),筛选重点由期刊转向了论文。他们选出那些被引次数在100次以上的论文,并将这些论文的书目信息标准化,建立了一个基于论文筛选的第二个子库,最后将这两个子库进行合并和提炼,找出那些至少出版了5篇以上、被引次数超过100次的论文的期刊,或者期刊总被引次数超过1500次的期刊。

  到哪里寻找所需要的期刊?

  20世纪上半叶,世界范围内的通信水平还不很发达,在北美、欧洲或亚洲某些地方所发生的事情还不能散布到其它地方,英文还没有成为科学界的通用语言,许多重要的论文都是以母语发表在地区性期刊上。谁在保存这些档案?到哪里去寻找这些资料呢?海勒说,事实表明任何地方都有可能。根据当时科学事业的地理分布、图书馆藏量等因素,项目组在全球确定了10个合作伙伴,包括德国的海德堡大学和波恩大学,位于ISI所在地美国费城的宾夕法尼亚大学和费城医学院乌普萨拉大学、普林斯顿大学;英国的皇家化学学会、日本早稻田大学以及项目组所在地的爱尔兰的三一学院和科克大学等。

  海勒说,合作伙伴们立即看出了编辑和整理这些回溯文献的重大价值。他们帮助项目组在从分散的档案资料、珍稀馆藏中找出这些有价值的研究文献,并对这些被选中期刊编制出文献索引。资料分期分批地被送到利默克办公室,但由于大部分文献不是用英语,项目组请了30多位具有科技背景的翻译人员将这些文献翻译成英文稿。

  经过4年的努力,项目组终于在2004年11月完成了1944年至1900年间重要科学文献的收集和标志,ISI在2005年1月推出“世纪科学”项目的研究成果,并将该项目的成果并入Web of Science。海勒认为,世纪科学项目所实现的并不只是简单地汇集过去的期刊文献,而是通过揭示这些早期发表后百年来不断被引用的情况,人们将第一次清晰地看到科学如何在一篇篇文献的累积与引用中不断演化与发展。

  站在巨人的肩上

  如今,Web of Science收录了自然科学、工程技术、生物医学、社会科学、艺术与人文等领域最具影响力的8700多种核心学术期刊,其中的《科学引文索引扩展库》的数据可回溯到1900年,《社会科学引文索引》的数据可回溯到1956年,《艺术与人文引文索引》的数据可回溯到1975年,《最新化合物索引》的数据可回溯到1993年,《最新化学反应》的数据可回溯到1840年。Web of Science每年还在收录120万条文献和2300多万条参考文献,全球50多个国家的研究人员在使用这个数据库。

  牛顿说过:“如果我看得比别人远一点,那是因为我站在巨人的肩上。”加菲尔德认为:“世纪科学”非常重要的原因是无论在哪个研究领域,研究人员都能够发现在前50至100年间或多或少与自己所从事课题相关的工作。当然,现在肯定有一些新课题无需过多地依赖以前的文献,但这个数据显示了人们参考早期文献的频度,即通常所说的“原始文献”。有数以百计的重要“原始文献”仍然十分频繁地被引用,能够利用这些原始文献确实扩大了研究人员的视野,这些文献对科学史的专家来说也极其珍贵,而科学史研究今天仍然是一个重要的课题。