刘则渊:迈向引文分析 4.0 时代 

转载 2020-09-17 15:07  阅读 49 次 评论 0 条

科学文本,其形式包括论文、报告和专著,与非科学文本的突出区别,就在于其带有引文,即引用参考文献。科学文本及其引文,是科学交流与传播的方式和痕迹,也是科学情报获取与文献检索的手段和方法。科学情报及其引文数据库的建立促使科学计量学从对科学数据的统计分析转向以引文分析为主的方法,并不断升级,深化拓展。如今随着全文本开放获取数据库的出现,科学计量学开始进入全文引文分析的新阶段,迈向引文分析4.0时代。呈现在读者面前的《全文引文分析:理论、方法与应用》一书,就是作者胡志刚在这一背景下做出的一项创造性成果。

然而,由科学引文带来的引文分析、科学评价等研究活动及相关的被引次数与影响因子等测度指标,或因使用不当,或因人们误解,而一直颇遭诟病。有的学者甚至试图撇开引文,以替代计量学(altmetrics)来取代引文分析。这是对引文分析的严峻挑战,我们必须回应和回答。因此,这里想借为本书作序之机,对上述疑惑和问题做必要的历史追溯和理论说明。事实上,科学文本的引文现象,以及由此发生的引文分析,有着久远的历史渊源和广泛的理论基础。

科学文本的引文存在,是近代科学产生以来的一种特有现象。科学引文是科学共同体在逐渐达成的两个基本共识——科学的无偿馈赠性和发现优先权的基础上,实现科学文本规范化、制度化的产物。从科学学的一般研究范式看,一方面,科学作为一种认识现象,离不开前人获得的知识、方法与工具,据以对自然的观察实验获取新的知识,前人的科学知识是不费分文而可以自由引用的;另一方面,科学作为一种社会现象,又必须尊重和承认前人科学发现的优先权,无论引用的目的和动机如何,都要注明被引文献及其作者,承认被引文献的署名权或著作权,否则会被视为学术不端行为。因此,引文既是科学文本的知识基础和依据,又是对被引作者权利的承认和尊重,从而成为科学文本的组成部分,使科学文本取得合理又合法的地位,由此形成规范化的引文制度和文化。这可以称为引文发生的知识馈赠-知识产权二重性理论。

引文发生和引文分析的另一个理论基础是科学交流与知识流动理论。科学文本是科学传播与交流的基本单元,而引文就是科学传播与交流的痕迹。随着科学论文数量的急剧增长,科学期刊发文的周期变长、效率变低,科学情报处理的手工作业方式严重妨碍了科学传播和交流,各门学科最新进展无法得到及时迅速传递而影响到科研活动。

贝尔纳(John Desmond.Bernal,1901—1971),英国著名物理学家、剑桥大学教授,科学学创始人。

科学学奠基人贝尔纳(J.D.Bernal)最早敏锐地察觉到这一科学情报危机,在多种场合提出各种举措加以解决。从1939年的《科学的社会功能》、1958年的《科学情报传播:用户分析》,到1964年的《科学的科学》,贝尔纳反复强调以多种科学服务方式来取代科学期刊,实现科学成果的直接交流,同时主张借助自动化机器进行科学情报的处理、编目与归档,以加快科学情报的传播与交流。众所周知,在20世纪60年代以前,科学界一直凭借科学交流留下的引文踪迹,作为人工获取科学情报,查找与检索科学文献的一种途径与线索。加菲尔德(EugeneGarfield)据此提出了科学文献检索的新方法。1955年,他发表了《科学引文索引:文献学中贯穿观念联系的一个新维度》一文,提出借助科学论文之间的引用文献所构成的观念联系,作为检索科学情报的新手段。这就使科学交流从文本单元深化到知识单元。

尤金·加菲尔德(Eugene Garfield,1925—),美国著名的情报学家和科学计量学家,

SCI(Science Citation Index,即科学引文索引)的创始人。

同时,加菲尔德受贝尔纳关于机器处理科学情报的意见启发,尝试建立起科学引文索引(SCI)系统,这不仅创造了一种新的情报检索工具,而且由此意外地诞生了一个副产品——科学引文分析,引起科学计量学方法的深刻变革。这样,加菲尔德将贝尔纳基于文本单元的科学交流思想,发展为基于知识单元的知识流动理论,从而成为引文分析的核心理论。引文分析的知识流动理论,阐明引文分析的本质是知识流动的过程,展现了知识单元的离散和重组、继承和创新、演进和升华的复杂过程。另外,一个知识领域的科学共同体,其最活跃的成员往往能敏锐地把握学科发展态势,产生新观念的知识共鸣,成为知识流动的共同来源,却又各自独立平行地获得类似的科研成果。这样,知识流动理论也为非引文关系的科学文献进行基于知识单元的共词分析提供了理论依据。

普赖斯(Derek John de Solla Price,1922—1983),美国科学家、科学计量学奠基人和情报科学创始人之一。

值得关注的是,引文分析还有一个更为厚实的理论基础——科学网络的模型,包括贝尔纳关于科学发展的网络模型和科学计量学之父普赖斯(Derek John de Solla Price)关于科学引文的网络模型。早在1955年贝尔纳就指出:“科学中的总的发展模式还是相当清楚的:这种模式与其说像树,不如说像网。与课题或应用直接相关的科学工作的内容,可以比作网的网眼。各条线的交叉点是经验和思想集合的地方,是中心点,是一些新发现,从这里产生各种各样的应用技术和科学学科。……网不断在编制,网上尚有未连接起来的线头,可用不同的方法把它们连接起来。”

对此,普赖斯与贝尔纳气息相通,他透过加菲尔德发明的科学引文索引看到更加激动人心的引文网络模型。他说:“出人意料的是,作为一项处理科学文献的引文索引法的副产品,把它用于进一步扩大上述各种模型的应用,是很完备的。而这一点主要应归功于贝尔纳为解决后来人们才认识到的情报危机而提出的那些颇具革命性和建设性的意见。因为引证许多论文,也就形成了一个以某种复杂的方式,把它们全都连接在一起的网络。借助这种网络模型,人们就可以用图论和矩阵的方法来加以研究。它似乎还向人们暗示,论文一定会聚集成团,而形成几乎绘制成地图(显示出拥有高地和不可逾越的沼泽地)的‘陆地’和‘国家’”。

紧接着在著名的《科学论文的网络》(1965)一文中,普赖斯把上述构想变成了现实:“每篇已发表论文和与之有直接关联的其他论文链接起来,从而展现出当代世界科学论文网络的总体特征。”此文开启了以引文分析和网络分析为基础的科学计量学新方向,阐发了绘制科学引文网络图谱来探测科学前沿的可能性。该文开头,普赖斯有一句箴言:“参考文献的模式标志科学研究前沿的本质。”这句话是贝尔纳的创意、加菲尔德的发明和他自己的破解三者的结晶。它表达的引文网络模型,连着你、我、他,连着昨天、今天和明天,连通全球知识世界,从现有知识基础走向科学研究前沿。普赖斯特别强调指出,正是研究前沿将科学从其他学问中区别开来,并确认引文使科学比非科学更快速累积的机制。

综上所述,关于科学文本引文现象与引文分析的三个基础理论——知识馈赠-知识产权理论、科学交流与知识流动理论、科学网络与引文网络理论,揭示了科学文本引文现象的内在基本特征,解开了科学引文分析持续发展、长盛不衰的奥秘。

如前所述,科学文本不可分离的参考文献,是区别于非科学文本的显著特征。科学文本的引文,所引注的参考文献,无论是夹注、脚注还是尾注,都是科学文本的组成部分。人们从引文可以追索论题、领域或学科的来龙去脉,一直追到概念和思想的源头,由此引发科学文本内容的更新换代、日新月异、突飞猛进。而非科学文本却并非如此,其引注虽然也有多种方式,如朱熹的《四书集注》采用夹注方式,对《论语》等四书的每一句话都引经据典做了批注,但这只是后人对先贤的解读,反映了儒家思想从孔子(公元前551—公元前479)到朱子(1130—1200)长达1700年的缓慢变化,文学作品则几乎没有引文。

正是科学文本引证不同理论、不同领域、不同学科的参考文献,形成复杂的科学引文网络,直接或间接地反映了不同理论之间、理论与实验之间的矛盾关系,科学引文之间多学科、跨学科的结构关系,引文代际继承与创新、基础与前沿的关系,从而表现出科学文化相对于非科学文化的优势与特征,最终构成科学生生不息、加速累积的内在机制与发展动力。

同时,科学学视野下的三个科学引文理论,反映了科学引文分析的内生动力与神奇魅力,展现了引文分析方法的发展潜力与广阔前景。

自1961年SCI数据库诞生以来,引文分析方法应运而生,迅速起步,不断深化与拓展,大致可以分为如下几个阶段:

普赖斯、加菲尔德首创基于SCI的引文分析,可谓引文分析1.0,以普赖斯的《科学论文的网络》为代表,虽然这个阶段仅10多年时间,却预见到基于引文分析的科学图谱革命必将到来。

继之,著名科学计量学家斯莫尔(HenrySmall)的科学文献共被引分析、两位著名科学计量学家怀特(HowardD.White)和麦肯(K.W.McCain)的作者共被引分析先后突起,上升为引文分析2.0,以斯莫尔的《科学文献的共被引》为代表,这个阶段持续长达1/4世纪,艰难探索引文分析的知识图谱。

之后,20世纪末信息可视化技术产生并引入科学引文领域,导致基于引文网络分析的科学知识图谱悄然兴起、迅速发展,堪称引文分析3.0,以著名信息可视化专家、引文网络分析可视化软件CiteSpace发明人、美籍华人学者陈超美(ChaomeiChen)的《科学前沿图谱:知识可视化探索》为代表。这样,自20世纪60年代至21世纪初叶,科学计量学进入引文分析主导的黄金时代。

现在伴随全文本开放获取数据库的出现,新一代的引文分析——全文引文分析问世了,我们开始迈向引文分析4.0的时代。

全文引文分析,作为引文分析4.0,相对于与引文分析3.0有些什么变化呢?

任何引文分析的研究对象都涉及施引文献(科学文本)与被引文献(参考文献)之间的交集,而作为高端的引文分析3.0,CiteSpace知识图谱体现了知识流动的引文时空分布,它巧妙地设置表示时序的色调实现其引文时间分布;它从施引文献提取基于知识单元的标识词,以表征共被引聚类显示的研究前沿;它凝聚了被离散的知识单元,从而发现了科学文本与其参考文献之间交集的共性知识内容。

然而,由于依托非全文科学引文数据,缺失科学文本本身的空间信息,CiteSpace图谱的“引文空间”只是笼统的抽象空间,无法展现知识流动在现实科学文本中的空间分布。

与引文分析3.0不同,全文引文分析最突出的特征在于依托全文科学文本中的引文空间信息,反映施引文献全文与其被引文献之间交集内容的知识流动理论,拓展为完整的引文时空结构与分布理论。

全文科学文本蕴藏的丰富引文空间信息,是一片尚待开垦的处女地,为拓荒者提供了大展宏图的机遇与场所。令人欣慰的是,一批意气风发、脑洞大开的中外学者,包括大连理工大学WISE实验室的年轻博士,几乎同时开展全文引文分析的探索,引领引文分析4.0的新潮流。《全文引文分析:理论、方法与应用》就是作者站在这个引文分析4.0潮头大胆弄潮的一部力作。我高兴地看到,该书在原来博士论文的基础上,经过修改、调整和补充,展示出结构更加严谨、创新更加突出的全新面貌。其独到创新之处主要有以下几方面:

首先

设计和开发了一种基于XML格式全文数据的引文分析系统,进而通过对施引文献与被引文献之间的交集内容进行辨识,构建了一个由引文空间要素的位置、强度和语境所组成的全文引文分析框架,并推演出全文引文分析方法的基本功能,从而搭建了可供引文空间分析及其应用研究的全文数据分析平台。

其次

以国际期刊《信息计量学学报》(JournalofInformetrics)全部论文(2007~2013年)的全文数据为案例,借助XML格式全文数据分析平台,实现了全文引文空间的位置、强度和语境及其特征的分析,其中独创了一种直观展现全文引文位置空间分布的可视化图谱,显示出被引经典文献在施引论文中的空间分布规律性。

最后

从全文引文的位置、强度和语境三个方面,分别应用于科学知识图谱、科学论文评价和科学文献检索等领域进行了探索性的研究,取得了全文引文分析所特有的优越效果。例如,基于全文不同章节高被引文献的共被引网络知识图谱,展示了不同章节引文图谱的不同内涵,从而更加微观地反映了科学研究前沿及其知识基础。

诚然,这部著作毕竟是对全文引文分析的初探,难免存在一些不尽如人意之处。在我看来,某些术语、概念存在纠结,值得深入推敲;对全文引文分析的理论基础研究尤为单薄。该书所利用的全文引文信息远不及全文遮蔽的引文信息,它所研究处理的全文引文几个方面的问题远少于它所引出但未予关注的问题。对此,我相信作者当会在全文引文分析领域继续研究中给予关注和探讨。

作为该书基础的博士论文,我作为指导教师之一,提出的许多意见和建议得以接受和吸收;该书仍有个别方面与我的见解不尽一致,在学术上是正常的,我们师生之间相互尊重、彼此相长。

我尤其欣赏志刚的创意和其细致、坚韧的精神与学风,他不轻易放弃个人观点和独立的人格,显得更为难能可贵。这是这部著作成功之所在。

现在,针对一些人对于引文分析领域产生的一些疑虑和责难,我们可以从全文引文分析的视角和前述三个基础理论的高度做出回应了:

我认为这些质疑和责难,在很大程度上在于人们对引文作为科学文本不可分割的基本特征认识不足,对引文作为科学与非科学的区别并使科学比非科学更快累积的机制不甚了解,对科学文本的引文特征作为科学评价的内生指标及其不可替代性缺乏理解,对引文分析作为科学文本的内生方法及其潜力估计不足。

因此,蔑视科学文本内生的引文分析,企图用替代计量学取而代之,是不可能的。但是科学文本的传播与影响涉及诸多方式与方面,在科学评价中补充一些指标是完全应当的,或许把全文科学论文的内生指标与外生指标结合起来进行科学评价更为合理。基于此,我建议改用“补充计量学”(suppmetrics, supplementary metrics)的术语来取代“替代计量学”。

至于科学界反对用期刊影响因子进行科研评价的呼吁和行动,我认为是完全正义的。期刊影响因子与引文分析本身不同,倒是成为科学期刊阻碍科学交流的新例证,因此与其抨击影响因子,不如响应伟大科学家和科学学奠基人贝

尔纳的一贯倡导,取消科学期刊,实现直接交流。现在一系列科学论文预印本数据库的涌现,为科学直接交流、废止科学期刊创造了条件。

末了,似应对全文引文分析的前沿问题与未来方向做一个概括,但我以为不必如此,细心的读者或许已从前面的讨论中了解到我的基本看法,如果再发表几条,不仅有画蛇添足之嫌,而且会误导或限制刚刚兴起的全文引文分析研究与发展。

所以,还是回到为该书做序的本意上来,向我们的科学学及科学计量学界、科学情报学界、科研管理界和对引文分析领域感兴趣的广大读者,推荐《全文引文分析:理论、方法与应用》这本值得一读的书。同时,也期待作者胡志刚博士,继续奋发努力,永不停息,向着引文分析4.0的无尽前沿迈进,做出无愧于这个伟大时代的贡献。

本文地址:http://51blog.net/?p=11297
关注我们:请关注一下我们的微信公众号:扫描二维码广东高校数据家园_51博客的公众号,公众号:数博联盟
温馨提示:文章内容系作者个人观点,不代表广东高校数据家园_51博客对观点赞同或支持。
版权声明:本文为转载文章,来源于 刘则渊 ,版权归原作者所有,欢迎分享本文,转载请保留出处!

发表评论


表情