PC版
搜索导航
论文网 > 理学论文 > 统计学论文

基于CSSCI(2000~2011)的我国统计学学科知识图谱研究

  中图分类号: G8/ G255.2 文献标识码: A 文章编号: 1003-6938(2014)02-0094-08
  Abstract Based the statistics of statistical core journals in CSSCI (2000-2011), the study displays the evolution of research, knowledge sources in the recent 12 years by mapping knowledge domains. The paper also makes annual analysis on the research hotspots, the research frontiers and the knowledge bases. On the other hand, the study finds out the statisticians who have a far-reaching influence on statistical research. Their collaborative relationships are also discussed, together with their research fields, high cited papers.
  Keywords statistical journal; knowledge mapping; CSSCI; term co-occurrence analysis; core documents; co-author analysis
  1 引言
  南京大学苏新宁教授分析了影响人文社会科学期刊学术质量和影响力的定量指标,构建了我国人文社会科学期刊评价体系[1]。在CSSCI数据基础上,胡?对统计学期刊指标加以统计分析,量化展示了各期刊的学术影响力及发展变化趋势[2]。马敬从篇均引文量、基金论文比、作者地区分布广度以及作者机构标注率四项指标出发,深入探讨了统计学来源期刊的学术规范[3]。赵良英以4种统计学来源期刊为数据源,通过核心期刊论文及作者分析,揭示了我国统计学科研队伍的状况、整体科研实力和科技产出力水平[4]。文章在以上研究基础上,通过关键词共现、文献共被引、作者共被引、作者合作分析我国统计学来源期刊,图形化的呈现我国统计学2000~2011年间发展历程。
  知识图谱是在引文分析、社会网络分析、科学可视化和信息可视化基础上发展起来的一个跨学科领域,起初其研究大多是基于引文分析的理论和方法。Small Henry首次提出了论文共被引的概念和分析方法,并绘制了SCI中粒子物理学领域高被引论文的共被引图谱[5]。Mane和Brner探讨了Kleinberg突变检测算法、共词分析方法和图形可视化技术在科研趋势发现中的应用[6]。陈超美在突变检测领域算法基础上,通过寻径网络技术开发了知识图谱工具Citespace[7],并在恐怖主义研究领域进行了应用[8]。梁永霞等利用Citespace对引文分析主题文献,进行了知识图谱构建和分析[9]。
  本文将人文社会科学计量方法与知识图谱工具相结合,以2000-2011年间CSSCI收录统计学来源期刊发文及引用为数据基础,可视化分析我国统计学的科研发展历程。图谱相关参数及说明如下:(1)频次(Frequency),图谱知识单元节点大小与其频次大小乘正比;(2)中介中心度(Centrality),图谱知识单元与其他单元的连接情况,代表了其在网络中的联通作用;(3)突变(Burst),对于关键词等知识单元可以考察其各年度频次变化,出现重大变化的具有较大突变值,表明其可能代表学科前沿;(4)聚类指标(Modularity),衡量图像聚类效果。需要说明的是,对于发文中的不规范,文章进行了清洗,去除了未标注作者的公告、通讯等数据,并根据可视化工具格式进行了必要的数据转化。
  2 统计学来源期刊关键词共现图谱及分析
  共词分析是科学计量学的重要研究方法,近年来随着社会网络分析技术的兴起,对于网络中具有高中介中心度节点的研究也成为学者关注的研究对象。本节将通过绘制2000~2011年统计学整体的关键词共现图谱,将这12年来统计学的研究内容直观地在网络图谱中展示出来,进而揭示国内统计学研究的知识结构及其演进。在数据处理时以两年切片,选取合适的阈值,得到网络节点数177,经Pathfinder算法修剪后得到连接数181,可视化聚类视图见图1。
  图1中按照中介中心度的大小来控制节点标签的显示,节点大小与其代表的关键词出现频次大小成正比,圆环的颜色代表年代信息。由于本次采集数据始于2000年,故2000年出现关键词突变不在讨论范围内,本文列出上图中出现频次前30个关键词(见表1)。   表1可知经济增长、指标体系、因子分析和上市公司是这12年来国内统计学学者们使用最多的关键词,且均是中介中心度大于0.1的关键节点。为了更清晰地反映关键词之间的关联及其出现的年份信息,特绘制关键词Time Zone视图(见图2),该视图是由一系列标识时区的颜色相间的柱形区域构成,这些时区按照时间顺序从左向右排列,节点的位置代表其出现的年份信息,由此可以直观的看出各年度出现的关键词。
  由表1、图1和图2中的信息并综合聚类结果,可以将这12年我国统计学的研究主题归纳为如下五大领域,下面将分别阐述各个领域的发展脉络与趋势:
  (1)统计学基础理论研究在这12年里一直是国内统计学学者研究的核心领域,位于图1的中心位置,是连接其他研究领域的枢纽,包含统计工作、统计学、统计方法、抽样调查和统计分析等热点关键词。主要是对统计学的基本概念、研究对象、研究范式、统计方法、学科建设与发展的研究。由于统计学研究方法的不统一、学科应用广阔、研究的日益泛化,同行学者对统计学基础理论方法的研究将会持续升温,迈上新的理论高度。
  (2)国民经济一直是这12年我国学者研究的热点领域,随着统计学研究理论与应用的发展,其开始向经济统计拓展。2002年国民经济、扩大内需、WTO、国民经济核算、统计信息、国民经济、扩大内需、统计人员、国内生产总值和gdp等关键词的出现,表明国民经济已成为国内统计学研究的重要组成内容。2004年国内统计学绿色gdp、Gdp、经济增长、抽样调查、经济发展得到了更为广泛的关注,尤其是2006年以来作为国民经济的热点研究领域,日益受到国内统计学研究人员的重视。经济增长、政府统计、gdp核算、国民经济核算、农业普查等成为主要关键研究热点。由此可见,国内统计学的国民经济分支研究领域日益呈现出网络化、综合化和应用化的趋势。
  (3)统计技术方法在这12年一直是我国统计学学者研究的热点领域,从传统的层次分析法、评价指标、评价指标体系和评价模型到因子分析、综合评价和主成分分析。2000年出现统计调查、抽样调查、统计分析、统计工作和统计数据的研究。随着2002年实证分析成为热点,继而2004年聚类分析、数据挖掘的出现,统计方法更为多样,同时实证分析得到迅速发展。随着指标体系、层次分析法、主成分分析和评价的不断发展,作为主要统计方法的层次分析法得到了国内统计学学者一直的关注,统计方法领域的研究日益成熟。
  (4)统计信息化从2002年至今一直是我国统计学学者研究的热点领域,从图2中可以看出统计信息化历年来的研究主题包含统计工作、统计改革、统计数字、统计工作者和证券市场等。历年来统计信息化的研究经历了从传统的问卷调查、抽样调查统计到证券市场和股票市场不断发展,统计信息化服务日益呈现出技术化、完全化和具体化的趋势。
  (5)统计分析预测从2008年至今成为是我国统计学学者研究的新型热点领域,根据图1中统计分析中的预测、协整分析节点从里到外各个颜色圆环的厚度,可知预测、协整分析近年的出现频次均较高,特别是从2008以来一直是我国统计学较为广泛的研究内容,通过图2可知其研究内容可归纳为:预测、绩效评价、数据包络分析、协整分析、产业结构等。由此可见,国内统计分析的研究逐渐脱离理论层面,日益呈现出实用化、实践化、技术化和专业化的趋势。
  3 统计学文献共被引图谱及分析
  通过文献共被引分析可以追溯研究的历程,并获取对研究对象产生重要影响的学术著作。本节将绘制2000~2011年整体的文献共被引图谱,来揭示这12年来国内统计学研究的知识源流的结构特征及其演进。以两年为时间分片,选取合适阈值,得到节点数116,连接数82,可视化视图如图3。
  图3中根据文献的被引频次来控制节点标签的显示,节点大小与所代表文献的被引频次成正比,节点颜色代表年份信息,每个节点由里到外圆环的厚度表示对应年份的被引次数,节点间连线的颜色表示这两篇文献共被引的年代信息。本文列出图3中被引频次大于20(包含30)的文献共35篇,按被引频次降序排列(见表2)。
  表2中35篇引文可看作2000~2011年的重要知识源流,可以清楚的看到,这些著作的发表及出版对这12年来统计学的学术研究具有深远的影响。其中易丹辉的《数据分析与Eviews应用》的被引频次、中介中心度位居第一,可见是我国统计学研究经典的关键文献。图3中共有22篇中介中心度大于0.1的关键文献,除了表2中的十三篇外,其余的九篇分别是:Anselin的《Spatial Econometrics: Methods and Models》、张晓峒的《计量经济学软件Eviews使用指南》、邓聚龙的《灰色系统基本方法》、刘伟的《产业结构与经济增长》、赵卫亚的《中国城镇居民消费函数的变系数Panel Data模型》、科克伦(张尧庭译)的《抽样技术》、古扎拉蒂.N.达摩达尔 (林少宫译)的《计量经济学》、Simon Coles的《An Introduction to Statistical Modeling of Extreme Values》、张军的《中国省际物质资本存量估算:1952-2000》。这些文章的发表得到了国内统计学学者的较高引用,很好的印证了国内统计学各年度的研究热点内容转变。
  为了更好地理清国内统计学引文随着时间的推演进程,绘制了时间线视图(见图4),按中介中心度的大小来控制节点标签的显示,图中节点所在的位置表示所代表引文的发表时间,各条横向粗线的长短代表各个聚类所跨时间的长短。
  由图4可以发现,引文发表年份分布在1972至2009的时间段内,并主要集中在1952到2009年间。通过综合图3的聚类信息、表2的各个指标信息和图4的引文年代及研究热点与知识源流间的对应信息,和对这些文献内容的分析,可以看出2000~2011这12年来国内统计学研究知识源流演进的关键路径:   (1)统计学基础理论。学科基础理论成果一直统计学研究的核心知识源流,这12年来统计学基础理论研究最为重要的知识源流随着时间的演进如下:1990年邓聚龙的《灰色系统理论教程》、1998年茆诗松的《高等数理统计》、1999年于秀林的《多元统计分析》、2001年张文修的《粗糙集理论与方法》和盛骤的《概率论与数理统计》、2002年谢识予的《经济博弈论》和邓聚龙的《灰理论基础》、2004年侯杰泰的《结构方程模型及其应用》和刘思峰的《灰色系统理论及其应用》、2005年肖新平的《灰技术基础及其应用》。这10篇引文组成了统计学基础理论领域知识源流演进历程中的关键路径。
  (2)国民经济。国民经济领域的学术成果是这12年来国内统计学学者最为重要的知识源流。按时间顺序依次列出历年来具有重要影响的知识源流如下:1988年Anselin的Spatial Econometrics: Methods and Models》、1995年联合国(国家统计局国民经济核算司译)的《国民经济核算体系(1993)》、1999年陈静的《上市公司财务恶化预测的实证分析》和谈儒勇的《中国金融发展和经济增长关系的实证研究》、2000年李子奈的《高等计量经济学》和张晓峒的《计量经济分析》、2001年王春峰的《金融市场风险管理》、2004年张军的《中国省际物质资本存量估算:1952~2000》、2005年彭国华的《中国地区收入差距、全要素生产率及其收敛分析》。这9篇引文组成了国民经济统计领域知识源流演进历程中的关键路径。
  (3)统计方法。统计方法的一直是统计学研究的主要内容,其重要知识源流按时间的演进如下:1985年科克伦(张尧庭译)的《抽样技术》、1987年邓聚龙的《灰色系统基本方法》、1988年魏权龄的《评价相对有效性的DEA方法:运筹学的新领域》、1990年王莲芬的《层次分析法引论》、1998年何晓群的《现代统计分析方法与应用》和冯士雍的《抽样调查理论与方法》、1999年王惠文的《偏最小二乘回归方法及其应用》、2004年徐泽水的《不确定多属性决策方法及应用》、2005年杜栋的《现代综合评价方法与案例精选》、2005年郭庆旺的《中国全要素生产率的估算:1979~2004》。这10篇引文组成了统计方法领域知识源流演进历程中的关键路径。
  (4)统计信息化。这12年来统计学学者对该领域研究所引用的重要知识源流按时间演进如下:1995年联合国秘书处的《国民经济核算体系》、1996年张维迎的《博弈论与信息经济学》、1997年高惠璇的《SAS系统:SAS/STAT软件使用手册》、2004年张维迎的《博弈论与信息经济学》、2005年飞思科技产品研发中心的《神经网络理论与MATLAB7实现》。这5篇引文组成了统计学统计信息化领域知识源流演进历程中的关键路径。
  (5)统计分析预测。预测分析是这12年统计学研究的热点内容,其所依赖的重要知识源流也经历了如下的时间演进:1982年张尧庭的《多元统计分析引论》、1989年方开泰的《实用多元统计分析》、2001年吴世农的《我国上市公司财务困境的预测模型研究》、2002年易丹辉的《数据分析与Eviews应用》、2003年余建英的《数据统计分析与SPSS应用》和张军的对中国资本存量K的再估计》、2004年魏权龄的《数据包络分析》和何晓群的《多元统计分析》、2006年高铁梅的《计量经济分析方法与建模计量经济分析方法与建模:EViews应用及实例》和2007年张晓峒的《Eviews使用指南与案例》。这10篇引文组成了统计学预测分析领域知识源流演进历程中的关键路径。
  通过上述五大领域的重要知识源流组成的五条关键路径,可以分别得出我国统计学研究的知识源流的结构组成及其内容的演化历程,进一步印证了上节中各大领域的研究主题演化脉络,同时对其进行了更深入、更全面地补充。
  4 统计学作者共被引图谱及分析
  通过考察学者共被引可以发现对我国统计学产生重要影响的学者,本节将绘制作者共被引图谱以发现对这12年国内统计学研究具有重要影响的学者。通过统计,学者被引频次10次及以上共有91位,20次及以上的有85位,50次及以上的有35位,本文将被引频次100及以上的作者视为统计学界的领军人物,共有15位。以两年为时间分片,选取合适的阈值,运行得到节点数91,连接数93,通过进一步的整理合并与优化调整分别得到高被引作者列表(见表3)和作者共被引可视化聚类视图(见图5)。
  由表3可以看到国家统计局、高铁梅和张维迎是国内统计学领域最具影响力的三位学者及机构作者,另外国外的Robert Fry Engle和Tim Bollerslev对我国统计学的发展具有重要影响。
  图5中节点大小与其所代表作者的被引频次大小成正比,通过设置中介中心度的阈值来控制节点标签的显示,由图可以清楚的看到国家统计局、邓聚龙、张军、Tim Bollerslev、李子奈和何晓群位于图谱的中心位置,具有较高的中介中心度,表明这些学者在我国统计学领域的知识流动和控制上具有重要的作用。
  为了更直观的辨清这些被引作者的具体影响领域,本文通过Citespace的自动聚类标签算法来对图5中各个聚类进行标注,通过对比分析Citespace中的tf*idf、LLR和MI三种聚类算法效果,最终选择使用LLR算法来标注聚类,得到图6。
  图中#标签词语表示对应聚类的中心关键词标签,这些标签为相关聚类中心词,可以为进一步分析提供线索。可以看出右上区域出现的状态空间模型、国民经济核算、收益均衡和区域经济差距等聚类标签,综合表3、图5和6,并通过查证这些被引作者对应的高被引文献内容,作进一步的归纳、合并和分析,可以将这些被引作者划分为如下五大领域的学术群体:
  (1)统计学基础理论。主要的关键高被引作者有:邓聚龙、刘思峰、张军、林毅夫、徐泽水、郭庆旺、刘伟、樊纲、易纲、王小鲁、刘斌、胡鞍钢、袁志刚、沈利生、邱菀华。   (2)国民经济。该领域的关键被引作者相对较多,主要的关键高被引作者有:国家统计局、许宪春、邱东、国家统计局国民经济核算司、经济合作与发展组织(OECD)、吴世农、张文彤、联合国。
  (3)统计方法。国内主要的关键高被引作者有:刘金全、王少平、谢平、赵留彦、叶阿忠、王春峰,国外高被引作者主要有Tim Bollerslev、Fischer Black、Luc Anselin、Robert Fry Engle。
  (4)统计信息化。主要的关键高被引作者有:张维迎、谢识予、徐国祥、盛骤、贾俊平、曾五一、庞皓。
  (5)统计分析预测。该领域的被引作者最多,主要的关键高被引作者有:高铁梅、易丹辉、李子奈、张晓峒、杜栋、刘起运、李金昌、周建、林伯强、何晓群、高惠璇、于秀林、侯杰泰、卢纹岱、郭志刚、贺铿。
  可以发现,统计学分析预测、国民经济两个领域拥有的高影响力作者最多,除了较多国内重要学者外,吸纳了较多国外学者的研究成果。另外需说明的是各大领域并不是互相孤立的,研究上存在着一定的交叉,一些高被引作者同时对多个领域具有重要的贡献,通过对其研究成果的内容进行综合分析后,将其划分到其贡献最多的研究领域。
  5 统计学作者合作图谱及分析
  本节将绘制作者共现图谱以揭示这12年国内统计学学者间科研合作状况,从另一角度揭示统计学的研究特征。统计发现,这12年,发表文章5篇以上(包含5篇)的作者共270人,发表文章10篇以上(包含10篇)的作者119人,发表文章15篇以上(包含15篇)的44人,因此这44位作者是2000~2011这12年来统计学领域的高产学者(见表4)。
  由表4可知谢邦昌、刘思峰、刘建平、韩兆洲和何建敏是这12年来发文量最多的五位学者。下面将通过作者共现图谱来探究学者间的科研合作情况。以两年为时间切片,选取合适阈值,得到293个节点,100条连线,可视化共现图谱见图7。
  图7中每个节点代表一个作者,节点有连线表示作者间有合作关系,连线的粗细表示作者间合作的强度,连线的颜色表示作者间首次合作的年份。在图7中,可以看到在满足阈值条件的293位作者中,有将近一半的作者没有和其他作者合作过(当然,这并不排除他们在不满足阈值条件下有过合作关系),图谱整体比较松散稀疏。但网络图谱中存在一些研究团体,可以明显地看到图7中心位置上的分别以谢邦昌、刘思峰以及刘建平为高产作者形成三个较大群簇A、B和C,通过进一步考察可以将这三个较大的类群分别进行细分:
  团队A主要的研究方向是应用统计学。包含的成员有谢邦昌、吴喜之、袁卫、金勇进、冯士雍、戴稳胜、朱建平、欧阳资生、曾五一、孙蕾、张阿兰、王华、侯志强、李勇、方兆本、刘静、钟卫、文兼武、王强、邓京平、余芳东、杨京英、王金萍、刘冰、许宪春。经查证谢邦昌、吴喜之、袁卫、金勇进、冯士雍都是中国人民大学应用统计科学研究中心学者,其合作关系为科研机构内部合作,同时可以反映出中国人民大学统计科学研究中心在我国统计学研究中的学术影响力较大。
  团队B主要的研究方向是灰色系统理论。包含的成员有刘思峰、党耀国、方志耕、王正新、沈春光、裴玲玲。经查证刘思峰、党耀国、方志耕是南京航空航天大学教授。其中党耀国是IEEE灰色系统专业委员会副主任和中国灰色系统理论学会副理事长,王正新、沈春光、裴玲玲三人合作团队主要研究灰色系统理论与研究,与同领域权威党耀国合作较多。
  团队C主要的研究方向是统计学相关应用。包含的成员有刘建平、贺建风、王克林、陈光慧、陈一非、王斌会。经查证刘建平、陈光慧、王斌会是统计调查与数据分析研讨会组委会成员,刘建平与王克林都来自暨南大学经济学院,为师生关系。
  通过综合查证分析,可知上述各个小团体的内部成员绝大多数是来自同一个科研机构,各个小团体内部合作紧密,团体之间的联系较为松散,基本是通过一些在不同科研机构深造过的桥梁学者来衔接的,需进一步通过促进人才流动、举办交流性的学术会议等方式以促进各个科研团队间的合作,进而形成更大规模的科研合作网络。
  6 结语
  本文借助科学计量学领域新兴的科学知识图谱理论与方法,以CSSCI数据库中十二年(2000~2011年)统计学来源期刊文献及其对应的有效引文为文献数据样本,利用可视化工具Citespace绘制我国统计学的关键词共现图谱、文献共被引图谱、作者共被引图谱及作者共现图谱,直观呈现统计学科研发展。主要结论有:(1)经济增长、指标体系、因子分析、上市公司、产业结构和统计工作是这12年出现频次最高的热点关键词,我国统计学研究热点变化较快,综合分析后可将这12年统计学的研究内容划分为五大分支研究领域:统计学基础理论研究、国民经济、统计技术方法、统计信息化和统计预测分析;(2)通过2000~2011年统计学文献共被引图谱综合分析,得到易丹辉的《数据分析与Eviews应用》、张维迎的《博弈论与信息经济学》和高铁梅的《经济分析方法与建模:EViews应用及实例》等高影响力的学术文献,并通过引文源流印证学术发展过程;(3)国家统计局、邓聚龙、张军、李子奈和何晓群等是国内最具影响力的统计学学者及统计机构,Robert Fry Engle和Tim Bollerslev是对我国统计学研究产生重要影响的国外学者;(4)通过2000~2011年统计学作者共现图谱综合分析,统计学学者科研合作呈现出以谢邦昌、刘思峰和刘建平为首的三支较大合作团队,各个团队内的合作较为紧密,然而团队间的合作甚少,需进一步加强各个科研团队间的合作。

相关论文

研究知识统计学统计学科CSSCI
汉语言文学对传统茶文化的作用研究
宏观经济学对市场经济的影响研究
乡村生态治理共同体建设的农民主体性
新农村建设中强化农村经济经营管理的
课程思政融入“保险学”教学的路径及
辅导员视角下新闻传播学类专业学生就
人事档案管理信息化建设创新路径研究
河南打造具有国际影响力的黄河文化旅
数字媒体时代辽宁老字号企业品牌运营
大数据时代拼多多盈利模式研究