中国工业企业数据库以及海关贸易数据库合并方法概述

　　一、中国工业企业数据库和海关贸易数据库使用概况
　　在经验研究中，企业级和产品级的微观数据正在受到越来越多的重视。数据是经验研究的根本，因此数据质量的好坏直接决定了经验研究的质量。其中，中国工业企业数据库和海关贸易数据库成为国内外学者研究中国企业在国际贸易中行为和绩效的主要数据库。他们的研究成果广泛的发表在国内著名学术期刊上，包括《经济研究》、《管理世界》、《经济学（季刊）》、《世界经济》等。
　　杨汝岱在《区位地理与企业出口产品价格差异研究》中用两个数据库从区位地理的角度解释中国出口产品的价格差异，越偏远的地方，企业出口产品的价格相对越低，初步反映出我国出口产业的梯度分工模式。余淼杰在《企业出口强度与进口中间品贸易自由化：来自中国企业的实证研究》一文中，使用中国制造企业数据和贸易数据，发现企业面临的中间品关税的下降显著提高了企业的出口强度，即出口占销售的比例。戴觅在《中国出口企业生产率之谜：加工贸易的作用》一文中，通过2000―2006年企业―海关数据的分析表明，中国存在“出口企业生产率之谜”完全是由中国大量的加工贸易企业导致。除此之外，还有一系列研究运用中国工业企业数据库和海关贸易数据库得出了很好的结论。
　　但是，将企业层面的生产数据和产品层面的贸易数据合并会面临一定的技术问题。两组数据库的编码系统完全不同，企业数据库中企业编号为9位，而贸易数据库中企业编号为10位，将两个数据库匹配起来是有困难的。并且，两个数据库原始数据存在很多问题，如样本匹配混乱、指标缺失、变量大小异常、侧度误差明显和变量定义模糊等严重问题。本文介绍了将两个数据库合并的几种方法，并给出如何整理数据，剔除异常值的步骤和建议。
　　文章余下部分安排如下：第二部分简要介绍了两个数据库的特征；第三部分介绍了两个数据库的并方法；第四部分是结论和建议。
　　二、两个数据库基本介绍
　　（一）中国工业企业数据库的基本介绍
　　中国制造业企业数据库由国家统计局建立，它的数据主要来自于样本企业提交给当地统计局的季报和年报汇总。包括2000年到2006年每年约230000个制造业企业的生产信息。这套数据包括了3张会计报表：损益表，资产负债表和现金流量表，共100多个会计变量。这套数据每年涵盖的企业生产总值占中国总工业生产总值约95%，实际上《中国统计年鉴》中的加总的工业数据就是从这套数据加总而来。数据包括两大类型企业，所有国有企业以及年销售额在500万元以上的非国有企业。企业数目从2000年的162885家增长到了2006年的301961家。
　　（二）海关贸易数据库的基本介绍
　　海关数据库包括了2000-2006年产品层面交易的月度数据。每个产品都是在HS8位码上，产品数量从2000年1月的78种增加到2006年12月的230种，每年平均的观测值数目由2000年的1000万增加到2006年的1600万，最终这7年的观测值总数约为118333831个，大约有286819家企业参与了国际贸易。
　　三、两个数据库合并的方法
　　（一）按企业名称对接两个数据库
　　根据企业的姓名和年份匹配，在同一年的两套数据中有相同的名字则认为是同一个企业。年份这一变量对于匹配是重要的，因为一些企业在不同年份企业名称可能不同，并且新进入的企业有可能采用他们原来的名称。
　　《中国的多产品出口企业及其产品范围：事实与解释》采用此种方法，目的是为了剔除中间商。同时出现在海关数据库和工业企业数据库中的企业必然不是纯粹的中间商，因此留下来的样本就是剔除了中间商的样本。用此种方法合并，最后得到2000-2005年的企业数量分别为22631，26038，30629，37103，42259，44136家。合并后的数据库企业出口额达到了原海关数据中出口额的60%。这样，合并后的数据就近包括有出口行为的工业企业的进出口和企业的投入产出信息。
　　两篇文章匹配出的结果一样。
　　（二）使用邮政编码和电话号码对企业进行识别
　　通过企业的邮政编码和最后7位电话号码进行匹配，因为在每一个邮政地区中，企业的号码不同。《加工贸易、企业生产率和关税减免――来自中国产品面的数据》一文采用此种方法。筛选之后，有218024家企业的产品贸易数据（海关贸易数据）保持有效，占到了全部640352个企业样本中的34%。同理，对企业数据集，剔除掉其中邮政编码或电话号码无效的样本后，剩余的企业样本数为973207。继续按照先前的标准进行筛选，则还剩下433273个企业样本，占到了973207家企业中的44.5%。在此基础上，文章将产品贸易数据和企业生产数据归并整合起来。
　　（三）采用企业名称以及邮政编码和电话号码两种方法匹配，然后取并集
　　《企业出口强度与进口中间品贸易自由化：来自中国企业的实证研究》一文首先根据企业的姓名和年份匹配，在同一年的两套数据中有相同的名字则认为是同一个企业。这样如果使用原始的工业企业数据，我们可以匹配到83679家企业。如果使用筛选（根据“通用会计准则”（GAPP）中的规定）过后的，我们可以匹配到69623家企业。第二种方法通过企业的邮政编码和最后7位电话号码进行匹配。
　　一些企业有可能在工业库或海关库中没有汇报企业名称，同样，其邮编和电话号码也可能只出现在一套数据中。为了保证能匹配到更多的企业，将两种方法得到的数据取并集。如此，用原始工业企业数据成功匹配的企业数有90558个。筛选（根据“通用会计准则”（GAPP）中的规定）后的有76823个。
　　（四）将企业名称拆分成若干词段，用这些词段去搜寻匹配
　　在数据匹配上，首先按每家企业的企业名称完全匹配，接下来将不能完全匹配上的海关库企业中，按贸易额大小排序，将每家企业的企业名称拆分成若干词段，用这些词段去和工业库企业名称搜寻匹配，如果每个词段都能匹配上，赋值匹配类型为“1”，如果只有部分词段匹配上，按匹配要求的精度可逐步赋值。
　　四、小结和建议
　　从现有文献来看，合并两个数据库的主要方法有：1.通过企业名称和年份进行匹配；2.邮政编码和最后7位电话号码进行匹配；3.将企业名称分为若干词段来匹配；4.代码表转换。由于第三种方法要求匹配的精度不好确定，以及第四种方法代码表转换不全面，不建议使用。建议使用第一种和第二种方法匹配所得到的数据取并集。

中国工业企业数据库以及海关贸易数据库合并方法概述

相关论文