社会调查数据建模及基于超图的数据分析方法

　　中图分类号：P208 文献标识码：A 文章编号：1672-3791（2016）02（a）-0003-04
　　Abstract：In view of the problems of the social survey data processing and analysis， this paper establishes the mathematical model of three dimensional matrix which is based on the three dimensional matrix.On the basis of the established three dimensional matrix model，we can use the properties of three dimensional matrix to deal it with a variety of mathematical methods， and use the hypergraph theory for further analysis. This enriches the method of the survey data processing greatly.
　　Key Words：Social survey data；Three-dimension matrix；Hypergraph
　　社会调查是了解各方面信息的重要途径之一，社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高，加上人为主观因素，数据类型主要为二元变量、离散变量、序数变量等为主，所以对于社会调查数据的分析和处理大都基于统计学，只对单一题目进行统计学分析，其分析方法主要是基于题型进行处理的，对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制，所以现在很多社会调查只能验证事先想好的内容和假设，很少可以对高维数据进行相对复杂的回归分析处理。
　　根据以上存在的问题，该文建立了基于三维矩阵的数学模型，将单选题、多选题和排序题用向量形式进行表示，每一题定义为空间中的一个维度，从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体，作为后续算法的基础。
　　1 社会调查数据的特点
　　通常情况下，社会调查数据特点如下。
　　（1）相关性。对于一个样本个体而言，它具有本身的多个特征，这些特征之间就具有一定的相关性。对于多个样本而言，个体与个体的特征之间具有相关性。如果样本随时间而变化，那么该样本在不同时刻的特征之间又具有相关性。因此，由于上述多个原因使得社会调查数据具有了复杂的相关性，传统的统计学调查难以解决这样的问题。
　　（2）离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到，所以社会调查数据一般以离散变量为主，且这些数据之间只有标示作用，并没有严格的逻辑关系。
　　（3）模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念，因此，它具有模糊性。
　　因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点，所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性，如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。
　　而且利用软件进行数据挖掘时，因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高，所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析，其结果也存在大量的冗余。因此，我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中，使得结果更准确。
　　2 社会调查数据的建模
　　研究中我们发现，三维矩阵可适用于社会调查数据的建模。
　　2.1 三维矩阵的定义
　　三维矩阵的定义：由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵，又称立体阵。Ak，i，j表示三维矩阵A的第k层，第i行，第j列上的元素。其中n，p，q分别表示三维矩阵的高度，厚度和宽度。
　　2.2 三维矩阵模型的建立
　　调查问卷的题目一般有三种类型：单选题、多选题和排序题。这三类题目都可以表示成向量的形式，其中每一道单选题、多选题可以表示成一个向量，排序题可以表示成多个向量组成的矩阵。对于单选题和多选题，可以按选项的顺序可以表示成一个向量，其中选中的项用“1”表示，未选中的项用“0”表示。对于排序题，可以表示成一个n×n的方阵，其中n表示该排序题的选项个数，。这样，每一题就可以定义为空间中的一个维度，从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示（M为题目的最大选项数），其在每一维上的选择称之为一个元素，这样每份问卷的信息就包括了N个元素。以第1，2，3题数据为例，其中第1题为单选题选择“B”，用向量表示为一个元素，第2题为多选题选择“ACE”，用向量表示为一个元素，第3题为排序题顺序为CBADEFIHG，用矩阵表示，每一个列向量是一个元素，如图1所示。
　　那么，假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加，形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型，如图2所示。　　在图2中我们看到，该三维矩阵数学模型有三个坐标轴，它们分别是题目，人数，选项。题目轴以每一道题为一个单位；人数轴以每一份问卷为一个单位；选项轴的刻度为A，B，C，D，E，F等题目选项，其个数为该调查问卷中选项最多的题目的选项个数。
　　在此基础之上，这样的三维矩阵具有以下性质。
　　（1）在题目轴中选取对应的题目，将三维矩阵面向竖切得到截面1（如图2中01所示），截面2表示每一道题所有人选择的信息。
　　（2）在人数轴中选取对应的人，将三维矩阵横切得到横截面1（如图2中02所示），横截面1表示对应的人选择所有题目的信息。
　　在得到三维矩阵后，可对它进行像素化处理，置1的元素用黑点代替，置0元素的则空白，在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影，这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度，可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度，筛选出浓度大于一定程度的点，在此基础上进行后续算法处理。
　　上述三维矩阵数学模型具有数学三维矩阵的所有性质，可依据调查问卷的需求进行转置，加权、相乘、筛选等数学处理，另外在数学处理的基础上，采用超图理论可以大大丰富了调查问卷的处理方法。
　　3 基于超图算法的调查问卷分析技术
　　超图是离散数学中重要的内容，是对图论的推广[3]。超图是有限集合的子系统，它是一个由顶点的集合V和超边集合E组成的二元对，超图的一条边可以有多个顶点的特性，这与一般的图有很大不同。超图分为有向超图与无向超图两类，在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。
　　大家可以利用无向超图表示每一道题的选择情况，先将这每一题的每一个选项设成一个节点，然后将三维矩阵从上向下投影，如果某一题的若干个选项同时被一个人选择，就用一条超边包围这些节点，那么选这些选项的人越多，投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息，可以进行聚类处理。
　　利用有向超图，可以将关联规则表示成有向超图的形式，在得到了关联规则后，设实际中得到的关联规则的形式为：，前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示，有向超边的头节点表示关联规则的前项，有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个，如此便成功表示了复合规则，从而可以使用相关算法进行冗余规则检测。
　　通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出，减少挖掘资源的浪费，从而增加了挖掘结果的有效性。
　　传统的聚类方法都对原始数据计算它们之间的距离来得到相似度，然后通过相似度进行聚类，这样的方法对于低维数据有良好的效果，但是对于高维数据却不能产生很好的聚类效果，因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图，数据点表示成超图的节点，数据点间的关系用超边的权重来表示。然后对超图进行分割，除去相应的超边使得权重大的超边中的点聚于一个类中，同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。
　　首先，将数据点之间的关系转化为超图，数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值，则它们能构成一个频繁集，就将它们用一条超边连接，超边的权重就是这一频繁集的置信度，重复同样的方法就可以得超边和权重。
　　然后，在基础此上，通过超图分割实现数据的聚类。若设将数据分成k类，则就是对超图的k类分割，不断除去相应的超边，直到将数据分为k类，且每个分割中数据都密切相关为止，同时保持每次被除去的超边权重和最小，最终得到的分割就是聚类的结果。
　　如图3所示是基于超图算法的选题型调查问卷的分析技术的流程图，主要包括4个主要部分，一是用向量表示调查问卷结果，二是将向量表示的调查问卷转化为三维矩阵数学模型表示调查问卷结果，三是使用超图算法进行优化，四是根据要求显示调查问卷结果。
　　4 结语
　　该文针对社会调查数据处理与分析中存在的问题，建立了基于三维矩阵的数学模型，将单选题和多选题表示成向量，将排序题表示成多个列向量，从而每一题可以表示成空间的一个维度，每一个向量就是一个元素，这样每一张问卷就可以表示成一个矩阵，通过将多个矩阵叠加就可以得到三维矩阵。该数学模型可以利用三维矩阵的性质对其进行多种数学处理，如竖切、横切、像素化后投影等。在数学处理的基础上，该文又提出超图理论对数据进行聚类和检测冗余规则的分析。

社会调查数据建模及基于超图的数据分析方法

相关论文