• 站内
  • 站群
  • 图片
  • 视频
  • 文件
  • 互动
  • 服务
  • 国家数据

多维数据结构理论在统计数据库结构设计中的应用

发布机构:湖南省统计局 发布时间:2003-09-11 打印本页 | 字体大小:

    前 言

    数据库是一种有效的管理文字、数据、图像、声音等信息的工具。1993年关系数据库之父E.F.Codd认为普通的联机事务处理(OLTP)的简单查询功能已不能满足用户对数据高级分析的需求,于是提出了联机分析处理(OLAP)和多维数据库(MDD)等概念。联机分析处理的灵魂是从多角度观察事物,其核心支柱是数据的多维结构。

    一、数据结构模型和多维数据结构

    目前数据库最常用的数据模型有层次模型、网状模型和关系模型。关系模型是目前比较重要而且应用广泛的一种数据模型,数据结构是行和列组成的二维结构的表格,不能有效地处理在大多数事务处理应用中典型的多维数据,具有一定的局限性。
    “横看成岭侧成峰,远近高低各不同。”现实生活中人们为了能够更准确全面地了解某个客观事物的情况,总是希望能够多角度地观察客观事物。
    维是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。把一个客观事物的多个观察面定义为不同的维,就能在多维上对数据进行比较分析。客观事物的这种多维结构和多个维的不同组合所产生的观察事物的多角度正是联机分析处理的基础。
    人们很容易理解一个二维平面表格,对于三维立方体也不难理解,但是对三维以上的结构图形就很难想象,更不容易在平面上表现出来。在多维分析时,可以采用多种技术实现高维数据的可视化,在普通二维平面结构上展示出多维结构的数据,使用户能直观地理解和分析数据。基本方法有钻取、切片、切块、旋转等。钻取就是改变维的层次,变换分析的粒度。切片和切块是在一部分维上选定值后,度量数据在剩余维上的分布情况。旋转是变换维的方向,即在表格中重新安排维的放置。 
    多维结构的数据在空间分布上通常具有两个特点:稀疏性和聚合性。为了解决多维数据在空间分布上不均匀的问题,数据库的开发者设计了两种数据模型来适应这种情况:(1)超立方结构:指用多个维来描述一个对象时,要求每个维彼此垂直。数据的测量值发生在维的交叉点上, 数据空间的各个部分都有相同的维属性。这种结构适合于数据排列整齐规范的数据库。(2)多立方结构:指将大的数据集分成多个子集,每个子集是严格的多维超立方结构,即将超立方结构变为子立方结构。这种结构具有很强的灵活性,对付稀疏数据时特别有用。
    两种结构各有利弊。初级的终端用户容易接受超立方结构。经验丰富的专家喜欢应用多立方结构,因为它具有良好的视图翻转性和灵活性。许多产品还采用混合组织模式,结合了超立方结构的简化性和多立方结构的灵活性的双重优点。
    多维数据按存储方式分有以下三种:(1)关系数据库:以其作为实际的数据存储物理结构,至少需要使用一个表来存放维的层次、成员类别等维的描述信息。虽然数据库标准查询语言的单语句并不具备完成多维计算的能力,但是许多多维数据库引擎还在不同程度上也利用关系数据库作为存储媒体。关系数据库的理论和软件发展较为成熟,实际应用中在服务器上处理的速度很快和效率很高。(2)多维数据库:可以简单地理解为将数据存放在一个多维数组中,数据应用在多维服务引擎上完成。它的优势是可以提高数据处理速度,加快反应时间,提高查询效率,具有良好的性能。(3)混合数据结构:就是将关系型数据结构和多维数据结构结合使用,这种方式具有更好的灵活性。
    联及分析处理是基于数据多维结构的一种新的数据分析技术,目标是满足决策支持或多维环境特定的查询和报表需求,也可以说它是多维数据分析工具的集合。它通过多维的方式使用户能从多个角度、多侧面地观察数据,以达到更深入地剖析数据的目的,从而更深入地理解包含在数据中的信息。
    在应用中,联机分析处理一般是数据库应用的前端工具,同时还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。此外,还有其他的一些实现联机分析处理的方法,如提供一个专用的查询服务器,对某些存储模式(如星型、雪片型)提供对数据库查询的特殊支持。

    二、统计数据结构分析

    单独统计数字本身是没有任何意义,每一个统计数字背后都有其确切的含义。我们将这些含义称为统计数字的构成要素。这些要素在数据库中可以理解为统计数字的限定条件。设计数据库必须首先弄清楚限定数据的条件有那些?各项条件的性质是什么?这些问题弄清楚了,才能进行统计数据库的具体结构。
    统计数据的构成要素从大方面讲有四项:统计指标、计量单位、时间和空间。如果我们直接对指标进行编码,这样的指标体系是在一维的,不能支持多维的数据分析。如何设计好一个结构良好的指标体系将是关系到数据库生命力是否强大的数据库核心问题,因此需要对复杂的统计指标体系进行更深入的分析。
    比如:“大中型国有工业企业利润总额(亿元)”这个指标可以分成许多更小的独立概念即“大中型”、“国有企业”、“工业”、“利润总额”和计量单位“亿元”。其中“大中型”是对企业按规模进行分组的一种类型;“国有”是对企业按登记注册类型分组的一种类型;“工业”是对企业按行业分组的一种类型;“利润总额”是一个统计指标,它的计量单位是“亿元”。可以看出,具体的统计指标是含义较大的统计指标和统计分组构成的。统计分组在这里发挥了限定的作用,缩小了统计指标的外延。多个统计分组可以同时使用,构成复合分组,对指标进行联合限定。复合分组正是多维数据结构的基础。建立多维结构的统计数据库指标体系的方法就是将每个具体的统计指标进行拆分,使之成为基本指标元素和基本分组元素,然后才能够对他们进行任意灵活的组合,实现多维结构的各项管理和分析功能。
    限定数据用的指标、单位、时间和地点等四个要素是限定数据的必要条件,有而且只能有一个。分组要素不是限定数据的必要条件,起帮助限定的作用,也可以多个联合使用。最多使用几个分组原则上没有限制,实际工作中可以达到七、八个。


    三、多维统计数据库结构设计

    从实际情况来看,我们认为大量统计数据的数据库比较适合选择多立方结构的多维数据结构模型。统计数据的稀疏特征十分突出,而多立方结构管理稀疏数据的效率很高。目前我国统计工作中应用的分组大约有50个,分组的成员大约有5000个。如果按每一个分组类型建立一个维,这将是一个严格意义上的超立方结构的多维数据库,空间大约是100的50次方那么大。另一方面,实际工作中用到的分组和指标结合以后的具体指标并不算多,大约有3万个,占可能空间的比例几乎为零。如此稀疏的分布选择多立方结构来建库比较合理。多立方结构的总维数按足够使用的维数去设立,维不对应某个固定的分组,而是根据具体情况对应不同的分组。和超立方结构相比,多立方结构数据库的总维数被大大地压缩了。统计上常用的分组并不多,而且一般使用的分组总是被反复使用,造成局部的高度聚集。多立方结构在局部上还是超立方结构,对局部聚集的数据可以充分发挥优势,来满足多维处理和分析的需要。应用多立方结构设计数据库结构,需要设计一张表,专门用于记录各维的内容,即用来记录统计指标使用各分组的具体情况。
    管理多维结构的数据库,选用关系型数据库管理软件仍然是比较好的选择。主要理由是:首先,统计数据的类型比较简单。统计数据库处理的主要对象是大量的数据和少量的文字,不需要处理声音、图像等多媒体类型的数据,关系型数据库完全能完成对数据的管理工作。第二,关系型数据库软件性能比较成熟可靠,可供利用的开发工具多样,建库比较容易。第三,关系型数据库系统的不足之处,是完全可以弥补的。可以采用设立专门的应用服务器来提高查询效率等补救的办法,既能充分发挥关系数据库的长处又能充分满足多维数据管理的需要。

    四、国家统计局多维统计数据库结构的设计

    为了能够向政府和社会公众提供良好的统计数据查询服务,国家统计局从2000年开始着手设计开发大型宏观经济数据库项目。作者作为数据库开发小组的成员之一,参与了这个数据库的具体设计工作。在开发过程中,我们应用多维数据结构理论做指导,对数据库进行了设计。
    国家统计局大型宏观经济数据库管理系统采用关系型数据库管理软件Oracle8,保障数据库软件系统的可靠和稳定。设立专门的应用服务器和网络应用服务器为用户各项应用服务,确保数据库应用的高效。总体结构采用多立方数据结构,具体调查表上采用超立方结构。
    具体设计思想如下:首先将时间、地点、指标、分组和单位都单独建立表格进行管理。然后将指标和多重分组结合成的实际应用指标单独建立表格进行管理,并用其结合时间、地点和单位完成对具体数据的管理,模式是关系型的二维结构。在这同时再建立两张表格,一张表格记录每个调查表的情况,一张表格记录每个调查表使用各种指标和分组的情况,按多维模式多数据进行管理和使用。即数据库底层结构为平面结构,但管理和应用结构是多维结构,所有多维结构和二维结构之间的各项转换和记录工作全部由数据库应用程序自动完成。
    经过二年多的建设,目前数据库建设已经取得阶段性成果。其灵活的结构得到了国际同行的高度赞赏。

    五、国外多维统计数据库建设方面的经验

    由于能提供十分方便的多维分析支持,多维数据库在世界范围内都深受用户青睐。加拿大统计局的CANSIM (II)数据库就是一个多维数据库,采用多立方数据结构,整个数据库中最基本的一维是具体的调查表,再将各表连接成一体,形成雪花结构。软件上数据库仍然采用了传统的可靠的高效的关系型数据库管理软件Oracle8,并设立专门的数据库应用服务器和网络应用服务器,用于对数据库的各项访问和处理网络用户的各项请求,确保数据库的安全和高效。CANSIM (II)的这种组织结构主要优点是结构规范,数据独立性好。

    结 论

    总之,大型统计数据库结构比较适合使用多立方型数据结构进行管理,以解决数据的稀疏性和聚集性的问题,为多维数据管理和深入数据分析提供有力的支持。关系型数据库管理软件通过设立应用服务器等技术弥补自身不足,充分发挥其稳定、高效的优点。根据国内外的不同的经验,在利用多维数据结构设计数据库的过程中,也可以采用多种组织形式。


作者:国家统计局综合司  郝胜龙

来源:中国信息报


 

扫一扫

在手机打开当前页

关闭
相关附件
相关阅读