账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
数据仓储新趋势─预先建构好的数据仓储
 

【作者: 黃嵐】2000年04月01日 星期六

浏览人次:【3583】

前言

传统大规模数据仓储发展计划,其花费通常是数百万美元以上,并需要许多个月、甚至许多年的设计和布署,更糟糕的是,其规划完成后真正成功的比率不超过六成。近来由于许多公司对于数据仓储计划有其极迫性,因此它们必须到处筹措大量资金,再加上因特网电子商务不断地、快速地变化,这些公司已经不太可能有那么长的时间来等待一个数据仓储发展计划的完成。因此,一个崭新的数据仓储新趋势便因应而生。本文将以Sybase的行业导向数据仓储解决方案(Industry Warehouse Studio, IWS)和SAP的Business Information Warehouse为例,说明这两种数据仓储解决方案在企业上的应用。


这两者均是预先建构好的(pre-configured)数据仓储,它们之间唯一的不同点在于SAP的Business Information Warehouse的数据大部分会来自SAP R/3 ERP数据库,因此,对于SAP R/3 ERP的用户而言是个几乎可立即部署的数据仓储。若是用户的数据是来自各种不同的数据源,则两者的理念一致。为便于说明,我们将以较为一般性的Sybase解决方案做为例子来讨论。


建置良好的数据仓储策略

各公司都希望能有一个快速、有效率的数据仓储策略,Sybase的解决方案就是:Sybase和两个工业领导者一起针对这种需求而合作开发,该解决方案采取针对各特定行业别的方式来大幅降低执行一个数据仓储策略的时间。这种方式采取的是与数据库系统独立的方式,因此使用各种主数据库的用户都得以布署他们的数据仓储策略,以确保该公司与其客户得以更为紧密地合作并保持竞争优势。


Sybase的IWS与各公司现有的营运系统相互补,并可让各线经理作出一些策略决定。IWS对每一个行业内的工作流程、衡量基准、报表需求、术语和数据型态等均采取一种共通的处理方式,以共通的应用样板(Application Template)形式来捕捉信息,并将它们反应在一个为每一行业而设计的共同实体数据库中。应用软件、行业特定需求和数据库等都是在交货时就已经预先建构在服务器内了。一旦安装该产品后,客户只须根据自己的特殊需求做小幅度的调整即可部署一个数据仓储。该产品的主要组件如下:


●行业导向的实体数据库模型


●行业导向的决策支持应用样板


●常用的商业查询


●数据库设计工具套件


●Metadata储存所(repository)和因特网客户端


Sybase IWS的架构

Sybase IWS商业套件虽然是由一些不同的部分组成的,但它们彼此是整合的,如(图一)显示了IWS架构中的各个元素。


《图一 Sybase IWS的架构》
《图一 Sybase IWS的架构》

IWS的数据结构

IWS为选择的垂直行业提供一个数据仓储设计,可立即部署到数据库管理系统上。针对特定行业的设计大大减少客户自行设计数据仓储和撰写报表所需的时间。由于每个机构都有其自己分析数据的特定方法,因此每一个特定的导入都可能需要某种程度的调整数据库设计以适应该机构的需求。


IWS数据结构在设计上是允许容纳高层次的细节数据,因此将细节记录储存在一个IWS数据库是有可能的,例如储存电讯公司的通话细节记录或信用卡的购买细目。因为若要数据仓储可回答所有的可能问题,这些细节是必需被记录的,若没有储存这些细节数据,要回答某些问题时就必须存取营运系统的数据或重新设计一个复杂的系统,这将是吃力不讨好的事。


数据库架构

Sybase IWS的数据架构由几个层次组成,如(图二)所示。最里面三个层次是做为此架构的一部分,最外层则是作为客户化(Customization)过程的一部分。


《图二 数据库架构》
《图二 数据库架构》

整个数据库设计是画分为一些次模型(Sub Model),每一个次模型代表一个特定的商业分析领域,如客户群分析或销售分析等,每一个次模型亦是由一系列的数据库表格所组成,以提供该商业领域的数据储存需求。任何一个数据库表格都有可能用于许多个次模型中。例如:客户表格在客户群分析次模型以及销售分析次模型中都会用到。


每一个次模型同时也代表一个架构上类似一个Star Schema的模型,虽然它可能会含有若干个事实表格(Fact Table)。一个事实(Fact)代表发生的某个特定事件。例如:上星期三你把某个产品卖给客户了吗?客户是否有打电话来?通话的持续时间是多长?这些都是事实。IWS在模型中也根据Ralph Kimball在其「The Data Warehouse Toolkit」一书中所提议的Conforming Dimension设计方式广泛的利用一些共同的表格。


核心模型

核心模型是IWS数据架构的核心,由近70个表格所组成。它包含许多行业都会用到的一些次模型(表格和景观)。因此IWS中的每一个垂直行业除了包含该行业的特殊次模型以外,还包含有这些共同的核心模型表格、景观和次模型。


因此这个核心模型为那些需要跨越一个以上行业的数据仓储提供了一个基础。在今天的全球商业环境中,对许多行业都有兴趣的组织机构是越来越多了,例如:一个金融服务机构可能对零售银行(Retail Banking)、信用卡和资本市场有兴趣,甚至可能对某些保险和投资产品有兴趣。IWS的核心模型允许一个公司将不同垂直行业的模型在一个单一的企业数据仓储内相链接。这使得在许多行业上同时营运的机构得以使用IWS来为他们整个企业的分析建立一个共同的数据架构。


垂直模型

每一个特定行业在IWS中都有其自己的垂直模型,它们是与核心模型紧密结合的。在垂直模型内的次模型例子包括零售银行的银行帐户交易和保险理赔等等。


聚集(Aggregate)

聚集层次由在系统中的所有聚集表格(Aggregated Table)所组成,它有两个主要的目的:增进效率和处理变老旧的数据(Aging Data)。在IWS中提供了一些效率导向的聚集,而有些聚集则需要在客户导入(Customization)的过程中加入,处理变老旧的数据的方法则需要依IWS客户的特定需求自行加以客户化(Customized)。


聚集是增进数据仓储的效率的主要方法之一,此方法是将一些汇总数据储存起来,以便能快速地回答一些常问的问题,例如:如果经常要知道各销售地区和分支的销售总额,那么将这些汇总信息储存在聚集表格内是很合理的做法,直接存取这些汇总信息,要比让数据库每次重新读取所有数据来进行汇总是要快得多了。IWS除存储存细节的原始数据以外,还储存许多每月的汇总信息,这些表格可以直接使用或为特定的数据仓储实行的需求而加以客户化。


将老旧的数据加以聚集汇总,是有效控制数据仓储所需磁盘空间的一个方法,随着数据逐渐变老旧,它对商业的价值也逐渐减少。虽然储存大量的交易细节数据是不实际的,但将变老旧的数据加以聚集汇总也许是很有用的,例如:超过五年的数据可以汇总到每月的层次,而超过十年的数据则可以汇总到每季的层次。


回馈数据(Feedback data)

回馈数据是商业用户完成分析后储存的结果数据。例如:为了制定预算数字,可能透过一个前端工具把一个公式套用到现有的数据以推知未来的数字,该产生的数据如果有价值,便可以储存在数据仓储中以便做进一步的分析。IWS含有许多回馈表格,例如:可利用查询的结果来建立营销活动的目标客户,不过这大部分将是客户化过程的需求。


外部数据

外部数据是企业外的组织机构所提供的数据,它们可能包括了市场研究数据、行业分析者或政府机关提供的经济或人口统计数据等,这些数据应该储存在个别的表格群里,再与其他的数据整合。将外部数据个别储存是较审慎的做法,因为没有方法可以保证它们与企业自己的数据会有相同的格式、相同的规则性或相同的明细度(Granularity)。此外,外部数据的来源也有可能会有中断或终止的可能。


与工具相关的表格

与工具相关的表格是一些管理工具所需要用到的特定表格,例如:前端报表工具可能需要在数据库中以特定的格式储存一些数据或Meta数据,这些表格是依选择的工具而定,因此并不是IWS架构的一部分。


跨平台的支持

在IWS内的数据库架构可以部署到任何标准的关连式数据库引擎上,包括:IBM DB2、Oracle 8i、Informix Extended Parallel Server、Microsoft SQL Server、Sybase Adaptive Server Enterprise或Adaptive Server IQ等。IWS的数据仓储设计工具所提供的功能可将这些数据架构自动地转换成所要使用的关连式数据库引擎的格式。这个转变过程会处理在数据定义语言(DDL)、数据型态上的不同语法和不同的名称限制等。


根据所选择的目标数据库引擎,此数据库架构可能需要某些微调动作以充分利用各特定数据库管理系统的效率特征,例如:如果数据库引擎有特定的索引技术或优化的储存结构时,必须将它们做为客户导入(Customization)过程中考虑的一部分。


结论

预先建构好的数据仓储已经成为一个新的趋势,在时间和金钱的双重考虑上,已使得传统由零开始的大型数据仓储设计变得越来越不可能,可以预见的,将来类似这些预先建构好的数据仓储产品将会越来越普遍。


相关文章
强化转型核心动力 打造更强数位韧性
数位转型下的工具机发展趋势
您的开源软体安全吗?
高效能与低功耗双轨并进 工业MCU注入智能工厂新动能
OLED与Mini LED争逐主流PC显示技术
comments powered by Disqus
相关讨论
  相关新闻
» SAP加速AI驱动供应链创新 推动制造业转型
» 宜鼎独创MIPI over Type-C解决方案突破技术局限,改写嵌入式相机模组市场样貌
» 鼎新电脑串连生态系夥伴 数智驱动智慧低碳未来制造
» IBM总营收和现金流成长 斥资近70亿美元研发AI、量子、半导体
» 鼎新电脑携手和泰丰田解缺工 以数位劳动力开启储运新时代


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK84S4SBXIQSTACUKZ
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw