微信搜索公众号:SAP中文学习网交流平台      SAP技术千人群: SAP中文学习网技术群      SAP技术交流2群:SAP技术交流2群      SAP新人群:SAP中文学习网新人群     

SAP中文学习网

企业BI系统设计实践

来源: 互联网TAG标签: sap BI 作者:SAP中文学习网-Summer 点击:
本文通过实际案例介绍了大型企业 BI 系统的设计,包括系统架构设计、数据仓库设计、ETL 设计和应用展 示设计。系统建设采用了全套 IBM 产品:AIX、DB2、DataStage、Cognos。

1 引言

    随着信息化的日益普及和深入,企业管理层关注的不再是停留在数据的收集层面,而是转向对业务分析以及对业务关键信息的应用上,很多企业选择了在原来系统的基础上开发商业智能系统,即BI功能。

2 项目背景

    随着公司近些年的业务不断发展,在管理报告应用和决策支持上的不足也逐渐呈现,主要体现在缺乏共享机制,无法保证分析时效性和有效性;分析结果受制于业务数据的规范性和完整性。同时,经过多年的信息化建设, ERP及一些专业数据库系统都已经得到良好的应用,在产量、销量、预算、核算等方面积累了大量的基础数据,具备了挖掘、利用、为高管层提供决策支持信息的数据基础。基于前述内容,为了适应公司目前的发展战略,使公司现有的经营管理信息发挥更大的效力,为公司管理层在统一的平台提供及时、有效的管理决策支持,决定建设 BI 系统。项目建设选用了“IT 行业中唯一一家能够提供信息基础结构所有内容的公司”——IBM 的全套产品,包括:服务器(IBM Power 750)、操作系统(AIX)、数据仓库(DB2)、数据集成(DataStage)、图表分析(Cognos)。

3 系统架构设计

    3.1 物理架构

    根据应用的分类将所有服务器分为三个群组,每个群组由两台服务器组成,并且这两台服务器进行双机双活,保证系统的稳定性要求。具体物理架构图如下图所示:
 

数据仓库物理架构 

图 1.数据仓库物理架构

    3.2 逻辑架构

    根据用户需求分析结果以及整体系统开发技术路线,系统总体逻辑架构整体如下图所示:
 

数据仓库逻辑架构 
图 2.数据仓库逻辑架构

    数据整合分析系统在应用逻辑上分为三个模块:数据仓库模块、ETL 过程模块、应用展现模块。每个模块配以安全管理的相应方法和策略,保证数据、系统和信息的安全应用。

4 数据仓库设计

    数据仓库是整合数据整合分析系统的核心部分,具备保存数据、处理数据、分析计算数据、为应用创建数据模型的功能。数据仓库在进行统一安全管理的前提下,与 ETL调度过程相连接,获取数据仓库所需的分析应用数据。在数据仓库内部,根据数据仓库建设的通用架构和行业经验,区分出四个层次,每个层次根据其功能进行相应的数据存储分类和处理操作,最终形成提供给应用展现所需的数据集市模型。

    4.1 逻辑架构

    数据仓库整体架构如下图所示:
 

数据仓库整体架构 
图 3.数据仓库整体架构

    4.2 基本分层结构

    数据仓库的所有层都存储在一个 DB2 数据库内,各个不同的数据在 DB2 内按不同的 Schema 来区分,同时不同的 Schema 在物理存储过程中会对应不同的表空间。从逻辑上和物理上同时划分出数据仓库的各个层次出来。接下来分别对每个数据区域做详细介绍。

    4.2.1 数据接口层(SRC)

    SRC 是生产系统数据源的直接拷贝,由 ETL 过程对数据源进行直接抽取,在格式和数据定义上不作任何改变。与生产系统数据的唯一不同是,SRC 层数据具有时间戳。

    SRC 层直接表示为与数据源相同的架构,但 SRC 层可保存多天的源数据,并打上时间戳。SRC 层存在的意义在于两点:(1)对数据源作统一的一次性获取,数据仓库中其他部分都依赖于 SRC 层的数据,不再重复进行抽取,也不在生产系统上作运算,减小生产系统的压力;(2)在生产系统数据已经刷新的情况下,保存一定量的生产系统的历史数据,以便在二次抽取过程中运算出错的情况下可以进行回溯。SRC 层是数据中心原始数据的缓存层。该层次设计是相对简单,能够真实体现数据源系统和源系统数据表的真实情况即可。

    4.2.2 维度数据层(DI)

    维度数据层的数据来源于 SRC 层,主要有下列几个方面的作用。(1)提供标准维度数据。在客户的业务系统中,每个系统通常都独立存放维度,并且有独立的编码规则,但在不同的业务系统中,有些维度的含义是完全相同的。而数据中心要求维度统一,即同一个维度应该采取统一的编码,所有业务系统数据共用统一维度编码。DI 层存放客户确认后的标准维度数据。该部分起到两个作用。一、为已有业务系统提供维度标准,为数据清洗提供支持。二、为待开发系统提供标准维度支持。为了使待开发的业务系统数据能够很好的融入数据仓库,数据中心为这些系统提供标准的初始化维度数据。(2)提供维度转换关系。标准维度确定后,各业务系统各种不符合标准维度的数据必须经过清洗,在数据清洗之前,必须确认维度转换的规则,即确定各业务系统独立的维度同标准维度的对应关系,并形成对照关系表。DI 层用户存放客户确认后的维度对照表。DI 层是存储系统内标准主数据的层次,负责整个数据仓库标准维度统一工作。DI 层的设计主要考虑的是维度的标准化存储和应用,所以该层次的主要设计原则为标准清晰原则。

    4.2.3 数据仓库层(DW)

    DW 层(数据仓库层)是数据仓库系统的核心,具有面向业务的、稳定的、集成的、持续的特点。DW 层的数据从数据接口层(SRC 层)通过数据清洗和转换装载到数据仓库层,定期通过时间戳进行更新,使得 DW 层的数据是完整的、准确的和简洁的。在清洗过程中,会将从各个业务系统来的数据的维度进行标准化清理,保证维度数据在数据仓库内部的唯一性。DW 层作为储存数据元素的主要层次,负责存储清洗后的、唯一的、标准的数据内容。

    DW 层数据模块按照如下原则进行分类:(1)根据数据业务内容进行设计:DW 层数据首先按照源系统抽取过来的数据的业务内容进行首要分类,将同样业务内容的数据进行分组,组成相应的内容模块。(2)根据数据来源及更新方式进行设计:数据仓库的更新频率是根据数据源系统的类型、数据更新需求、数据更新方式等信息来确定的,而数据仓库层的设计则必须参考数据更新频率和方式等内容。(3)按相同数据颗粒度划分:DW 层数据模块设计时,将按照数据颗粒度的一致性进行数据分类划分。

    4.2.4 数据集市层(DM)

    DM 即数据集市层,由各种星型模型的数据表或多数据组合成的平面数据表组成。DM 层为了前台展现而设计,数据来自于 DW 层和 DI 层。DW 层虽然囊括了系统的所有数据,但 DW 层是为了数据更合理管理而设计,其本身不一定满足数据展现的需求。再加上系统大数据量的特点,必然需要实现对数据多维分类汇总,以满足系统性能的要求。而 DM 层用于整合、汇总和存储这类数据,从而更直接、高效的为应用展现提供数据支持。

    DM 层将一句上层报表应用的需求来进行设计,并根据上层应用的具体实际情况来搭建各主题模型。DM 层应用主题按照如下原则进行设计:(1)依据上层应用需求进行设计:由于数据集市层主要是为展现平台应用作服务,所以首先应根据应用需求的内容进行分析主题的划分和设计,尽量将同一报表或同一业务主题所用数据汇总在一起,减少上层应用的计算和处理量。(2)根据数据颗粒度进行设计:在数据集市层,相同数据颗粒度的数据应根据上层应用的需求,进行尽可能的整合和汇总,以提供上层应用进行直接读取和应用。

5 ETL 架构设计

    ETL 过程是整合数据整合分析系统的数据来源基础,在源业务系统和数据仓库之间起着重要的数据转移作用。ETL 过程需要经过 ETL 规划和设计,ETL 调度部署以及日常 ETL 监控和管理等部分组成,ETL 的正常运行直接关系着数据中心数据的完整性和准确性。

    ETL 数据转换是数据整合的必备工具。它可以批量完成 数 据 抽 取 (Extract) 、 清 洗 (Cleaning) 、 转 换(Transformation)、装载(Loading)等任务,不但满足对种类繁多的异构数据库进行整合的需求,同时可以通过增量方式进行数据的后期更新,一体化的解决了数据整合过程中遇到的种种困难。

(编辑:cindy liu )

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
您有可能感兴趣的文章