数据仓库与企业应用集成(一)
2024-07-21 02:07:07
供稿:网友
主要内容
一. 从系统和整体的角度来考虑数据仓库的开发
二. cif的概念和内容
三.cif 的案例-sap bw
四.数据仓库与企业应用集成
五.小结
references
摘要
本文的主要内容在于介绍企业信息工厂并探讨在建立数据仓库和企业应用时应考虑的系统性和整体性。
因此本文主要针数据仓库的最新发展,结合sap bw的实际案例,本文讲述企业信息工厂(cif)的构想、概念和内容,同时也阐述了在设计企业应用时应考采用的思维方式,我们将以一个新的角度来看待数据。
一. 从系统和整体的角度来考虑数据仓库的开发。
出于人们面临的问题越来越复杂和规模越来越大,人们常常将世界拆成片段来分解和处理,这显然能够使复杂的问题容易处理,但是无形中,我们却付出了代价——也不了解自身行动所带来的一连串后果。在开发企业应用时这种错误经常会重演,在数据仓库方面也不例外,我们需要用一种系统和整体的观点来重新审视和思考数据仓库的开发及其与企业应用的关系。
数据仓库是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程 - w.h.inmon
数据仓库的实质是用数据支持决策,其核心价值在于其数据模型是否刻画了企业的核心业务,有一种观点,认为数据集市的集合就是数据仓库,简要记录可以被置入数据仓库或者置入数据仓库所支持的数据集市。当简要记录进入数据仓库时是面向普通应用的,而进入数据集市时则是为了适应部门应用的。最显而易见的解决方案通常是没有功效的;短期也许有改善,长期只会使事情更恶化。
企业的活动,也是一种“系统”,也都受到细微且息息相关的行动所牵连,彼此影响着,这种影响往往要经年累月才完全展现出来。身为群体中的一小部分,置身其中而想要看清整体变化,更是加倍的困难。我们因而倾向于将焦点放在系统中某一片段,但总想不通为什么有些最根本的问题似乎从来得不到解决。
二. cif的概念和内容
cif (企业信息工厂)正是一种以系统的观点来看待数据仓库系统的架构,我们可以换一个角度来看待信息,既然信息已经成为企业竞争的焦点,我们完全可以把信息当作企业的一种产品,而生产部门级产品的场所就是"信息车间",对企业级信息进行全面管理的场所(系统)就称为"信息工厂"。
图1 cif架构
图中表示了cif的体系结构
因此, cif这样一个基础设施必须要能够吸纳和支持不同来源的企业信息。它不仅需要在非结构化数据来源于文件管理系统、内部和外部网站、操作系统、群件和电子邮件)上投入巨资;而且还要在传统的结构化数据(来源于数据仓库、数据集市、操作数据贮备(ods)中有所投资。企业中所有信息的创建、使用、交换和删除,都应当可以在这个基础设施中得以实现。
企业信息工厂由现存的一些基于处理的系统组成,这些系统之间由信息进行连接,为了cif的正常运行,生产线上的每一个组件都必须共享一致和坚实的基础结构,这种结构有一些特定的要求:灵活的适应变化,低冗余,可升级, 可扩展性。edw (enterprise data warehouse) – 位于企业信息工厂的中心,包含如下的数据
粒度化的
历史的
整体的.
全体的
在edw中创建的数据为数据集市,数据挖掘等提供信息,简而言之,edw是数据仓库和决策支持系统的运行的基础。在edw的数据是粒度化并且无冗余,建立在两人以上经过由于对cif不同的分析结果而不断的讨论而形成的共识基础上。 edw可以存储在主存储器(性能较高)及二级存储器(性能较差)中。
以下将cif主要概念要素做简要描述
操作系统,数据获取,数据仓库,主存储管理,二级存储,数据集市,数据递交(是一套使得最终用户及其信息系统组能够建立和管理数据仓库的视图处理过程,它包含如下过程:过滤,格式化及从数据仓库提交数据给数据集市),ods, 元数据管理,探索数据库(是一种决策支持系统的架构,目的是为探测性及临时的处理提供一个数据港湾,它利用数据压缩技术来达到在短时间内对整个数据库进行访问的能力)。数据挖掘仓库(是一个分析人员在探索数据库中来测试他们假设和推断的环境,专业的数据挖掘工具包含intelligent agents来执行这些任务。分析应用(预先设计的,可以安装的决策支持应用,它们通常需要客户化来适应企业特定的要求.比如风险分析,crm 分析等。外部数据(external data 是位于除了企业应用的正规数据外的任何外部数据 (如人口统计,信用,竞争者及财政方面的信息,通常,外部数据由企业向特定信息提供商人购买)