数据仓库——在"啤酒与尿布"中挖掘
2024-07-21 02:09:16
供稿:网友
注册会员,创建你的web开发资料库,数据仓库——在“啤酒与尿布”中挖掘01-5-21 下午 04:19:25
对话者:主持人:程鸿——《计算机世界》报记者专家:孟晓峰——中国人民大学信息学院教授祁国辉——“数据仓库之路”网站主持人it厂商:杨顺生——ncr大中华区市场及合作伙伴总经理用户:陈道斌——工商银行信息管理部处长(博士)对话主题:数据仓库在中国的应用前景如何? 数据仓库的门槛有多高?主持人:自从“啤酒和尿布”的故事在中国广泛流传之后,数据仓库在中国也热闹了一阵子,许多企业家曾对它抱以极大的希望,但为什么时隔不久数据仓库应用就进入了“冬眠期”?数据仓库技术在中国的应用受到了哪些因素的制约?孟晓峰:数据仓库是在数据库基础上发展而来的,它通常有三个部分:数据仓库(data warehousing)、联机分析处理(olap)及数据挖掘(datamining),它们之间具有极强的互补关系。数据仓库是为了满足人们在高度数据积累基础上进行数据分析的需要而产生的,但由于目前中国在基础数据的积累方面存在不足,导致数据仓库技术的应用没能推广开来。一个技术的出现一般是由于创新者提出新的概念,研究者去解决某些问题;虽然数据仓库已经跨过了这一阶段,但目前在数据仓库的应用推广过程中,又遇到了一个门槛,那就是这种技术如何被多数人所接受。我认为要使数据仓库被多数人接受,首先需要解决的问题就是数据挖掘技术如何与现有商业技术的结合。目前市场上已有多种适用解决所有商业模式的通用数据挖掘系统,但实际上这些系统极其不好用,只有那些非常熟悉数据挖掘技术的人才能够理解和使用它们,而普通用户是很难应用这些技术来解决自己的商业问题。杨顺生:我们是一家真正经营数据仓库产品的企业,从我们与国内企业接触的经验来看,数据仓库技术在中国没能很好发展起来,主要有以下几方面原因:第一,中国的信息化基础设备相对不太完善,例如目前电信行业的计费数据非常分散,计费工具就有40~50种,数据采集都是各搞各的,为今后的分析带来许多技术上的困难。第二,企业的竞争意识和服务意识还不够强,对于决策分析的需求还不那么迫切,由于企业没有机会实施数据仓库,因而也相应造成这方面技术人才缺乏的现象。第三,数据仓库是一个数据共享的系统,不同层面的人从中得到的信息会大不一样,它对企业决策是一个很好的工具,但目前中国企业没有建立起一个管理机制来推动数据的共享,不论是对人的能力、企业的组织制度还是数据质量都没有一个连续的管理机制,要在这样的基础之上建立好用的数据分析是非常困难的。祁国辉:实际上,在国外市场竞争非常激烈的环境下,每个商场为了自身的生存,已经想尽了办法,很多能够被人工发现的规律早就发现了,在这种情况下,使用数据挖掘技术来解决问题是一个很正常的想法。但是数据挖掘工具并不能直接告诉决策者应该把啤酒和尿布摆在一起卖。国内企业有很多实施了数据仓库,但结果大多不尽如人意,其关键的原因在于,建设数据仓库时一定要先确认为什么要投资数据仓库?要利用数据仓库解决什么问题?数据仓库要达到什么目的才可以告一段落? 否则做完数据仓库还不知道该怎样来用,如何评价其成功与否。其次,数据仓库不是那种买来就可以使用的软件产品,事实上,数据仓库更像一个过程,一个用户逐步认识自己、提高自己的过程。第三,数据仓库不仅要反映出企业的现状,而且还要依靠用户做出最终的决策。总之,国内数据仓库不太成功的原因除了用户的应用水平、业务管理水平有待提高外,数据仓库产品价格居高不下的原因也多多少少影响到其在国内的顺利推广。陈道斌:我本人是从事信息分析方面工作的,对于为什么要借助数据仓库也正在展开一些研究。作为用户我感到,银行业最需要数据仓库技术,也最应该大力发展数据仓库技术。近几年国内几大银行都在这方面进行了一些尝试,然而迄今为止失败者多,成功者少。其中最主要的原因就是许多银行在建立数据仓库系统时,对系统所要实现的功能定位不明确。一个数据仓库系统应明显区别于业务处理系统,因为业务系统的要求往往是快速响应和界面简单等。而数据仓库与业务系统并不是平行的关系,它应该是基于所有业务系统之上的,对业务信息进行采集、分析、整理和发布等,应该是一个稳定的、带有时间参数的数据集合。数据仓库技术本身并没有新的内容,它是管理科学、计算机科学、网络科学和分析手段的大融合。数据仓库技术好用吗?主持人:数据仓库应用不理想是否存在技术上的原因?使用者的层次与数据仓库前端工具之间是否存在矛盾?孟晓峰:在数据仓库的三个概念中,数据仓库是企业进行数据分析的基础,它的主要工作是将数据库中的原始数据进行归纳整理,聚集成一个可供高层次使用的数据集合。在数据仓库的基础上有两类分析工具,一类是做分析型工作的olap,另一类是做预测型工作的数据挖掘。数据挖掘概念的提出,是希望发现像“啤酒和尿布”这样具有关联性的规律。但目前这套技术体系,无论在中国还是在世界其他国家,应用都受到一定制约,最主要的原因是,这套技术还没有达到数据库技术的成熟度和易用性。但目前看来,所有产品的可用性都还值得怀疑,因为如果你不是一个数据库专家、统计学专家以及人工智能专家,你将很难用好这样的分析工具。目前市场上的数据仓库产品都是基于一个通用的技术平台而设计的,这种产品虽然能够解决不同用户的分析需求,但它没有将特殊领域的商业逻辑与数据仓库技术集成起来,因而分析效果不可能达到峰值。另一个技术瓶颈是目前各种算法层出不穷,还没有经历一个大浪淘沙的沉淀,而数据库中的检索技术经过人们多年的摸索,已经形成几种固定、成熟的技术模式,这是数据仓库产品没能达到数据库产品实用性的另一个原因,所以说目前数据仓库技术的发展仍处于积累阶段。陈道斌:工商银行在建立数据仓库系统时的统一认识是,在市场上买不到可以直接使用的数据仓库产品,必须根据自己的业务进行量身定制,必须将自己的数据源及业务需求理清楚,然后将中间搭桥的工作做好,这个搭桥的工作需要市场上的数据仓库产品的支持,从一开始就必须注意业务与技术的协调。祁国辉:由于数据仓库是从西方国家产生的,它带着浓厚的西方文化色彩,最典型的是数据仓库中的报表展现。国外的产品注重的是报表内容,但是中国要求内容和格式一样重要,甚至有些时候格式比内容更重要,在这一点上,国外的报表工具很难满足中国用户的需要。数据仓库作为一个工具,企业内部每个层次的用户都可能利用它产生效益,但是真正实现起来,还是存在用户水平与需求问题,我们不可能要求每个用户都能够自已去数据仓库中获取数据,而且安全措施也不允许这样做。这时,我们需要的是一系列不同的数据仓库前端工具,而这正是目前所有的数据仓库产品都缺乏的。目前的产品大多数只提供一种工具,试图满足所有人的需求,结果每个人都不满意。 数据仓库应用范围如何?主持人:哪些行业对数据仓库的需求较大?目前数据仓库技术在国内哪些行业应用较好?为什么?杨顺生:我曾经根据一些假设条件对某些行业和企业实施数据仓库的成熟度作过分析。在2000年全球财富杂志500家名单中,有近50%的企业已经实施了企业级数据仓库或部门级数据集市,我们了解到电信、银行、零售、航空、铁路、邮政、食品、消费类制造、汽车、医疗、保险等行业是对于数据仓库技术需求最为强烈的行业。在所有这些实施了数据仓库的行业中,所占比例分别是:零售业17家、航空业16家、有线电话15家、移动通信企业14家、银行业13家。另外,我们还对目前全球不同行业实施过数据仓库的企业数量进行了统计:根据国外实施的经验,我们发现,领导的需求度、信息技术基础设施、分析型的应用需要以及竞争的激烈程度这四项因素是影响企业实施数据仓库进度的关键因素。企业规模越大、历史数据越多,实施数据仓库的迫切性就越高;零售和制造型企业目前较重视成本控制,会首先使用营运和生产的分析型应用;政府监管部门由于历史数据采集的困难,实施数据仓库的速度相对较慢;企业集团总部为加强监管,会采用数据仓库作为处理和分析大集中的信息技术手段;受过工商管理学教育的领导,比较重视科学化的决策手段,因此比较支持数据仓库的建设。陈道斌:目前在中国金融系统只有工商银行在数据仓库的应用方面有所突破,其原因是:首先工商银行规模较大,客户群庞大,因此必须对客户进行深入研究,以实现以客户为中心的服务模式;其次,早在1999年9月1日,工商银行就提出将所有业务都集中在北京和上海两个中心进行处理,实际上解决了建立数据仓库所必需的数据集中问题;第三,工商银行有一个最大的优势,就是已经推行了一套统一开发的综合业务系统,提供了客户信息整合的条件。而从领导支持的角度看,现在的行长是专门研究高技术环境下的商业发展问题的,他对于利用信息技术发展银行业务有着独到的见解,因此工商银行目前在数据仓库的第一个项目(客户关系管理)上已经有了实质性的进展。怎样跨过数据仓库门槛?主持人:中国数据仓库市场成熟吗?对于前面所提到的制约因素,我们能够提出哪些解决思路?应采取什么样的措施和手段来推动中国企业数据仓库的应用?祁国辉:这个问题问得好!gartner group 曾经有一份数据仓库市场占有率的报告,从报告中可以看出,到2003年,美国的数据仓库销售额将占全世界的58%,亚洲只占7.5%,不难看出我们的差距。但是目前两者的技术发展速度相差不多,所以说数据仓库应用市场在中国还是存在的。我认为惟一的解决办法是,让企业直接面向竞争激烈的市场,改变管理思路,这样很快就会产生需求,看书学拳击永远也领悟不到拳王的丰富经验。孟晓峰:现在越来越多的公司在建立基于web的电子商店,这些商店可以收集到大量的原始数据,因此电子商务成为数据仓库技术极有前途的应用领域。而如何为电子商务应用提供一套特殊的数据仓库解决方案,应该比一个通用化的解决方案更能够为市场所接受,从而跨过数据仓库应用过程的门槛。现在数据仓库应用领域有许多定制的需求,用户急需一种既可以提供数据分析又可以提供客户个性分析的工具。杨顺生:从先进国家的经验中我们发现,联机交易处理系统(oltp)和企业网两项信息化基础设施是实施数据仓库的必备条件。竞争环境越激烈就越需要数据仓库系统,企业需要了解客户的需求、需要发现经营风险同时还需要进行经营分析和管理,所有这些分析都属于大数据量的分析,采用传统的信息技术将会产生很多局限性,必须依靠一个tb级的数据仓库系统才能解决以上问题。数据仓库是分析型的应用,是解决复杂经营问题最合适的信息技术。但这些观点适合中国的企业生态环境吗?有没有国内的案例可以支持上述观点呢?最近上海证券中央登记结算公司和中国民航信息网络公司已成功地实施了tb级数据仓库系统,这两个案例是对中国企业、事业单位实施数据仓库必要性最有力的论证。陈道斌:从工商银行实施数据仓库的情况看,数据仓库技术在中国有着极大的发展前景。数据仓库本身的技术和方法体系有很多,但在建立数据仓库应用时,还应该以问题为导向而不能以方法为导向,要根据问题寻找产品和工具。在这方面失败的例子太多了,主要原因就是许多企业是先购买了数据仓库产品,觉得这个产品很好,一定要将它用起来,然后才开始建立自己的系统,这种做法已经被实践证明是不可行的。开发数据仓库应用不能急于求成,希望一次能够将所有的问题都解决是不可能的。数据仓库的建设过程要讲究方法论,要在一个大的需求框架下进行,在业务和技术人员很好沟通的情况下,一次解决一个问题。【记者点评】“枪手”与“枪”在对话过程中,记者最大的感受就是,因为数据仓库并不能直接告诉决策者应该把啤酒和尿布摆在一起,所以企业不能将所有的“宝”都压在数据仓库上。如果说数据仓库是一支好“枪”,那么决策者就应该是“玩枪的人”。数据仓库只能够反映出企业的现状,最终的决策还是要人来做。数据仓库中有两大类的应用,分别是在线分析和数据挖掘,在线分析侧重于对所有事务进行多角度的展现,而数据挖掘则侧重于对事务中蕴涵的未知规律进行发现。从业务上看,两者都可以用来发现和总结规律,一种是通过验证某些猜想来发现规律,另一种则是通过数据来找寻隐含的未知规律。数据挖掘的成功取决于对数据的合理处理及算法,它并不是对任何规则都能够去发现的万能工具,所以使用者对自己的业务越熟悉,就越能够给数据挖掘提供完善的帮助和指导,盲目地使用数据挖掘,只能留下对数据挖掘技术的遗憾。