本文概述了 sql server 2005 beta 2 中“商务智能”平台的增强功能。本文并非实施指南,而是为读者提供了关于“商务智能”平台增强功能的信息。
一、简介
microsoft sql server 2005 是一个完整的商务智能 (bi) 平台,其中为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能。本文简要介绍了您在构建分析应用程序时将要用到的一些工具,并着重介绍了一些新增功能,这些新增功能使复杂 bi 系统的构建和管理比以往更加轻松。
下表概述了商务智能系统的组件,以及与之相应的 microsoft sql server 2000 和 sql server 2005 组件。
组件 | sql server 2000 | sql server 2005 |
提取、转换和加载 | 数据转换服务 (dts) | 数据转换服务 (dts) |
关系数据仓库 | sql server 2000 关系数据库 | sql server 2005 关系数据库 |
多维数据库 | sql server 2000 analysis services | sql server 2005 analysis services |
数据挖掘 | sql server 2000 analysis services | sql server 2005 analysis services |
托管报告 | sql server 2000 reporting services | sql server 2005 reporting services |
特殊查询和分析 | microsoft office 产品(excel、office web components、data analyzer、sharepoint portal) | microsoft office 产品(excel、office web components、data analyzer、sharepoint portal) |
数据库开发工具 | sql server 2000 企业管理器、分析管理器、查询分析器,以及各种其他工具 | sql server 2005 business intelligence development studio (新增!) |
数据库管理工具 | 企业管理器、分析管理器 | sql server 2005 sql server management studio (新增!) |
sql server 2005 新增了两个组件:sql server management studio 和 sql server business intelligence development studio。其他主要的 bi 组件——dts、analysis services olap、analysis services data mining 和 reporting services——在 sql server 2005 中得到了改进,与以前有很大的不同。sql server 2005 关系数据库包含一些重要的新增功能。虽然 microsoft office 查询和门户工具并没有包含在 sql server 中,但当前的发行版本力争在 sql server 2005 之前实现这一功能。office 工具的 bi 功能将在 office 产品发行周期内将得到逐步实现。
sql server 2005 business intelligence 工具集提供了一种端到端的 bi 应用程序集成:
• | 设计:business intelligence development studio 是第一款专门为商务智能系统开发人员设计的集成开发环境。business intelligence development studio 构建于 visual studio 2005 技术之上,它为 bi 系统开发人员提供了一个丰富、完整的专业开发平台。调试、源代码控制以及脚本和代码的开发均可用于所有的 bi 应用程序组件。 |
• | 合成:“数据转换服务”已被重新编写,现在的 dts 可以高速执行超大数据量的复杂数据集成、转换和合成。business intelligence development studio 使程序包的构建和调试变得更加生动有趣。dts、analysis services 和 reporting services 共同提供了一个源自异类源的无缝数据视图。 |
• | 存储:在 sql server 2005 中,关系数据库和多维数据库之间的界限变得更加模糊。您可以将数据库存储在关系数据库、多维数据库中,或使用新增的“主动缓存”功能,充分利用两种数据库各自的优点。 |
• | 分析:一直以来,microsoft 的数据挖掘都十分简单易用。现在,结合了其他的重要新算法(包括关联规则、时间序列、回归树、序列群集、神经网络和贝叶斯算法),使得这一功能更加完美。而在 analysis services 多维数据集中也添加了一些重要的新增功能:关键绩效指标框架、mdx 脚本,以及其他的内置高级业务分析方法。reporting services 报告提交和管理框架使得复杂的分析方法更易于向最广泛的潜在受众分发。 |
• | 交付:reporting services 将 microsoft business intelligence 平台的用户群体延伸至那些需要使用分析功能的商务用户。reporting services 是一种企业托管报告环境,它通过 web 服务进行嵌入和管理。您可以用大量的交互和打印选项,以各种不同的格式个性化设置和提交报告。通过将报告以数据源的形式分发至下游商务智能,复杂分析可以覆盖更广泛的受众。microsoft 及其合作伙伴的特殊查询和分析工具将继续承担在 analysis services 和关系数据库中访问数据的常用工具角色。 |
• | 管理:sql server management studio 集成了对 sql server 2005 所有组件的管理。business intelligence 从业者都将得益于 microsoft 服务器“能力”扩展这一用户盼望已久的功能增强,即从关系引擎(伸缩性、可靠性、可用性、可编程性,等等)扩展为全套的 bi 平台组件。 |
sql server 2005 business intelligence 组件的主要目标是支持在各种规模的企业中开发和使用商务智能,并使其能够供所有员工使用,不仅包括管理层和分析师,还包括操作人员和外部委托人。就此目标而言,sql server 2005 具有完整、集成、易用的特点,它以 web 服务的形式发布数据,而且仅通过日常硬件便可提供极佳的性能,另外它还包含许多新增功能,您可以使用这些新增功能开发创新的分析应用程序。
二、sql server2005 beta 2 入门
在安装 sql server 2005 时第一点要注意的就是它的集成安装体验。您不再需要为某些功能(如 analysis services)而分别运行安装程序。如果某个功能(如 reporting services)不可安装,则说明您的计算机不满足该功能的安装要求。您可以查看说明文件,以获得有关功能必要条件的完整讨论。在大多数配置得当的机器上,安装过程中应接受所有默认设置,安装所有的主要功能:
• | sql server 关系数据库引擎 |
• | dts |
• | analysis services |
• | reporting services |
• | sql server management studio(数据库管理工具集) |
• | business intelligence development studio(bi 应用程序开发工具集) |
reporting services 要求在机器上安装并妥善配置 iis。由于 reporting services 是 2005 business intelligence 功能组的一个重要组成部分,我们强烈建议您花费一定的时间,执行这些配置和安装步骤。
熟悉 analysis services 的客户可能会因缺少 analysis services 元数据仓库而感到迷惑。在 sql server 2000 中,analysis services 仓库被作为 microsoft access 数据库发行。analysis services 2005 不包含元数据仓库。相反,analysis services 数据库元数据信息被存储为 xml 文件格式,由 analysis services 进行管理。如果需要,还可以将这些 xml 文件放置在源代码控制之下。
我们建议您使用 business intelligence development studio 进行开发,同时使用 sql server management studio 来操作和维护 bi 数据库对象。虽然您能够在 sql server management studio 中设置 dts 包以及 analysis services 多维数据集和数据挖掘模型,但 business intelligence development studio 却为设计和调试 bi 应用程序提供了更好的体验。
对于 beta 2 而言,建议您从掌握新的应用程序入手,因为与升级现有 dts 包或 analysis services 数据库相比,这样可以学到更多东西。如果您已有一个可用的包或数据库,您会发现,“重新创建”现有的包或数据会十分有用。在您熟悉了这些新增工具、功能和概念之后,便可试着升级现有对象。
许多客户都借助 sql server 工具,使用熟悉的来自一个或多个源系统的商务智能结构来开发新的系统,使用 dts 填充维度关系型数据仓库,然后再用数据仓库来填充 analysis services 数据库。但是,sql server 2005 提供了许多选项,通过消除或淡化不同的组件使其背离了这种一般化设计。
三、关系型数据仓库
sql server 2005 关系数据库引擎包含一些对数据仓库样式应用程序设计和维护大有帮助的功能。这些功能包括:
• | 对于超大型的表而言,表分区可快速数据的加载速度,并简化维护过程。 |
• | 轻松创建报告服务器 |
• | transact-sql 方面的改进包括新增的数据类型和新增的分析功能 |
• | 联机索引操作 |
• | 细化备份/还原操作 |
• | 快速初始化文件 |
要想将关系操作报告从事务处理数据库中分离出来,经常采用的一项技术便是维护一台报告服务器。报告服务器对事务处理数据库映像的维护一般都有一定的时间延迟,通常截止到前一天。报告服务器多用于报告功能和数据仓库提取。
microsoft sql server 2005 新增了两项功能,使报告服务器的创建和维护过程变得更加简单。sql server 报告服务器的延迟时间与以前相比大大缩短。同时,报告服务器被设计为充当事务处理系统的备选系统。
要创建报告服务器,先要创建一个数据库镜像,这是 sql server 2005 的新增功能,它为系统的高可用性提供了一个紧急备用系统。更多信息,请阅读联机丛书的“数据库镜像概念”主题。数据库镜像不能够直接查询,这时第二个新增功能就能派上用场了。
在镜像上创建一个数据库视图。数据库视图是数据库在某个时点的只读副本。数据库视图并非数据库的完整副本;极为节省空间。多个数据库视图还是可以同时共存,虽然维护数据库视图会对数据库视图所基于的事务处理数据库产生一定的影响。更多信息,请阅读联机丛书的“了解数据库视图”主题。
通过在数据库镜像上创建数据库视图,您可轻松为系统的高可用性创建备用服务器,此服务器还可用作报告服务器,起着双重作用。
表分区分区表和分区索引将数据分割到多个水平单元中,以便于将行组映射到单独的分区中。而对数据执行操作(如查询)时,又可以将整个表或索引作为一个整体来执行。
分区可以:
• | 改善数据表和索引的可管理性。 |
• | 改善多 cpu 机器上的查询性能。 |
在关系型数据仓库中,事实数据表比较适合应用表分区,而按日期范围分区又是最常见的分区策略。
正如联机从书的“创建分区表和索引”主题中所描述的,定义分区表可分为三个步骤:
1. | 创建一个分区函数,指定使用此函数的表如何分区。 |
2. | 创建一个分区方案,指定应用此分区函数的分区在文件组上的位置。 |
3. | 使用此分区方案创建一个表或索引。 |
多个表可以使用同一个分区方案。
本文讨论了事实数据表的“范围”分区,但其目的并非是针对表分区的完整讨论或教程。有兴趣的读者请参阅 sql server 联机丛书。
最常用的分区方案是按日期范围(如年、季、月或甚至天)对事实数据表进行分区。在大多数情况下,对大型事实数据表进行日期分区可以提供良好的可管理性收益。为了改善查询性能,应尽量使用相同的分区方案对时间维度表进行分区。
• | 分区表和未分区表的行为方式相同。 |
• | 针对表的查询能够得到正确解析。 |
• | 针对表的直接插入、更新和删除会被自动解析到适当的分区。 |
许多数据仓库应用程序都力求在越来越小的加载窗口中加载越来越多的数据量。典型的流程是这样的,先从几个源系统中提取数据开始,接下来便是在这些系统间清理、转换、合成和合理化数据。数据管理应用程序被限制为在加载窗口中完成整个提取、转换和加载流程。通常,系统的业务用户都强烈要求将数据仓库查询时的不可用时间降至最低。在设计时,数据管理应用程序的“写入”步骤(即将新数据插入到现有数据仓库的步骤)必须在短时间内完成,且要最小化对用户造成的影响。
为了非常快速地加载数据,数据库恢复模型必须为“批量记录”恢复模式或“简单”恢复模式,而数据表必须为空,或是包含数据但不包含索引。如果满足这些条件,不作记录的加载便成为可能。在 sql server 2000 中,分区表出现以前,这些条件通常只在初始历史数据仓库加载中才能满足。一些具有大型数据仓库的客户已通过在分散的物理表上搭建 union all 视图,构建了一个准分区结构;这些数据表都使用不记录技术填充每个加载周期。这一方法并不尽如人意,而 sql server 2005 分区表则提供了更为优秀的功能。
在 sql server 2005 中,您不能直接在分区中执行不记录加载。但是,却可以将数据加载到将调用伪分区的单独表中。在特定条件下,您可以用执行速度极快的元数据操作将伪分区切换到分区表中。此技术可满足我们的两个要求:
• | 最小化整体加载时间:在不作记录的情况下执行伪分区加载,以及 |
• | 最小化对最终用户的影响,并确保数据仓库的完整性:伪分区可以在用户查询数据仓库时被加载。在执行分区切换之前,数据管理应用程序会等到所有事实数据表全部加载完毕为止。分区切换的执行速度非常快,反应时间通常不到一秒。 |
此外,伪分区还可作为单独的表进行备份,从而改善系统的可管理性。
使用表分区快速删除数据许多数据仓库在数据仓库中保留了一个详细活动数据的滑动窗口。例如,事实数据表可能包含三年、五年或十年的数据。每到一个时间周期,便从数据表中删除最旧的数据。持续删除数据的主要原因在于要提高查询性能并最小化存储成本。
sql server 2005 分区使大型分区事实数据表中旧数据的删除倍加轻松。如上所述,简单地创建一个空白伪分区,然后将其切换到分区表中。分区表在其曾植入分区的地方有一个空白分区;伪分区在其曾为空白的地方包含数据。用户可以根据需要对伪分区进行适当的备份、截断或删除。
或者,您还可以选择重新定义分区函数,将所有空白分区合并到一个分区中。
transact-sql 方面的改进新的数据类型sql server 2005 中有一些很重要的新类型,这些类型对数据仓库大有裨益:
• | varchar(max)、nvarchar(max) 和 varbinary(max) 支持 2gb 的数据,对于 text、ntext 和 image 数据类型非常有用。这些扩展的字符类型可能对在数据仓库中保存扩展的元数据和其他说明性信息非常有用。 |
许多新分析功能都提供了 transact-sql 中的基本分析功能。这些功能在那些允许用户查询关系数据库,而不是通过 analysis services 排他查询数据的数据仓库中非常有用。另外,在数据中转过程中,这些复杂的计算常被用来开发有价值的数据属性。
row_number。返回结果集的连续行号。
rank。返回行在结果集中的等级。在通常情况下,rank 值与有序数据集上的 row_number 值相同。但对于那些彼此之间有关联的行来说,则是所有具有相同排序值的行都有相同的等级。而下一个等级则又与 row_number 值相同。换句话说,如果在第一个位置存在双向关联,那么行 1 和行 2 的 rank 就都为 1,而行 3 的 rank 则为 3。不存在 rank 为 2 的行。
dense_rank。返回行在结果集中的等级。dense_rank 函数与 rank 相似,只是去除了 rank 函数所留下的空隙。在上面的示例中,行 1 和行 2 的 rank 为 1,而行 3 的 rank 则为 2。
ntile。将有序集分成指定数量、大小近似相等的组。
在 sql server 2005 beta 2 中还不能使用这些函数。
pivot 和 unpivot 操作符pivot 操作符可以按查询中的中断值旋转结果集,从而使您可以生成交叉数据报告。例如,如果表中在两个不同的行中包含 "actuals" 和 "budgets" 数据,则使用 pivot 操作符将可以生成带有 [actuals] 和 [budgets] 列的交叉数据报告。
与之相似,unpivot 操作符可以将一行拆分为若干行。在此示例中,带有 [actuals] 和 [budgets] 列的行集可以被转换为包含这些值的多个行。
在以前的 sql server 版本中,用户能够编写复杂的 transact-sql select 语句来旋转数据。pivot 和 unpivot 操作符则为数据旋转提供了更为简单的机制。
递归查询在许多方案中,“递归查询”都是非常有用的。sql server 2005 中的新增功能令递归查询成为可能,虽然此项功能还不是十分简单易用。
递归查询是针对自联接表的查询。自联接表的两个常见示例有保存员工及其经理信息的数据表,和保存材料清单的数据表。在 adventureworks 数据库的 employee 表中对自联接数据表进行了说明。
查询自联接表的直接关系通常十分简单,如查询直接向经理报告的员工数量。但是,如果要回答“经理的组织中有多少名员工?”这样一个问题却十分困难。
sql server 2005 中的关系数据库功能解决了这一问题,这一功能被称为“递归通用表表达式”。“附录”中包含一个递归查询的示例,该示例回答了以上定义的问题。联机丛书的 "with <common_table_expression>" 主题中包含更多的相关信息。
四、提取、转换和加载 (etl)
数据转换服务 (dts) 对于 sql server 2005 而言,是一项全新的技术。dts 是 sql server 2000 中很受欢迎的一项功能,但 dts 2005 已被重新设计成企业 etl 平台。dts 为构建企业级 etl 应用程序提供了大量必需的功能,以及非常高的扩展性能。dts 是完全可编程的、嵌入式的、可扩展的——所有这些特性都使它成为理想的 etl 平台。
下表总结了 dts 2005 的这些功能。有关 etl 系统开发 dts 适用性更加完整的讨论,请参阅 sql server 联机丛书。
包开发sql server 2005 的 dts 功能 | 企业 etl 开发 | etl 平台 |
使用 business intelligence development studio 图形用户界面设计数据管理应用程序的 dts 包。dts 包的设计、开发和调试均在 business intelligence development studio 中完成,您只需从工具栏拖动任务、为其设置属性并将任务与优先约束相连接便可完成这一切。 | • | |
使用 sql server management studio 向导开发执行常规任务(如“复制数据库”)的简单 dts 包。 | • | |
软件供应商将在其产品中嵌入 dts 功能,构建按需生成自定义包的向导。 | • | |
将控制流从数据流中分离出来。大多数的 dts 包都包含多个控制流任务,以及循环任务或顺序任务,这些任务都被放置在控制流窗格中。控制任务(管道任务)是包的工作动力,它拥有自己的设计表面,可用于布置数据流。控制流和数据流的分离使得程序更加容易读取。 | • | |
包变量是经过定义且可见的。变量是受限制的,如受包、循环或任务的限制。 | • | |
复杂的 etlm 系统可以通过构建包网络实现,其中包含一个调用其他包的包。子包可以很好地重新使用逻辑、变量和上下文。dts 2005 与 dts 2000 相比,对嵌套数据包的需求有所减少。 | • | |
包配置框架是可扩展的系统,可用于自定义包在不同环境中的运行方式。 | • | |
dts 程序以 xml 格式存储在文件系统或 sql server 中。dts xml 文件可受源代码管理。 | • | • |
dts 2000 包迁移向导可以帮助您将包迁移至 dts 2005,它还可以在出现升级问题的地方提供警告。 | • | |
dts 2000 运行时包含在 sql server 2005 中,在不升级 dts 2000 包的情况下,仍可运行。 | • | |
包的操作和结果会以多种形式被记录下来,分发给广泛的提供程序。 | • | • |
事件处理程序逻辑只需定义一次,便可多次使用。 | • | • |
与 wmi 的集成表明包可以对外部事件(例如文件复制的完成)作出响应,或抛出可供其他进程使用的 wmi 事件。 | • | • |
包可重启性与事务控制和故障检查点一起,可以帮助管理员管理复杂的包,移动大量数据。 | • |
sql server 2005 的 dts 功能 | 企业 etl 开发 | etl 平台 | ||||||||||||
优先约束:您可以设计一个包,以在任务成功、失败或完成时将控制传递给这些不同的任务。 | • | |||||||||||||
循环任务包括 for、foreach 和 sequence 循环。包开发人员可以在数据的所有(或一组)表上、目录中的文件上或是 analysis services 多维数据集分区上轻松执行一组操作。 | • | |||||||||||||
analysis services 集成是无缝的,它与自动执行 analysis services ddl 的控制任务一起处理 analysis services 对象,或执行数据挖掘查询。正如下面所讨论的,dts 管理还集成了 analysis services。 | • | |||||||||||||
vb.net 脚本可与“脚本任务”一起使用。被称为“activex 脚本任务”的第二个脚本任务主要用于向后兼容 dts 2000。 | • | |||||||||||||
通信任务包括:
| • | |||||||||||||
其他控制流任务包括:
| • | |||||||||||||
其他任务可以使用 dts 对象模型轻松开发。 | • |
sql server 2005 的 dts 功能 | 企业 etl 开发 | etl 平台 | ||||
在数据流管道中存在多个源、转换和目的。只有在转换完成时,数据才能被读取、合并和操作,然后才能写入。中转表所需的多次写入被削弱或消除;转换性能得到极大提高。 | • | |||||
“dts 管道”任务使用来自多个异类数据源和本机的数据。可扩展的“数据源”体系结构支持来自平面文件、oledb 源(包括 db2 和 oracle)和原始文件的数据。其他源,包括使用特殊结构化数据的源都在计划之内。 | • | • | ||||
其他数据源可以由 microsoft 及其合作伙伴轻松开发。 | • | |||||
来自多个源的数据可以与联接、查找和联合操作符相联接。这些操作都在内存中执行,不需要对数据库或文件执行写入操作。 | • | |||||
数据流可以使用条件分离和多播转换。类似编译器的 dts 引擎确定了可以平行操作哪些数据流。 | • | |||||
大量基于行的数据转换都是由字符映射、复制映射、数据转换和派生列转换所提供的。这些操作符更像是向导,而非转换,它们提供了用户所需的大部分数据转换。 | • | |||||
有些数据转换任务需要对多个行中的数据进行比较。排序和聚合转换可以在数据流中以极高的性能执行这些操作,其性能远非数据库聚合可及。 | • | |||||
有些数据转换任务需要复杂逻辑,例如模糊匹配、模糊分组、时间维度生成以及旋转或反旋转。其他常见任务(例如维度键管理)则需要多个步骤。特殊技术和向导使这些复杂技术可供所有用户使用。 | • | |||||
转换后的数据可以写入异类目标,其中包括 sql server 表、oledb 数据库表、平面文件以及原始文件。 | • | • | ||||
转换后的数据可以与 microsoft bi 解决方案的其他组件集成,其中包括 analysis services 数据库和数据挖掘模型。 | • | |||||
由转换步骤所导致的错误流可以以多种方式进行管理:
| • | • | ||||
其他转换和目的可以由 microsoft 及其合作伙伴轻松开发。 | • |
sql server 2005 的 dts 功能 | 企业 etl 开发 | etl 平台 |
包开发商可以在每个控制流任务中定义控制流断点。在调试过程中,断点可以定义在某些任务执行点之前、之后,或定义在这些任务执行点。 | • | |
包开发商可以为数据流中的每个转换附加一个数据查看器。在调试过程中,数据查看器会显示在该点的转换后数据流内容。 | • | |
business intelligence development studio 寄宿在 visual studio 中。脚本及其他编程任务可以充分利用该企业开发环境的优点。 | • | • |
包开发可以帮助用户将所有包组件(包括自定义脚本和可执行程序)捆绑在一起,以用于发行测试、生产或其他客户系统。 | • |
dts 2000 用户已经开发出了一套执行复杂操作的技巧。这些技巧,尤其是编写自修改包,在 dts 2005 中不再有用武之地。在 dts 2005 中要使用变量和配置基础结构来编写动态包、不要再试图编写自修改包。
配置良好的变量和配置基础结构还可以减少创建复杂子包系统的需求。如果设计完善,单一包便可满足多种需求;例如,单一包可以在多种不同配置中重复使用,以用来在维度数据仓库中加载许多维度表。在 dts 2000 中,一个复杂的 dts 包网络可能包括 50-100 个包;而在 dts 2005 中,一个复杂的网络可能只包含 10 个包。
五、analysis services
sql server 2000 analysis services 由两个主要的互补功能组成:联机分析处理 (olap) 和数据挖掘。这两个组件在 analysis services 2005 中仍然存在,并且是分析应用程序的基石。
analysis services 2005 olap 中的功能改进主要可以归纳为两类改进:
• | 启用了一些新的分析应用程序,而达到此目的做法便是添加全新的功能,或是使复杂功能的构建变得更加简单。 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
• | 增强了分析应用程序的企业适应性
|
构建分析数据库的途径主要有两个:
• | 完全自定义:从源开始,通常是从一个关系型源开始,定义维度、多维数据集、关键绩效指标、计算和数据挖掘模型。此途径对那些业已具备数据仓库或主题集市的客户来说十分适合。在多维数据集向导的第一个屏幕中,此选项的标签为“使用现有数据库/数据仓库”。 |
• | 可自定义的模板:从模板开始,定义和生成一个完整的应用程序,包括关系数据库、dts 包和 analysis services olap 数据库。设计和生成这些组件的目的是使这些组件无缝合作,共同组成一个完整的应用程序。此途径对于那些从模板开始安装完整商务智能解决方案的客户来说十分适合。在多维数据集向导的第一个屏幕中,此选项的标签为“在不具备数据源的前提下设计商务智能模型”。 |
不管采用哪种方法,基本的系统设计都假设使用当前熟悉的、来自一个或多个源的商务智能结构来填充维度关系型数据仓库,然后再用数据仓库来填充 analysis services 数据库。但是,sql server 2005 提供了许多选项,通过消除或淡化不同的组件使其背离了这种常规设计。在下面“统一维度”模型中讨论了一些其他的备选系统。
从现有的源数据库创建自定义数据库创建 analysis services 数据库的第一种方法最为 sql server 2000 的用户所熟悉。即从任意结构的源数据库开始着手创建数据库:
• | 按事实数据表和维度表构建一个维度数据库,或 |
• | 任何其他的数据库结构,包括标准化的事务系统。 |
sql server 2005 中可从标准化数据库寻源的能力是对 analysis services 2000 的一大突破,在 analysis services 2000 中,执行此操作需要一个维度结构,此结构或是星型的,或是雪花型的,或是拉伸型的。此功能使您可以轻松地开发具有极低延迟时间的商务智能应用程序。
通过直接在事务数据库内构建 analysis services 数据库,而不需要先构建正式的数据仓库,可以用较低的成本,轻松有效地满足许多用户的要求。如果您需要仅对数据执行最低的数据转换、清理和集成便投入使用,则可考虑使用一个 analysis services 数据库来补充或替换现有的关系报告。您可以充分利用 analysis services 的功能和交互性,更好地管理事务系统中的负载。
虽然可以直接从事务系统构建和维护 analysis services 数据库,但只有先构建关系型数据仓库才能最好地满足许多企业分析的要求。复杂的数据集成和数据更改管理问题可以通过典型的数据仓库体系结构得到最好的解决,其中 analysis services 数据库充当着查询和分析引擎的角色。
数据源和数据源视图构建分析应用程序的第一步就是在 business intelligence development studio 中创建一个新的 analysis services 项目。创建了空项目之后,应当创建一个“数据源”并将其与源数据库建立连接,此源数据库可以是任何受支持的关系数据库管理系统中的数据库。对于 beta 2 版本,建议您将 sql server 2000 或 sql server 2005 关系数据库作为源。
“数据源”负责为源数据连接存储信息。“数据源视图”中包含着源数据库表相关子集的信息。此信息不只局限于源数据库中表的物理结构;您还可以添加诸如关系、表和列的友好名称、计算列和命名查询之类的信息。
“数据源视图”可以在 bi 项目和 dts 项目之间共享。“数据源视图”很有用处,尤其是在以下几种情况中:
• | 源数据库包含成千上万个表,但其中只有相对少数的表在 bi 应用程序中真正有用。 |
• | analysis services 数据库使用来自多个源的数据,这些源有多重数据库、服务器、平面文件或 rdbms。 |
• | bi 系统开发人员不具有源数据库中的系统管理权限,且不允许创建物理视图或修改源数据库。 |
• | bi 系统开发人员需要以“脱机”模式工作,必须断开与源数据库的连接。设计和开发任务针对“数据源视图”发生,而“数据源视图”已从源数据中分离出来。 |
您为“数据源视图”设置良好名称和关系所作的投资将换来分析应用程序的轻松开发。
创建维度和多维数据集创建了“数据源视图”之后,便可以右击“解决方案资源管理器”窗格中的“多维数据集”图标,选择“新建多维数据集”,创建一个多维数据集。您可以启用 intellicube 检测和建议。如果您选择使用 intellicube,则必须决定是否构建一个已为报告经过旋转优化的多维数据集。intellicube 技术会对“数据源视图”中的数据库和数据基数关系进行检查,并按事实数据表、维度表或用于解析多对多关系的维度-事实桥接表来智能呈现表特征。对于 beta 2 版本来说,选择是为旋转还是为报告优化多维数据集和维度存在一些微小的差别。唯一的差别就是 intellicube 是否会尝试在维度属性之间创建层次关系。由于层次易于创建,也易于毁坏,因此无须担心会花费太多时间和精力。
建议您在此“多维数据集向导”的初始屏幕后立即点击“完成”按钮。这样会一次定义好所需的 analysis services 数据库、维度、层次、属性和多维数据集。您可以对此设计进行编辑,但通常情况下,仔细一点儿走完向导,并在过程中作出一些明智的选择会更加有效。
实施完“多维数据集向导”之后,您可能会发现您更喜欢用“维度向导”来逐一地创建复杂的维度,要启动“维度向导”,只需在“解决方案资源管理器”窗格中右击“维度”即可。仔细定义完大型维度(例如“产品”、“客户”和“时间”)后,启动“多维数据集向导”,并确保在适当的位置包括这些预定义的维度。
构建和部署到此为止,前面执行的这些步骤已在您的开发机器上以 xml 文件轻松创建了维度和多维数据集定义和结构。business intelligence development studio 和“配置管理器”使您可以对目标服务器上的项目构建和部署过程进行管理。默认情况下,“部署”目标服务器就是您的本地服务器。您可以创建适合其他环境部署的备选配置。项目的主要属性,如目标服务器的名称和数据源连接字符串等,可能会因配置而不同。
要在开发循环过程中预览和测试多维数据集和维度,请从 business intelligence development studio 的菜单中选择“部署”,在指定的目标服务器上构建和部署项目。或者,单击 f5,或选择“调试”(位于 business intelligence development studio 主菜单中)。这样会启动几个调试和浏览工具中的一个,具体启动哪个,要取决于您所执行的操作以及您选择“部署”的时间。根据此上下文,“部署”过程会启动多维数据集浏览器、mdx 脚本调试器或 kpi 浏览器。
您可能想在定义完系统的维度、度量值和多维数据集后查看一下系统原型。请使用相对较少的数据针对开发数据库进行处理,以验证数据和结构的行为是否与预期的行为相一致。
作为原型的一部分,您可能想设计一些更为复杂的“analysis services 数据库”、“关键绩效指标”、“操作”和“计算”组件。如果您的数据库是被对不同数据视图感兴趣的不同用户团体使用的话,请深入查看“透视”和备选的安全计划。如果您计划部署可供国际上不同语言的用户使用的数据库,则可以使用“翻译”功能引入本地化项目名称。最终,原型会评估备选的物理配置,例如“分区”和不同的“主动缓存”选项。
在 analysis service 数据库开发完成之后,便可以部署数据库对象,以便于进行最终测试、临时过渡并投入生产服务器。在构建阶段的项目输出可以用作 analysis services 部署实用工具的输入。此实用工具可以帮助您部署和处理数据库。
从模板创建可自定义的数据库我们刚刚描述了从已知源创建自定义 analysis services 数据库的基本步骤。这种通过“多维数据集向导”和“维度向导”创建的方法与创建 analysis services 2000 数据库的标准方法十分类似。
创建 2005 分析应用程序的另外一种备选方法就是选择“多维数据集向导”第二个屏幕上的“在不具备数据源的前提下设计商务智能模型”选项。这种通过向导创建的方法与 sql server 2000 accelerator for business intelligence 的设计体验十分类似。这种设计体验会从模板生成一个完全可自定义的应用程序,此处的模板:具有丰富的维度结构和分析功能,还有可能包括一个关系型数据仓库和 dts 包。microsoft、集成商或独立软件供应商都可以提供这种模板。
不管采用哪种通过向导创建的方法,是从源数据库创建,还是从模板创建,都可以设计相同的 analysis services 数据库。第一种选项假设您将创建一个完全自定义的系统。对象名称和结构都是可以完全自定义的,初始设计是受源数据库中的名称和结构所驱动的。模板选项也可以创建一个完全自定义的数据库,但是初始设计是受专家主题区域模板所驱动的。
许多用户都喜欢将这两种方法结合使用。一个非常常见的方法就是用现有源创建 analysis services 数据库中的大部分内容,而用模板法生成“时间”维度。
统一维度模型analysis services 2005 使关系数据库与多维度 olap 数据库之间的界线变得更加模糊。olap 数据库分析应用程序一直以来都具有着巨大的优势,这些优势主要体现在以下几个方面:
• | 卓越的查询性能、 |
• | 丰富的分析功能,以及 |
• | 其易于业务分析师使用的操作简单性。 |
不过,在实现这些功能的同时也带来了一定的负面效应。到目前为止,已经发现的问题就有 olap 数据库(包括 analysis services 2000 在内)很难交付以下内容:
• | 包括多对多关系的复杂架构、 |
• | 对广泛属性集的详细报告,以及 |
• | 低延迟数据。 |
通过将传统 olap 分析与关系报告二者的优点相结合,analysis services 2005 能够提供一个可以同时覆盖这两方面需求的统一维度模型。在 sql server 2005 中定义的一套多维数据集和维度被称为统一维度模型 (unified dimensional model),或 udm。udm 的优势和灵活性引发了设计领域的巨变。过去,bi 架构师会权衡备选基础结构的收益和成本,并在关系数据库和 olap 数据库之间作出选择。现在,架构师可以设计一个“统一维度模型”,然后从传统极限中确定一点用于放置 analysis services 系统逻辑设计和物理配置。
基于属性的维度analysis services 2005 围绕维度的属性,而非维度的层次构建多维数据集。在 analysis services 2000 中,维度设计由层次主宰,层次的示例有 {年、月、日} 或 {国家、地区、城市}。这些层次要求各层之间存在密切的数据关系。作为成员属性和虚拟维度公开的“属性”是“二等公民”。虽然有可能在物理维度中生成属性,但性能因素却使这一技术的广泛使用大打折扣。熟悉关系结构的用户对 olap 数据库中对层次的过度侧重深感困惑。
analysis services 2005 结构与关系型维度结构更为类似。一个维度可包含多个属性,每个属性都可用于切片和筛选查询,同时每个查询又可以合并到层次中,而不必考虑数据的相互关系。
有 olap 背景的用户都知道强大的层次结构的价值,有一点您可以肯定,那就是“城市”清晰地汇总为“地区”和“国家”。这种自然层次结构依然存在,并应在适当的位置进行定义:查询性能会因为这种层次结构而得到提高。
新闻热点
疑难解答