SQL Server调优系列进阶篇（如何维护数据库索引）

2024-08-31 00:54:57

字体：大中小

来源：转载

供稿：网友

前言

上一篇我们研究了如何利用索引在数据库里面调优，简要的介绍了索引的原理，更重要的分析了如何选择索引以及索引的利弊项，有兴趣的可以点击查看。

本篇延续上一篇的内容，继续分析索引这块，侧重索引项的日常维护以及一些注意事项等。

闲言少叙，进入本篇的主题。

技术准备

数据库版本为SQL Server2012，前几篇文章用的是SQL Server2008RT，内容区别不大，利用微软的以前的案例库（Northwind）进行分析，部分内容也会应用微软的另一个案例库AdventureWorks。

相信了解SQL Server的朋友，对这两个库都不会太陌生。

一、创建索引

当我们要开始对表进行索引的创建的时候，首先明确的是，一张表内只能创建一个聚集索引，最多可以创建最多249个非聚集索引(SQL Server2005)，在SQL Server2008以后聚集索引数提升至999个，上一篇文章我们知道对于聚集索引项一般要创建上，而非聚集索引项要根据日常的T-SQL语句进行选择。

关于索引的选择是一个很考验调优能力的事情，大部分的情况下优质的索引新建全靠经验而论，有兴趣的可以点击查阅我前面的一系列关于分析查询计划的文章，掌握住里面的精髓才能有的放矢。

当然，小白级别的也可以参照如下方法尝试进行创建：

由于SQL Server有着自己的一套调优技巧，所以在我们每次运行的T-SQL语句应该怎样优化，SQL Server是了如指掌的，所以它会将缺失的索引项进行记录，用于提示使用者，尝试去建立这些索引。

主要记录在以下几个DMV中

sys.dm_db_missing_index_detailssys.dm_db_missing_index_groupssys.dm_db_missing_index_group_statssys.dm_db_missing_index_columns(index_handle)sys.dm_db_missing_index_details

关于这些个DMV的使用，来举一个例子：

--新建表，建立主键，形成聚集索引CREATE TABLE BigTable(   [KEY] INT,   DATA INT,   PAD CHAR(200),   CONSTRAINT [PK1] PRIMARY KEY ([KEY]))GO--批量插入测试数据250000行SET NOCOUNT ON DECLARE @i INTBEGIN TRAN    SET @i=0    WHILE @i<250000    BEGIN       INSERT BigTable VALUES(@i,@i,NULL)       SET @i=@i+1       IF @i%1000=0       BEGIN          COMMIT TRAN          BEGIN TRAN       ENDEND    COMMIT TRANGO

利用这个测试脚本，我们新建了一张测试表，并且插入了一些测试数据，运行一个查询

SELECT [KEY],[DATA]FROM BigTableWHERE DATA<1000GO

在这个简单的查询脚本中，SQL Server已经提示了我们需要创建的索引项。我们可以右键，直接生成创建脚本

SQL Server已经提示我们要创建的索引项内容了，穿件一个非聚集索引在列DATA上，并且INCLUDE列KEY，并且经创建完这个索引后的提升值都给计算出来了。

以上这种方式，在我们调优的时候是经常使用的，在我们拿到需要优化的语句后，直接执行就可以看到一部分需要调整的信息了。

但是，大部分的T-SQL语句不允许我们进行这样的优化流程，甚至有时候是已经存在的系统。所以，我们下手的方式只能绕道了，幸好SQL Server为我们记录下了这些缺失索引项的信息，就存在我上面提到的几个DMV中。我们来查看下：

SELECT migs.group_handle, mid.* FROM sys.dm_db_missing_index_group_stats AS migs INNER JOIN sys.dm_db_missing_index_groups AS mig ON (migs.group_handle = mig.index_group_handle) INNER JOIN sys.dm_db_missing_index_details AS mid ON (mig.index_handle = mid.index_handle) WHERE migs.group_handle = 2

所以，大部分情况下，通过查看以上语句基本能确认到需要创建的索引项有哪些。

提示：但是，这里的DMV信息只是记录自上次SQL Server启动以后的信息项，也就是说每次重启之后这部分信息就丢失了，所以对于生产系统，建议确保运行了一段周期之后再进行查看。

知道了应该创建什么样的索引，下一步就是创建索引了，来看创建索引的脚本

CREATE [ UNIQUE ] [ CLUSTERED | NONCLUSTERED ] INDEX index_name     ON <object> ( column [ ASC | DESC ] [ ,...n ] )     [ INCLUDE ( column_name [ ,...n ] ) ]    [ WHERE <filter_predicate> ]    [ WITH ( <relational_index_option> [ ,...n ] ) ]    [ ON { partition_scheme_name ( column_name )          | filegroup_name          | default          }    ]    [ FILESTREAM_ON { filestream_filegroup_name | partition_scheme_name | "NULL" } ]

创建脚本很简单，指定索引类型、索引名称、所属表、包含列、筛选项、所属文件组以及操作项就可以创建了。我相信基本搞过SQL Server数据的这块脚本一般不会陌生。

当然，如果不熟悉脚本的方式，SQL Server也默认给提供了图形化操作界面，傻瓜式操作

这里我们重点分析几点注意事项。

UNIQUE：

该关键字指定索引项为唯一值，也就是非重复值，在实际应用中非常的有用，应为唯一就意味着这个索引的高选择性，也就意味着当前索引的可用性高低。

前面文章已经分析了SQL Server会默认的在主键列上创建聚集索引，也是利用了主键的非空和唯一性特点。

当然，这里也提示下聚集索引要求的就是唯一性，如果当前列确实存在重复值，那在创建聚集索引的时候SQL Server会默认的在当前列上加上一个唯一标识符（uniqueifiter）在内部来保证索引的唯一性。但这个时候就不需要显式的指定UNIQUE了，否则会报如下错误：

CLUSTERED|NONCLUSTERED：

这个就是指定创建的索引为聚集还是非聚集索引。

关于它，这里有几点需要注意，因为非聚集索引的叶子节点存储的就是聚集索引键值，所以在创建顺序上要保证优先创建聚集索引，而后再创建非聚集索引，保证有足够的存储空间来存放非聚集索引。

在我们重新创建聚集索引的时候，SQL Server会默认的重新生成全部非聚集索引，如果表数据量特别大，这个过程会很漫长，如果不指定ONLINE的话，这个过程会是锁定索引B-Teee的，这就意味着是阻塞的，业务就要停下来等待完成操作，切记不要将此事发生在生产机上。

当然，以上问题是可以避免的。

index_name：索引的名字。
column ：

创建索引所选的列了，提示下：不能将大型对象 (LOB) 数据类型 ntext、text、varchar(max)、 nvarchar(max)、varbinary(max)、xml 或 image 的列指定为索引的键列。另外，即使 CREATE INDEX 语句中并未引用 ntext、text 或 image 列。如果想用这些类型的列可以存放于INCLUDE里面。

INCLUDE：

索引包含列，这个关键字非常有用，尤其在应对T-SQL的随机IO问题上，具体内容可参照我前面的一系列的文章介绍。

还有前面提到的那些大型对象（LOB）数据类型，也可以包含进去，不过这里有一点需要提示下，如果包含了大型对象，则创建索引不支持在线（ONLINE）操作，这就意味着必须选择非业务器进行操作。

PAD_INDEX = { ON | OFF }|FILLFACTOR =fillfactor

这个两个选项是为了设置填充因子使用的，也是我们在创建索引的时候最常用的。

关于填充因子的作用简单点讲就是为了减少分页而在索引空间中提前先预留空间。我们知道对于聚集索引在叶级别就包含了数据，所以用户在这里可以指定每个叶子保留的空间的大小，通过预留空间，就可以避免用户新的数据填充而产生分页现象，产生索引碎片影响性能。

当然，关于填充因子的内容支撑，是需要一部分基础知识的，有兴趣的可以点击此参照联机丛书的官方介绍。

索引默认的的选项是OFF，也就是说基本不会预留太多空间。

关于这里填充因子设置的数值大小问题，其实没有一个固定的值，纯粹是一个经验值，来自于系统的场景和长期运行的总结。当然，如果非要给出的话，可以参照如下进行设置：

1.当读写比例大于100：1时，不要设置填充因子，100%填充

2.当写的次数大于读的次数时，设置50%-70%填充

3.当读写比例位于两者之间时80%-90%填充

但是，这个值并不是被SQL Server所维护的，也就是说在这部分预留空间填满之后，后者改数据页删除部分数据之后，还是会产生索引碎片，所以在系统运行过一段周期之后，我们需要手动的去重新整理索引，来维护好索引的秩序，维护方式也就是：重新创建，重新组织等。文章后面的会介绍。

SORT_IN_TEMPDB = { ON | OFF }

这个就是指定当前索引排序是否要借助TempDB库，默认值为OFF。如果想快速的生成索引请将此选项指定为ON，当然弊端就是会扩大TempDB的大小，如果原表数据量特别多的话，这可能会是一个很大的空间值。

STATISTICS_NORECOMPUTE = { ON | OFF}

这个指定是否同时更新统计信息。默认是开启的。我知道统计信息的重要性，所以在创建的时候不要更改此值。

DROP_EXISTING = { ON | OFF }

删除或重建的时候是否重新生成已经命名先前存在的聚集或非聚集索引。默认是OFF。

这个选项非常的有用。删除或者重建索引的时候整个流程是作为一个事务来处理的。所以，通常情况下，如果打算重建一个聚集索引的时候，需要先删除聚集索引，而后再新建立一个，但是这个流程中，在删除的时候SQL Server必须重建每一个非聚集索引将每一个非聚集索引的叶子节点有聚集索引键改成RID,然后新建过程，在重复的将所有的每一个非聚集索引的叶子节点由RID键更改成新的聚集索引键值。

这就是需要重建非聚集索引两次，如果表数据量特别大的话，这个时间消耗就会很长很长...而且是阻塞的....

但是如果指定DROP_EXISTING选项为ON的话，就可以在创建或者删除的时候只需要一次更改所有非聚集索引就可以。当然此方式也可以通过ALTER INDEX做到，后面分析。