首页 > 开发 > 综合 > 正文

一次诊断和解决CPU利用率高的问题分析

2024-07-21 02:05:45
字体:
来源:转载
供稿:网友
  • 本文来源于网页设计爱好者web开发社区http://www.html.org.cn收集整理,欢迎访问。

  • 本文作者: allan ([email protected] )

     

    oracle数据库经常会遇到cpu利用率很高的情况,这种时候大都是数据库中存在着严重性能低下的sql语句,这种sql语句大大的消耗了cpu资源,导致整个系统性能低下。当然,引起严重性能低下的sql语句的原因是多方面的,具体的原因要具体的来分析,下面通过一个实际的案例来说明如何来诊断和解决cpu利用率高的这类问题。

    操作系统:solairs8

    数据库:oracle9.2.0.4

    问题描述:现场工程师汇报数据库非常慢,几乎所有应用操作均无法正常进行。

    首先登陆主机,执行top发现cpu资源几乎消耗殆尽,存在很多占用cpu很高的进程,而内存和i/o都不高,具体如下:

    last pid: 26136;  load averages:  8.89,  8.91,  8.12                                                                       

    216 processes: 204 sleeping, 8 running, 4 on cpu

    cpu states:  0.6% idle, 97.3% user,  1.8% kernel,  0.2% iowait,  0.0% swap

    memory: 8192m real, 1166m free, 14m swap in use, 8179m swap free

    pid username thr pri nice  size   res state   time    cpu command

    25725 oracle     1  50    0 4550m 4508m cpu2   12:23 11.23% oracle

    25774 oracle     1  41    0 4550m 4508m run    14:25 10.66% oracle

    26016 oracle     1  31    0 4550m 4508m run     5:41 10.37% oracle

    26010 oracle     1  41    0 4550m 4508m run     4:40  9.81% oracle

    26014 oracle     1  51    0 4550m 4506m cpu6    4:19  9.76% oracle

    25873 oracle     1  41    0 4550m 4508m run    12:10  9.45% oracle

    25723 oracle     1  50    0 4550m 4508m run    15:09  9.40% oracle

    26121 oracle     1  41    0 4550m 4506m cpu0    1:13  9.28% oracle

    于是先查看数据库的告警日志alert文件,并没有发现有什么错误存在,日志显示数据库运行正常,排除数据库本身存在问题。

    然后查看这些占用cpu资源很高的oracle进程究竟是在做什么操作,使用如下sql语句:

    select sql_text,spid,v$session.program,process  from

    v$sqlarea,v$session,v$process

    where v$sqlarea.address=v$session.sql_address

    and v$sqlarea.hash_value=v$session.sql_hash_value

    and v$session.paddr=v$process.addr

    and v$process.spid in (pid);

    用top中占用cpu很高的进程的pid替换脚本中的pid,得到相应的oracle进程所执行的sql语句,发现占用cpu资源很高的进程都是执行同一个sql语句:

    select d.domainname,d.mswitchdomainid, a.serviceid,a.servicecode,a.usertype,a.status,a.notifystatus,to_char(a.datecreated,'yyyy-mm-dd hh24:mi:ss') datecreated,vipflag,status2,customertype,customerid  from service a, gatewayloc b, subbureaunumber c, mswitchdomain d   where b.mswitchdomainid = d.mswitchdomainid and b.gatewaysn = c.gatewaysn  and a.servicecode like c.code||'%' and a.servicespecid=1 and a.status!='4' and a.status!='10'  and a.servicecode like '010987654321%' and subsidiaryid=999999999

    基本上可以肯定是这个sql引起了系统cpu资源大量被占用,那究竟是什么原因造成这个sql这么大量占用cpu资源呢,我们先来看看数据库的进程等待事件都有些什么:

    sql> select sid,event,p1,p1text from v$session_wait;

           sid event       p1 p1text

    ---------- ----------------------------------------------------------------

            12 latch free  4.3982e+12 address

            36 latch free  4.3982e+12 address

            37 latch free  4.3982e+12 address

            84 latch free  4.3982e+12 address

           102 latch free  4.3982e+12 address

           101 latch free  4.3982e+12 address

            85 latch free  4.3982e+12 address

           106 latch free  4.3982e+12 address

           155 latch free  4.3982e+12 address

           151 latch free  4.3982e+12 address

           149 latch free  4.3982e+12 address

           147 latch free  4.3982e+12 address

             1 pmon timer  300 duration

    从上面的查询我们可以看出,大都是latch free的等待事件,然后接着查一下这些latch的等待都是什么进程产生的:

    sql> select spid from v$process where addr in

     (select paddr from v$session where sid in(84,102,101,106,155,151));

    spid

    ------------

    25774

    26010

    25873

    25725

    由此看出latch free这个等待事件导致了上面的那个sql语句都在等待,占用了大量的cpu资源。我们来看看究竟主要是那种类型的latch的等待,根据下面的sql语句:

    sql> select latch#, name, gets, misses, sleeps

         from v$latch

         where sleeps>0

         order by sleeps;

    latch#  name                          gets     misses      sleeps  

    ---------- ----------------------------------------------------------------

        15   messages                       96876       20          1    

       159   library cache pin allocation   407322      43          1    

       132   dml lock allocation            194533      213         2    

         4   session allocation             304897      48          3    

       115   redo allocation                238031      286         4    

        17   enqueue hash chains            277510      85          5    

         7   session idle bit               2727264     314         16   

       158   library cache pin              3881788     5586        58   

       156   shared pool                    2771629     6184        662  

       157   library cache                  5637573     25246       801  

        98   cache buffers chains           1722750424  758400      109837

    由上面的查询可以看出最主要的latch等待是cache buffers chains,这个latch的等待表明数据库存在单独的block的竞争这些latch,我们来看这个latch存在的子latch及其对应的类型:

    sql> select addr, latch#, gets, misses, sleeps

         from v$latch_children 

         where sleeps>0         

         and latch# = 98  

         order by sleeps desc;

    addr                 latch#       gets     misses     sleeps

    ---------------- ---------- ---------- ---------- ----------

    000004000a3dfd10         98   10840661      82891        389

    000004000a698c70         98     159510          2        244

    0000040009b21738         98  104269771      34926        209

    0000040009b227a8         98  107604659      35697        185

    000004000a3e0d70         98    5447601      18922        156

    000004000a6c2bd0         98     853375          7        134

    0000040009b24888         98   85538409      25752        106

    ……………

    接着我们来查看sleep较多的子latch对应都有哪些对象:

    sql> select distinct a.owner,a.segment_name,a.segment_type from

         dba_extents a,

    (select dbarfil,dbablk

    from x$bh

    where hladdr in

         (select addr

         from (select addr

         from v$latch_children

         order by sleeps desc)

         where rownum < 5)) b

    where a.relative_fno = b.dbarfil

    and a.block_id <= b.dbablk and a.block_id + a.blocks > b.dbablk;

    owner                    segment_name                    segment_type

    ---------------------------------------------------------------------------

    test                    i_service_servicespecid              index

    test                    i_service_subsidiaryid               index

    test                    service                              table

    test                    mswitchdomain                        table

    test                    i_service_sc_s                       index

    …………………

    我们看到在开始的那个sql语句中的几个对象都有包括在内,于是来看看开始的那个sql的执行计划:

    sql> set autotrace trace explain

    sql>select d.domainname,d.mswitchdomainid, a.serviceid,a.servicecode,a.usertype,a.status,a.notifystatus,to_char(a.datecreated,'yyyy-mm-dd hh24:mi:ss') datecreated,vipflag,status2,customertype,customerid  from service a, gatewayloc b, subbureaunumber c, mswitchdomain d   where b.mswitchdomainid = d.mswitchdomainid and b.gatewaysn = c.gatewaysn  and a.servicecode like c.code||'%' and a.servicespecid=1 and a.status!='4' and a.status!='10'  and a.servicecode like '010987654321%' and subsidiaryid=999999999;

    execution plan

    ----------------------------------------------------------

       0      select statement optimizer=choose

       1    0   nested loops

       2    1     nested loops

       3    2       nested loops

       4    3         table access (full) of 'subbureaunumber'

       5    3         table access (by index rowid) of 'gatewayloc'

       6    5           index (unique scan) of 'pk_gatewayloc' (unique)

       7    2       table access (by index rowid) of 'mswitchdomain'

       8    7         index (unique scan) of 'pk_mswitchdomain' (unique)

       9    1     table access (by index rowid) of 'service'

      10    9       and-equal

      11   10         index (range scan) of 'i_service_servicespecid' (non

              -unique)                

      12   10         index (range scan) of 'i_service_subsidiaryid' (non-

              unique)

    根据开始查到的引起latch free等待中的对象和sql语句的执行计划,觉得service表上的索引有问题,似乎存在了过多的扫描,于是将同样的sql语句在别的地市的同样的数据库上执行一下,查看相应的执行计划:

    sql> set autotrace trace explain

    sql>select d.domainname,d.mswitchdomainid, a.serviceid,a.servicecode,a.usertype,a.status,a.notifystatus,to_char(a.datecreated,'yyyy-mm-dd hh24:mi:ss') datecreated,vipflag,status2,customertype,customerid  from service a, gatewayloc b, subbureaunumber c, mswitchdomain d   where b.mswitchdomainid = d.mswitchdomainid and b.gatewaysn = c.gatewaysn  and a.servicecode like c.code||'%' and a.servicespecid=1 and a.status!='4' and a.status!='10'  and a.servicecode like '010987654321%' and subsidiaryid=999999999;

    execution plan

    ----------------------------------------------------------

       0      select statement optimizer=choose

       1    0   table access (by index rowid) of 'service'

       2    1     nested loops

       3    2       nested loops

       4    3         nested loops

       5    4           table access (full) of 'subbureaunumber'

       6    4           table access (by index rowid) of 'gatewayloc'

       7    6             index (unique scan) of 'pk_gatewayloc' (unique)

       8    3         table access (by index rowid) of 'mswitchdomain'

       9    8           index (unique scan) of 'pk_mswitchdomain' (unique)

      10    2       index (range scan) of 'i_service_sc_s' (non-unique)

    对比两个执行计划,发现索引i_service_servicespecid和i_service_subsidiaryid是不应该走的,于是又对比了两个地方service表上的索引个数:

    sql> select index_name from user_indexes where table_name='service';

    index_name

    ------------------------------

    i_service_accountnum

    i_service_cid

    i_service_dateactivated

    i_service_priceplanid

    i_service_sc_s

    i_service_servicecode

    i_service_servicespecid

    i_service_subsidiaryid

    pk_service_sid

    sql> select index_name from user_indexes where table_name='service';

    index_name

    ------------------------------

    i_service_accountnum

    i_service_cid

    i_service_dateactivated

    i_service_sc_s

    i_service_servicecode

    pk_service_sid

    发现存在问题的数据库中的service表上不知道怎么多出了i_service_priceplanid、i_service_servicespecid 、i_service_subsidiaryid三个索引,而这些索引就是导致了开始那个sql语句用了不该用的索引,引起latch free等待和cpu占用很高的罪魁祸首,于是删除了那三个索引,重新执行相应的sql语句,很快就得出了结果,cpu的利用率也马上下降为正常了,观察结果如下:

    last pid: 26387;  load averages:  1.61, 1.38, 1.21                                                                      

    195 processes: 194 sleeping, 1 on cpu

    cpu states: 96.2% idle,  1.6% user,  1.7% kernel,  0.5% iowait,  0.0% swap

    memory: 8192m real, 1183m free, 14m swap in use, 8179m swap free

    pid username thr pri nice  size   res state   time    cpu command

    26383 oracle     1  59    0 4550m 4506m sleep   0:12  4.52% oracle

      409 root      15  59    0 7168k 7008k sleep 173.1h  0.53% picld

    25653 oracle     1  59    0 4550m 4508m sleep   2:12  0.48% oracle

    26384 root       1  59    0 2800k 1912k cpu2    0:00  0.21% top-3.5b8-sun4u

    25569 oracle     1  59    0 4550m 4508m sleep   0:12  0.09% oracle

    25717 oracle     1  59    0 4550m 4507m sleep   0:07  0.05% oracle

    25571 oracle     1  59    0 4550m 4507m sleep   0:10  0.04% oracle

    25681 oracle     1  59    0 4550m 4508m sleep   0:10  0.04% oracle

    25544 oracle     1  58    0 4554m 4501m sleep   0:14  0.03% oracle

    25703 oracle     1  59    0 4550m 4506m sleep   0:23  0.03% oracle

    ………………

    对于cpu利用率过高的情况,如果是sql语句性能比较低下引起的基本上都可以按照这个思路来诊断和解决问题,当然具体问题还得具体分析,解决问题的方法也有很多种,这里不过是抛砖引玉一下,只要能最终达到我们解决问题的目的就可以了。

     

     

     

     

     

     

     

     

     

     

     

     

    作者简介:

     

    照片

    暂缺

    网名coolyl

    csdn emag oracle电子杂志主编

    现任itpub oracle管理版版主。

    擅长数据库的维护,对于数据库的安装,调整,备份方面有自己独到的经验。同时也给一些国内的大型企业做过oracle的培训,有一定的培训经验。

    曾做过很多大型项目的数据库维护和支持工作,对oracle的维护有相当多的实际经验,善于现场解决问题。

    曾任职于国内某大型软件企业做oracle数据库的技术支持,客户遍及全国各个行业,尤其是电信,政府行业。

    现任职于某外资电信企业华北区分公司,dba,负责华北区40多个数据库系统的维护,对大型数据库管理经验丰富。

     

    《oracle数据库dba专题技术精粹》一书的主编及主要作者.

     

    mail地址: [email protected]
    发表评论 共有条评论
    用户名: 密码:
    验证码: 匿名发表