首页 > 开发 > 综合 > 正文

ORA-03113错误分析与解决

2024-07-21 02:33:50
字体:
来源:转载
供稿:网友

  前言
  
  每一个DBA在进行数据库治理的过程中不可避免的要碰到形形色色的错误(ORA-1547 ,ORA-904,ORA-1578 ......)。有些错误由于频繁出现、原因复杂而被 Oracle DBA 们戏称之为"经典的错误"。 其中ORA-3113 "end of file on communication channel" 就是这样的一个。
  
  我们可以简单的把这个错误理解为Oracle客户端进程和数据库后台进程连接中断。不过,导致这个错误的原因实际上有很多种:对数据库设置不当、任何能导致数据库后台进程崩溃的行为都可能产生这个错误。这个错误的出现还经常伴随着其它错误,比如说:
  ORA-1034 ORACLE not available
  
  此外,该错误出现的场景复杂,可能出现在:
  
  启动的Oracle的时侯
  
  试图创建数据库的时侯
  
  试图对数据库进行连接的时侯
  
  在客户端正在运行SQL/PL/SQL的时侯
  
  备份/恢复数据库的时侯
  
  其它一些情况下......
  
  在论坛上也时常可以看到初级DBA对这个问题的求救。在这里简单的对该问题进行一下整理。
  
  错误原因种种
  
  根据网络上大家反映的情况来看,错误原因大约有这些:
  
  Unix核心参数设置不当
  
  Oracle执行文件权限不正确/环境变量问题
  
  客户端通信不能正确处理
  
  数据库服务器崩溃/操作系统崩溃/进程被kill
  
  Oracle 内部错误
  
  特定SQL、PL/SQL引起的错误
  
  空间不够
  
  防火墙的问题
  
  其它原因
  
  在开始解决问题之前,作如下几件事情:
  
  回忆一下在出现错误之前你都做了什么操作,越具体越好;
  
  查看 background_dump_dest 目录中的 alertSID.log 文件也是你必须要的事情;
  
  用Google.COM 搜索一下,在互联网上有很多信息等着你去发现,不要什么都问别人。
  
  当然, 假如你找到了一些对你更有帮助的东西--这篇文档就不用看了 :-)
  
  错误原因情景分析
  
  Unix核心参数设置不当 / init参数设置不当
  
  假如数据库在安装过程中没有设定正确的操作系统核心变量,可能在安装数据库文件的时侯没甚么问题,在创建数据库的时侯经常会出现03113错误。和此有关的另一个原因是init.ora 参数文件中的PRocesses参数指定了不合理的值,启动数据库导致错误出现(当然这个归根到底也是核心参数的问题)。
  
  这个错误信息一般如下:
  ORA-03113: end-of-file on communication channel
  ORA-01034: ORACLE not available
  ORA-27101: shared memory realm does not exist
  
  解决办法有两个:
  
  1、修改核心参数,加大相应核心参数的值(推荐);
  
  2、减小init.ora参数的Processes的值。
  
  需要注重的是:
  
  SEMMSL必须设定为至少要10 + '进程数的最大值';
  
  SEMMNS 也依靠于每个数据库上的进程参数值。
  
  注:
  
  这个错误类型只在Unix平台上出现。在Windows上假如processes的值过大,则会出现类似如下的错误:
  ORA-00068: invalid value 24200001 for parameter max_rollback_segments,
  must be between 2 and 65535
  
  /* 此时指定的参数值超过了65535 */
  
  或者 ORA-27102: out of memory /* 小于65535的一个大参数值 */ 软件环境:
  windows 2000 Version 5.0 Service Pack 3, CPU type 586
  ORACLE RDBMS Version: 8.1.7.0.0
  
  在特定平台上更改核心参数可能会有差别,请参考Oracle Technet(http://otn.oracle.com) 上的安装文档。
对特定Unix平台的安装文档也有对核心参数意义的解释。 Init.ora中的参数假如设置不当,会产生该错误。有经验表明:shared_pool_size设置过小会出现错误,此外timed_statistics=true的设置也会带来问题。
  
  Oracle执行文件权限不正确/环境变量问题
  
  这个问题只出现在Unix平台上。常见情况是有的时侯治理员为了方便而使用Unix的tar命令处理过的压缩包进行的安装,或者是系统治理员指定了额外的OS用户也可以治理数据库却没有指定正确的环境变量。
  
  Oracle执行文件在$ORACLE_HOME/bin目录下,假如出现问题,应该用如下Unix类似命令来纠正 : #chmod 7755 $ORACLE_HOME/bin/oracle
  
  有的时侯要对Oracle进行relink操作。
  
  在Unix上通过cp拷贝安装的时候,经常会出现环境变量的问题,和个别执行程序连接问题。 LD_LIBRARY_PATH假如设置的不正确会导致问题,在这种情况下,需要对Oracle进行relink。假如可执行文件oralcle被破坏,也要对其relink。 假如安装了并行服务器选项而Distributed Lock Manager没有安装或正确运行也会导致错误。
  
  客户端通信不能正确处理
  
  1.SQL*Net驱动器的问题:
  
  假如使用的版本比较低的驱动器,请更换到新版本的驱动。 SQL*Net 的驱动没有连接到Oracle可执行文件会导致错误。
  
  2.检查TCP/ip网络是否通畅;
  
  3.Windows平台的常见网络问题:
  
  在Windows平台创建数据库的时侯,假如出现该问题可以考虑用如下的方法:
  
  首先检查本地网络设置.查看网络上是否有同名的结点或有冲突的IP.假如问题依旧,可以保守的用下面的方法:
  
  1). 禁用网卡:将本地连接状态改为禁用;
  
  2). 将sqlnet.ora文件打开(以记事本形式)将nts验证注释掉:
  
  #SQLNET.AUTHENTICATION_SERVICES= (NTS)
  
  3). 创建数据库;
  
  4). 创建成功后,恢复本地连接;
  
  数据库服务器崩溃/操作系统崩溃/进程被异常的Kill
  
  在连接过程中,假如Oracle数据库的服务器崩溃或者数据库所在的操作系统崩溃,就会出现这 个错误,Oracle Server崩溃的原因可能因为主要后台进程死掉,被错误的进行了Kill操作。假如是这个原因还是比较轻易解决的。此外,和OS有关的应用程序存在内存泄漏(或者有病毒)的时侯也会导致Oracle后台程序问题。 推荐排错步骤:
  
  1、 查看应用软件相关进程是否正常运行;
  
  2、 查看有无内存泄漏;
  
  3、 查杀病毒;
  
  4、 确定系统治理员没有进行误操作;
  
  5、 确定无黑客入侵行为;
  
  6、 其它不确定因素......
  
  Oracle 内部错误 / Bug
  
  假如查看background_dump_dest目录中的alert.log发现有ora-600/ora-07445等错误,可以到Metalink站点上查看具体信息及其解决方案。一般情况下要打软件补丁。
  
  特定SQL、PL/SQL引起的错误
  
  尝试把SQL进行分开执行,也可以用SQL_TRACE来进行跟踪,找到导致问题的SQL语句。在SQLPlus下: ALTER session SET sql_trace=TRUE;SQL语句中的非法字符和不合理的处理结果,甚至一些不可解释的原因偶然会带来问题.
  
  SQL问题举例: SELECT *
   FROM (SELECT ROWNUM AS num, k.*
       FROM (SELECT  a.cp_code, c.cp_cha_name, a.service_code,
               a.service_name, a.content_name,
               SUBSTR (a.access_time, 1, 8) thedate,
               COUNT (*) AS hit_count
            FROM sm_wap_log_daily_tab a, t_cp_info c
            WHERE (SUBSTR (a.access_time, 1, 8) BETWEEN '20040301'
                                AND '20040304'
               )
             AND c.cp_code LIKE '%%'
             AND a.cp_code = c.cp_code
             AND a.service_code LIKE '%%'
          GROUP BY a.cp_code,
               c.cp_cha_name,
               a.service_code,
               a.service_name,
               a.content_name,
               SUBSTR (a.access_time, 1, 8)
          ORDER BY a.cp_code,
               a.service_code,
               a.content_name,
               SUBSTR (a.access_time, 1, 8) DESC) k) n;
  上面这条语句在9204/linux 系统上始终出现03113 的错误。
对语句进行细化,分成小一点的子语句逐步执行,最后判定问题出现在         ORDER BY a.cp_code,
               a.service_code,
               a.content_name,
               SUBSTR (a.access_time, 1, 8) DESC) k) n;
   中的 SUBSTR (a.access_time, 1, 8) 这里。去掉SUBSTR (a.access_time, 1, 8)则问题不再出现。尝试调整SUBSTR (a.access_time, 1, 8) 的位置,语句得到通过。之后,顺便优化一下该语句。:)  SELECT *
   FROM (SELECT ROWNUM AS num, k.*
       FROM (SELECT  a.cp_code, c.cp_cha_name, a.service_code,
               a.service_name, a.content_name,
               SUBSTR (a.access_time, 1, 8) thedate,
               COUNT (*) AS hit_count
            FROM sm_wap_log_daily_tab a, t_cp_info c
            WHERE (SUBSTR (a.access_time, 1, 8) BETWEEN '20040301'
                                AND '20040304'
               )
             AND c.cp_code LIKE '%%'
             AND c.cp_code = a.cp_code
             AND a.service_code LIKE '%%'
          GROUP BY a.cp_code,
               c.cp_cha_name,
               a.service_code,
               a.service_name,
               a.content_name,
               SUBSTR (a.access_time, 1, 8)
          ORDER BY (SUBSTR (a.access_time, 1, 8)),
               a.cp_code,
               a.service_code,
               a.content_name DESC) k) n;系统空间不够
              
  任何时侯都要确保数据库系统有足够的空间.假如 USER_DUMP_DEST和BACKGROUND_DUMP_DEST没有剩余空间的话,会导致此问题.此外,假如打开了审计,AUDIT目录要由足够的空间.假如激活了Trace的话,Trace目录要由足够的空间. Dave Wotton的文档 (Local Copy) 表明,在对表进行插入数据的时侯,假如文件超过了2G (而文件系统有2G限制),会导致该问题.
  
  防火墙的问题
  
  假如数据要通过防火墙,请联系系统治理员,询问是否对数据库数据进行了过滤或者是忽然禁止了通信端口。如本地安装有个人防火墙,请检查本地设置。
  
  其它方面说明
  
  导致这个错误的原因有很多种,上面列到的只是一些典型情况。经常去一些数据库技术论坛可能会有帮助。比如说ITPUB( http://www.itpub.net)、CNOUG(http://www.cnoug.org)等。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表