CAMS常见业务问题汇编V1.0. 11、Cams双机切换后,备机Cams服务无法启动导致重新切回主机... 22、Cams双机切换后,业务无法正常运行... 23、Cams双机采用二层VPN无法建立隧道... 24、WinXP如何启用自带802.1x客户端... 25、MA5200与Cams双机配合的局限... 26、Cams开户时帐号、用户名与密码问题... 37、如何在Cams上查询Portal业务端口... 38、Cams按流量计费问题... 39、Cams查询用户数据流量异常问题... 310、Cams重新安装,如何确保数据库用户数据不丢失... 311、Cams用户治理中无法查询到用户... 312、误配置了Cams的ACL,导致Web治理前台无法登录... 413、LAN接入用户经常大面积无故掉线问题... 414、Cams中修改所有帐号用户的开户日期... 415、HP ML350 G3服务器安装双网卡,需要修改Bios配置,否则安装完linux后,可能出现网卡不能正常工作 416、Radius报文中涉及ip地址属性的说明... 417、Cams治理前台查看系统状况,显示与Oracle连接不正常,则需重新启动tomcat4. 518、Cams的QoS配置特性说明... 519、Cams无法强制LAN接入用户下线问题... 520、Cams的V100R001版本不支持分档计费,V100R002开始支持... 521、Cams运行一段时间后死机问题... 522、Exp命令备份Oracle数据库的问题... 623、开帐号用户时为何总提示要重新登录?... 624、日志中的“Fail to get PRocess function point”问题... 625、IP地址与帐号绑定时无法通过认证问题... 626、Portal业务问题... 71、目前仅MA5200可与Cams配合实现Portal业务... 72、Portal与Cams平台装在同一台机器上,无法正确弹出重定向认证页面... 73、使用Portal时Web强制到Cams的前台治理界面... 74、为什么Web强制页面总是“宽带业务无法使用”?... 75、老版本Cams在Web重定向时无法打开Portal认证页面... 76、Portal 2.0基本交互过程分析... 7附录一 Portal消息中ErrorID的含义... 9附录二 MA5200F做Portal业务的典型配置... 10 CAMS常见业务问题汇编V1.0
说明:本汇编只针对Cams业务,由Linux或Oracle安装配置造成的故障问题不在此文范围内。另外有个好消息,明年Cams可能移植到Windows平台上。1、Cams双机切换后,备机Cams服务无法启动导致重新切回主机
这是备机Cams安装配置问题,可能是备机/etc/init.d目录下的Camsd文件没有可执行权限(ls ?l时应是rwx-rx-rx),或oracle和IP资源配置有问题,因为Cams服务的启动依靠这两个资源。可以先分别切换oracle和IP资源是否成功来初步定位问题。2、Cams双机切换后,业务无法正常运行
这个问题比较棘手,大部分是因为双机切换后,Cams虚IP地址对应的MAC地址发生变化,需要交换机设备及时更新ARP表项。Cams的双机软件Lifekeeper在切换时会发出一免费ARP更新报文,该报文的目的IP是本子网最后一个IP地址,我司交换机认为该更新报文非法,丢弃之,导致ARP表项不能及时更新,只能等待老化。3、Cams双机采用二层VPN无法建立隧道
Cams双机系统+NAS组件,3680路由器采用L2TP的VPN接入认证。路由器发code=1的radius包目的地址是Cams双机虚地址,而Cams发出code=2的回包源地址是主Cams服务器地址,导致认证无法通过,VPN隧道不能建立。4、3680E与Cams对接实现L2TP VPN业务,用户正常下线后,Cams显示仍然在线
Cams记录用户的一次正常上、下线,是通过Radius Code=4的报文里acct-session-id唯一标识的。同一用户上下线时,3680E所发两个Code=4的报文中,acct-session-id应该是相同且唯一的。通过查看Cams调试级别的用户日志,发现3680E所发的acct-session-id值为空,导致Cams无法识别每个用户,因此该用户虽然下线,但Cams仍然显示其在线。此问题在3680E早期版本和部分新版本中存在。5、WinXP如何启用自带802.1x客户端
MS的Win XP自带802.1x客户端,在DHCP获得IP时,可与Cams配合实现LAN接入业务。Cams+MA5200方式:XP的”网络属性”里选中“启动IEEE 802.1x”,以及“md5质询”,再选中下面的“当计算机信息可用时身份验证为计算机”(否则会出现Windows无法登录的错误)。使用802.1x业务时,将XP的网卡禁用再启用,即可看到右下角提示信息“单击此处输入用户名和密码”。MA5200需要配置dot1x的policy,6320版本的具体命令是:vlan port <vlan id> <num> dot1x-policy eap-dhcp对于启用802.1x的交换机,需要在system-view下配置dot1x dhcp-launch。假如客户为静态IP地址,则无法使用XP自带的客户端。因为按国标,交换机不主动发EAP-Request,而应由用户方发起认证。6、MA5200与Cams双机配合的局限
MA5200与Cams双机配合,MA5200上必须分别配置主备机两机IP地址作为主、从认证计费服务器地址,不能配置双机虚地址做认证,因为MA5200分析了Radius回包的源地址。而一般交换机不需要做此配置。7、Cams开户时帐号、用户名与密码问题
帐号用户的业务名和用户名是有区别的,开户时需要分别指定业务名和用户名。业务名是用户上网时需要认证的名字,用户名是用户登录自助服务界面时需要使用的名字。业务名与用户名不区分大小写,两者密码缺省是一样的,也可以分别配置密码。8、如何在Cams上查询Portal业务端口
Portal业务端口为50100,在Cams主机上有两条命令可以查询:netstat -algrep 50100lsof -i udpgrep 501009、Cams按流量计费问题
Cams按流量计费,只有MA5200实现了按用户连接统计,华为3Com各类交换机都是按端口统计,所以假如Cams与交换机配合按流量计费,只能一个用户接一个端口,否则统计接同一端口的所有用户流量都是该端口的总流量。因此若按流量计费,务必使用MA5200+Cams方式。10、Cams查询用户数据流量异常问题
Cams系统中查询的用户流量数据往往会很离谱,这是因为Cams查询用户时的流量统计信息与具体设备有关。Cams治理前台“系统治理/系统参数/LAN接入业务参数”中,“流量统计单位”默认是1024字节,需要根据具体设备调整。比如3026E,使用huawei或标准radius时,发送的流量信息以字节为单位,该参数就要改成1字节。否则用户流量会显示的很大(是实际的1024倍)。11、Cams重新安装,如何确保数据库用户数据不丢失
Cams重新安装不损失数据库用户数据,在安装平台组件的时候必须采用Custom定制安装,而不能选择Full安装方式。且不能选定制安装中的第四项(执行数据库脚本)。另外,假如采取这种方式重新安装Cams,无法避免30天临时License使用期限的问题。即Cams临时License在30天过期后,这样重新安装不能再使用30天。12、Cams用户治理中无法查询到用户
Cams用户治理里查询用户,需要注重时间段限制,假如碰到客户反映无法查询到某用户时,就调整查询起始时间。Cams中缺省为一年间隔。13、误配置了Cams的ACL,导致Web治理前台无法登录
在Cams主机上,以Oracle用户登录,执行sqlplus cams/cams@cams,在SQL>提示符下执行:SQL> delete from tbl_acl;SQL> commit;当Cams的ACL配置错误,可采用这个办法来清除ACL。注重SQL语句后带分号。14、LAN接入用户经常大面积无故掉线问题
若有802.1x的LAN接入用户大面积掉线故障时,可检查Cams与LAN接入设备的配置。在Cams“系统治理/系统参数/公用系统参数”中设置的“老化时间间隔”必须大于设备上设置的计费更新包的时间间隔。老化时间间隔缺省为30分钟。这是因为Cams要根据设备发来的计费更新报文(code=4)来判定用户是否在线,假如在老化时间内没收到计费更新报文,就认为该用户掉线,于是强制用户下线。15、Cams中修改所有帐号用户的开户日期
有些客户希望所有帐号用户的开户日期能够统一到一个时间点上,此时可直接对数据库进行操作,以Oracle用户登录系统后:sqlplus cams/cams@camsSQL>update tbl_user set create_time=to_date('2003-09-01','YYYY-MM-DD');SQL>commit;SQL>exit这样就更改所有帐号用户的开户日期为2003年9月1号。16、HP ML350 G3服务器安装双网卡,需要修改Bios配置,否则安装完Linux后,可能出现网卡不能正常工作
17、Radius报文中涉及IP地址属性的说明
Nas-ip-addr属性记录的是发起认证请求的设备地址,Framed-ip-addr是接入用户的IP地址,格式为9位10进制数字。在换算成IP地址时,先转换为16进制,再拆分成点分十进制的IP地址即可。18、Cams治理前台查看系统状况,显示与Oracle连接不正常,则需重新启动tomcat4
root用户执行:# tomcat4 stop# tomcat4 start19、Cams的QoS配置特性说明
Cams“业务治理/LAN接入业务”中的QoS配置,需要设备侧配合支持,我司交换机3026E和3526E均支持QoS配置,但只支持上行限速,粒度为1M,MA5200粒度可到64K。Cams中先指定QoS费率(1024K=1M),交换机侧需配置Radius协议类型为huawei(使用Huawei扩展Radius协议)。20、Cams无法强制LAN接入用户下线问题
Cams无法强制LAN接入用户下线,与Huawei扩展Radius协议有关。只要不是非凡老的交换机版本,在radius-server host(scheme) XXX模式下配置server-type huawei(或server-type portal,对于5200E的新命令行版本只能是portal)命令即可。Cams强制下线的报文是扩展Radius协议定义的。Cams给设备发code=20的报文,设备回计费结束报文code=4,然后对用户执行下线操作。任何不支持Huawei Radius +1.1协议的设备都无法实现强制下线功能,如ISN8850。21、Cams的V100R001版本不支持分档计费,V100R002开始支持
分档计费的典型实例:某包月限时20小时的用户,在当月使用完20小时后,仍可继续使用,但费率重新计算。22、Cams运行一段时间后死机问题
该故障现象比较常见,在排除网络故障、计算机硬件故障的可能性后,90%都是由于安装Oracle8.1.7.4补丁不正确所致。打8174补丁虽然比较复杂,但假如没有严格按指导书操作,则会在运行中出现内存溢出的问题,导致Cams系统死机。解决此问题的方法:1、 停掉Cams服务、停掉数据库,使用exp全备份数据库数据;2、 删除Cams安装目录,如/root/cams;3、 停掉数据库的监听(lsnrctl stop),重新打8174补丁;4、 重新安装Cams。23、Exp命令备份Oracle数据库的问题
以Oracle用户执行exp备份的时候提示:exp-00056:oracle error 12541 encounteredora-12541:tns:no listenerexp-00000:export terminate unsUCcessful那么就需要启动监听lsnrctl start,数据库不需要启动。exp-00008:oracle error 904 encounteredora-00904:invalid column nameexp-00000:export terminate unsuccessful说明安装8174补丁时没有严格按指导书操作,没执行四个SQL脚本文件。需要重新安装8174的补丁。24、开帐号用户时为何总提示要重新登录?
通过Cams前台Web治理系统开户时,增加帐号用户后,申请LAN接入业务,无法弹出申请业务界面,而直接提示“操作失败,操作员需要重新登录”。这是因为IE浏览器安全级别配置过高,在IE的“工具/Internet选项/安全”,将“该区域的安全级别”设为默认级别即可。25、日志中的“Fail to get process function point”问题
这是比较典型的故障现象,Cams可以收到code=1的Radius包,但用户无法通过认证。在Cams日志中记录:2003-11-07 15:46:56 : [ERROR (1)] : PT[4]: Fail to get process function point, maybe you don't have right to use this service!原因是Cams的配置文件目录,通常是/root/cams/etc目录下service.conf文件被清空或错误配置。例如对于NAS业务,需要补充上:SERVICE NAS /root/cams/libs/libprocnas.so ProcFuncCfg注重大小写,并按实际Cams安装路径和业务恢复该文件即可。26、IP地址与帐号绑定时无法通过认证问题
在做IP地址与帐号绑定的功能时,用户无法通过认证,在设备上观察Radius报文,发现设备发出code=1的报文后,Cams回应的code=3的报文里有:[18 Reply-Message ] [57] [Bound IP-Address is inconsistent with the accessing IP!]
[hw-26 Connect_ID ] [6] [11] *0.533754 S3526E RDS/8/DEBUG:Slot=1;RejectMsg= [Bound IP-Address is inconsistent with the accessing IP!] 意思是配置绑定的IP地址与Cams接收到的客户访问的IP地址不一致。我们检查code=1的报文里Framed-ip-addr是否正确,该属性携带客户IP地址信息,假如没有该属性,则很可能是802.1x客户端里没有选中要上传IP地址。假如该属性不正确,则需要检查客户的IP地址是否是配置绑定的IP。27、运行userinfo-linux文件,提示需要java runtime
为申请License而执行userinfo-linux文件采集系统信息时,提示需要安装java runtime问题。假如没有安装Cams,则可能出现这个问题,需要设置环境变量,在/etc/profile文件中加入一行:export JAVA_HOME=/usr/java/j2sdk1.4.0/Linux系统中可能不是j2sdk1.4.0目录名,根据实际目录名修改即可。28、Portal业务问题
1、目前仅MA5200可与Cams配合实现Portal业务
2、Portal与Cams平台装在同一台机器上,无法正确弹出重定向认证页面
1.00-0150版本之后,Portal组件分为Portal Server和Portal Client,假如与平台装在同一台机器上,则必须先安装Cams平台组件,再安装Portal Server,最后安装Portal Client。由于Cams平台包含了tomcat4,所以在安装Portal Client的时候可选择不安装tomcat4。3、使用Portal时Web强制到Cams的前台治理界面
使用Portal业务时强制到Cams的Web治理页面,当Cams与Portal合装在一台机器上的时候可能出现这个问题,主要是安装Portal的顺序错误导致。解决办法,先停止tomcat4,再到/var/tomcat4/work/目录下删除所有文件,重新启动tomcat4即可。/var/tomcat4/work/目录存放Portal的临时文件,假如安装顺序错误,该目录下文件始终生效导致业务不正常。4、为什么Web强制页面总是“宽带业务无法使用”?
Portal 2.0业务假如Web重定向后提示小窗口:宽带业务无法使用。一般都是Cams中Portal业务端口组信息配置有错误。配置原则是:1、 当只有一个端口组时可配置起始端口到终止端口为0-z;2、 但有多个组的时候,要严格按规则配置,规则为<设备名>-VLAN-<槽位号>-<VLAN ID>@VLAN,例如MA5200F-VLAN-02-0010@VLAN,槽位号是两位数字,VLAN ID是4位数字。3、 起始端口与终止端口这种配置只有Portal 2.0支持。4、 Portal服务器的log里Code : CODE_PP_DEVICE_REQUEST的报文中The attribute content 字段是用户客户端的IP地址,该地址应该在Cams配置的Portal IP地址组里,否则强制Web后页面也是“宽带业务无法使用”。5、老版本Cams在Web重定向时无法打开Portal认证页面
1.00-0150版本之前的Cams做Portal业务,需要修改/var/tomcat4/conf/server.xml文件,将其中Base="ROOT"改为Base=“portal“。否则无法打开Portal认证页面。6、Portal 2.0基本交互过程分析
在实际使用中,发现Portal业务不正常时,我们需要打开portal调试级别日志或MA5200的debug portal信息来判定故障所在。因此有必要了解Portal的工作过程。Cams配置Portal本地Challenge为“否“: SeqSourceTargetCode内容说明1Portal协议模块TomcatCODE_PP_DEVICE_REQUEST携带客户IP地址信息2TomcatPortal协议模块CODE_PP_DEVICE_RESPONSE 3Portal协议模块TomcatCODE_PP_DOMAIN_REQUEST 4CamsMA5200REQ_INFO请求设备发送端口信息5MA5200CamsACK_INFO在attribute content中携带端口信息6CamsMA5200REQ_CHALLENGE请求设备发CHAP验证字7MA5200CamsACK_CHALLENGE应答8CamsMA5200REQ_AUTH请求设备发认证报文
随后MA5200会将Radius Code=1的报文发来,开始Radius交互过程。
u 假如在CODE_PP_DEVICE_RESPONSE后,没有REQ_INFO过程,则很可能是Portal用户的IP地址不在Portal配置的IP地址池范围内,可检查DEVICE_REQUEST报文中attribute content属性所携带的客户IP地址,此时ErrorID=1。u 假如Cams发REQ_INFO后没收到ACK_INFO消息,说明设备侧配置错误,可检查Portal服务器地址和端口等配置。u 假如Cams收到ACK_INFO后没发REQ_CHALLENGE,说明Cams上配置端口组时,起始与终止端口信息与ACK_INFO中的不一致,当然也有可能Cams的Portal配置本地challenge为“是“。u 假如Cams发出REQ_INFO后没收到MA5200回应的ACK_INFO消息,很可能是通信端口配置错误。Cams监听Portal消息的端口是50100,而MA5200的监听端口是2000。u 一般Cams与MA5200对接Portal业务,“本地challenge”配置为“否“,“快速认证”为“否”。u /etc/camsd/portal/log目录下记录了Portal协议交互过程,在出现问题后,可以将该日志采集出来分析,注重先打开Portal的调试级别日志。当Cams配置Portal本地Challenge为“是“时,Cams收到ACK_INFO后,会直接发REQ_AUTH消息,通知设备开始Radius过程。另外,以上这些报文中都有一个属性为ErrorID,该值正常情况下为0,异常时为非0数字,具体含义请参考附录一,从中也可大致判定故障原因。附录一 Portal消息中ErrorID的含义
ErrorID(即ErrCode)在不同Portal报文中的含义不同,ErrorID 字段和 Type 字段一起表示一定的意义,长度为 1字节。具体定义为:1、对于REQ_CHALLENGE(Type=1)、REQ_AUTH(Type=3)、AFF_ACK_AUTH(Type=7)、REQ_INFO (Type=9)、NTF_USERDISCOVER (Type=x0b)和 NTF_USERIPCHANGE (Type=0x0c)报文,ErrorID 字段无意义,其值为 0。2、对于 ACK_CHALLENGE (Type=2)报文,ErrorID 有如下含义:ErrCode含义0BAS 设备通知 Portal Server,Challenge 请求成功1BAS 设备通知 Portal Server,Challenge 请求被拒绝2BAS 设备通知 Portal Server,此用户连接已经建立3BAS 设备通知 Portal Server,有一个用户正在认证过程中,请稍后再试4BAS 设备通知 Portal Server,此用户Challenge 请求失败(发生错误)
3、对于 ACK_AUTH(Type=4)报文,ErrCode 有如下含义:ErrCode含义0BAS 设备通知 Portal Server,用户认证成功1BAS 设备通知 Portal Server,用户认证请求被拒绝2BAS 设备通知 Portal Server,此用户连接已经建立3BAS 设备通知 Portal Server,有一个用户正在认证过程中,请稍后再试4BAS 设备通知 Portal Server,此用户认证请求失败
4、对于 REQ_LOGOUT(Type=5)报文,ErrCode 有如下含义:ErrCode含义0表示此报文是 Portal Server 发给 BAS 设备的请求下线报文1表示此报文是 Portal Server 没有收到 BAS 设备发来的对各种请求的响应报文,而定时器时间到(即超时)时由 Portal Server 发给 BAS 设备的报文
5、对于 ACK_LOGOUT(Type=6)报文,ErrCode 有如下含义:ErrCode含义0BAS 设备通知 Portal Server,此用户下线成功1BAS 设备通知 Portal Server,此用户下线被拒绝2BAS 设备通知 Portal Server,此用户下线失败(发生错误)3BAS 设备通知 Portal Server,此用户已经下线
6、对于 NTF_LOGOUT (Type=8)报文,ErrCode 有如下含义:ErrCode含义0BAS 通知 Portal Server,用户强制下线
7、对于 ACK_INFO (Type=0x0a)报文,ErrCode 有如下含义:ErrCode含义0处理成功,但不表示全部消息都被获取了,有多少信息被获得应通过属性来判定1功能不支持,表示MA5200设备不支持这一功能2消息处理失败,由于某种不可知原因,使处理失败,例如询问消息格式错误等
8、对于 AFF_NTF_USERIPCHAN (Type=x0d)报文,ErrCode 有如下含义:ErrCode含义0Portal Server 通知 BAS 设备,更新用户 IP 地址成功1Portal Server 通知 BAS 设备,更新用户 IP 地址失败
9、对于 ACK_NTF_LOGOUT (Type=0x0e)报文,ErrCode 有如下含义:ErrCode含义0Portal Server 通知 BAS 设备,用户 IP 下线成功
附录二 MA5200F做Portal业务的典型配置
MA5200典型配置实例。