安全管理网

电厂#4机DCS系统通讯故障事件分析报告

  
评论: 更新日期:2017年07月27日

1、DCS系统简介
电厂共有三套联合循环机组(第三、四、五套)采用了ABB公司的SYMPHONY DCS控制系统,该三套机组各有一个独立的控制环,另有一个中央环与这三个控制环分别连接在一起。每套机组各有四个PCU节点,分别为2、5、7、9,他们承担着整个机组的控制任务,另有三个节点是为操作员站、工程师站与上述四个控制节点之间提供通讯接口。
(1)网络结构
Symphony DCS系统的通信网络为多层的各自独立的标准总线和环形网络结构:
1)Operation Network(简称Onet):位于最上层,为总线网络,符合以态网标准,主要用来构成管理层数据交换的结构,使用开放的TCP/IP协议(厂暂时没有);
2)Control Network(简称Cnet):为过程数据管理层,环形结构,使用高效、安全的存储转发协议,主要承担过程管理信息的传播功能;
3)Control Way(C.W):Cnet下的控制总线,为串行总线结构,使用简捷、快速的自由竞争协议,主要承担本节点内MFP模件间的数据交换功能;
4)Expander Bus(E.B):为过程I/O数据层,并行总线结构,受MFP控制,无标称协议,主要承担MFP与其所配置的系列I/O模件通信,去完成相应的数据采集和控制功能。
(2)Cnet通信系统
Cnet通信系统是建立在例外报告技术的二进制技术协议基础上的无主站、闭环的、多回路的、缓冲器插入式的通信网络,它由一对相互冗余的同轴电缆组成,允许工作在10MHz、2MHz和500kHz的频率上,每两个相邻的节点的距离可远达4000m,可支持多达250个节点(#4机DCS共有9个节点,最远节点间的距离为#2PCU→#18PCU,大约200米)。通信信息以打包的形式进行传送,每一帧可以多至1500个字节。Cnet高速公路每秒可以处理6667条信息,每条信息又包含平均75个变量的信息,通信能力相当强大。
1)两条数据高速公路的电缆同步工作,即相互冗余,如果一条电缆通道发生故障,备用的电缆会自动地对通信系统进行控制,发生故障的电缆会被下一个节点发现,它从备用的通道获得信息并从这两条电缆发送至高速公路的对称的节点上去。这时,除了故障节点至下一个节点之间的这一段外,通信系统仍然是正常和冗余的。
2)正常情况下,冗余配置的通信模件若有一套发生故障时,系统会自动将备用的投入运行;若两套均发生故障,通信系统应会自动地将故障节点旁路,通过NTCL环路端子板,所有的信息会继续被传送至其他节点,直到故障的模件被更换。同时,高速公路上的故障节点中的MFP会以上次的过程变量的定值进行正常的控制。SERVER、EWS和SOE而言,它们各自的节点相互独立,没有冗余。
2、事件经过
(1)10月20日20:40时,#4机在运行中DCS的五台操作员站大部分数据显示紫色,约2分钟后又自动恢复到正常。(此种现象以前曾多次发生)
(2)21:31时,#3炉在吹灰过程中,突然发现#4机DCS的五台操作员站所有的数据均为紫色,不能自动恢复。运行人员立即通知检修人员速进厂处理。因DCS全部死机,无法在远方监视机组情况,运行值班人员在就地监视水位,压力,温度等关键参数,并作好随时打闸停机的事故准备。
(3)运行人员电话询问检修人员,其要求重启主机试一下能否恢复。即对服务器主机重启后,仍然无法恢复。
(4)检修人员在现场进行检查:看到所有PCU柜上的通讯接口主模件,包括NPM和ICT的状态灯均为红色,故障代码为均为LED2&5灯亮(为LOOPBACK故障或NIS故障)。但是所有MFP12主模件以及对应的子模件均工作正常(机组仍能维持运行)。对ICT模件进行复位和拔插操作,故障依旧,不能消除。
(5)检修电话咨询北京ABB贝利后,经运行、检修人员商讨决定停机检查。
(6)23:14时,#3机切轻油,23:23时#3机切轻油到位,当班值长调集人员仔细研究手动停机方案后,作好了停机前的一切准备工作,包括烟气挡板就地操作试验,手动启动交流润滑油泵,就地操作部分电动门,轴封供汽手动控制,高低压旁路防止误动,转动机械选择就地控制等一系列详细的操作计划以及就地操作人员的分工情况。
(7)待全部人员就位后,23:43时#3机发stop令,23:45时在锅炉挡板门关闭后,并开启#3炉向空排气电动门,确认锅炉不会超压情况下,#4机就地打闸,高压自动主汽门,调门,低压补汽主汽门,调门快速关闭,1104开关,灭磁开关联跳动作正常,机组进入停机惰走过程。为安全起见,在机组惰走到600rpm时,手动开启真空破坏门,待真空到-50kPa时,关闭真空破坏门,机组惰走至300rpm时,手动投入1#顶轴油泵,检查顶轴油压正常。
(8)23:53时,#3机解列,23:58时#3机熄火,待#3机熄火后确认锅炉水位正常,受热面无危险,即就地停止各泵运行,关闭#3炉向空排气电动门。0:23时#4惰走结束,投入连续盘车,惰走35分钟,机组听音检查正常,对汽机,锅炉全面检查,未见异常。
(9)机组停机后:对NPM模件进行复位和拔插操作,故障依旧不能消除。待#2机、#4机和#11机均已停机后,将中心环的PCU电源停掉,再将#4机的#2、#5、#7和#9PCU的电源停掉,并将所有的NIS模件拔出后,将中心环甩开,单独检查#4机的环路电缆,没有短路现象。
(10)仍然将中心环甩开,将#4机的环路电缆接好,并将所有的NIS模件插入后,将#4机的#2、#5、#7和#9PCU重新上电,自检完成后,所有的ICI和NPM模件状态均显示正常(包括SOE的接点,EWS的ICI需要在EWS上人为连接),五台操作员站的所有数据均显示正常,通讯系统恢复正常,初步怀疑故障起因源自中心环的IIL模件。
(11)为验证上述的怀疑,再次将中心环接入#4机环路,将包括中心环在内的所有PCU重新上电,自检完成后,#4机环路上所有的ICI和NPM模件状态均显示正常(包括SOE的接点),五台操作员站的所有数据均显示正常,但位于中心环PCU柜上18-6-1、18-6-2、18-6-3位置的IIL模件仍处于故障状态,而另一IIL模件则正常。之后进行如下试验:NPM、MFP各自的冗余切换;正常的启机操作;旁路快开/快关保护;汽机保护传动;SERVER和CLIENT的切换。以上试验均正常,机组具备开机条件(如果要开机,当时设想将挂在#4机的中心环甩开,解环运行)。
(12)在处理故障期间,北京贝利方面甚为关心,他们对此罕见现象非常重视,表示会派相当水平的工程师前来了解和探讨,在获悉我们的生产情况后(负荷不紧,且有备用机组),希望我们保留现状,以便他们可以获得最直接的信息;另一方面,厂领导态度相当明确,强调不彻底查明原因,即使系统恢复正常也不可以开机。因之,尽管系统已恢复正常,为了彻底弄清这一罕见的、严重的故障,在征得有关领导的同意后,决定待北京贝利的工程师抵达后在作进一步的分析、处理。
(13)22日下午,北京贝利工程师抵达我厂,立即同电厂检修人员开始了检查、处理:
检查通讯接口子模件以及对应的端子板NTCL01,当检查到位于中央环的IIL模件时,发现与#2环相联的一个NIS11模件,无论其对应的IIT主模件处于主还是备用时,与其相联的TCL端子板上的状态灯均激活(不正常);
当复位对应的IIT主模件时,该IIT主模件也进入故障模式,故障代码为2&5红灯。此时如果对其他的PCU柜内的NIS/NPM模件做冗余切换,则该PCU柜内的NPM模件将显示故障,故障代码为1、3、5红灯;
如果拔出上述有问题的NIS11模件,再复位任一NPM模件,则该NPM模件故障消失;
接着将上述有问题的NIS11模件重新插回原来的位置,再将#2环内的所有四个PCU柜均断电后再上电,发现所有四个PCU柜内的NPM主模件均进入故障模式,错误代码为2、5红灯,并且#2PCU柜内的一块NIS11模件上的所有十六个LED均红闪,表明输入到该NIS11子模件的两个控制环均断路。此时如果拔出上述有问题的NIS子模件,再复位任一个NPM模件,则该NPM模件工作正常,如果不拔出上述有问题的NIS模件,复位任一个故障的NPM模件,则该NPM模件依旧进入故障模式,故障代码依旧;
将上述有问题的NIS11模件和PCU7内一个NIS11模件交换,故障依旧。用一个新的NIS11模件替代上述有问题的NIS11模件,则故障消失。上述故障是由于该NIS11子模件损坏所致,即更换了该模件。
(15)22日晚,本次故障处理完毕。
3、原因分析
(1)本次故障为NIS11模件损坏造成,按SYMPHONY DCS控制系统的设计,如果一个NIS11子模件故障,则该NIS11子模件以及对应的NPM模件均进入故障模式,与该NIS11子模件相联的TCL端子板将两个控制环自动旁路,同时处于后备模式的NIS/NPM模件将接替上述故障的NIS/NPM的工作。但本次事件中NIS11子模件故障后,未能将对应端子板上连接的两个控制环旁路,显然不正常。这种故障属于极罕见现象。至于NIS11模件上的哪个部件损坏会导致上述现象,有待于进一步分析。
(2)关于SERVER25有时也出现显示数据为紫色、大约2-3分钟后自动恢复的现象。20日检查时初步怀疑为,#7PCU上有一段Control Way与该SERVER的ICI通信模件相连所致,为了验证上述怀疑,当时拔掉该段Control Way观察。11月3日,#4机DCS的SERVER#25三台电脑参数再次出现坏质量,约一分钟后自动恢复(从此可以否定当初的怀疑)。故障原因尚待分析查找,目前初步怀疑SERVER的ICI通信模件有问题,11月5日,将SERVER25与工程师站的ICI(ICT+NIS)模件进行了对调,待继续观察。但这一现象与10月20日的故障没有必然的联系。
4、防范措施
(1)在每台机组的SERVER上增加中心环节点的标签,与其他节点的标签一样,将他们的报警级别设置为带音响的最高级。
(2)加强对PCU模件柜的巡检工作,每天巡检机组时必须观察PCU模件柜中主要模件的状态。
(3)在近期利用停机间隙,对所有机组的DCS机柜和操作员站进行一次彻底清灰工作。
(4)热控分部制订出一份Symphony系统的定期工作和日常维护导则,并对运行人员进行相关培训,重点进行DCS系统本身故障(软件、硬件)报警的判别及处理,即出现哪些(级别)报警时需立即停机处理;哪些(级别)可待检修到场处理等。
(5)NIS模件的故障原因,热控分部继续与北京贝利保持密切联系,尽快找出故障原因并提出改进措施。
(6)DCS通信系统故障后,机组的操作采用应急方案。
(7)公司近几年的9E机组及正在建设的9E机组的DCS均采用北京贝利的产品。对我厂DCS中出现的严重异常现象,及时向公司汇报,并提请有关部门注意到DCS的功能缺陷。今后的改进情况也应及时向公司汇报。
 

网友评论 more
创想安科网站简介会员服务广告服务业务合作提交需求会员中心在线投稿版权声明友情链接联系我们