一起特高压直流输电工程控制保护装置通信故障的分析及处理
1.
2.
Analysis and Treatment of Communication Faults of Control and Protection Devices for HVDC Transmission Projects
1.
2.
收稿日期: 2018-09-6 网络出版日期: 2019-03-25
Received: 2018-09-6 Online: 2019-03-25
作者简介 About authors
严春香,女,1980年生,工程师,主要从事智能变电站产品开发与测试方面的工作。E-mail: yanchunxiang2010@163.com
席颖颖,女,1982年生,工程师,主要从事智能变电站产品开发与测试方面的工作。
对一起特高压直流输电工程运行中出现的控制保护装置与继保信息子站的通信故障进行了分析和定位,并对影响通信可靠性的薄弱环节提出了改进方案,通过针对性专项测试和长期仿真故障测试,验证了解决方案的有效性和正确性,为以后避免此类通信故障提供参考,保障特高压电网的安全、可靠、稳定运行。
关键词:
The communication faults of the control and protection device and protection and fault information management substation appearing in the HVDC transmission project are analyzed and located, and the solutions to the weak links affecting the communication reliability are proposed. The special targeted test and the long-term simulation test are adopted, it verifies the validity and correctness of the solution, provides reference for solving such communication failures in the future, and guarantees the safe, reliable and stable operation of the grid.
Keywords:
本文引用格式
严春香, 席颖颖, 翟鹏举, 严春红.
YAN Chunxiang.
1 引言
本文针对某直流特高压换流站发生的控制保护装置与继保信息子站之间通信异常的问题进行分析、定位,并给出解决方案。
2 故障描述
某换流站在2018年6月由于站内部署于远方监控通信层负责担任继保信息子站与控制保护层各设备通信的交换机掉电,导致继保信息子站与各控制保护装置产生短暂的通信中断,交换机复电重启成功后,通信网络恢复正常,大部分控制保护装置与继保信息子站的通信均恢复正常,但是有一台换流变压器保护通信一直不能恢复,等待48 h后,才与继保信息子站通信恢复正常,二者之间采用网络103规约进行通信。
3 问题分析
首先使用Wireshark对换流站内部署的网络分析仪所抓取的该换流变压器保护装置与继保信息子站的通信报文进行分析,通信网络恢复后的报文如图1所示。
图1
在通信网络正常的情况下,换流变压器保护装置(10.100.100.111)在15:15:29.956020 发出主动关闭当前接的报文,报文序号为5564;38 ms后继保信息子站(10.100.100.150)对其关闭动作发出了确认报文,报文序号为5565。此后网络正常,继保信息子站每间隔1 min发起一次与换流变压器保护装置的握手请求,但是每次都被控制保护装置以链路重置帧[RST,ACK]拒绝,由此报文可以分析出此时通信网络确实已恢复,通信双方都可以接收到对方发送的TCP报文,但是换流变压器保护装置在已关闭当前连接的情况下由于某种原因不响应继保信息子站的新的通信连接请求。
3.1 拒绝新的链路建立请求原因分析
通过监视换流变压器保护装置以太网通信控制芯片的实际运行状态,发现出现故障时的芯片通信状态为STA=18,以太网通信控制芯片对其通信状态返回值的定义见下表。
根据其定义,当通信状态STA=18时,表示当前连接处于SOCK_FIN_WAIT环节,表示此连接状态已经进行主动关闭和被动关闭,但是还没有完成断开处理。也就是说还在等待继保信息子站的确认报文;若收到对端的确认报文后,即进入SOCK_ CLOSED状态,此连接才真正被完全关闭。
表 以太网控制芯片通信状态返回值定义表
| 值 | 符号 | 描述 |
|---|---|---|
| 0x14 | SOCK_LISTEN | SOCKETn在TCP服务器的状态。等待TCP客户端的连接请求(SYN数据包), 当运行LISTEN命令时,改变为SOCK_LISTEN状态,当成功处理了TCP客户端的连接请求(SYN数据包)时,SOCK_LISTEN变为 SOCK_ ESTABLISHED。如果失败,将产生超时中断(Sn_IR(TIMEOUT)= 1), 且状态改变为SOCK_CLOSED |
| 0x17 | SOCK_ESTABLISHED | TCP建立连接的状态在SOCK_LISTEN状态,收到TCP客户端SYN数据包并成功处理,改变为SOCK_ ESTABLISHED,或CONNECT命令成功运行。在这种状态下,可以进行数据传输,即可以运行SEND或RECV命令 |
| 0x18 | SOCK_FIN_WAIT | SOCKETn被关闭的状态。当SOCKET完成主动关闭或被动关闭的断开连接处理时出现这种状态。当完成断开连接处理或TCP超时(Sn_IR (TIMEOUT)=1),其状态将改变为 SOCK_CLOSED |
对现场报文再进行分析,发现在15:15:29.956020~ 15:18:58:582223时间内,换流变压器保护装置和继保信息子站之间无任何报文交互,只有在网络中断期间才会有此现象,如此推断,继保信息子站虽然发送了链路关断确认报文,但是由于网络故障,换流变压器保护装置并未收到此确认报文,因此一直处于SOCK_FIN_WAIT状态,不能完全关闭此通信链路。因此对于通信恢复后继保信息子站发起的通信连接请求,只能全部拒绝。
3.2 主动关闭当前连接原因分析
对主动关闭当前连接的网络报文进行分析后发现,每200 ms一次的keep-alive心跳报文的响应正常,说明关闭当前链路不是由于网络中断引起的,但关闭操作前30 s内无任何应用报文交互,网络103通信规约中的空闲链路测试帧(TESTFR)也没有,而换流变压器保护装置为了保证通信质量和通信通道的可靠性,当通信链路中超过30 s无应用报文交互时,判断此时链路状态为异常或者不可靠,主动关闭当前连接,重新建立新的通信连接。这就是换流变压器保护装置主要发出关闭链路操作的原因,也是正确执行了自身的控制逻辑。
需要找到造成长达30 s时间内无任何应用报文交互的原因,继续分析链路中断前的报文发现,在正常通信过程中,换流变压器保护装置(10.100.100.111)会发送一帧长度为27字节内容全为0的数据报文,具体如图2所示。
图2
数据全为0的报文不符合网络103通信规约的要求,为非法报文,且通过分析TCP报文发送序号和确认序号发现,此报文为换流变压器与继保信息子站通信初始化请求的响应报文,而103规约中对于数据链路建立请求的确认报文为68 04 0b 00 00,继保信息子站在接收到此非法报文后,不能正确建立数据通信通道,也就不能发送应用数据报文和空闲链路测试报文(TESTFR)。
3.3 非法报文形成原因分析
为了准确定位非法报文形成的原因,在换流变压器保护装置的报文缓存接收和发送环节以及以太网控制芯片的发送和接收环节增加报文打印功能,来监视装置对交互报文的处理过程,其中EFIF为报文缓存模块,ECTV_P为以太网控制芯片报文传输控制模块,故障期间其报文处理过程如下:
EFIF接收:27 , time [20:14:41:000963]
68 19 1a 00 0c 00 05 81 40 00 00 6f 07 06 02 48 43 4d 2d 31 30 33 00 64 00 58 42
EFIF发送: 27 , time [20:14:41:000963]
68 19 1a 00 0c 00 05 81 40 00 00 6f 07 06 02 48 43 4d 2d 31 30 33 00 64 00 58 42
EFIF接收: 6 , time [20:17:26:000827]
68 04 0b 00 00 00
ECTV_P接收: 27 , time [20:17:27:000083]
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
ECTV_P发送: 27 , time [20:17:27:000106]
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
EFIF发送: 6 , time [20:17:27:000339]
68 04 0b 00 00 00
ECTV_P接收: 6 , time [20:17:27:000339]
68 04 0b 00 00 00
通过以上报文可以发现缓存模块成功将一帧长度为27字节、ASDU类型为5的应用报文推送至以太网芯片报文传输模块后,通信网络中断,2′45″后网络中断恢复,但是以太网芯片报文接收传输模块接收到的报文发生畸变,变为长度为27字节、全为0的非法报文,由此可推断换流变压器保护装置在网络异常时对于为成功发送报文的处理存在问题。
处理此流程的代码实现过程如下:
if(mask->FLS==DPS_TRUE)
{
memset(mask->SP,0x0,mask->MX);
roffset=0;
woffset=0;
fifomsg =0;
fifo_left_nb=mask->TM;
mask->FUL=DPS_FALSE;
}
发送网络中断时,通过memset函数将缓存中的报文数值清空,但是没有将记录上次报文信息的首地址SP和长度NB进行初始化重置,所以在网络通信恢复后,以太网控制芯片第一时间从缓存中读出了长度相同但内容全为0的报文,并将其进行组帧并发送。
3.4 故障原因总结
至此已将造成通信中断并不能及时回复的前因后果梳理清楚,具体如下:
(1) 继保信息子站与换流变压器保护装置网络103规约数据交互正常,继保信息子站向换流变压器保护装置发送了一帧ASDU类型为60的召唤版本号信息报文。
(2) 换流变压器保护装置收到并将其版本信息以ASDU类型为5的报文推送至以太网控制芯片等待发送,此时站内交换机掉电,通信网络突然中断;但由于程序Bug,换流变压器保护装置未将此报文进行正确处理。
(3) 网络通信恢复后,继保信息子站主动发起通信连接,换流变压器保护装置在接收到继保信息子站68 04 07 00 00通道连接建立请求报文后,第一时间送出的不是68 04 0b 00 00链路建立相应报文而是一帧长度为27字节、内容全部0的非法报文;继保信息子站接收到这帧非法报文后,由于容错能力不够,导致软件不能继续进行报文交互,不能发送其他应用数据帧,包括空闲链路测试帧(TESTFR)。
(4) 换流变压器保护装置在等待30s还未接收到应用报文后,认为当前链路不可靠,主动向继保信息子站发送FIN关断请求,进入SOCK_FIN_ WAIT状态,等待继保信息子站的ACK报文。
(5) 继保信息子站响应并且发送ACK报文,但在此传输途中,通信再次中断3 min,换流变压器保护装置永远也接收不到来自继保信息子站的ACK报文,一直处于等待状态,直到48 h后才退出等待状态,响应继保信息子站新的连接请求并恢复通信。
经过问题现象重现和网络交互报文的详细分析,总结造成当前问题的主要原因如下:
(1) 继保信息子站网络103规约通信容错能力不足,接收到一帧非法报文后,不能完成后续正常的数据交互。
(2) 换流变压器保护装置在网络中断时不能正确处理中断前的未发送报文,通信恢复后将其以非法报文进行发送,这是导致此通信问题的根本原因。
(3) 换流变压器使用以太网控制芯片SOCK_ FIN_WAIT状态后等待ACK报文时间不合理,需要48 h才能自行跳出,并响应新的链路建立请求。
4 解决措施
4.1 解决方案提出
(1) 对继保信息子站网络103通信中的非正常报文增加处理流程,出现数量极少的非法报文时,采用直接丢弃的方式,但对装置后续上送的正常报文要继续接受并处理。
(2) 修改换流变压器保护装置对于通信中断时未成功发送的报文处理Bug,在将缓存模块报文数据清空的同时,将记录报文信息的首地址参数SP和长度参数NB进行初始化重置。
(3) 修改以太网控制芯片的SOCK_FIN_WAIT等待时间,将其设置为3 min,若3 min内收不到通信对端的ACK报文,就主动完全关闭当前连接,响应新的连接请求。
4.2 验证修改效果
为了进一步确认改进措施的正确性和有效性,本文进行了针对性试验验证。具体内容如下:
(1) 使用网络报文发送工具先向继保通信子站发送一帧包含错误内容或者不符合格式要求的非法报文,然后继续发送正常应用数据报文,继保通信子站能成功处理非法报文,并且不会响应后续正常交互报文的处理。
(2) 增加应用报文的发送速度和长度,在通信中断时,有多帧应用报文为成功发送,通过模块监视,成功将缓存模块数据清空,首地址参数SP和长度参数NB都重置为0,通信恢复后,不会发送任何错误报文,第一帧发送的为EFIF模块推送的网络103通信建立请求确认报文。
(3) 以太网控制芯片进入SOCK_FIN_WAIT后,不向其发送ACK报文,等待3 min后,芯片自动解除SOCK_FIN_WAIT状态,并将当前连接状态STA置为14,当有新的通信连接请求时,给予响应,并成功建立。
除了以上针对性测试,本文还在搭建的测试环境中进行为期一个月的拷机实验,期间不断模拟网络故障,均未出现任何形式的通信中断现象。
5 结束语
电力系统运行中的通信异常问题常见,由于参与通信过程的设备数量多,通信组网方式和通信环节复杂,因而通信问题很难分析并定位原因。本文通过对一起特高压直流输电工程运行中的通信故障原因进行分析并提出解决方案,希望对解决其他类型的通信问题提供参考。运行换流站采用本文提出的解决方案进行处理后,运行正常,再未出现通信异常情况。
参考文献
未来高压直流电网发展形态分析
[J].
DOI:10.13334/j.0258-8013.pcsee.2014.34.001
Magsci
[本文引用: 1]
发展高压直流电网对大规模电能的远距离输送、促进新能源的并网及消纳、提高区域交流互联电网的安全稳定性具有重要意义。该文首先综述了直流输电技术的最新研究进展,总结直流电网的特点,探讨了直流电网的研究现状。在此基础之上,提出一种考虑我国能源资源及负荷分布特征的大规模新能源接入高压直流电网的典型拓扑结构,并指出发展高压直流电网的技术需求。结合我国目前电力系统的特征和直流电网的技术需求,分别从高压直流电网的新型关键设备、新型控制保护技术、可靠性评估和标准体系等方面展开分析,阐述了相关技术目前的研究基础和后续研究的重点方向,为我国直流电网的研究和建设提供技术参考。
Pattern analysis of future HVDC grid development
[J].
DOI:10.13334/j.0258-8013.pcsee.2014.34.001
Magsci
[本文引用: 1]
发展高压直流电网对大规模电能的远距离输送、促进新能源的并网及消纳、提高区域交流互联电网的安全稳定性具有重要意义。该文首先综述了直流输电技术的最新研究进展,总结直流电网的特点,探讨了直流电网的研究现状。在此基础之上,提出一种考虑我国能源资源及负荷分布特征的大规模新能源接入高压直流电网的典型拓扑结构,并指出发展高压直流电网的技术需求。结合我国目前电力系统的特征和直流电网的技术需求,分别从高压直流电网的新型关键设备、新型控制保护技术、可靠性评估和标准体系等方面展开分析,阐述了相关技术目前的研究基础和后续研究的重点方向,为我国直流电网的研究和建设提供技术参考。
智能变电站测试系统研究与应用
[J].
Research and application of intelligent substation testing system
[J].
一高压直流输电系统极控信号通信网络可靠性分析
[J].DOI:10.7667/j.issn.1674-3415.2015.12.018 Magsci [本文引用: 1]
Reliability analysis on HVDC pole control signal transmission network
[J].DOI:10.7667/j.issn.1674-3415.2015.12.018 Magsci [本文引用: 1]
换流站接地网替代直流接地极运行的方案研究
[J].
Application analysis converter station grounding grid as DC grounding electrode
[J].
智能变电站网络风暴抑制技术研究
[J].
Study of intelligent substation network storm suppression technology
[J].
电力和信息通讯系统混合仿真方法的研究
[J].
Research on hybrid simulation method of power and information communication system
[J].
/
| 〈 |
|
〉 |