来源:SCI期刊网 分类:电子论文 时间:2022-03-21 09:51 热度:
摘要:随着在线监测的推广应用,输变电设备监测中心已在国内许多电网相继建立,在极端条件下很多电力设备的局部放电(partial discharge,PD)越限数据会蜂拥而至,其快速处理最具挑战性。针对传统局部放电相位分析(phase resolved partial discharge,PRPD)方法处理大数据时的效率低下问题,该文提出了基于 MapReduce 编程模型的并行化 PRPD 分析算法(P-PRPD),实现了海量 PD 信号的并行基本参数提取、统计特征计算与放电类型识别。在实验室中构造了 4 种放电模型并采集了大量 PD 信号,对所提算法在拥有 6 台计算节点的 Hadoop 平台上进行了详细的性能评估和实验分析。实验和分析结果表明,该算法在处理海量 PD 信号时较传统方法具有显著的效率提升,模式识别总准确率达到 90%,满足工程应用需求。
关键词:大数据;局部放电;局部放电相位分析;数据处理;云计算;MapReduce
0 引言
随着智能电网建设的不断推进,智能化电力一次设备和常规电力设备的在线监测都得到了较大发展并成为趋势,监测数据日益庞大,电力设备在线监测系统越来越面临巨大的技术挑战[1]。目前已有的在线监测装置大多对采集数据就地处理再将 “熟数据”上传到监测中心,但从国际监测领域的发展趋势而言,如 GE 公司对于众多汽轮发电机组的监测,近期采用了监测装置的存储与处理能力弱化、监测中心的存储与处理能力提升的方式,有利于上层应用软件的及时更新[2]。
局部放电作为高压设备的重要监测内容,其在线监测必然会成为输变电设备状态监测系统的重要组成部分[3]。传感器技术的进步使局部放电的检测方法呈现多样化,主要包括:IEC 60270 常规脉冲电流法[4]、宽频带脉冲电流法[5]、超声波检测法[6] 和特高频(ultra high frequency,UHF)法[7]等。局部放电信号的频率高且频带较宽,这就要求信号采样率高,众多设备的局部放电在线监测数据量呈现海量化。尤其在恶劣天气等极端条件下,很多电力设备可能在短时间内出现异常,海量局部放电越限数据会蜂拥而至,其快速处理最具挑战性。传统的分析方法已经难以满足当前海量数据的计算需求,结合大数据技术进行局部放电信号的分析是必然趋势。
然而长久以来,该领域的研究热点一直是针对单个设备局部放电信号的特征提取与模式识别方法研究[5-12],尚无研究人员关注监测中心对于众多设备局部放电信号海量数据的分析问题。现有方法中,传统的局部放电相位分析(phase resolved partial discharge,PRPD)[8]方法较为成熟且应用最为广泛,对检测技术要求较低,不易受噪声影响。该方法只需要统计放电次数、放电幅值与所在相位,物理意义明确且实现简单,在此基础上可以得到柱状图[10]、散点图[11]和灰度图[12]等特征谱图进行模式识别。因此,本文以 PRPD 分析方法为基础,采用云计算技术解决海量局部放电信号的分析问题。
云计算作为大数据处理的代表技术,逐渐被应用于解决电力系统中的问题[13-18]。文献[13]利用 MapReduce 云计算引擎实现智能配电网海量量测数据分布式无损集群压缩。文献[14] 基于局部加权线性回归和云计算平台,解决海量数据下的短期电力负荷预测问题。文献[15]通过 MapReduce 模型来实现海量电能质量数据文件的快速并行解析。文献[16]针对电压暂降分析数据海量、异构、多态化,基于云计算平台将不同暂降事件层次化并行处理。文献[17]给出了基于 MapReduce 的电力变压器并行故障诊断过程。文献[18]基于 MapReduce 设计了并行化消除趋势波动分析法 PDFA,实现了海量 PMU 数据的快速事件检测。上述成果表明云计算技术能够解决海量数据下单机处理能力的瓶颈,但仍需要与专业领域知识紧密融合完成传统处理方法或过程的并行化改良。
然而,目前尚无研究工作将云计算技术用于解决海量局部放电信号的特征提取与类型识别问题,因此,本文基于Hadoop云计算平台下的MapReduce 编程模型研究大量设备的海量局部放电信号的并行基本参数(n-q-ϕ)提取、并行统计特征计算与并行放电类型识别,该 3 个阶段组成了从原始采集信号到模式识别结果的整个处理过程,为了简洁,文中将其系统地称为并行 PRPD 分析(P-PRPD)。
1 传统 PRPD 分析方法
1.1 概述
放电次数 N、视在放电量 Q(或放电幅值,以下均以 Q 表示)及放电所在相位Φ是一个工频周期内局部放电的 3 个基本参数,构成了单个工频周期内的 PRPD 模式。但局部放电具有较强的随机性,表现为基本参数的较强统计分散性,因此,通常将多个工频周期内监测所得的局部放电参数折算到 1 个工频周期内,以突出其统计规律性。
在基本参数的基础上,通过不同的处理方式可以得到以下不同的放电谱图。1)q-ϕ散点图:将局部放电信号的放电相位幅值序列(ϕi, qi)以打点的方式绘制在二维 q-ϕ坐标系内,即可得到 q-ϕ散点图。 2)q-ϕ灰度图:将放电次数 n 随放电量 q 与放电相位 φ 的分布情况绘制成二维图像,并将 n 值的大小转换为灰度值,是 n-q-ϕ三维谱图在 q-ϕ上的投影。 3)二维柱状图:将一个工频周期(360°)等分为若干个相位窗,然后统计每个相位窗ϕi内的放电次数 ni 或放电量 qi,然后将相位窗ϕi 作为横轴以柱状图表示。
由于以上谱图难以直接用来分类识别,故需要进一步在此基础上提取如统计特征、分形特征、矩特征等特征参数并构造用于分类器输入的特征向量。
1.2 单机实现流程
由上节可知,由信号采集系统得到局部放电的波形数据,经滤波等预处理后,需要进行基本参数提取、统计谱图绘制与谱图特征计算,最后是分类器构造。测得的信号通常都是传输到工作站的单台服务器上进行集中分析处理,基本都是采用串行方式,图 1 是单机环境下 PRPD 分析方法的具体实现流程。对于同一个被监测的高压设备,可能存在多个监测源,例如对于电力变压器,传感器可以安装于套管末屏、铁芯、夹件与中性点的接地引下线上等位置,因此本文中假设局部放电信号文件是以监测源标识与采集时间组合作为唯一文件标识,能够辅助算法对大量不同监测源的局部放电信号文件进行分析。
图 1 中,i 为 PD 监测源序号,j 为一个统计单元内的 PD 信号工频周期序号,k 为一个监测源内的统计单元序号,每个统计单元都由 m 个周期的 PD 信号的基本参数统计所得,并绘制相应的二维谱图然后计算特征形成特征向量作为分类器的输入,参数 m 由人为设定,一般取 m≥50。根据图 1 可以将整体流程划分为如下 3 个子过程:
1)基本参数 n-q-ϕ的提取。PD 信号中相位分布 n-q-ϕ的提取是后续分析的基础,但文献中对此过程并未做详细报导,因此本文提出一种基于双阈值的 n-q-ϕ参数提取算法,该算法实现步骤如下。
①输入单周波 PD 信号离散序列 Signal,纵阈值 T1,横阈值 T2;
②搜索 Signal极大值点和极小值点,得到下标值序列 IndMax,IndMin;
③根据阈值 T1 对 IndMax 和 IndMin 进行过滤,剔除幅值小的极值; ④合并 IndMax和 IndMin 并按升序排序,形成序列 IndM;
⑤计算相邻极值点的位置差,使 DiffIndM[i]= IndM[i]− IndM[i−1];
⑥根据阈值 T2 对 DiffIndM 进行判断,临近的多个极值点视为 1 次有效放电,且取其中最大的极值点的位置计算放电相位;
⑦将有效放电的脉冲幅值和相位一一对应存入 q 和 Ind 并输出。图 2 是应用该算法对单周期 PD 信号基本参数的提取结果,图中用三角标出了有效放电,其中阈值 T1、T2 分别取 15、100。
纵阈值 T1 用来度量最小放电幅值,幅值过小的脉冲忽略不计,如图 2(b)左侧极值点纵坐标为−13 的脉冲,由于幅值小于 T1 会在算法 1 的步骤 2 中被过滤掉。而横阈值 T2 则用来度量临近放电的最小间隔,避免将一次脉冲的多个极值点误判为多次放电,如图 2(c)的放电脉冲中有多个极值点幅值都超过了 T1,但由于它们之间的连续间隔都在 T2 以内,故仅作为一次有效放电处理,不难看出图 2(c)的检测结果正确。T1 和 T2 的选取一般根据信号特征手动设定,类型不同或来源不同的 PD 信号的阈值会有所差异,如何根据 PD 信号的特征自适应选取这两个阈值也是笔者目前的研究内容之一,但不作为本文的重点。
2)谱图构造和统计特征计算。获得每个周期 PD 信号的基本参数后,通过将 360°的工频周期均匀划分相窗,并对 m 个周期 PD 信号统计平均放电量 qave和放电次数 n 在每个相窗内的分布情况,即可得到平均放电量相位分布谱图 qave-ϕ和放电次数相位分布谱图 n-ϕ。
将 qave-ϕ分布谱图和 n-ϕ分布谱图看成是数理统计学中的概率密度分布图形,以ϕi 为随机变量,则可以分别计算谱图的偏斜度 Sk、陡峭度 Ku、局部峰点数 Pe、放电不对称度 Da、互相关系数 Cc等统计特征,形成 16 维的放电特征向量,其具体计算公式见文献[19]。
3)放电类型识别。通过已知放电类型的典型样本对分类器进行学习,学习得到的分类器模型才可以部署到监测系统对监测源的未知放电信号进行类型检测[20]。但随着典型样本的添加,需要对分类器模型进行修改,则必须根据所有样本对分类器模型进行重新学习,并将监测系统停机才能重新部署分类器。为了避免这种情况,本文选择 K 近邻 (K-Nearest Neighbor,KNN)方法[21]进行放电类型识别。该方法被称为惰性学习法,不需要事先学习建立模型,更重要的是在新样本增加时不需要对旧模型进行新一轮的更新学习,只需要更新样本库即可,避免了模型维护带来的停机成本。
1.3 复杂度分析
首先,从数据量上分析。假设每个 PD 监测源数据采集系统的采样率为 f,则每个工频周期内采样点数为 0.02f,每秒钟可以采集 50 个周期,每分钟则是 3 000 个周期。以本文中的实验设定为例,采样率取 f=5MHz,则每周期有 100000 个点,每个点按 16 位二进制存储,占用 2 个字节,则每分钟 3 000 个周期 PD 信号的数据量为 100 000×2× 3 000=6×108 B≈600 MB。这仅仅是 1 个监测源在 1min 内的监测数据量,随着智能电网的快速发展,越来越多的高压电力设备需要配备局部放电在线监测系统,而每个高压设备的 PD 监测点(监测通道) 通常不止一个,如此数量的 PD 信号集合是一个极其可观的数据体。
其次,从计算量上分析。由图 1 的整体流程图可以看出,对 N1 个监测源的各 N2 个周期的 PD 信号提取基本参数 n-q-φ 需要经过 N1N2个循环。若以 m 个周期为一个统计单元绘制放电谱图,则一共需要绘制 2N1⎣N2/m⎦个放电谱图并计算每个谱图的多个统计特征。最后需要对每个统计单元的特征向量进行 KNN 分类。通过以上分析不难推断出,对所有的 PD 信号进行基本参数 n-q-φ 的提取需要很大的计算量,是 1.2 节中所述 3 个子过程中复杂度最大的计算任务。经单机环境下多次测试(算法采用 Java 实现,运行环境为 Pentium 2.8 GHz,2 GB RAM,JDK1.6),对 5 MHz 采样率的单周期 PD 信号实施如表 1 所示算法 1 的处理过程需要耗时 2.3× 10−2 s(不包括数制转换),则单监测源 1 分钟采集的 3 000 个周期 PD 信号需要 2.3×10−2 ×3 000=69 s,对于单监测源该计算延迟尚可接受,但是面对监测系统中众多监测源集中的海量数据时,系统延迟将无法接受,难以满足工程需要,而且在单机环境下更容易发生由于数据量急剧增加而引起的计算非正常中断、处理程序宕机甚至无法计算的不可靠情况。
因此,本文针对上述问题,基于 Hadoop 云计算平台采用 MapReduce 编程模型对 1.2 节中所述基本参数提取、谱图构造与统计特征计算以及 KNN 类型识别 3 个子过程进行并行化研究。
2 MapReduce 编程模型
MapReduce 是由 Google 提出的一种在集群环境下处理海量数据的分布式并行编程模型,具有强容错性、易编程性与高可扩展性特点,集群环境可以由廉价的计算机组成[22]。Hadoop 是 MapReduce 编程模型最著名的开源实现,得益于此,MapReduce 已经成为产业界和学术界公认的大数据并行处理的事实标准。
MapReduce 的基本思想是将海量数据合理划分并“分而治之”,最后将各“分治”的结果进行合并汇总得到最终结果。因此,MapReduce 模型巧妙地提供了映射(Map)和约简(Reduce)这两个抽象编程接口,分别完成输入数据的“分”和 Map 结果的“合”,技术人员只要实现这两个基本接口即可快速完成并行化程序设计。如图 3 所示,输入文件按定制的数据输入格式被切分为多个分块 (InputSplit),并解析为初始(key,value)键值对作为 Mapper 的输入,经过 Map 阶段的逻辑运算后会产生中间结果键值对集合,这些键值对在送入 Reducer 之前会经过一个洗牌(Shuffle)阶段将它们排序(Sort)和合并(Merge)使得同一 key的 value 值集合并到一起,最后才会送到 Reducer 进行逻辑运算并将输出结果输出到 Hadoop 的文件系统(HDFS)。一个 MapReduce 程序在集群中运行时,map 任务和 reduce 任务都是高度并行化的,不同于传统单机环境下的串行任务执行。同时,无论是输入文件还是输出结果都会在集群的多个节点间互相备份,避免了单机故障引起的任务失败和数据丢失,具有很高的容错性。
3 并行 PRPD 分析算法
由前述分析可知,局部放电的 PRPD 分析可以分为 3 个子过程,分别是基本参数 n-q-φ 的提取、谱图构造与特征计算、KNN 放电类型识别。本文将此 3 个过程分别进行 MapReduce 并行化,在部署到云计算平台上运行的时候采用顺序组合式 MapReduce 作业的执行方式将这 3 个子过程连贯起来。将 3 个子过程分开并行化有利于提高整个分析流程的并行化粒度,也有利于后期分析方法的可扩展,比如将脉冲波形特征、分形特征、时频分析等特征提取方法和 SVM、RVM、随机森林、极限学习机等分类算法分别 MapReduce 并行化形成类模块加入算法模块库,使用时可根据局部放电的信号特征与需求进行合理组合,分析人员只要处理好各模块衔接的输入输出接口即可。
3.1 基本参数 n-q-φ 的并行提取与谱图构造
1)输入数据(key,value)解析。
为了节约存储空间,PD 信号通常都是以二进制存储的,因此本阶段 Map 函数的输入文件格式是以字节存储的二进制文件,并且单个文件内存储了采样时间上连续的放电波形离散序列,以周期为单位,但各周期之间无分隔符。因此,本文针对特定存储格式的 PD 信号文件重新定制了 Hadoop 平台的数据输入格式(InputFormat)和数据记录读入 (RecordReader),以单周期 PD 信号的大小(以字节计)为单位对输入二进制文件进行分块(InputSplit),并解析为 Map 函数的输入键值对(key1,value1), key1 为 PD 信号的来源标识即监测源的标识,由文件名获取,value1 为单周期 PD 信号字节流。
3.2 并行化统计特征提取
本阶段的主要任务是对 3.1 节所述子阶段中输出的每一个统计单元(即统计谱图)进行如 1.2 节中所述的偏斜度 Sk、陡峭度 Ku、局部峰点数 Pe、放电不对称度 Da、互相关系数 Cc等统计特征的计算,并形成特征向量作为输出。因此,本阶段中以每个统计单元为分块(Split)作为 Map 函数输入 value 值,输入 key 值是从输入文件名获取的监测源标识,具体的统计特征计算工作由子方法 FeatureExtract(qsum, nsum)完成,提取的特征形成特征向量作为 Map 函数的输出 value 值,输出 key 取监测源标识。由于此过程不需要进行逻辑上的合并操作,因此不设置 Reduce 过程,在 Map 过程中直接将结果输出到 HDFS,并以监测源标识作为文件名存储方便下一阶段解析。
3.3 放电类型 KNN 并行识别
首先提出一个假设,即 KNN 的训练集相对较小,可以作为缓存文件在每个节点上共享。由 1.2 节可知训练集的特征向量是 16 维,每一维特征归一化后精确到小数点后 4 位,加上小数点、个数位以及分隔符一共 7 位,每个训练集样本末尾附加 1 位类标识,则一个训练集样本是 16×7+1=113 位,每 1 个字符占用 1 字节,则一个样本占用 113 字节, 1000 个样本才约 110kB,因此这个假设是合理的。
基于上述假设,本文提出的并行化 KNN 算法将特征提取阶段的大量待检测特征向量进行切分,并在 Map 过程中与缓存中的所有训练集样本逐一进行特征向量间的距离计算,取最近的 K 个训练样本的类标识作为输出 value 值,取待检测特征向量的监测源标识与其在文件中的偏移量组合成输出 key。然后在 Reduce 过程中统计待检测特征向量的 K 个类标识各自出现的频率,取最高频率的类标识作为待检测特征向量的分类结果,KNN 的分类过程如图 4 所示。
4 实验与分析
4.1 实验数据
本文用于分析的 PD 信号来源于 4 种类型:电晕放电、悬浮放电、气泡放电和油中放电。4 种放电的实验室模型如图 5 所示。图 5 中,(a)为在高压端附加一个金属突出物,用以产生电晕放电;(b) 为在高压端附加一个金属模型并在高压端与其之间附加绝缘介质,从而产生悬浮放电;(c)放电模型顶部的 3 个金属突出物为电极连接处,塑料盒中的 液体为纯净的变压器油,油内金属物之间填充气泡,用以产生气泡放电;(d)是已经设置好的油中放电模型,这种放电从形式上来看是属于沿面放电。
所采用的实验模型接线图如图 6 所示,局部放电信号采集仪器采用 TWPD-2F 局部放电综合分析仪,采样频率取 5MHz,采集频带为 40k~300kHz。
4.2 Hadoop 云计算平台
所搭建的 Hadoop 云计算平台包含 1 台服务器和 6 台普通 P C,其中服务器作为主控节点 (Namenode)运行,6 台普通 PC 作为数据节点 (Datanode)运行,节点间用交换机互连,详细配置参数如表 1 所示。其中,Hadoop 系统的数据块(Block) 大小为 64 MB,副本系数(Replication)取 2。并行算法和单机串行算法均采用 Java 语言编写,后者运行在其中一个 Datanode 上。
4.3 计算性能比较
从 4.1 节所描述的实验环境下采集 PD 信号,并平均分成 5 份来模拟 5 个不同监测源,每个监测源 2 个文件(每个文件 64 MB)起,每次增加 1 倍,分别在单机和 Hadoop 平台上进行了 5 种不同数据量的处理任务,结果如图 7 所示。由图 7 可以直观看出,本文算法(P-PRPD)比单机算法(PRPD)具有更低的执行时间,随着数据量的增加,单机算法执行时间急剧增长(3 倍以上数据量的单机耗时由于太大在图中并未体现),而 P-PRPD 算法执行时间增长较为平缓,在 3 倍数据量时不到单机算法的 1/10,数据量越大时 P-PRPD 算法优势越大。
图 8 是单倍数据量下算法 3 个计算阶段各自的耗时情况,图中 job1、job2、job3 分别代表基本参数提取、统计特征计算和 KNN 类型识别阶段。从图中可以看出,单倍数据量下单机算法在 job2 和job3 阶段更有优势(图中几乎不显示),而 P-PRPD 的高效率主要体现在 job1 阶段,这是由于较大的数据量经过 job1 中的统计处理之后成比例减少,而并行算法在处理小数据量时并不占优势。经测试,本文所搭建 Hadoop 平台在处理无任何逻辑计算的 MapReduce 程序时仍然需要耗时 30s 左右,因此,当 job1 处理之后的数据量并不大时采用单机算法处理更为妥当。——论文作者:王刘旺,朱永利,贾亚飞,李莉
相关期刊推荐:《中国电机工程学报》(旬刊)是中国电力行业的学术期刊,国家一级学报,全国中文核心期刊,国内外公开发行。设有:学术论文、新技术、新成果、新经验、专家论坛、专家建议、标准讨论、科学通报、国外科技动态、会议报告等栏目。