基于Merkle哈希树的异构通信网络数据异常值概率识别算法

无线通信与计算机技术水平的不断提升，使得集信息收集、处理和通信功能为一体的网络传感器发展迅速，由无线传感器构建的传感网络由众多传感器节点构成[1]，以无线通讯形式组建网络系统，通过感知、采集与处理等功能收集用户需求，传感器网络在提升人们认识水平的同时，也在各个领域得到广泛的应用。由于传感器所处环境不尽相同，因此攻击者通过捕捉传感器网络节点，并向其添加数量不一的虚假信息，导致网络拓扑结构变更，影响网络数据精准度的同时，常常导致传感器网络崩溃[2]，由于传感器网络是真实物理世界的呈现形式，在网络资源管理和通信传输没有专门的监管部门，在恶意代码、虚假节点注入等非法手段入侵下，网络安全需求日益迫切。文献[3]提出了一种混合云环境下基于Merkle哈希树的数据安全去重方案，该方案通过引入权限等级函数和去重系数计算去重标签，高效地实现了支持访问控制的数据安全去重系统。由此可知，利用Merkle哈希树可以实现异构通信网络数据异常值校验和去重，但是该方法未考虑异构通信网络易受非法入侵的影响，仅针对数据进行了去重，未针对其进行安全认证等操作。文献[4]提出了基于光照过程特征分析的光伏功率异常数据识别算法。根据工程经验以及考虑异常数据时序特性，依照异常数据判别准则，建立异常数据识别模型，在一定程度提高了光伏功率异常数据识别准确率，但与文献[3]一样，未考虑异构通信网络易受非法入侵的影响，在异构通信网络数据异常值概率识别过程中的准确率等有待进一步分析。Merkle哈希树又称默克尔树，是由具备一个根节点、中间节点和叶节点组成的二叉树，存储的数据放置在最底层的叶节点内，2个子节点包含信息的哈希值存放在中间节点内，节点包含信息的哈希值构成哈希树的根节点。哈希树的树根节点依据底层叶节点的变化而变化，可应用于校验、认证和快速定位等功能。本文结合Merkle哈希树认证方法，研究基于Merkle哈希树的异构通信网络数据异常值概率识别算法，为网络安全提供技术指导。

2 异构通信网络数据异常值概率识别算法

2.1 基于Merkle哈希树的异构通信网络安全认证算法

在异构通信网络数据中，攻击行为分为外部攻击和内部攻击。攻击者以窃听方式将数据转换为实体后添加至网络内的行为为外部攻击，而内部攻击则是合法用户通过私自篡改生理数据的行为，鉴于上述2种行为对传感器网络造成的威胁，在对网络数据异常值概率识别之初需对网络数据进行安全认证[5]，本文结合哈希树算法，对网络数据进行安全认证。

2.1.1 Merkle哈希树

利用哈希树算法对网络数据集展开验证，基于数据项内的数据摘要，组建树形结构并使其涵盖所有网络数据集，令h表示哈希树的高度，i、 j分别表示树的层次和树的节点，则第i层的第j个树节点由H(i, j)表示，哈希树的结构如图1所示。

在哈希树Hash(Dj)内，第j个网络数据的数据项由Dj表示，其中Hash()表示弹性冲突哈希函数，利用哈希函数获取树内子节点，按照该函数的单向性特点，利用节点去验证其包含的子节点以及其数据项。通过在哈希树的根部节点嵌入编码，以验证哈希树包含的所有数据项[6]，因此利用网络编码方式对哈希树的根部节点进行编码，对网络节点数据包实施线性组合，当数据项的网络编码传输环境安全时，用户端通过数据项建立哈希树，通过传输端的公钥验证哈希树的网络编码并验证所有数据项。

在哈希树的数据包层添加网络编码，令X表示编码数据包，g1,g2,…,gn表示系数，其中n=1,2,…,n，则编码数据包表达公式为：

式(1)中，Mi表示初始数据包，i=1,2,…,n。

2.1.2 网络数据安全认证算法

依据哈希树的高度以及数据认证恢复时间设置网络传感器，伴随感应数据项数量上升，基于数据项建立哈希树，利用传感器私钥将哈希树的每个根节点进行数字编码，利用网络发送器建立恢复数据包。向用户端发送数据项、恢复数据包和数字编码，哈希树内部节点则无法传送。

网络数据安全认证是依据哈希树内的数据认证，均利用接收端收到的数字编码实现，但网络接收器可较好地收到数字编码的根节点，即此时的网络传输协议相对可靠，数据项和恢复数据包在传输过程中不受网络传输协议限制，因此会出现丢包情况，数据项被接收端接收后哈希树利用接收器重新建立新树。哈希树的层次由从最低层向顶层计算，当哈希树内第i层内存在N(i)2h-i+1个节点，若其中有l个节点被网络接收器接收到，该层内存在R(i)个数据恢复包，有k个数据恢复包被网络接收器接收到，对比被网络接收器接收到的哈希树节点和数据恢复包之和与数据恢复包总数大小，当二者之和大于等于恢复数据包总数时，表明接收器可完全重建哈希树第i层并恢复该层所有网络数据[7-8]，由此可知，对于一个网络数据项的认证，网络接收器无需接收全部数据项，仅接收哈希树内某一层网络数据恢复包即可，网络接收器和发送器认证网络数据项流程如图2所示。

从图2可知，网络发送器利用引导程序对网络数据取样并建立数状结构，当所有网络节点均可用时，对其进行网络编码并恢复数据包，在树状结构内，对其根节点进行数字编码，利用编码后的根节点对网络数据进行认证，在对哈希树重建过程中，其构建方式为并行方式，依据数据项的一次哈希形成的叶子，通过传送和去除，胞叶子形成可用叶子并利用其构建父级节点后，胞叶子被去除掉。网络编码为恢复数据包提供标记作用，当哈希树节点足够恢复网络数据包时，网络编码被删除掉[9]。网络接收器负责接收数据包、签名和哈希树的建立，网络数据包接收到后，在其数据集内形成映射，利用网络发送器的公钥认证哈希树根节点的数字编码，自下而上建立的哈希树，当数据项存在丢失时，树内所对应的节点也呈消失状态[10]。当哈希树内所有根节点都具备完整的认证路径后，则网络数据项可通过认证，反之则表示认证失败网络数据存在异常情况。

2.2 异构通信网络数据异常值概率识别算法

概率分布是依据异构通信网络数据属性的正态分布，设定其置信概率，依据置信门限，当置信概率超过置信门限时，判断其已超出随机误差区间，此时的异构通信网络数据为异常数据。利用2.1.2节认证为异常的异构通信网络数据，对其进行数据异常值概率识别，其过程如下：异构通信网络数据异常概率识别的核心思想是通过网络数据分布，评估未知参数，利用假设检验方法建立概率分布模型并计算某特定异构通信网络数据特定取值概率，通过自适应门限阈值识别网络数据异常概率[11-12]。

异构通信网络数据样本矩阵为向量形式，数据结构表达式为：

式(2)中，m=1,2,…,m。

在异构通信网络环境中，其数据的属性值受噪声影响或人为操作表现为不固定形式，令变量X表示其属性值，该值满足函数f(x)分布，由X～f(x)表示。

令fp(x)表示异构通信网络数据属性频率分布，利用统计学方法[13]，异构通信网络数据属性频率分布的均值表达式为：

异构通信网络数据属性频率分布方差表达式为：

异构通信网络数据异常值的概率密度函数，利用概率分布结构相似算法实现，则概率分布类型如下：

令第k个概率密度函数与分布概率分别由gk(x)、gk(n)表示，异构通信网络数据异常值的连续型正态分布表达式为：

式(5)中，-∞<x<∞。

异构通信网络数据异常值的γ分布表达式为：

式(6)中：α、 β表示概率函数内的未知参数；e表示概率密度函数簇。

异构通信网络数据呈离散型分布时，其泊松分布表达式为：

式(7)中，λ为可变参数，该参数满足λ=μ或λ=σ2。

连续型异构通信网络数据异常值概率分布相似度表达式为：

离散型异构通信网络数据异常值概率分布相似度表达式为：

式(9)中，Sk取值区间为0～1，且k∈(1,2,…,N)，N表示异构通信网络数据异常值概率数量。

令h表示比例系数，当Sk=1，异构通信网络数据异常值概率分布相似度符合如下条件：

当异构通信数据异常值概率计算得到后，通常其异常值均出现极值位置[14]，因此通过判断异构通信数据异常值分布函数极值来识别其网络数据异常值概率[15]，异构通信数据异常值分布函数极值表达式为：

异构通信数据异常值分布函数的最大值和最小值识别公式为：

式(16)～(17)中，P为频率数值，即置信门限。

当异构通信网络数据异常值概率满足式(16)或式(17)时，即可实现异构通信数据异常值概率识别。

3 实验分析

为验证本文算法实际应用效果，利用Matlab仿真软件模拟异构通信网络环境，创建600 m*600 m传感器网络节点监测区域，网络节点半径设置为40 m，被捕捉入侵的网络节点之间为共谋状态，为更精确实验结果，设置不同网络拓扑和攻击节点分布情况下，进行1 500次实验，以每次实验结果的平均值作为最终参考结果。

测试本文算法网络数据编码能力，在数据包大小分别为2 KB、4 KB、6 KB、8 KB时，文件大小不同时，绘制其编码耗时曲线，结果如图3所示。

由图3可知，网络数据编码耗时随着文件大小的增加而增加，数据包较小时，网络编码耗时较低，且随着文件大小的增加，网络编码耗时曲线呈现平缓上升趋势，而数据包较大时，网络变化耗时曲线上升较快，文件大小为80 GB时，大小为8 KB的数据包网络编码耗时是大小为2 KB数据包网络编码耗时的4.5倍，但网络编码耗时仅为1.8 s，该实验结果表明，本文算法可在数据包大小情况不同时，有效对其进行网络编码，且耗时较低。

选取异构通信网络节点假阳性率为衡量本文算法性能指标进行实验，设置频率数值也就是门限数值分别为0.65和0.1，分析本文算法识别到的异构通信网络节点假阳性率与网络节点攻击百分比关系，结果如图4所示。

由图4可知，在异构通信网络攻击节点百分比为0时，识别到该网络的假阳性率也为0，但随着网络节点攻击百分比的增加，不同门限数值时的网络节点假阳性率迅速上升，在网络节点攻击百分比为0.1%之前时，虽然门限数值不同，但识别到的网络节点假阳性率数值相差不大，当网络节点攻击百分比在0.15%之后，门限数值为0.065时的网络节点假阳性率数值较门限数值为0.1时稍高，当网络节点攻击百分比达到0.4%时，2种门限数值时所识别到的网络节点假阳性率相差0.14%，综合分析可得出，本文算法可在门限数值不同时，能较好地识别出异构通信网络节点的假阳性率变化情况。

在异构通信网络环境中，数据包个数是影响网络节点异常值概率识别的基础条件因素，测试本文算法、文献[3]算法和文献[4]算法应用后，不同数据包个数情况下，该异构通信网络的过滤丢弃概率和重建攻击路径概率，测试结果如图5所示。

由图5可知，文献[3]算法应用下对于过滤丢弃概率和重建攻击路径概率可达0.9，相较于过滤丢弃概率，重建攻击路径概率增长趋势较明显。文献[4]算法过滤丢弃概率和重建攻击路径概率分别为0.85和0.9，其变化趋势基本一致，呈现迅速上升而后保持稳定数值趋势。本文算法在异构通信网络环境中，随着数据包个数的增加，异构通信网络数据的过滤丢弃概率数值先呈现迅速上升而后保持稳定数值趋势，在数据包个数在0～15个时，网络过滤丢弃概率数值增加跨度较大，当数据包个数超过15个之后，网络过滤丢弃概率数值接近1.0并始终保持该数值未变；重建攻击路径概率随着数据包个数的增加逐渐增加；在数据包个数为20个之前时，重建攻击路径概率上升幅度较大，随后上升幅度较平缓，当数据包个数为40个时，重建攻击路径概率达到1.0。综合分析图5实验结果表明，本文算法应用后，该异构通信网路的重建攻击路径概率数值较高且可提升异构通信网络的数据的过滤丢弃概率。

从网络数据安全认证和数据异常识别方面进行验证，分别以数据包伪造、重放以及篡改等为衡量指标，以模拟的异构通信网络环境为基础，首先对该网络分别实施数据包伪造、选择性转发、数据包重放、延时传输和数据包篡改等5种类别的攻击，并通过多次模拟输出网络数据安全认证与数据异常识别测试模拟结果。然后测试本文算法的网络数据安全认证和数据异常识别能力，在多次实验中取其识别结果的平均数作为实验结果，实验结果如表1所示。

由表1可知，本文算法在网络数据安全认证与数据异常识别2个方面的测试值均与模拟值基本一致，差距低于0.9%。且在网络数据安全认证方面，本文算法在数据包伪造、重放和篡改方面其检测率均达到100%，同样数据异常识别率也都达到100%，表明本文算法具备较好的识别能力，抗攻击能力较好；而在选择性转发方面网络数据认证的检测率和数据异常识别率差别不大，数值均超过96%，在延时传输方面数据安全认证检测率虽然为83.3%，但数据异常识别率可达到95.2%，综合而言，本文算法具备较好的异构通信网络数据安全认证和数据异常识别能力。

4 结论

1) 提出基于Merkle哈希树的异构通信网络数据异常值概率识别算法，应用后的异构通信网络的投递率与网络数据节点成反比。随着网络节点数量的增加，其降低幅度小，表明该算法应用后可最大程度识别出网络数据的异常值概率；

2) 本文算法数据包伪造、重放和篡改方面的检测率和数据异常识别率均达到100%，选择性转发方面的网络安全认证和网络异常识别均超过96%；

3) 本文算法仅在其识别准确性和不同网络数据异常值概率进行了验证，未对其普适性和识别效率进行验证，为适应当代异构通信网络环境飞速发展与技术的日新月异，还需进一步研究与探索。

[1] 马莉莉,刘江平.基于数据挖掘的光纤通信网络异常数据检测研究[J].应用光学,2020,41(06):1305-1310.

Ma L L,Liu J P.Research on abnormal data detection of optical fiber communication network based on data mining[J].Journal of Applied Optics,2020,41(06):1305-1310.

[2] 刘爽,魏欧,郭宗豪.基于概率模型检测和遗传算法的基因调控网络的无限范围优化控制[J].计算机科学,2018,45(10):313-319.

Liu S,Wei O,Guo Z H.Infinite-horizon optimal control of genetic regulatory networks based on probabilistic model checking and genetic algorithm[J].Computer Science,2018,45(10):313-319.

[3] 张桂鹏,陈平华.一种混合云环境下基于Merkle哈希树的数据安全去重方案[J].计算机科学,2018,45(11):187-192,203.

Zhang G P,Chen P H.Secure data deduplication scheme based on merkle hash tree in hybridcloud storage environments[J].Computer Science,2018,45(11):187-192,203.

[4] 杨茂,黄鑫.基于光照过程特征分析的光伏功率异常数据识别算法[J].电力系统自动化,2019,43(06):64-74.

Yang M,Huang X.Abnormal data identification algorithm for photovoltaic power based on characteristics analysis of illumination process[J].Automation of Electric Power Systems,2019,43(06):64-74.

[5] 鲍海燕,芦彩林,李俊丽.基于公钥密码的通信网络安全加密系统设计[J].重庆理工大学学报(自然科学),2020,34(10):146-152.

Bao H Y,Lu C L,Li J L.Design of communication network security encryption system based on public key cryptography[J].Journal of Chongqing University of Technology(Natural Science),2020,34(10):146-152.

[6] 苏迪,刘竹松.一种新型的Merkle哈希树云数据完整性审计方案[J].计算机工程与应用,2018,54(01):70-76.

Su D,Liu Z S.New type of Merkle Hash Tree for integrity audit scheme in cloud storage[J].Computer Engineering and Applications,2018,54(01):70-76.

[7] 曾康铭,吴杏.多层概率决策的网络大数据协作融合算法[J].电子技术应用,2018,44(06):133-137.

Zeng K M,Wu X.The network big data cooperative fusion algorithm based on multi layer probabilistic joint decision[J].Application of Electronic Technique,2018,44(06):133-137.

[8] 朱丹红,林清祥,张栋.基于SDN数据中心网络的时限感知的拥塞控制算法[J].计算机工程与应用,2018,54(03):68-73,141.

Zhu D H,Lin Q X,Zhang D.Deadline-aware of congestion control algorithm based on SDN data center network[J].Computer Engineering and Applications,2018,54(03):68-73,141.

[9] 席鹏飞,杨明合,郭王恒,等.基于声波时差数据波动性识别异常压实地层的方法[J].石油钻探技术,2019,47(06):111-115.

Xi P F,Yang M H,Guo W H,et al.A method for identifying abnormally compacted strata based on the fluctuation of interval transit time data[J].Petroleum drilling techniques,2019,47(06):111-115.

[10]舒敏,刘华文,郑忠龙,等.结合局部敏感哈希和随机游走的异常检测算法[J].计算机科学与探索,2018,12(12):1950-1960.

Shu M,Liu H W,Zheng Z L,et al.Outlier detection algorithm combining locality sensitive hashing and random walks[J].Journal of Frontiers of Computer Science & Technology,2018,12(12):1950-1960.

[11]袁明兰,郝位军.基于云计算的船舶通信网络异常数据分析[J].舰船科学技术,2019,41(06):203-205.

Yuan M L,Hao Q J.Abnormal data analysis of ship communication network based on cloud computing[J].Ship Science and Technology,2019,41(06):203-205.

[12]仇媛,常相茂,仇倩,等.基于长短期记忆网络和滑动窗口的流数据异常检测方法[J].计算机应用,2020,40(05):1335-1339.

Qiu Y,Chang X M,Qiu Q,et al.Stream data anomaly detection method based on long short-term memory network and sliding window[J].Journal of Computer Applications,2020,40(05):1335-1339.

[13]任俊玲,王承权,王海婷.基于自相似指数变化率的网络数据流异常分析[J].中国科技论文,2019,14(10):114-120.

Ren J L,Wang C Q,Wang H T.Network abnormal traffic analysis based on the rate of change of the self-similarity index[J].China Sciencepaper,2019,14(10):114-120.

[14]蒋俊正,杨杰,欧阳缮.一种新的无线传感器网络中异常节点检测定位算法[J].电子与信息学报,2018,40(10):77-83.

Jiang J Z,Yang J,Ou Y S.Novel method for outlier nodes detection and localization in wireless sensor networks[J].Journal of Electronics & Information Technology,2018,40(10):77-83.

[15]吴沛佶,梅雪,何毅,等.基于深度网络模型的视频序列中异常行为的检测方法[J].激光与光电子学进展,2019,56(13):134-140.

Wu P J,Mei X,He Y,et al.Method of detecting abnormal behavior in video sequences based on deep network models[J].Laser & Optoelectronics Progress,2019,56(13):134-140.