异构网络大数据存在多元性与分布式传播等特性[1],因此降低质量较差数据干扰属于数据知识工程急需解决的问题,对数据传播时的数据知识库重建关注度越来越高。数据知识扩充数据解决该问题的有效途径[2]。李直旭等人通过属性与属性值的共现关系实现数据知识扩充[3],应坚超等人以集合论内互逆/对称关系为核心思想,提出关系统计的知识扩展方法[4],上述2种方法均可有效实现知识扩充,但扩充效果并不理想,原因是这2种方法无法剔除无效数据,导致扩充效率较低。双线性卷积神经网络(bilinear convolution neural networks,B-CNN)通过两路VGGNet组建而成,可增强特征表达效果,完成端到端训练的预测分类[5],具备较优的分类效果;为此研究基于B-CNN模型的异构网络大数据知识扩充算法,利用B-CNN模型提取有效三元组,剔除无效数据,降低质量低下数据的干扰,提升知识扩充效果。
2 异构网络大数据知识扩充算法
在B-CNN各个特征通道内引进比例因子,结合正则化激活方式构建稀疏层,实现通道筛选,根据比例因子的大小衡量特征通道的重要性,裁剪掉重要程度较低的通道,实现B-CNN模型的改进,避免网络过分拟合,增强提取特征的显著性;利用改进B-CNN构建异构网络大数据知识表示模型,在三元组矩阵内,通过维度变换方式增加卷积滑动窗口的滑动步数,在不同维度中,提高该矩阵中实体与关系的信息共享作用,获取不同维度中三元组的全部信息D=(R,E,AR),其中,异构网络大数据实体集是R,知识描绘对象是E,R内全部元素的知识属性集是AR;利用可变粒度策略处理(R,E,AR),实现异构网络大数据知识扩充。
2.1.1 B-CNN模型
B-CNN的输入是R,利用2个特征提取网络A与B,依据卷积核ω展开卷积操作获取特征提取函数fA与fB,利用外积方式汇聚fA与fB,再通过求和池化获取双线性特征,传输至内积层展开预测。A与B内各个卷积层均会设置Relu激活函数,公式如下:
f(x)=max(0,x)
(1)
B-CNN的主要部分通过三元组β=(fA,fB,ρ)组成,fA与fB属于一种函数映射f ∶D×R→GC×L,输入的R的位置信息是D,维度是C×L;池化函数是ρ;将D与R映射为C×L维的特征RC×L,经由外积方式汇聚fA与fB的输出特征,获取双线性特征,公式如下:
b(d,r,fA,fB)=fA(d,r)TfB(d,r)
(2)
其中,d∈D,r∈R。
ρ的作用为将全部位置的特征融合为一个总特征,公式如下:
(3)
令fA与fB提取的特征维度分别是C×M与C×N,因此输出的矩阵为M×N。
2.1.2 改进B-CNN模型
通过在B-CNN模型的各个特征通道内引进一个相应的比例因子γ(γ≥0),结合正则化激活方式构建稀疏层,实现通道筛选,完成B-CNN改进[6]。利用正则化激活方式归一化处理小批量R′,令内部激活规范化,小批量是B,如果为正则化激活方式的输入与输出,正则化激活方式的转换公式如下:
(4)
其中,平均值是μB;规范后处理后的输出是标准偏差值是σB;比例因子是γ、δ。
通过引进稀疏惩罚项,调整γ的稀疏程度[7],引进位置为训练目标函数χ,χ的表达公式如下:
(5)
其中,训练权重是W;输入数据实体集与真实标签是(Rx,Ry);调整稀疏程度的参数是λ;正则化操作是g(·);交叉熵损失函数是h,表达公式如下:
(6)
其中,h的精度值是p(Rx);h的预测值是q(Rx)。
通道稀疏处理后,改进B-CNN网络内存在很多与零接近的γ,裁剪掉这些γ完成通道的修剪,在修剪时设置一个阈值,避免出现过拟合现象[8];改进B-CNN整体是有向非循环图,仅需求解特征提取网络梯度便能实现网络训练。
2.1.3 异构网络大数据知识表示模型
利用改进B-CNN构建异构网络大数据知识表示模型,该模型的作用是利用改进B-CNN学习、训练并输出各个三元组(R,E,AR)的科学性的打分函数 f′(R,E,AR),科学的(R,E,AR)知识得分不得低于不科学的D(R,E,AR)知识得分[9]。令改进B-CNN构成的有向非循环知识图谱为V=(R,U),关系集是U[10];知识表示模型将R与U描绘为k维向量空间内的向量,各个三元组下向量为(vR,vE,vAR),将(vR,vE,vAR)融合为一个三列矩阵A=[vR,vE,vAR]∈Rk×3,利用知识表示模型以维度变换方式变更X,获取Y=RM×N,其中M×N=k×3,知识表示模型将Y输入改进B-CNN的A与B网络内卷积层,利用ω卷积操作Y,再经由外积方式与求和池化操作,提取(vR,vE,vAR)的双线性特征[11]。令ω的集合是Ω,ω的数量是τ=|Ω|,令获取的特征矩阵维度是M×N。利用知识表示模型向量化处理M×N,获取向量vw∈RMNτ×1。 vw乘上权重矩阵Wo×MNτ,并映射至o维向量空间内,再和权重向量w1∈Ro×1内积获取(R,E,AR)的打分[12]。知识表示模型的 f′(R,E,AR)表达公式如下:
f′(R,E,AR)=vec(s(Y*Ω))×W·w1
(7)
其中,卷积操作是“*”;内积操作是“·”;向量化操作是vec;非线性函数是s;通过式(7)获取有效三元组[13]。
Adam优化器最小化损失函数ξ,实现知识表示模型内参数的训练,ξ的计算公式如下:
(8)
其中, θ(R,E,AR)是常数,取值为1或-1;有效与无效三元组集合为D、D′,当(R,E,AR)∈D时,θ(R,E,AR)=1,当(R,E,AR)∈D′时,θ(R,E,AR)=-1;利用D内各个(R,E,AR)的头实体或尾实体任意更改成其余实体获取D′。
利用可变粒度策略对2.1小节获取的有效三元组D=(R,E,AR)展开知识扩充。令∀ar∈AR,∀e∈E,线性关系属性映射为ar:e→Ur,R内随机一个元素r的知识属性映射关系为Ur。令粗糙权重是φ;多粒度粗糙知识工程为K;则粗糙的知识工程是KR=(R,E∩AR(r),AR∪φ)。
令R、E与AR间具有映射关系,R和E属于多端点映射,即ϑ∈R∩E,ϑ∈∀ar⊂AR。因此,K内的细粒度知识集合和KR的存在如下关系:
(9)
其中,细粒度知识集合是与细粒度阈值是异构网络大数据特征向量的元素是cii;向量空间的维度是i, i∈k;向量空间是v′。
针对K,基于可变粒度设计知识的参数与属性,表达公式如下:
(10)
其中,K与KR内原始多维向量空间是内的元素是可变粒度特征空间是Qk;由Rk至Qk的降维映射是 f ∶Rk→Qk。
可变粒度更换方程如下:
η=(r×sinα+e×cosε)f(r,e,ar)
(11)
其中,可变粒度是η;r的多维向量空间水平交叉弧度是a;e在空间降维时形成的垂直交叉弧度是ε。
η和知识工程的迭代关系如下:
(12)
降维后,通过可变粒度将多维空间的知识集移至细粒度几何特征空间中,令知识存在确定关系与线性特征[14]。利用划分粗、细粒度集,细粒度可得到结果,粗粒度利用可变粒度调度,去掉知识的不确定性与非线性,变更成细粒度[15]。可变粒度调度及划分细粒度后,异构网络大数据知识工程利用式(13)展开知识扩充,公式如下:
(13)
为验证本文算法的有效性,通过15台计算机构建一个实验集群,每台计算机的内存是16 GB,硬盘存储空间是2 T。异构网络数据知识库空间配置如下:
利用nginx安装1个中心节点与14个处理节点,通过处理节点完成差异化服务,该数据知识空间属于内部局域网,通过Oracle Load Test软件仿真大量并发请求,将JetBrains WenStorm/VS Code当成开发环境,操作系统是CentOS 7.3,各节点的联络方式是千兆以太网,令数据知识发送请求的时间是70 s。建立两路VGGNet,通过维度变换增加进行卷积操作提取特征函数进行计算,获取不同维度中三元组矩阵的信息,经由求和池化操作,实现B-CNN模型的应用。图1为B-CNN模型网络结构示意图。
图1 B-CNN模型网络结构示意图
Fig.1 B-CNN Model network structure
将平均排名(Mean Rank,MR)与前8名存在预测准确三元组的比例(Hits@8)作为评价本文算法中知识表示模型有效性的指标,MR指三元组集合的平均排名;MR低或Hits@8高说明本文算法的知识表示效果较优。调整稀疏程度参数λ过大或过小均会影响知识表示模型的效果,当λ过大时,会导致大量知识特征被抑制,造成获取有效三元组的精度较低;当λ过小时,会导致比例因子失去意义,无法筛选特征通道;一般情况下λ的取值为10-6≤λ≤10-4;利用本文算法获取异构网络数据库内的有效三元组,完成数据知识表示,测试本文算法在不同λ的取值时的MR与Hits@8,测试结果如图2与图3所示。
图2 MR测试结果曲线
Fig.2 Mr test results
图3 Hits@8测试结果曲线
Fig.3 Hits@8 test result
根据图2与图3可知,随着训练周期的不断增加,在不同λ取值时本文算法的MR逐渐下降,Hits@8逐渐提升;当λ=10-5时,MR的收敛速度最快,在训练周期为20时趋于平稳,最终的MR值也显著低于其余2种取值;λ=10-4时的收敛速度虽快于λ=10-6,在训练周期为30时趋于平稳,但最终MR值却高于λ=10-6时的MR值;当λ=10-5时,Hits@8的收敛速度依旧最快,在训练周期为20时趋于平稳;λ=10-4与λ=10-6时的收敛速度较慢,分别在训练周期为40、50时趋于平稳,且最终Hits@8值显著低于λ=10-5时最终Hits@8值;综合分析可知,当λ=10-5时,MR值最低且Hits@8值最高,因此,此时本文算法的知识表示效果较优。
在异构网络数据库内随机选取3个数据集,利用本文算法扩充这3个数据集的知识,将归一化互信息(normalized mutual information,NMI)与调整兰德指数(adjusted rand index,ARI)作为衡量本文算法扩充效果的指标,这2个指标的取值区间都是[0,1],其值大小与扩充效果成正比;细粒度阈值决定细粒度的分割效果,细粒度分割效果直接影响扩充效果,为此测试本文算法在不同的取值时本文算法扩充知识的NMI与ARI,测试结果如表1所示。
表1 NMI与ARI测试结果曲线
Table 1 NMI and Ari test results
细粒度阈值数据集1NMIARI数据集2NMIARI数据集3NMIARI0.10.940.680.930.710.920.750.20.950.720.940.760.930.750.30.960.810.950.850.970.890.40.980.890.970.910.980.920.50.970.890.970.890.980.920.60.960.860.950.840.980.870.70.940.840.930.820.910.820.80.930.820.920.790.880.780.90.930.820.910.760.880.781.00.930.810.910.760.880.78
根据表1可知,在不同数据集中,本文算法的NMI与ARI随着细粒度阈值提升出现先提升后下降的趋势,且在扩充不同数据集时,本文算法的NMI值与ARI值均较高,与1较为接近,说明本文算法具备较优的知识扩充效果;综合分析细粒度阈值为0.4时,本文算法在扩充不同数据集知识时的NMI与ARI值最高。实验证明:本文算法具备较优的知识扩充效果,且细粒度阈值为0.4时,知识扩充效果最佳。
测试本文算法在扩充上述3个数据集知识时,随着处理节点增加,该算法完成知识扩充所需的迭代次数,验证本文算法的收敛效果,测试结果如图4所示。
图4 收敛效果
Fig.4 Convergence effect
根据图4可知,在扩充不同数据集的知识时,随着处理节点数量的提升,本文算法的迭代次数逐渐上升,在节点数达到6个以上的时候,迭代基本维持在5次以下,并且不再有上升趋势,原因是本文算法通过粒度可变调度处理粗粒度数据,并展开降维处理,确定不确定性的线性描绘,去掉不确定性的数据,降低知识获取迭代次数,提升知识获取效率,迅速完成数据知识扩充。
1) 利用B-CNN构建知识表示模型,获取异构网络大数据的有效三元组,通过可变粒度策略对有效三元组展开知识扩充。
2) 所提出算法可增强知识扩充效果,提升知识获取效率。
[1] 周利琴,范昊,潘建鹏.网络大数据中的知识融合框架研究[J].情报杂志,2018,37(01):145-150,197.
Zhou L Q,Fan H,Pan J P.Research on knowledge fusion framework in network big data[J].Journal of Intelligence,2018,37(01):145-150197.
[2] 董永强,王鑫,刘永博,等.异构YANG模型驱动的网络领域知识图谱构建[J].计算机研究与发展,2020,57(04):699-708.
Dong Y Q,Wang X,Liu Y B,et al.Building network domain knowledge graph from heterogeneous YANG models[J].Journal of Computer Research and Development 2020,57(04):699-708.
[3] 李直旭,沈永新,陈嘉,等.基于词共现图的属性知识库迭代自增式扩展算法[J].模式识别与人工智能,2018,31(12):1143-1150.
Li Z X,Shen Y X,Chen J,et al.Iterative bootstrapping attribute knowledge base extension algorithm based on word co-occurrence graph[J].Pattern Recognition and Artificial Intelligence,2018,31(12):1143-1150.
[4] 应坚超,蒲飞,徐晨鸥,等.基于互逆和对称关系补全的知识图谱数据扩展方法[J].西南大学学报(自然科学版),2020,42(11):43-51.
Ying J C,Pu F,Xu C O,et al.A Knowledge graph data expansion method based on reciprocal and symmetric relationship completion[J].Journal of Southwest University(Natural Science),2020,42(11):43-51.
[5] 马力,王永雄.基于稀疏化双线性卷积神经网络的细粒度图像分类[J].模式识别与人工智能,2019,32(04):336-344.
Ma L,Wang Y X.Fine-grained visual classification based on sparse bilinear convolutional neural network[J].Pattern Recognition and Artificial Intelligence,2019,32(04):336-344.
[6] 葛疏雨,高子淋,张冰冰,等.基于核化双线性卷积网络的细粒度图像分类[J].电子学报,2019,47(10):2134-2141.
Ge S Y,Gao Z L,Zhang B B,et al.Kernelized bilinear CNN models for fine-grained visual recognition[J].Acta Electronica Sinica,2019,47(10):2134-2141.
[7] 余强明,朱小栋,吴靓,姚润坤,张瑶瑶.大数据时代顾客隐私关注度对企业精准营销效益影响的实证研究[J].重庆工商大学学报(自然科学版),2020,37(04):95-103.
Yu Q M,Zhu X D,Wu L,et al.Empirical study on the impact of customer privacy concerns on enterprise precision marketing benefits in the era of big data[J].Journal of Chongqing Technology and Business University(Natural Science Edition),2020,37(04):95-103.
[8] Rothberg H N,Erickson G S.Big data systems:Knowledge transfer or intelligence insights?[J].Journal of Knowledge Management,2017,21(01):92-112.
[9] Yang R,Xu Z,Xie T,et al.Multi-modal big data knowledge aggregation for advanced automobile intelligent manufacturing operation and maintenance[J].Journal of Physics:Conference Series,2020,1653(1):012026-012033.
[10]WU Y L,LI Y Q.Convolutional network based pathological nucleus segmentation[J].Journal of Chongqing Technology and Business University(Natural Science Edition),2019,36(03):67-71.
[11]文亮,李娟,刘智颖,等.基于概念层次网络的知识表示与本体建模[J].中文信息学报,2018,32(04):66-73.
Wen L,Li J,Liu Z Y,et al.A Method of knowledge representation and ontology modeling based on hierarchical network of concepts[J].Journal of Chinese Information Processing,2018,32(04):66-73.
[12]Fote F N,Roukh A,Mahmoudi S,et al.Toward a big data knowledge-base management system for precision livestock farming[J].Procedia Computer Science,2020,177:136-142.
[13]陈文杰,许海云.一种基于多元数据融合的引文网络知识表示方法[J].情报理论与实践,2020,43(01):150-154,134.
Chen W J,Xu H Y.A Knowledge representation method for citation network based on multi-data fusion[J].Information Studies:Theory & Application,2020,43(01):150-154,134.
[14]彭敏,姚亚兰,谢倩倩,等.基于带注意力机制CNN的联合知识表示模型[J].中文信息学报,2019,33(02):51-58.
Peng M,Yao Y L,Xie Q Q,et al.Knowledge representation learning for joint structural and textual embedding via attention-based CNN[J].Journal of Chinese Information Processing,2019,33(02):51-58.
[15]Kumar M,Philip H.A relationship study on characteristics of tech-savvy rural youth towards their knowledge expansion in kanyakumari district of tamil nadu[J].Madras Agricultural Journal,2019,106(06):45-52.
Citation format:ZHANG Weihua, WANG Haiying.Research on knowledge expansion algorithm of heterogeneous network big data based on B-CNN model[J].Journal of Ordnance Equipment Engineering,2022,43(06):290-294.