基于计算机视觉手势识别的人机交互技术研究

丛玉华1,2,何 啸1,邢长达2,3,王志胜2

(1.南京理工大学紫金学院, 南京 210023;2.南京航空航天大学 自动化学院,南京 211106;3.南京航空航天大学 深圳研究院, 广东 深圳 518063)

摘要:基于手势识别的人机交互技术中,存在静态手势识别速度慢和精度低,以及手势动作可扩展性不强等问题,提出了融合注意力机制的Yolov4-Tiny算法,采用基础手势结合手势状态变化方式设计动作语义,根据动作语义调用相应的应用函数,实现人机交互。测试结果表明:所设计的算法在保证识别速度的基础上识别精度提升了19.38%,动态手势识别准确率达到96.5%,人机交互运行时间小于200 ms。

关键词:人机交互;手势识别;注意力机制;Yolov4-Tiny;交互接口

1 引言

人机交互技术是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。传统的人机交互一般是基于显示器、鼠标和键盘的交互方式,人通过鼠标、键盘或是其他输入设备对机器发送指令信息,机器再严格按指令行动,通过显示器向人传递反馈信息[1]。随着计算机技术和人工智能的发展,手势识别作为一种简单便捷的交互方式,得到了广泛关注[2]。手势识别技术的生物学基础是手势交流[3],主要采用基于视觉方式,通过提取手势图像的特征,完成对手势图像的识别[4]。近年来,手势识别技术中常见且先进的一类特征表示方法是深度神经网络模型,它具有很强的非线性学习能力,在端到端的训练过程中随着层次的加深进一步学习复杂的特征抽象表示[5-7]。作为深度神经网络的重要分支,卷积神经网络通过在原始输入中应用可训练的卷积核使得局部的特征表示具有更高阶的抽象,成为一种非常有效的深度图像学习模型[8]。基于卷积的一阶目标识别Yolo算法,在识别过程中将整张输入图像看作是目标的上下文特征,可以大幅减少错误识别的机率[9]。Yolov2算法在卷积层上额外新增了归一化层,进一步提高了目标识别准确度,且有效解决了重叠目标的识别问题[10]。Yolov3算法选用更深的网络,使得算法具有了更高的识别效率和准确率[11]。Yolov4算法融入了CSPDarknet53和加强特征提取网络SPP、PAnet,将特征进行融合,提取出更精确的特征[12]。Yolov4-Tiny较Yolov4精简了特征提取网络,使模型的复杂度和训练参数大幅减少[13]。Yolov4-Tiny因其轻量化和高速性,可适用于手势识别。

本文主要研究思路是:通过摄像头采集视频信息而获取单帧图片,运用改进的Yolov4-Tiny算法对图片进行静态手势识别,并通过动态手势识别获取动作语义,从而实现人机交互。

2 静态基础手势识别

人机交互时,可以根据基础手势动作状态而产生不同的语义。基础手势分为单指手势、握拳手势和五指手势3种。单指手势如图1(a) 所示,记为Pw;五指手势如图1(b)所示,记为Pf;握拳手势如图1(c) 所示,记为Ps

图1 基础手势图

Fig.1 Basic gestures

为能快速识别基础手势,采用一阶轻量型目标检测网络Yolov4-Tiny,并引入注意力机制提高识别精度。

2.1 基于卷积的 Yolov4-Tiny网络

Yolov4-Tiny目标检测网络是基于卷积神经网络构建,主要由Backbone、Neck和Predict三部分组成。Backbone部分采用CSPDarknet53-Tiny网络,Neck部分采用特征金字塔网络FPN,Predict部分输出2个有效特征层Head1和Head2。Yolov4-Tiny网络结构如图2所示。

图2 Yolov4-Tiny网络结构框图

Fig.2 Yolov4-Tiny network architecture diagram

2.1.1 主干特征网络

主干特征网络采用CSPDarknet53-Tiny网络,由CBL层(Conv+BN+Leaky ReLU)、CSP(Cross Stage Partial)层和池化层(Pooling)构成,如图2中Backbone部分所示。

1) CBL层。CBL层包括卷积运算Conv、批标准化处理BN(Batch Normalization)、Leaky ReLU激活函数。

卷积运算:卷积层用于提取目标特征,通过多次运算进一步获得更加丰富的特征信息,得到更加优化的特征图。卷积的表达式如式(1)所示:

(1)

式中: ij代表该卷积核的2个位置参数; θij表示ij位置上原图像内的数据;xij代表ij位置上卷积核内的数据;ε代表该位置的权重;m表示卷积核大小[14]

批标准化:本质就是利用优化方差大小和均值位置,使得新的分布更切合数据的真实分布,保证模型的非线性表达能力。批标准化如式(2)所示:

(2)

式中: E[q]指的是每一批训练数据神经元q的平均值;是每一批训练数据神经元q一个标准差。

经过该变换后,每个神经元形成了均值为0,方差为1的正态分布[15-16]

激活函数:激活函数Leaky ReLU,即带泄露线性整流函数,是在神经元上运行的函数。其表达式如式(3)所示:

(3)

式中: δ为Leaky ReLU的参数; t为神经元输入; f(t)为神经元输出[17]

2) CSP层。CSP为残差模块,是在CBL结构基础上引入残差结构,Cs1和Cs2为2个残差边,Concat为拼接运算[18],如图3所示。

图3 CSP层结构框图

Fig.3 CSP architecture diagram

2.1.2 加强特征网络

FPN(feature pyramid networks)特征金字塔网络主要解决物体检测中的多尺度问题。在常规卷积神经网络模型内部,从底向上各层对同一大小图片具有不同维度的特征表达。将不同维度的图片作为输入,可生成反映不同维度信息的特征组合,以此能有效表达出各种维度特征。在Yolov4-Tiny中,FPN预测输出采用两层结构如图2中Neck部分所示,UpSamp为上采样运算。

2.1.3 网络特征输出

Yolov4-Tiny输出层即图2中的Head1和Head2,包括特征输出、损失计算和预测结果3部分。

1) 特征输出。若输入图像大小为(wh,3),则2个特征层的大小分别为(w/16,h/16,M),(w/32,h/32,M)。其中,w为图像的宽,h为图像的高,M为输出的通道数。

2) 损失计算。坐标损失l1:为预测框与真实框间的误差,采用CIOU(Complete-IOU)函数,如式(4)所示:

l1=1-CIOU

(4)

类别损失le:计算真实类别和预测类别的交叉熵作为类别损失,交叉熵损失le如式(5)所示:

(5)

式中: e=2时为置信度交叉熵;e=3时为类别交叉熵;C为类别数;pi为预测框A对应的置信度或类别。

总的损失l:为坐标损失、置信度损失及类别损失之和[19],如式(6)所示:

l=l1+l2+l3

(6)

3) 预测结果。每个网格点加上对应的x坐标和y坐标,得到预测框的中心位置。通过先验框的高、宽计算出预测框的长和宽,可确定预测框的位置。根据预测框位置进行得分排序与非极大抑制筛选获得最后预测结果[20]

2.2 融合注意力的Yolov4-Tiny网络

在确保一定识别速度基础上,对Yolov4-Tiny进行改进,改进方法是在主干特征网部分引入注意力机制,以提高特征提取能力。

2.2.1 基于卷积块的注意力机制

基于卷积块的注意力机制 CBAM(convolutional block attention module)包括2个子模块:通道注意力模块CA(channel attention)和空间注意力模块SA(spatial attention),如图4所示。Input Feature经过了CA的特征图与SA相乘,最终得到经过调整的特征图Refined Feature[21]

图4 CBAM模块结构框图

Fig.4 CBAM module structure diagram

1) 通道注意力。CA主要关注对最终预测起决定性作用的通道。首先,对Input Feature在每个通道的特征图上进行全局平均池化(Avg Pool)和全局最大池化(Max Pool),得到2个通道特征。然后,将这2个通道特征送入一个多层感知机(MLP)。多层感知机由2个共享权重的全连接层组成,通过这个全连接层得到相应的输出(Channel Attention Feature)。CA结构如图5所示。

图5 CA模块结构框图

Fig.5 CA module structure diagram

2) 空间注意力。SA主要关注对最终预测起决定性作用的空间位置。首先,在通道维度Channel Attention Feature上进行最大池化和平均池化,得到2个空间特征。然后,将这2个特征在通道维度上拼接,经过一个卷积层后得到空间注意力特征(spatial attention feature)。SA结构如图6所示。

图6 SA模块结构框图

Fig.6 SA module structure diagram

2.2.2 融合CBAM的网络

CBAM模块用于提高特征提取精度。在主干网络的CSP层中引入CBAM模块,置于残差边Cs2处。改进后每一个CSP模块的具体结构如图7所示,Feat表示输出特征图。

图7 CSP+CBAM网络结构框图

Fig.7 CSP+CBAM network structure diagram

2.3 静态基础手势识别性能测试

2.3.1 数据集和测试环境

1) 数据集。实验数据集是在网络上搜索及在多种场景下拍摄得到的8 296张手势图片。采用翻转、镜像、改变图片明亮度及高斯噪声等方式进行数据增强,最终数据集图片共计17 619张,其中训练集15 856张,测试集1 763张。数据集参考VOC2007数据集制作,使用LabelImg图像标注软件对图像进行标注,生成包含图像中目标对应的类别及位置坐标信息的XML文件。

2) 测试环境。实验软硬件参数如表1所示,CUDA版本为10.1。网络参数如表2所示。

表1 环境参数

Table 1 Environmental parameters

软件参数深度学习框架Tensorflow2.2.0操作系统Windows10硬件参数处理器Intel core i5显卡NVIDIA GeForce MX150

表2 网络参数

Table 2 Network parameters

名称系数输入Input输出Head1输出Head2参量δw,h,Mw,h,Mw,h,M参值0.1416,416,326,26,2413,13,24

2.3.2 性能参数

1) 精确度和召回率。精确度Pr和召回率Re分别如式(7)和式(8)所示:

(7)

(8)

式(7)为精确度表达式,表示正样本且分类正确的部分占所有分类器认为是正样本的部分的比例,也被称为查准率。式(8)为召回率表达式,表示正样本且分类正确的部分占所有正样本的比例,也被称为查全率。TP表示正样本预测为正样本的个数;FP表示负样本预测为正样本的个数;FN表示正样本预测为负样本的个数。

2) 平均精度(average precious,AP)。以Re值为横轴,Pr值为纵轴,得到PR曲线。这条线下面的面积就是被测类别的平均精度AP值。mAP就是所有类的平均AP值。AP如式(9)所示:

AP=u(r)dr

(9)

式中,u(r)为Rer时的Pr值。

3) FPS。FPS(frame per second)即每秒可以处理的图片数量,用来评估目标检测的速度[22]

2.3.3 性能测试结果

采用Yolov4-Tiny网络及改进的Tiny+CBAM网络,分别进行静态基础手势识别,mAP测试结果如图8和图9所示。其他性能参数测试值如表3所示。

图8 Yolov4-Tiny网络mAP测试结果直方图

Fig.8 mAP performance of Yolov4-Tiny network

图9 Tiny+CBAM网络mAP测试结果直方图

Fig.9 mAP performance of Tiny+CBAM network

表3 网络架构改进前后性能测试数据

Table 3 Performance test data before and after network architecture improvement

网络模型mAP/%大小/kBFPSYolov4-Tiny80.5323 15139.27Net194.2023 23137.87Net295.4223 31436.01Net395.9923 65735.63Tiny+CBAM96.1423 29336.36

表3中,Net1网络将CBAM放在CSP模块的通道分割之后的位置,Net2网络将CBAM放在CSP模块的通道分割前和后2个位置,Net3网络在Net2网络基础上又在主干网络和加强网络间增加了CBAM。通过表3中的5种网络的对比,并结合图8、图9的结果,可见融合了注意力机制的Tiny+CBAM网络优于其他网络,与Yolov4-Tiny网络相比,在损失不到3帧/s的情况下mAP提升了19.38%,既保持了轻量级网络Yolov4-Tiny的速度特性,又具有优于Yolov4-Tiny网络高精度的特点。

2.3.4 可视化测试结果

通过不同的动作,对静态基础手势识别方法进行测试。图10为单手手势在不同距离时的识别效果,图11为双手手势在不同角度和不同距离时的识别效果。

图10 单手手势不同距离识别结果图

Fig.10 Recognition results of different distance of one handed gesture

图11 双手手势不同距离识别结果图

Fig.11 Recognition results of different distance of two handed gesture

由图10和图11的识别效果可见,对于单手和双手静态基础手势都可以准确识别并标注。

3 动态手势识别

手势动作为人机交互的语义提供部分,可根据实际情况进行自定义。获取静态基础手势后,通过动态手势识别对手势动作进行捕捉并做判断。动态手势识别分为两部分:手部目标跟踪和手势动作判断。

3.1 手部目标跟踪

在获取到基础手势的坐标位置基础上,跟踪部分采用IOU交并比的计算方法,将相邻的2个关键帧的手势选框做IOU计算,如式(10)所示。如果相邻选框重合部分比例较大,则视为同一个手势目标;如果相邻选框重合部分很小,则视为非同一个手势目标,即新的目标手势。

(10)

(11)

其中: A为上一帧选框的面积,B为下一帧选框的面积;a为是否为同一目标的状态量,即a=1为同一目标,a=0为不同目标,分界点为IOU=0.3。

3.2 手势动作判断

3.2.1 手势状态

在手势动作判断时,将手势动作分解为:基础手势+状态变化。基础手势配合手部不同状态变化产生具体手势动作,基本状态变化有:首次出现,即一种手势第一次在画面中出现,记为Sf;手部移动,即一种基础手势在平面上朝不同方向移动,记为Sm;动作保持,即在一种基础手势变成另一种基础手势前,动作保持的状态,记为Sk;手部平移,即手部进行水平移动,记为Shm;双手靠拢,即两只手水平互相靠近,记为Sc;双手旋转,即两只手相对旋转,记为Sr

3.2.2 手势动作语义

1) 移动。此动作分为两部分:建立移动区域和屏幕上移动。

建立移动区域:即建立移动区域和电脑屏幕区域的映射。若单指手势Pw首次出现,则定义当前动作为建立移动区域,记为Mb,如式(12)所示:

Mb=Pw+Sf

(12)

移动区域如图12所示,图12中涉及电脑屏幕区域、摄像头区域、移动区域和手势选框区域四部分。其中,单指手势Pw指尖位置相对于摄像头区域左上角的坐标为(xcyc),选框的宽度为wwd,选框的高度为hht;移动区域的宽度和高度分别为WmHm;屏幕区域的宽度和高度分别为WscHsc;摄像头捕捉区域的宽度和高度分别为WcaHca。则有移动区域的大小如式(13)所示:

(13)

式中,DmDca分别为移动区域覆盖的大小位置和摄像头区域覆盖的大小位置,比例因子ml如式(14)所示:

(14)

图12 映射区域间位置关系示意图

Fig.12 Positional relationship between mapping areas

移动区域大小设置好后,须建立单指手势指尖位置与屏幕区域位置映射关系。设屏幕区域左上角为坐标原点(0,0),指尖位置在屏幕区域上的坐标位置为(xscysc),则移动区域左上角相对于屏幕区域左上角坐标为(xmym),如式(15)所示。

(15)

图13为移动动作效果图,其中(a)表示移动区域小于摄像头区域,(b)表示移动区域等于摄像头区域。

图13 建立移动区域及移动动作效果图

Fig.13 Effect diagram of establishing moving area and moving action

屏幕上移动:此动作等效于鼠标移动。移动区域建立后,进行目标跟踪,若出现单指手势并处于移动状态中,则定义当前动作为屏幕上移动,记为Mm,如式(16)所示:

Mm=Pw+Sm

(16)

2) 点击。点击动作等效于鼠标单/双击的动作。在进行目标跟踪后,若当前目标出现五指手势且状态为移动时,则定义当前为预点击动作。预点击动作后,当前目标若出现单指手势,则定义当前动作为点击动作。然后,根据五指手势保持状态的时间来判断单/双击。若五指手势保持小于0.5 s,则为单击,若大于等于0.5 s则为双击。预点击动作记为Mpc,单击动作记为Msc,双击动作记为Mdc,动作保持时间记为Tk1,如式(17)所示:

(17)

图14 点击动作效果图

Fig.14 Click action diagram

3) 换页。换页动作为控制页面切换,等效于鼠标滚轮上滑、下滑。在目标跟踪后,若当前目标出现五指手势,则当前目标为预换页动作。预换页动作后,若当前目标处于手部平移状态,则为换页动作。预换页动作记为Mps,换页动作记为Msw,如式(18)所示:

(18)

换页动作判断条件为:五指手势的选框A1中心与初始的五指手势选框A相对角度Aang(AA1)小于30°,位移距离Ddist(AA1)大于选框A宽度Wwid(A)的0.6倍。当AA1中心横坐标xA-xA1>0时为上一页动作;xA-xA1<0时为下一页动作。换页动作效果如图15所示。

图15 换页动作效果图

Fig.15 Page change action diagram

4) 退出。即退出当前页面,等效于ESC键作用。在进行目标跟踪后若当前目标出现五指手势,则认为当前目标为预退出动作。预退出动作后,若出现握拳手势,则定义为退出动作。预退出动作记为Mpe,退出动作记为Me,如式(19)所示:

Me=Mpe+PsIOU(BB1)>0.1 & Tk2>0.5 s

(19)

退出动作条件为:当前握拳手势选框B1与初始的五指手势选框BIOU大于0.1,且五指手势存在时长Tk2大于0.5 s。退出动作效果如图16所示。

图16 退出动作效果图

Fig.16 Exit action diagram

5) 放映。放映动作对应演示文稿的放映命令。在目标跟踪后,若存在2个目标都为五指手势,则分别记为Pf1Pf2。若2个目标的选框EF的相对角度小于30°,2个选框EF中心点间的距离大于选框的宽度,则认为这2个目标为预放映动作,记为Mpp,如式(20)所示:

(20)

当前页放映:当前页放映等效于Shift+F5键。预放映动作后,若处于放映判断状态,EF两个目标选框间的相对角度小于30°,且2个目标选框间的相对距离不断变小,直至选框EF的相对距离小于选框的宽度,则认为当前2个目标动作为从当前页面放映(图17),记为Mcp,如式(21)所示:

(21)

图17 当前页放映动作效果图

Fig.17 Current page projection action diagram

开始页放映:开始页放映等效于F5键。预放映动作后,若处于放映判断状态,EF两个目标选框间的相对角度不断变大,直至2个选框的相对角度大于60°,且处于放映判断状态的时间Tk3大于0.5 s,则认为当前2个目标动作为从开始页面放映(图18),记为Msp,如式(22)所示。

(22)

图18 开始页放映动作效果图

Fig.18 Start page projection action diagram

3.3 动态手势识别性能测试

在静态基础手势识别基础上,对动态手势识别进行性能测试。动态手势识别测试环境与静态基础手势识别测试环境相同,动态手势识别性能测试结果如表4所示。

表4 动态手势识别性能测试结果

Table 4 Dynamic gesture recognition performance test results

序号动作样本数误检数准确率/%1单击1004962双击1009913换页200796.54退出1003975当前页放映10001006开始页放映1001997错误动作1004968总计8002896.5

由表4可见:对所设计的动作以及错误动作进行样本测试,样本数为800次,误检数28次,准确率达到96.5%。

4 人机交互实现

4.1 人机交互流程

人机交互系统主要由摄像头、信息处理计算机和人的动态手势构成。人的手部运动通过摄像头采集后,输入信息处理计算机;通过计算机上的手势识别模块进行识别;根据识别结果对计算机上的应用程序进行控制。从应用角度来看,人机交互具体流程如图19所示:视频采集形成视频流,从视频流中获取图像帧;对图像帧进行静态基础手势识别;识别结果结合手势状态进行动作判断,判断后生成动作语义;根据语义调用人机交互应用函数,实现对应用程序的控制。

图19 人机交互应用流程框图

Fig.19 Application flow chart of human-computer interaction

4.2 人机交互应用函数

PyAutoGUI和AutoPy是Python的简单跨平台GUI自动化工具包,可以用程序自动实现鼠标和键盘操作。因此,利用PyAutoGui及AutoPy模拟键盘、鼠标的动作所使用的应用函数,如表5所示。

表5 应用函数表

Table 5 Application function
Table

序号语义指令应用函数函数功能1建立移动区1Mbautopy.screen.size()获取显示屏屏幕分辨率2建立移动区2Mbautopy.mouse.location()获取鼠标当前位置坐标3移动Mmautopy.mouse.move(X,Y)控制鼠标移动至屏幕(X,Y)坐标处4单击Mscpyautogui.click()控制鼠标单击5双击Mdcpyautogui.doubleClick()控制鼠标双击6换页Mswpyautogui.scroll(clicks)控制鼠标滚轮滑动clicks7退出Mepyautogui.press(keys)控制键盘执行点击“Esc”的操作8当前页放映Mcppyautogui.hotkey(∗args)控制键盘同时执行点击args列表中的“Shift+F5”的操作9开始页放映Msppyautogui.press(keys)控制键盘执行点击“F5”的操作

4.3 人机交互功能测试分析

通过手势识别和人机交互设计,实现手势对PowerPoint应用程序的控制。其中,移动、单击、双击、换页、退出、放映功能均已实现,操作过程中人机交互有效人机距离为50~250 cm,手势动作结束到控制任务完成平均时间小于200 ms。部分功能可视化效果如图20所示。

(a) 移动(a) Movement (b) 开始页放映(b) Start page projection

(c) 正在放映(c) Playing (d) 播放上一页(d) Play the last page

(e) 开始退出播放(e) Start exit (f) 退出播放完成(f) Exit complete

图20 部分功能的可视化效果图
Fig.20 Visualization of ome functions

5 结论

基于计算机视觉手势识别的人机交互系统,主要包括静态基础手势识别、动态手势识别和人机交互管理等技术。静态基础手势识别中,采用融合注意力机制的Tiny+CBAM网络,在保持轻量化和高速性基础上,大幅提高了识别精度。动态手势识别部分,通过检测交并比误差方法实现手势追踪,采用基础手势+手势状态模式设计并判断手势动作,保证了手势动作的扩展性。人机交互管理中,采用PyAutoGUI和AutoPy跨平台GUI自动化工具包,通过调用应用函数,实现鼠标和键盘的操作功能。后续将进一步优化手势识别方法,更好地提升人机交互体验度。

参考文献:

[1] 宋一凡,张鹏,刘立波.基于视觉手势识别的人机交互系统[J].计算机科学,2019,46(S2):570-574.

Song Y F,Zhang P,Liu L B.Human-machine interaction system with vision-based gesture recognition[J].Computer Science,2019,46(S2):570-574.

[2] Tadeusiewicz R.Speech in human system interaction[C]//Human System Interactions.IEEE,2010:2-13.

[3] 陈壮炼,林晓乐,王家伟,等.基于卷积神经网络的手势识别人机交互系统的设计[J].现代计算机,2021(06):57-62.

Chen Z L,Lin X L,Wang J W,et al.Design of human-computer interaction system for gesture recognition based on convolutional neural network[J].Modern Computer,2021(06):57-62.

[4] Pisharady P K,Saerbeck M.Recent methods and databases in vision-based hand gesture recognition:A Review[J].Computer Vision and Image Understanding,2015(11):152-165.

[5] 罗扬镖.基于计算机视觉的手势识别技术研究[D].北京:北京邮电大学,2021.

Luo Y B.Research on gesture recognition technology based on computer vision[D].Beijing:Beijing University of Posts and Telecommunications,2021.

[6] Girshick R,Donahue J,Darrell T et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Computer Society,2013:580-587.

[7] Kang B N Kim Y Kim D.Deep convolutional neural network using triplets of faces,deep ensemble,and score-level fusion for face recognition[C]//Computer Vision & Pattern Recognition Workshops.IEEE,2017:109-116.

[8] Asadi-Aghbolaghi M,A Clapés,Bellantonio M,et al.Deep learning for action and gesture recognition in image sequences:A Survey[M].Switzerland:Springer,Cham,2017:539-578.

[9] Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Piscataway:IEEE Press,2016:779-788.

[10] Redmon J,Farhadia A.YOLO9000:better,faster,stronger[C]//IEEE Conference on Computer Vision & Pattern Recognition.IEEE,2017:6517-6525.

[11] Redmon J,Farhadi A.Yolov3:an incremental improvement[J].ArXiv E-prints,2018(04):1-5.

[12] Bochkovskiy A,Wang C Y,Liao H Y M.YOLOV4:optimal speed and accuracy of object detection[J].Computer Vision and Pattern Recognition,2020,17(09):198-215.

[13] 郭紫嫣,韩慧妍,何黎刚,等.基于改进的YOLOV4的手势识别算法及其应用[J].中北大学学报,2021,42(03):223-231.

Guo Z Y,Han H Y,He L G,et al.Gesture recognition algorithm and application based on improved YOLOV4[J].Journal of North University of China,2021,42(03):223-231.

[14] 周跃琪.基于卷积神经网络YOLO的车辆压实线检测方法研究[D].杭州:浙江科技学院,2020.

Zhou Y Q.Research on vehicle compaction line detection method based on convolutional neural network Yolo[D].Hangzhou:Zhejiang University of Science and Technology,2020.

[15] 刘英.基于卷积神经网络的陆战场目标分类算法研究[D].成都:电子科技大学,2020.

Liu Y.Research on land battlefield target classification algorithm based on convolutional neural network[D].Chengdu:University of Electronic Science and Technology,2020.

[16] Ioffe S,Szegedy C.Batch normalization:accelerating deep network training by reducing internal covariate shift[C]//JMLR.org,2015:448-456.

[17] 蒋昂波,王维维.Re LU激活函数优化研究[J].传感器与微系统,2018,37(02):50-52.

Jiang A B,Wang W W.Optimization of ReLU activation function[J].Sensor and Microsystem,2018,37(02):50-52.

[18] He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2016:770-778.

[19] 朱超平.手指静脉装置的光源优化设计及应用[J].重庆工商大学学报(自然科学版),2020,37(05):108-114.

Zhu C P.Optimization design and application of near infrared light source for finger vein device[J].Journal of Chongqing Technology and Business University(Natural Science Edition),2020,37(05):108-114.

[20] 刘康凝,何小海,熊淑华,等.基于多任务学习的行人重识别特征表示方法[J].重庆邮电大学学报(自然科学版),2020,32(04):519-527.

Liu K N,He X H,Xiong S H,et al.Feature representation method based on multi-task learning for person re-identification[J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2020,32(04):519-527.

[21] Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[J].Springer,Cham,2018(09):1-17.

[22] 季航,刘萍,王峰,等.基于改进YOLOv3的偏振成像目标检测方法[J].兵器装备工程学报,2020,41(07):197-201.

Ji H,Liu P,Wang F,et al.Polarization imaging target detection method based on improved YOLOv3[J].Journal of Sichuan Ordnance,2020,41(07):197-201.

Research on human-computer interaction technology based on computer vision gesture recognition

CONG Yuhua1,2, HE Xiao1, XING Changda2,3, WANG Zhisheng2

(1.Nanjing University of Science and Technology Zijin College, Nanjing 210023, China; 2.School of Automation, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China; 3.Shenzhen Research Institute of Nanjing University of Aeronautics and Astronautics, Shenzhen 518063, China)

Abstract: The man-machine interaction technology based on gesture recognition has some problems, such as slow speed and low precision of static gesture recognition, and poor expansibility of gesture action. Yolov4-Tiny algorithm based on attention mechanism was proposed, and action semantics was designed by combining basic gestures with gesture state change, and the application function was called according to action semantics, which realize efficient human-computer interaction. The test results show that the recognition accuracy of the designed algorithm is improved by 19.38% without reducing recognition speed, the accuracy of dynamic gesture recognition reaches 96.5%, and the operation time of human-computer interaction is less than 200 ms.

Key words: human computer interaction; gesture recognition; attention mechanism; Yolov4-Tiny;interactive interface

收稿日期:2021-10-27;

修回日期:2021-12-28

基金项目:国家自然科学基金青年科学基金项目(62101247);深圳市中央引导地方科技发展专项资金资助项目(2021Szvup063);江苏高校哲学社会科学研究项目(2021SJA2250)

作者简介:丛玉华(1981—),女,博士研究生,E-mail:congyuhua@nuaa.edu.cn。

通信作者:王志胜(1970—),男,博士,教授,E-mail:wangzhisheng@nuaa.edu.cn。

doi: 10.11809/bqzbgcxb2022.01.024

本文引用格式:丛玉华,何啸,邢长达,等.基于计算机视觉手势识别的人机交互技术研究[J].兵器装备工程学报,2022,43(01):152-160.

Citation format:CONG Yuhua, HE Xiao, XING Changda, et al.Research on human-computer interaction technology

based on computer vision gesture recognition[J].Journal of Ordnance Equipment Engineering,2022,43(01):152-160.

中图分类号:TJ0TP37

文献标识码:A

文章编号:2096-2304(2022)01-0152-09

科学编辑 刘高峰 博士(海军工程大学教授)责任编辑 唐定国