基於深度圖像的指尖和掌心特征提取方法
行業與領域應用
作者:範文婕 王命延 楊文姬
摘要:針對在其他膚色和重疊物幹擾下手勢分割出現偏差的問題,提出深度數據和骨骼追蹤實現準確手勢分割。結合凸缺陷的最小外接圓、平均值、最大內切圓三種不同的掌心提取方法來提高不同手勢下掌心和掌心區域半徑的精確度,通過提取出指尖弧並結合凸包來得到擬指尖集,再通過3步過濾來得到準確的指尖。實驗中對6種手勢進行了4種變換情況下的檢驗,其中翻轉、平行、重疊的識別率都高於90%,傾斜和偏轉分別超過70°、60°時準確度明顯下降。驗證了準確率是否搭配不當?實驗結果表明了該方法在多種真實手勢場景下具有較高的準確率。
關鍵詞:手勢分割;凸缺陷;最小外接圓;掌心;指尖弧;凸包
中圖分類號: TP391.41 文獻標誌碼:A
英文摘要
Abstract:To solve the gesture segmentation deviation problem under the interference of other skins and overlapping objects, a method of using depth data and skeleton tracking to segment 原文為hand, 但手與手勢不同,似應為gesture改成 gesture segmentation 是可以的
gesture accurately was proposed. The minimum circumscribed circle, the average and the maximal inscribed circle of convexity defect, were combined to improve the detection of palm and the palm regions radius of various gesture. A fingertip candidate set was got through integrating the finger arc with convex hull, then real fingertips were obtained with threestep filtering. Six gestures have been tested in four transform cases, the recognition rate of flip, parallel, overlapping are all higher than 90% but the rate decreases obviously when tilting more than 70 degree and yawing more than 60 degree. The experimental results show that the accuracy of the proposed method is high in a variety of real scenes.
英文關鍵詞
Key words:原文為hand, 但手與手勢不同,似應為gesture改成 gesture segmentation 是可以的gesture segmentation; convexity defect; minimum circumscribed circle; palm; fingertip arc; convex hull
0 引言
人工智能的發展促進了人們對人機交互的需求,同時,隨著機器人技術不斷發展,不同形式的人機交互也被不斷地實現和完善。目前,主要的幾種人機交互形式有聲音、臉部表情、手勢識別技術。其中,手勢是相對更加自然、直接的交流方式。不同於基於手套的手勢識別,基於視頻的手勢識別具有更高的應用性、更高的便利性以及更低的成本。一個手勢的特征集即是對一個手勢的描述,無論是針對靜態的手勢分類方法如模板匹配、K最近鄰(KNearest Neighbor,KNN)分類器、支持向量機,還是動態的手勢分類方法如隱馬爾可夫模型(Hidden Markov Model,HMM)、有限狀態機[1],各種識別方法都必須是基於良好的特征提取來進行的,良好的特征提取是分類得以成功的保障。
早期基於二維圖像的特征提取的步驟是先將手勢完整地分割出來,在這個基礎上再進行指尖和掌心的提取。目前,學者們研究的基於二維圖像的手勢分割方法主要有膚色信息圖[2-3]、層次聚類[4]、類Haar特征[5-6]的級聯分類器等,但是基於二維圖像的手勢分割方法始終有著如受光照、複雜背景影響等許多無法逾越的劣勢。
在手勢的特征提取中,指尖和掌心是最常用的特征值。但是目前可以適應多樣化手勢的簡單指尖和掌心特征提取方法仍然很少。文獻[7-8]通過距離變換和深度最近點分別得到掌心和指尖,該方法需要指尖必須在最前端且無法排除手臂的幹擾;文獻[9]利用等分軌跡圓和手指的交點得到手指的個數,但是無法確定指尖的位置;文獻[10]通過曲率來得到指尖,該方法也無法過濾手臂幹擾;文獻[11]未說明不足,這裏介紹文獻11的目的是什麼這裏主要是想將這種全新的方法介紹出來,這是篇新文章,對指尖給出了新的定義。對於不足可以加上:根據擬地線模板預測的指尖受深度噪聲影響文獻[11]采用一種全新的方法,假設指尖和掌心分別位於一條類似測地線的兩端來找到指尖,但根據擬地線模板預測的指尖受深度噪聲影響。
綜上所說,為了在複雜背景下快速魯棒地提取到指尖和掌心特征,本文提出一種基於深度圖像的手勢指尖和掌心特征提取方法,通過深度圖像和骨骼定位得到分割的手勢,對凸缺陷[12]最小外接圓、平均值、最小內切圓三種方法的加權組合得到掌心。利用輪廓點的餘弦和凸包給出指尖的候選組合,再通過手掌半徑和凸缺陷過濾得到最終的指尖。
1 基於深度圖像手勢分割
1.1 深度圖像技術
近年來,在硬件技術的進步下,除了二維圖像信息,微軟、
厲動(Leap Motion)等公司分別根據光柵編碼[13]、是否有中文全稱,若有,請補充沒有特定的中文詞Time of Fight(TOF)[14]技術實現了圖像中像素點深度數據的獲取,從而得到圖像的三維點雲。由於深度信息不受光照、複雜背景等外界因素幹擾,利用像素的深度信息可以更好、更完整地提取出圖像中的手勢,提高了手勢的分割精確度,從而得到更精準的手勢特征。
1.2 改進的手勢分割
文獻[15]中隻是簡單假設手是整個圖像空間中深度數據最小部分,通過找到深度最小值來分割出手勢部分,這種方法對手的距離有嚴格的要求,手的前方必須沒有幹擾物。
因此,本文對其進行改進,使用Kinect攝像頭來獲取深度圖像,結合OpenNI的骨骼追蹤開發包,具體步驟如圖1。
通過構建的3D點雲信息,獲取深度值最小的3D坐標位置,同時通過骨骼追蹤獲取手掌的骨骼點位置。由於此骨骼追蹤方法是基於人體骨骼,手掌定位是粗糙的。當手的確是圖像空間中最前端的部分,用最小深度值閾值效果更好;當出現幹擾物的時候,骨骼追蹤可以給出手掌上的點。確定好手點的位置,根據Kinect采集圖像640*480格式,再根據Kinect獲取圖像最佳深度為1.2~3.8m,因此手相對整個畫麵篇幅會有一個區域值,再通過實驗劃定140*120像素區域範圍進行深度閾值手勢分割,效果如圖2。