正文 擬人機器人語音識別係統的硬件設計(1 / 3)

擬人機器人語音識別係統的硬件設計

技術廣角

作者:劉任平 侯瑞真 方英蘭 韓先鋒

摘 要: 為了提高語音識別的可靠性和高效率性,設計了以“MCU+DSP”的雙CPU結構為核心的語音識別係統,其中以DSP[1]芯片作為硬件平台的主處理器,完成語音識別所需的計算。MCU用以完成對DSP運算的協助工作,控製機器人各部分動作,其性能達到了實時處理的要求。

關鍵詞: 擬人機器人; 雙CPU; 語音識別係統; 硬件設計

中圖分類號:TP319 文獻標誌碼:A 文章編號:1006-8228(2013)01-01-02

Design of hardware of speech recognition system in humanized robot

Liu Renping, Hou Ruizhen, Fang Yinglan, Han Xianfeng

(North China of Technology, Beijing 100144, China)

Abstract: In order to improve the reliability and efficiency of the speech recognition, a speech recognition system based on double CPU of the "MCU+DSP" is designed. The calculations are done by the main processor which takes the digital signal processor (DSP) as the hardware platform. DSP operation is assisted by Micro control unit(MCU), which controls all parts of the robot. Its performance can meet real-time processing's needs.

Key words: humanoid robot; double CPU; speech recognition system; hardware design

0 引言

隨著超大規模集成電路和數字信號處理器(DSP)的快速發展,DSP的應用越來越廣泛,涉及到各個領域如語音處理,圖像處理等方麵。現在語音識別中許多複雜算法已經能夠在硬件上實現。最近十多年來,已研發出不少應用於不同領域的便攜式語音識別係統。DSP處理速度快、靈活、精確,滿足了對信號快速、實時、精確處理的要求,所以很適用於語音識別。

1 擬人機器人語音識別方法概述

語音信號分析是語音識別的前提和基礎,隻有分析出可表示語音信號本質特征的參數,才可能利用這些參數進行高效的語音通信,才能建立用於識別的模板或知識庫。語音識別率的高低取決於對語音信號分析的準確性和精確性,雖然語音信號具有時變特性,但在一個短時間範圍內其特性相對穩定,因而可以將其看作是一個短時平穩過程。任何對語音的分析和處理均建立在“短時”的基礎上,一般認為語音信號在10-30ms的短時間內是相對平穩的。

擬人機器人語音識別方法如圖1所示,采集到的語音信號輸入後,首先對語音信號進行預處理,預處理主要包括:語音信號電壓放大采樣、反混疊失真濾波、預加重、自動增益控製、分幀、加窗、語音增強、端點檢測以及A/D轉換等環節;然後是信號特征量的提取(本文對信號的特征量進行Mel頻率倒譜係數[2](Mel-Frequency Cestrum Coefficients)處理);最後對建立好的參數模板進行對比,測試的依據是失真度最小準則,如本文用到的動態時間規整DTW[3](Dynamic Time Warping)。