聲紋識別技術在調度錄音分析的應用研究
學術交流
作者:李豫芹 朱凱進
【摘要】隨著電網調控一體模式的應用打破傳統的調度的業務範疇,調控拓展成為電網信息通信與設備的集中監視與指揮控製中心,各類生產業務的實時、準確信息逐步彙集到調度台。作為各類監控信息和管理流程的彙集點,調度下令的準確性直接關乎電網運行穩定性。本文針對調度錄音係統的需求,通過對聲紋識別技術在調度錄音分析的應用進行分析研究,期望再進一步通過技術力量改變調度下令不規範,用語不真切的不良習慣,從根本上解決調度下令的多年詬病,提升電網調度下令水平。
【關鍵詞】調度;調度錄音;錄音分析;聲紋識別
1.研究目的及意義
調度崗位業務範疇的擴容,直接導致調度人員的工作量上浮,對於日常工作,指揮下令的操作更為頻繁,目前調度電話錄音每月數量已經接近萬條,平均下來每一天都有三、四百條錄音文件產生,其中正規調度下令錄音占約2/5,目前針對錄音內容,采用人工逐一收聽的辦法來判定錄音內容是否規範,下令是否正確。通過人工抽檢測聽的方式,無法全麵有效地評價調度質量,難以確保調度人員正確使用規定的調度術語且調度指令準確、無誤;且人工抽檢方式工作量大,效率低。
應用語音分析技術,將電網調度中心保存的非結構化的錄音數據轉為結構化的索引信息(文本結構),通過關鍵詞檢索、篩選、業務歸類等處理及分析,建立聲紋模型以及設定關鍵字,如拉開、閉合、下令等關鍵字眼,對調度流程規範進行自動確認和問題分析,大幅度提高質檢效率和覆蓋麵,提升電網調度質量,降低運營成本,提高運營管理水平。
2.主要技術在調度錄音分析的應用
2.1 調度錄音預處理
輸入的調度語音信號需要進行預處理,預處理過程的好壞在一定程度上影響係統的識別效果。在調度錄音預處理過程中,采用文本相關的聲紋識別技術。
語音轉寫(識別),是指將非結構化的語音文件轉換為結構化的文本信息,是語音分析的核心功能。處理時將分離後的調度錄音通過聲學模型轉換為漢語音標符號,再通過超大詞彙網絡的語言模型將音標信息識別為文本內容。
由於調度員的本地口音及中文自帶的語調,必須優化聲學模型和語言模型,以提升語音轉寫準確率。在具體實施過程中,采用識別詞混淆網絡(Word Confusion Network,WCN)作為文本分類器的輸入,使用WCN中覆蓋的詞而不是隻使用語音轉寫結果進行文本分類,提高對識別錯誤的魯棒性。
2.2 調度錄音索引及檢索
目前,在調度錄音中,同一個錄音記錄了調控人員和運行人員的全部對話。通過場景分割技術對兩方通話內容進行分離,進而針對性對調度質量分別進行監控和分析,以識別問題發生點及問題內容。場景分割,是指對通話錄音中的雙方通話行為進行檢測、切割和分離。經過預處理的調度錄音經過場景分割,再進行下一步的進行索引與檢索。
語音索引,是指將語音中包含的各類信息進行識別和歸類,並形成方便查詢統計的索過檢測電話錄音的基頻、音高等變化幅度,預測情緒波動並定位其位置信息,分析出通話錄音的平均語速以及語速變化,檢出通話錄音的靜音時間等,生成標準XML格式的索引文件。索引內容包括:
調控人員語音和運行人員語音的文字轉寫結果,如果是雙聲道語音,則給出聲道信息(關鍵詞位於哪個聲道);通話的語音端點、語速等信息,主要包括調控人員和運行人員各自的每次說話的起止時間、語速(字/秒)、平均語速(字/秒)、異常情緒、靜音時長等。
語音檢索,是指從索引文件進行關鍵詞信息的快速篩選,返回語音結果並進行自動統計。語音檢索,支持邏輯組合檢索、二次檢索等功能。