電子世界(2013年22期)-正文聲紋識別技術在調度錄音分析的應用研究

聲紋識別技術在調度錄音分析的應用研究

學術交流

作者：李豫芹朱凱進

【摘要】隨著電網調控一體模式的應用打破傳統的調度的業務範疇，調控拓展成為電網信息通信與設備的集中監視與指揮控製中心，各類生產業務的實時、準確信息逐步彙集到調度台。作為各類監控信息和管理流程的彙集點，調度下令的準確性直接關乎電網運行穩定性。本文針對調度錄音係統的需求，通過對聲紋識別技術在調度錄音分析的應用進行分析研究，期望再進一步通過技術力量改變調度下令不規範，用語不真切的不良習慣，從根本上解決調度下令的多年詬病，提升電網調度下令水平。

【關鍵詞】調度；調度錄音；錄音分析；聲紋識別

1.研究目的及意義

調度崗位業務範疇的擴容，直接導致調度人員的工作量上浮，對於日常工作，指揮下令的操作更為頻繁，目前調度電話錄音每月數量已經接近萬條，平均下來每一天都有三、四百條錄音文件產生，其中正規調度下令錄音占約2/5，目前針對錄音內容，采用人工逐一收聽的辦法來判定錄音內容是否規範，下令是否正確。通過人工抽檢測聽的方式，無法全麵有效地評價調度質量，難以確保調度人員正確使用規定的調度術語且調度指令準確、無誤；且人工抽檢方式工作量大，效率低。

應用語音分析技術，將電網調度中心保存的非結構化的錄音數據轉為結構化的索引信息（文本結構），通過關鍵詞檢索、篩選、業務歸類等處理及分析，建立聲紋模型以及設定關鍵字，如拉開、閉合、下令等關鍵字眼，對調度流程規範進行自動確認和問題分析，大幅度提高質檢效率和覆蓋麵，提升電網調度質量，降低運營成本，提高運營管理水平。

2.主要技術在調度錄音分析的應用

2.1 調度錄音預處理

輸入的調度語音信號需要進行預處理，預處理過程的好壞在一定程度上影響係統的識別效果。在調度錄音預處理過程中，采用文本相關的聲紋識別技術。

語音轉寫（識別），是指將非結構化的語音文件轉換為結構化的文本信息，是語音分析的核心功能。處理時將分離後的調度錄音通過聲學模型轉換為漢語音標符號，再通過超大詞彙網絡的語言模型將音標信息識別為文本內容。

由於調度員的本地口音及中文自帶的語調，必須優化聲學模型和語言模型，以提升語音轉寫準確率。在具體實施過程中，采用識別詞混淆網絡（Word Confusion Network，WCN）作為文本分類器的輸入，使用WCN中覆蓋的詞而不是隻使用語音轉寫結果進行文本分類，提高對識別錯誤的魯棒性。

2.2 調度錄音索引及檢索

目前，在調度錄音中，同一個錄音記錄了調控人員和運行人員的全部對話。通過場景分割技術對兩方通話內容進行分離，進而針對性對調度質量分別進行監控和分析，以識別問題發生點及問題內容。場景分割，是指對通話錄音中的雙方通話行為進行檢測、切割和分離。經過預處理的調度錄音經過場景分割，再進行下一步的進行索引與檢索。

語音索引，是指將語音中包含的各類信息進行識別和歸類，並形成方便查詢統計的索過檢測電話錄音的基頻、音高等變化幅度，預測情緒波動並定位其位置信息，分析出通話錄音的平均語速以及語速變化，檢出通話錄音的靜音時間等，生成標準XML格式的索引文件。索引內容包括：

調控人員語音和運行人員語音的文字轉寫結果，如果是雙聲道語音，則給出聲道信息（關鍵詞位於哪個聲道）；通話的語音端點、語速等信息，主要包括調控人員和運行人員各自的每次說話的起止時間、語速（字/秒）、平均語速（字/秒）、異常情緒、靜音時長等。

語音檢索，是指從索引文件進行關鍵詞信息的快速篩選，返回語音結果並進行自動統計。語音檢索，支持邏輯組合檢索、二次檢索等功能。