詞錯率2.97%:雲從科技刷新語音識別世界紀錄

作者: 伊人影院科技集團 / 時間: 2019-06-20 07:09:06
瀏覽次數 70

學界 | 詞錯率2.97%:雲從科技刷新語音識別世界紀錄

2018-10-29 11:58 來源:機器之心Synced

原標題:學界 | 詞錯率2.97%:雲從科技刷新語音識別世界紀錄

機器之心編輯

參與:淑婷、張倩、李澤南

10 月 29 日,雲從科技宣布在語音識別技術上取得重大突破,在全球最大的開源語音識別數據集 Librispeech 上刷新了世界紀錄,錯詞率(Worderrorrate,WER)降低至 2.97%。這一研究將 Librispeech 的 WER 指標提升了 25%,超過阿裏、百度、約翰霍普金斯大學等公司和機構,刷新原記錄。

雲從表示,這已是雲從在近半年以來第二次宣布刷新世界紀錄。今年 4 月,雲從科技跨鏡追蹤技術(ReID)技術在 Market-1501,DukeMTMC-reID,CUHK03 三個數據集刷新了世界紀錄,其中最高在 Market-1501 上的首位命中率(Rank-1 Accuracy)達到 96.6%,讓跨鏡追蹤技術(ReID)技術在準確率上首次達到商用水平。

詞錯率2.97%:雲從科技刷新語音識別世界紀錄

據介紹,雲從科技核心技術閉環包括人臉識別、智能感知與智能分析三個階段。語音識別技術是智能感知的重要部分,通過語音識別,機器就可以像人類一樣理解語言,進而能夠展開處理,進行反饋。

詞錯率2.97%:雲從科技刷新語音識別世界紀錄

展開全文

近年來,在深度學習技術的幫助下,語音識別取得了很大進展,從實驗室開始走向市場,走向實用化。基於語音識別技術的輸入法、搜索和翻譯等人機交互場景都有了廣泛的應用。

Librispeech 是當前衡量語音識別技術的最權威主流的開源數據集,它是世界最大的免費語音識別數據庫,包含文本和語音的有聲讀物數據集,由 1000 小時的多人朗讀的清晰音頻組成,且包含書籍的章節結構。錯詞率(Worderrorrate,WER)是衡量語音識別技術水平的核心指標。

在技術研究的「最後一英裏」,每 0.1 個百分點的進步都異常艱難。雲從科技在 Librispeech 數據集上刷新了業內最好的水平,將錯詞率(Worderrorrate,WER)降到了驚人的 2.97%,較之前提升了 25%,已超越人類專業速記員水平。該成果有望推動語音識別技術的大幅進步。

雲從科技此次推出的語音識別模型 Pyramidal-FSMN 融合圖像識別與語音識別的優勢,將殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合, 能夠同時有效的提取空間和時間上不同粒度的信息,對比目前業界使用最為廣泛的 LSTM 模型,訓練速度更快、識別準確率更高。

Pyramidal-FSMN 語音識別模型原理解析

雲從科技提出的新型網絡結構,能更加有效的提取空間和時間特征的角度,為語音識別進一步發展提供了一些新的思路: 模型設計采用一種殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合的結構;

訓練方式使用 lattice-free 最大互信息(lattice-free maximum mutual information,LF-MMI/Chain)與交叉熵(crossentropy,CE)損失函數相結合的多任務學習技術;解碼部分采取 RNNLM rescoring 的方式,利用 RNN 提取一個句子中的長期語義信息,從而更有效地幫助聲學模型得到準確的句子。

作者采用了由 6 層 ResidualCNN 和 10 層 Pyramidal-FSMN 相結合的網絡結構。前端網絡借鑒了圖像識別中經典的 Residual CNN 結構,更有效地提取特征與時間相互的關聯信息,同時 skipconnection 避免了 CNN 網絡加深之後梯度消失和梯度爆炸問題。在金字塔記憶模塊中,淺層的網絡主要聚焦於音素本身的特征學習,所以隻需抽取短時上下文信息,而深層的網絡由於已經學習到了足夠的固定時間的音素信息,需要學習長時間包括語義和語法特征,所以深層抽取長時間的上下文信息。利用這樣的金字塔結構,既能減少參數,縮小模型結構,也能更加精巧的模擬人類處理語音信號的過程,提高識別效果。

詞錯率2.97%:雲從科技刷新語音識別世界紀錄

在損失函數部分,作者采用了基於 LF-MMI 的序列性訓練方式。同時為了解決序列性訓練容易導致過擬合的問題,又引入了傳統的交叉熵損失函數,在 LF-MMI 輸出之外加入另一個輸出層作為一個正則技術,通過設置交叉熵的正則化係數,兩個目標能夠有效地學習並且避免過擬合問題。

聲明:本網所有文章(包括圖片和音視頻資料)係出於傳遞更多信息之目的,且明確注明來源和作者,不希望被轉載的媒體或個人可與伊人影院聯係,伊人影院將立即進行刪除處理。所有文章僅代表作者觀點,不代表本站立場。