雲從科技研發語音識別技術 97.03%一舉打破世界紀錄

作者: 伊人影院科技集團 / 時間: 2019-07-17 16:04:29
瀏覽次數 135

[導讀]2018年10月 29日,中國人工智能“國家隊”雲從科技在語音識別技術上取得重大突破,他們融合圖像識別與語音識別的優勢,推出全新Pyramidal-FSMN語音識別模型。

在語音識別領域,全球科技企業的目標很一致,那就是想“超過人類”。之前科研界設定人類錯詞率為5.9%的這個界線,受過嚴格訓練的專業速記員錯詞率在3%左右,錯詞率(Worderrorrate,WER)是衡量語音識別技術水平的核心指標。

人類的界線已在2017年被微軟超過,而受過嚴格訓練的專業速記員則一直堅守著自己的底線。

然而這個紀錄也在這個10月被打破,2018年10月 29日,中國人工智能“國家隊”雲從科技在語音識別技術上取得重大突破,他們融合圖像識別與語音識別的優勢,推出全新Pyramidal-FSMN語音識別模型。

在技術研究的「最後一公裏」,每 0.1 個百分點的進步都異常艱難。全新Pyramidal-FSMN語音識別模型在全球最大的開源語音識別數據集Librispeech上刷新了世界紀錄,準確率提升到97.03%,將Librispeech的錯詞率(Worderrorrate,WER)降低至2.97%,超過阿裏、百度、約翰霍普金斯大學等企業及高校,大幅刷新原先記錄。

雲從科技研發語音識別技術 97.03%一舉打破世界紀錄

DS2:百度,ESPnet:約翰霍普金斯大學,DFSMN-CE:阿裏

雲從科技並沒有把人臉識別作為唯一的“寶”來押注,這家孵化自中國科學院的企業,並不是第一次取得這樣的技術突破。

2018年2月,雲從科技正式在國內首發“3D結構光人臉識別技術”。2018年4月,雲從科技“跨鏡追蹤技術”(ReID)技術在Market-1501,DukeMTMC-reID,CUHK03三個數據集刷新了世界紀錄,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)達到96.6%,讓跨鏡追蹤技術(ReID)技術在準確率上首次達到商用水平,人工智能從「刷臉」跨到「識人」的新紀元。

雲從科技研發語音識別技術 97.03%一舉打破世界紀錄

語音識別技術同樣是智能感知中一個重要的部分,通過語音識別,機器就可以像人類一樣聽懂說話,進而能夠理解、思考與反饋。近年來,在深度學習技術的幫助下,語音識別取得了極大的進展,從實驗室開始走向市場,走向實用化。基於語音識別技術的輸入法、搜索和翻譯等人機交互場景都有了廣泛的應用。

雲從科技研發語音識別技術 97.03%一舉打破世界紀錄

智能感知+大數據,是雲從科技打造核心技術閉環,領跑人工智能行業的利器。

據悉,此次技術突破是雲從科技打造核心技術閉環路徑中的關鍵一步。此前,雲從科技在10月12日發布了國家發改委“人工智能基礎資源公共服務平台”項目,該平台可以基於行業數據為各行各業提供人工智能智能感知及大數據服務,中國人民銀行、中國聯通、中國郵政、民航局、金山雲等企業與機構與雲從首批簽約。這個搭載人臉、人體、手勢、紅外、語音、車輛、風控、文字、大數據分析等多種方式為一體的人工智能平台,雲從傾注了大量的技術力量。

雲從科技研發語音識別技術 97.03%一舉打破世界紀錄

目前,雲從科技是中國銀行業第一大AI供應商。包括農行、建行、中行、招行總行等全國400多家銀行已采用公司產品,為全國銀行提供對比服務日均2.16億次,同時為14.7萬家社會網點提供服務。

在安防領域,公司產品已在29個省級行政區上線實戰,每天比對超過10億次,數據匯聚總量超過千億,協助全國公安抓獲超過1萬名犯罪嫌疑人;

在民航領域,已有60餘家機場選擇雲從產品,日服務旅客人數達到6千萬。

在這些基礎上,雲從科技正在致力整合算力、智力、數據等資源及其成果,打造人工智能平台,進一步促進人工智能在金融、安防、交通、零售、教育等重要行業的落地。

語音識別六十年,技術突破總是艱難而緩慢。

語音識別的研究起源可以追溯到上世紀50年代,AT&T貝爾實驗室的Audry係統率先實現了十個英文數字識別。

從上世紀60年代開始,CMU的Reddy開始進行連續語音識別的開創性工作。但是這期間進展緩慢,以至於貝爾實驗室的約翰?皮爾斯(John Pierce)認為語音識別是幾乎不可能實現的事情。

上世紀70年代,計算機性能的提升,以及模式識別基礎研究的發展,比特幣勒索作者公開,促進了語音識別的發展。IBM、貝爾實驗室相繼推出了實時的PC端孤立詞識別係統。

上世紀80年代是語音識別快速發展的時期,引入了隱馬爾科夫模型(HMM)。此時語音識別開始從孤立詞識別係統向大詞匯量連續語音識別係統發展。

上世紀90年代是語音識別基本成熟的時期,但是識別效果離實用化還相差甚遠,語音識別的研究陷入了瓶頸。

聲明:本網所有文章(包括圖片和音視頻資料)係出於傳遞更多信息之目的,且明確注明來源和作者,不希望被轉載的媒體或個人可與伊人影院聯係,伊人影院將立即進行刪除處理。所有文章僅代表作者觀點,不代表本站立場。