語音技術的發(fā)展及主要技術廠商盤點

在1952年的貝爾研究所,Davis等人研制了世界上第一個能識別10個英文數字發(fā)音的實驗系統(tǒng)。1960年英國的Denes等人研制了第一個計算機語音識別系統(tǒng)。

語音技術的發(fā)展及主要技術廠商盤點

大規(guī)模的語音識別研究始于上世紀70年代以后,并在小詞匯量、孤立詞的識別方面取得了實質性的進展。上世紀80年代以后,語音識別研究的重點逐漸轉向大詞匯量、非特定人連續(xù)語音識別。

同時,語音識別在研究思路上也發(fā)生了重大變化,由傳統(tǒng)的基于標準模板匹配的技術思路開始轉向基于統(tǒng)計模型的技術思路。此外,業(yè)內有專家再次提出了將神經網絡技術引入語音識別問題的技術思路。

上世紀90年代以后,在語音識別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語音識別技術的應用及產品化方面出現了很大的進展。比如,DARPA是在上世界70年代由美國國防部遠景研究計劃局資助的一項計劃,旨在支持語言理解系統(tǒng)的研究開發(fā)工作。進入上世紀90年代,DARPA計劃仍在持續(xù)進行中,其研究重點已轉向識別裝置中的自然語言處理部分,識別任務設定為“航空旅行信息檢索”。

我國的語音識別研究起始于1958年,由中國科學院聲學所利用電子管電路識別10個元音。由于當時條件的限制,中國的語音識別研究工作一直處于緩慢發(fā)展的階段。直至1973年,中國科學院聲學所開始了計算機語音識別。

進入上世紀80年代以來,隨著計算機應用技術在我國逐漸普及和應用以及數字信號技術的進一步發(fā)展,國內許多單位具備了研究語音技術的基本條件。與此同時,國際上語音識別技術在經過了多年的沉寂之后重又成為研究的熱點。在這種形式下,國內許多單位紛紛投入到這項研究工作中去。

1986年,語音識別作為智能計算機系統(tǒng)研究的一個重要組成部分而被專門列為研究課題。在“863”計劃的支持下,中國開始組織語音識別技術的研究,并決定了每隔兩年召開一次語音識別的專題會議。自此,我國語音識別技術進入了一個新的發(fā)展階段。

自2009年以來,借助機器學習領域深度學習研究的發(fā)展以及大數據語料的積累,語音識別技術得到突飛猛進的發(fā)展。

將機器學習領域深度學習研究引入到語音識別聲學模型訓練,使用帶RBM預訓練的多層神經網絡,提高了聲學模型的準確率。在此方面,微軟公司的研究人員率先取得了突破性進展,他們使用深層神經網絡模型(DNN)后,語音識別錯誤率降低了30%,是近20年來語音識別技術方面最快的進步。

2009年前后,大多主流的語音識別解碼器已經采用基于有限狀態(tài)機(WFST)的解碼網絡,該解碼網絡可以把語言模型、詞典和聲學共享音字集統(tǒng)一集成為一個大的解碼網絡,提高了解碼的速度,為語音識別的實時應用提供了基礎。

隨著互聯網的快速發(fā)展,以及手機等移動終端的普及應用,可以從多個渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學模型的訓練提供了豐富的資源,使得構建通用大規(guī)模語言模型和聲學模型成為可能。

在語音識別中,訓練數據的匹配和豐富性是推動系統(tǒng)性能提升的最重要因素之一,但是語料的標注和分析需要長期的積累和沉淀,隨著大數據時代的來臨,大規(guī)模語料資源的積累將提到戰(zhàn)略高度。

現如今,語音識別在移動終端上的應用最為火熱,語音對話機器人、語音助手、互動工具等層出不窮,許多互聯網公司紛紛投入人力、物力和財力展開此方面的研究和應用,目的是通過語音交互的新穎和便利模式迅速占領客戶群。(雨田整理) 相關產品 siri

Siri技術來源于美國國防部高級研究規(guī)劃局所公布的CALO計劃:一個讓軍方簡化處理一些繁復庶務,并具學習、組織以及認知能力的數字助理,其所衍生出來的民用版軟件Siri虛擬個人助理。

Siri成立于2007年,最初是以文字聊天服務為主,隨后通過與語音識別廠商Nuance合作,Siri實現了語音識別功能。2010年,Siri被蘋果以2億美金收購。

Siri成為蘋果公司在其產品iPhone和iPad Air上應用的一項語音控制功能。Siri可以令iPhone和iPad Air變身為一臺智能化機器人。Siri支持自然語言輸入,并且可以調用系統(tǒng)自帶的天氣預報、日程安排、搜索資料等應用,還能夠不斷學習新的聲音和語調,提供對話式的應答。

Google Now

Google Now是谷歌隨安卓4.1系統(tǒng)同時推出的一款應用,它可以了解用戶的各種習慣和正在進行的動作,并利用所了解的資料來為用戶提供相關信息。

今年3月24日,谷歌宣布Google Now語音服務正式登陸Windows和Mac桌面版Chrome瀏覽器。

Google Now的應用會更加方便用戶收取電子郵件,當你接收到新郵件時,它就會自動彈出以便你查看。Google Now還推出了步行和行車里程記錄功能,這個計步器功能可通過Android設備的傳感器來統(tǒng)計用戶每月行駛的里程,包括步行和騎自行車的路程。

此外,Google Now增加了一些旅游和娛樂特色功能,包括:汽車租賃、演唱會門票和通勤共享方面的卡片;公共交通和電視節(jié)目的卡片進行改善,這些卡片現在可以聽音識別音樂和節(jié)目信息;用戶可以為新媒體節(jié)目的開播設定搜索提醒,同時還可以接收實時NCAA(美國大學體育協(xié)會)橄欖球比分。

百度語音

百度語音一般指百度語音搜索,是百度公司為廣大互聯網用戶提供的一種基于語音的搜索服務,用戶可以使用多種客戶端發(fā)起語音搜索,服務器端根據用戶的發(fā)出的語音請求,進行語音識別然后將檢索結果反饋給用戶。

百度語音搜索不僅提供一般的通用語音搜索服務,還有針對地圖用戶制定的特色搜索服務,后續(xù)還會有更多的個性化搜索和識別服務出現。

目前百度語音搜索以移動客戶端為主要平臺,內嵌于百度的其他產品中,比如掌上百度,百度手機地圖等,用戶可以在使用這些客戶端產品的同時體驗語音搜索,支持全部主流的手機操作系統(tǒng)。

微軟Cortana

Cortana是Windows Phone平臺下的虛擬語音助手,由游戲《光暈》中Cortana的聲優(yōu)Jen Taylor配音,Cortana中文版又名“微軟小娜”。

微軟對Cortana的描述為“你手機上的私人助手,為你提供設置日歷項、建議、進程等更多幫助”,它能夠和你之間進行交互,并且盡可能的模擬人的說話語氣和思考方式跟你進行交流。此外圓形的圖標按鈕會隨著你手機的主題進行調整,如果說你設置了綠色的主題,那么Cortana就是綠色的圖標。

此外,你能夠通過開始屏幕或者設備上的搜索按鈕來呼出Cortana,Cortana采用一問一答的方式,它只有在你咨詢它的時候才會顯示足夠多的信息。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2018-07-03
語音技術的發(fā)展及主要技術廠商盤點
在1952年的貝爾研究所,Davis等人研制了世界上第一個能識別10個英文數字發(fā)音的實驗系統(tǒng)。1960年英國的Denes等人研制了第一個計算機語音識別系統(tǒng)。

長按掃碼 閱讀全文