從語音到全方位人工智能 AI技術的融合發(fā)展之路

本文整理自鈦媒體-鈦坦白分享課“AI已來,讓機器聽懂你的聲音”,以下為捷通華聲總經(jīng)理武衛(wèi)東的分享內(nèi)容。

捷通華聲總經(jīng)理武衛(wèi)東

大家晚上好,非常有幸在鈦坦白跟大家分享關于“從語音到全方位人工智能,AI技術的融合發(fā)展之路”的心得體會。

人工智能源于何處,緣何爆發(fā)

人工智能技術經(jīng)歷了半個多世紀的發(fā)展,現(xiàn)在的人工智能通過計算方法能夠賦予機器一些類似人的感知功能,像人有口眼耳手,這是我們的感官功能。我們還有大腦,這是我們的思維認知功能,那么機器人是不是可以具備這些擬人化的功能呢?

像人的嘴是用來說話的,耳朵是用來聽聲音的,這就催生了像語音合成、語音識別這樣的語音技術。

圖像識別就像人觀察外界事物的眼睛,手是用來拿東西和寫字的,這就催生了OCR、手寫識別技術等這樣的一些圖像識別技術。

在眾多感知功能方面,人工智能技術還涉及到很多功能,包括人臉識別,聲紋識別,指紋識別等等。經(jīng)過十幾年的發(fā)展,我們看到人工智能技術中最難的實際上是與認知相關的一些技術。人的認知,即人的大腦,是個非常復雜的結構,可以說到今天,我們自己也沒有研究清楚我們自己的大腦。

近幾年來,神經(jīng)網(wǎng)絡尤其是深度學習,提升了感知計算的一些模型方法,相關感知方面的技術取得了比較大的進步。

實際上,神經(jīng)網(wǎng)絡的一些算法研究,早在二三十年前就開始了。我記得原來在學校的時候,我們有很多的研究人員就從事在圖像模式識別方面的一些研究,但是由于當時的算法能力以及設備能力有限,很難去在復雜結構和深層次結構上提升算法模型。

現(xiàn)在的GPU技術使得過去復雜的算法模型能夠通過有效的訓練,提升訓練速率,并能夠通過算法和大數(shù)據(jù)的加工,實現(xiàn)更加普適性和實用性的一些模型,供我們做一些智能化的應用。

我們看到現(xiàn)在的語音識別技術,能夠達到百分之九十幾,接近于人的甚至在某些方面超過人的這樣一個準確率。通過深度學習,語音識別已經(jīng)實現(xiàn)了一些突破。

尤其是隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展,現(xiàn)在交互終端、智能終端,給我們在研究方面提供了大量的、真實的場景數(shù)據(jù),有了這些大的數(shù)據(jù),使用神經(jīng)網(wǎng)絡算法,通過訓練,可以讓語音識別技術更加實用化。

從業(yè)20年 談語音技術發(fā)展

在語音方面,實際上大家看到,真正最早能夠形成實用化的語音技術是從語音合成開始的,也就是我們說的TTS技術。

下面給大家放一些聲音,大家可以聽一聽,現(xiàn)在在語音合成方面,從過去比較機械的音色發(fā)展到現(xiàn)在流暢、自然的聲音。

比如說我們在一些大型的場館會議,像奧運會,世博會,包括一些公共場所,像高鐵站,機場聽到的廣播聲,很多實際上都是通過語音合成技術合成出來的。另外,我們推出了可以唱歌的TTS技術,歌唱TTS實際上就是在標準的語音合成基礎上,結合現(xiàn)在一些應用場景,比如說一些娛樂機器人,教育機器人,玩具等等,在應用場景當中,我們做的更加娛樂化的TTS技術。

現(xiàn)在大家都在探索和研究一個新方向,情感TTS。因為不管怎么樣的一個算法,達到完全像人一樣的自然、有情感、富有喜怒哀樂情緒的TTS技術,還是有很多的研究工作要做。當前TTS作為一種信息的交流、信息的播報是完全可以達到實用化的程度。經(jīng)過這十幾年的時間,捷通華聲在TTS方面,國內(nèi)市場占有率超過了50%。

我再說說語音識別,昨天錢博士,我們清華的一個師弟特別提到了語音識別技術的發(fā)展?,F(xiàn)在實際上就是說在語音識別方面國內(nèi)也有一些從事語音識別技術應用和研究的企業(yè),但是從語音識別現(xiàn)在目前發(fā)展的現(xiàn)狀看,普通話在一個自然的場景中識別率達到96%,97%,其實已經(jīng)不是什么太高的目標。

但是96%、97%實際上并不是一個真實應用場景的指標,我們要利用這項技術,能夠達到人人說話、大多數(shù)常見聲音環(huán)境中都能達到這么高的一個準確率,還是有很多工作要做的。我個人認為,現(xiàn)在大家說96%、97%實際上是一個在技術層面達到的高度,但是實際上在實用化方面,要達到這樣一個高度,我感覺恐怕國外語音公司也不敢這么說,我們國內(nèi)的一些人有時候在這方面會更多的注入一些商業(yè)化宣傳。

大家知道,語音識別是從2001年、2002年就進入了中國市場,但當時的語音識別,主要是基于命令詞條的識別。經(jīng)過十幾年的發(fā)展,語音識別技術進入到自由說的狀態(tài),當人自然說話、自然表達時,能夠準確識別,這推動語音識別進入到實現(xiàn)應用的階段。

比如說在手機端用輸入法這樣的一些app或者是工具,對著手機尤其是現(xiàn)在的手機,都支持多麥克風,在近講模式下,如果你的普通話說得比較好,96%、97%比如說像我這樣講話,98%、99%的識別率也是可能的。但是如果說話帶著方言,很重的方言,去識別,達到這個高度,也不是太容易,至少我現(xiàn)在沒有看到哪家在方言普通話或者普適性人群上面達到這樣一個高度。

當然,這里邊還包括不同的輸入設備,比如說在電話端,8K的窄帶數(shù)據(jù)識別率如果能達到97%,那真的是效果非常好了,現(xiàn)在大家的水平基本上在80%上下。那么在一些特殊領域里邊,通過一些垂直領域的優(yōu)化,模型的優(yōu)化,能達到85%,這已經(jīng)是一個很好的水平。

在很多智能家居、家電,包括像機器人這樣一些智能終端場景下,有很多環(huán)境噪音,語音識別如果不解決這些數(shù)據(jù)信號、聲學信號的抗噪問題,語音識別的應用會受很大的制約。所以現(xiàn)在從事語音的廠家,在麥克風陣列這方面也都開始做自己的研究,推出了兩麥,四麥甚至六麥這樣一些抗噪模塊,來解決實際應用場景下的噪音干擾問題。

大家看到,上面這個四麥降噪模塊,已經(jīng)在一些機器人里邊,包括一些服務機器人、兒童教育娛樂機器人中使用,其中包括線陣和圓陣,重點是解決麥克風在遠講、定向、回聲消除,還有語音增強等實際應用情況。當然,語音識別還包括方言、多語種識別,以及中英文混合等情況,這些問題我們也在不斷的研究、實踐。

開始時我們提到,在認知功能方面,尤其是像語義理解(NLU),這方面有一些國內(nèi)企業(yè)在做,捷通在這方面也做了大量的工作,有很多的實踐和應用。

例如,在智能終端方面,我們做了對話,包括意圖理解,以滿足智能終端在語義理解和語音識別共同使用過程中的一些“理解”用戶指令的要求。另外,在一些行業(yè)的智能客服的系統(tǒng)里邊,我們也采用了支持多輪對話、同音字智能糾錯、上下文語義分析、相關問題聯(lián)想等功能的語義理解技術,能夠達到更好的用戶體驗和準確率。當然,語義理解方面要研究的東西還很多。

語音服務物聯(lián)網(wǎng) 讓智能設備“能說會聽、能思考會判斷”

隨著移動互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)的發(fā)展,人工智能技術在物聯(lián)網(wǎng)領域有了越來越多的需求,或者說已經(jīng)成為一種不可或缺的支撐技術。

比如在智能機器人方面,我們通過智能客服系統(tǒng),來實現(xiàn)語音交互、知識庫構建、語義理解,尤其是前端在噪音環(huán)境下,通過麥克風陣列,實現(xiàn)遠講、抗噪、定向等等功能。在智能機器人領域,我們做了很多行業(yè)應用,比如說在稅務大廳提供咨詢的稅務機器人,華夏銀行的大堂經(jīng)理機器人,還有一些圖書館,購物中心的專業(yè)服務機器人,當然也包括現(xiàn)在大家看到的很多家用的兒童教育機器人、娛樂機器人,以及陪伴機器人,通過應用智能客服系統(tǒng),這些機器人進入了各個行業(yè),未來將會進入到我們生活的方方面面。

(視頻鏈接:http://player.youku.com/player.php/sid/XMTgwOTEyMzU1Mg==/v.swf)
靈云智能機器人解決方案

在智能家居、家電方面,比如說電視,我們搜電影時,遙控器按鍵輸入慢,總是讓人很頭疼。

我們將語音技術應用到電視遙控器上,比如小米電視,樂視,還有廣電盒子,通過語音的交互,實現(xiàn)電視內(nèi)容的快速搜索,甚至一些購物,社區(qū)服務等。

(視頻鏈接:http://player.youku.com/player.php/sid/XMTcxNDI2NjkzNg==/v.swf)

靈云智能語音電視解決方案

在智能家居方面,整合了語音交互的麥克風陣列是一個非常好的工具,我們可以遠距離隨意控制燈光、調(diào)節(jié)空調(diào)等,通過引入人工智能技術,讓家居生活更舒適。

在智能汽車領域,尤其是現(xiàn)在大家看到的無人駕駛、輔助駕駛系統(tǒng)中,也是人工智能的一個很好應用。但是我個人對于無人駕駛汽車未來的走向,至少目前看,三五年內(nèi)我感覺很難真正走向?qū)嵱没驗榻煌刂疲ê芏嘟煌ㄒ?guī)則,都會限制無人車在這方面的發(fā)展。但是我相信,通過引入智能化的一些技術,可以在輔助駕駛,包括像一些車載領域發(fā)揮很好的作用。

例如,語音交互技術在智能車載上的應用,這里邊包括語音識別的抗噪模型訓練、硬件的降噪,以及像喚醒、聲源定向、智能糾錯等技術層面的要求。另外,汽車現(xiàn)在實際上已經(jīng)是人們出行的一個必備手段了,現(xiàn)在北京的交通大家都知道,車內(nèi)設備的語音控制實際上可以有效提高駕車的安全性。同時,通過汽車這樣一個移動設備,可以給我們提供導航、餐館、訂酒店、訂機票,以及天氣、股票等信息的語音查詢,甚至成為我們生活當中的一個移動辦公場所。

在這里也提一下,就是我們在汽車交互方式方面的一個經(jīng)驗或感覺,可能東西方人對于汽車的操控習慣不同。比如說捷通華聲早在我們成立的時候,就做了手寫識別技術,在歐美的一些高端車輛上,通過引入我們的手寫,比如像法拉利、奧迪、寶馬,還有日韓系的像尼桑、現(xiàn)代等等這些車里邊用到了我們的手寫技術。我們過去也不太理解,為什么老外覺得手寫還可以用,后來發(fā)現(xiàn),大家可能在一些操作上邊還是習慣有些不同,我們中國人可能更善于講,可能老外更善于做一些實際的操控性的,所以這個時候大家看到我們的語音交互在車機里邊是大家關注的一個熱點,但是手寫他們也會用,而且用的量也不少。不管是用語音的交互還是手寫的交互,其實都是通過這樣的一些人工智能的交互手段,來提升人們的駕車體驗,提升駕車的安全性和舒適性。

捷通華聲推出首個全方位人工智能開放平臺—靈云

剛才講了很多物聯(lián)網(wǎng)領域的應用場景,下面重點介紹一下捷通目前做的一些靈云全方位人工智能開放平臺方面的工作。

捷通的靈云平臺(AIcloud.com)是我們早在2011年我們就推出的全球首個全方位人工智能開放平臺,在當時我們就定立了這么樣一個目標:要實現(xiàn)語音、手寫,拍照,手勢甚至將來可以使用腦波來進行智能化的一些手段來進行人機交互。經(jīng)過幾年的建設,靈云平臺已經(jīng)構建了集合十項核心技術的全方位人工智能開放平臺。

其中包括智能語音方面的,語音合成、語音識別技術;圖像交互方面,OCR、手寫識別;生物特征識別方面的人臉識別、聲紋識別和指紋識別;智能語義方面,包括語義理解、機器翻譯、數(shù)據(jù)挖掘等共10項技術。

       

靈云實際上是通過構建這樣一個云服務平臺,提供這些能力,并在能力基礎上,提供智能化解決方案,包括全智能客戶服務、多維生物特征識別身份認證服務平臺等深入行業(yè)的解決方案,構建了包括公有云服務、全智能能力平臺和全智能解決方案組成的產(chǎn)品生態(tài)體系。


靈云人工智能產(chǎn)品生態(tài)

靈云構建的B2B2C商業(yè)模式,深入金融、電信、能源、交通、政務、公檢法等各個行業(yè),提供全方位的人工智能能力和解決方案。

靈云支持云+端能力,也就是說既可以用我們云端的能力,也可以用我們本地的能力,我們所有的技術都支持“云+端”的方式訪問,這樣就讓廣大的開發(fā)者和企業(yè)合作伙伴能方便地調(diào)用各種應用能力。

在這些應用當中,我特意介紹一下我們在維語和漢語的翻譯,因為在語音方面,我們除了中文普通話,我們還做了少數(shù)民族語言,同時構建了十幾種國外的包括英文、法文、德文這樣的一些語音交互能力。維漢友誼橋這個翻譯APP,目前在新疆少數(shù)民族地區(qū),已經(jīng)有數(shù)百萬用戶在使用,大大方便了我們漢族干部和少數(shù)民族間的交流,大家可以下載體驗下。還有一個也是現(xiàn)在有幾百萬用戶在使用的出國翻譯官,這個APP也是用了靈云上邊的各種能力,能夠方便的在出國的時候,你不管去哪個國家,有了這樣一個應用就可以方便的和當?shù)厝诉M行交流,給大家的出行和旅游提供便利。

我們一直強調(diào),現(xiàn)在AI技術的應用實際上已經(jīng)不是單一能力的應用。為什么講融合,AI的融合發(fā)展,實際上是現(xiàn)在我們遇到的很多應用場景所需要的。在智能終端交互方面,比如說現(xiàn)在我們做的機器人,它其中就用到了語音識別,語音合成,語義理解,人臉識別,甚至聲紋識別;在終端應用的場景里邊,包括在家電,現(xiàn)在我們給家電廠商實際上也在提供一些除了語音交互之外的能力,大家提出來一些比如說像聲紋識別、人臉識別等需求,包括在家庭的陪伴機器人、服務機器人方面,包括兒童陪伴機器人這塊,也提出了一些比如說類似圖像的識別、人臉的識別,包括視頻監(jiān)控等等這方面需求。這些需求,實際上就是人工智能的融合應用。在捷通的靈云平臺上,如果用了我們這個平臺的話,這些能力都可以很方便的實現(xiàn)調(diào)用,因為靈云平臺是一個開放平臺,我們的平臺能力,都能夠在開發(fā)者社區(qū)上方便地調(diào)用。

捷通構建靈云平臺實際上是我們有一個愿景,就是希望能夠讓每一家企業(yè)都能夠擁有人工智能,希望每一個用戶都能夠享受人工智能帶來的便捷。源于這個目標,我們推出了靈云全智能能力平臺,我們會和更多行業(yè)集成商、平臺廠商,一起來合作,為企業(yè)提供人工智能能力。

在智能解決方案方面,我們推出了全智能客戶服務和靈云身份認證平臺。我們推出的靈云全智能客戶服務是一種客服新模式,它包括了實體機器人、網(wǎng)絡版在線智能客服、電話客服機器人、智能語音導航等智能客服產(chǎn)品,以及智能語音分析、電話外呼機器人等呼叫中心行業(yè)解決方案,為用戶提供隨時隨地、隨手可及的智能客戶服務,同時也大幅降低了企業(yè)的客服成本,提升了客戶服務效率和質(zhì)量。

在身份認證方面,隨著我們?nèi)四?、聲紋、OCR技術的發(fā)展,我們推出了人證合一綜合“人臉識別+聲紋識別+指紋識別,OCR證照識別”的靈云身份認證服務平臺,這個系統(tǒng)已在人行的征信系統(tǒng)里得到應用?,F(xiàn)在單一生物特征識別技術,比如說人臉技術,包括所有的人工智能技術,大家很難說做到100%。

我們通過這樣多項技術的一個融合,識別時候我們可以把一個最小的出錯概率集合到一個很小的數(shù)字集合上,比如說我們通過人臉、聲紋、指紋可能有1%、2%這樣的錯誤率,三種技術融合,再加OCR,人證合一,可以把這個錯誤率降到萬分之一,甚至更小。這就是我們推出的多維生物特征識別安全身份認證平臺,也是AI技術融合應用的一個很好案例。

融合能力 融合應用 融合服務 是AI技術發(fā)展趨勢

我們給一些公檢法包括政府部門在一些會議系統(tǒng)方面做了一些智能解決方案。一方面通過語音識別實現(xiàn)會議轉(zhuǎn)寫,解放了筆錄人員,降低速記員的一些勞動強度;在整個會議系統(tǒng)里邊,實現(xiàn)電子簽到,利用我們現(xiàn)在手寫筆跡技術;通過人臉識別、身份證識別,確保參會者的身份;通過語音交互,我們可以輕松的來控制投影設備、燈光設備、包括大屏幕的一些切換;另外,通過語音識別和OCR的組合,可以把會議內(nèi)容實時結構化轉(zhuǎn)寫,并且通過OCR把一些會議文件,自動掃描錄入,全面、快速記錄會議內(nèi)容;還有,通過實時翻譯并語音播報,把會議內(nèi)容同步聲音直播,這些場景在我們在一些政府辦公廳已經(jīng)實現(xiàn)了應用。此外,像我們遇到的一些比如說公檢法的辦公人員,他們可能每天要閱讀大量的文件,很費眼睛,所以像我們的語音合成,他們就很受歡迎,這樣的話他可以去聽,邊聽邊校,這樣就可以把他們的工作變得更加有趣,更加輕松。

還有一個很有趣的是什么呢?比如說現(xiàn)在我們給銀行做大廳服務機器人的時候,一方面通過語音交互來咨詢服務,用智能客服系統(tǒng)來傳遞用戶需要的服務內(nèi)容。在機器人上邊,還實現(xiàn)了人臉識別、聲紋識別。對于一些VIP客戶,剛剛到了銀行大廳,他可以通過人臉識別確認身份,能夠更好的對這些VIP客戶提供服務,這樣的話讓VIP客戶能夠到銀行以后感覺到一種新的感受。我們做這些能力,其實就是希望能夠讓這些設備更加智能化,有更多的功能來服務好用戶。

合作理念:不與合作伙伴爭地盤

另外捷通在十幾年的發(fā)展當中,我們也在不斷總結,我們的定位實際上就是做一個人工智能能力和解決方案的供應商。我們有數(shù)千家的合作伙伴,包括我們在靈云平臺上服務了四億多用戶,我們也希望能夠?qū)崿F(xiàn)一個準確定位,構建一個產(chǎn)業(yè)的生態(tài)。這方面和我們的合作伙伴共同探索一些服務運營模式,捷通是絕對不會去做和我們合作伙伴,合作企業(yè)爭地盤的事情,這是我們的一個明確定位,我們就把我們的人工智能的技術、產(chǎn)品、服務做好。

靈云的愿景,就是讓機器“能說會聽、能寫會看、能辨音會認人、能思考會判斷”。我們希望能夠匯聚大家的力量,共同分享人工智能產(chǎn)業(yè)機遇。

人工智能是長跑 企業(yè)的使命是將技術產(chǎn)業(yè)化

另外,最后想跟大家分享一些思考。

現(xiàn)在大家可能談到人工智能的時候,往往就會想到語音識別,實際上現(xiàn)在語音識別還有很多很多的工作和路要走,我非常認同昨天錢博士提出的一些觀點,我感覺就是說人工智能本身是一個長跑,這是一個沒有終點的長跑,真的需要一些韌性,我們現(xiàn)在很多的技術不是說不好,是沒有很好的去用,或者用的不好。另外一個,可能大家對這些技術的期望值有點過高,也希望產(chǎn)業(yè)界能夠給像捷通這樣,包括其他的一些我們的同仁一些寬容,因為人工智能技術本身還有很多的工作要做,還有很長很長的路要走。

另外,其實現(xiàn)在大家看到的,這些基礎性研究,不管從國外還是國內(nèi),實際上在一些基礎性的研究尤其是一些方法理論性的研究,主要還是來自于大學,這也就是為什么靈云和清華大學,捷通華聲和清華大學建立“靈云科技 源自清華”深度合作的原因。我們在清華大學建了靈云人工智能研究中心,我們有十幾位教授,把他們幾十年來的研究,積淀的一些東西與產(chǎn)業(yè)結合,把這些技術成果應用起來。但是基礎研究的工作,企業(yè)去做恐怕不是太容易,我們還是應該把這些基礎研究的工作交給我們這些教授們,專家學者們?nèi)プ觥?/p>

那么企業(yè)應該做的是什么呢?我們應該做的是一些應用型的研究,包括一些產(chǎn)業(yè)化的研究,企業(yè)應該結合產(chǎn)業(yè),把我們現(xiàn)在目前能夠?qū)崿F(xiàn)的一些人工智能技術很好地轉(zhuǎn)化到應用當中去,我覺得這是我們企業(yè)的使命。

人工智能技術的應用市場很廣闊,但是我也感覺,因為我從業(yè)也有二十幾年了,在這個領域里邊,人工智能技術我個人感覺,從技術本身來講,不是非常適合于創(chuàng)業(yè)團隊,去拿這個技術去創(chuàng)業(yè)。因為這是燒錢的事,這是燒錢的行當,我想資本界也應該能夠看到這一點,這不是個黃金坑,大家跳下去不那么容易上來。捷通做人工智能,其實也是經(jīng)歷了十幾年這樣的一個歷程。

最后,我用我們這個小機器人唱“五星紅旗”來結束我今天的分享,謝謝大家。

(視頻鏈接:https://imgcache.qq.com/tencentvideo_v1/playerv3/TPout.swf?max_age=86400&v=20161117&vid=g01915l2mxa&auto=0)
悅耳歌聲 源自靈云歌唱語音合成技術

鈦媒體是國內(nèi)首家TMT公司人社群媒體,最有鈦度的一人一媒體平臺,集信息交流融合、IT技術信息、新媒體于一身的媒體平臺。鈦坦白,作為鈦媒體旗下的微信公開課,匯集行業(yè)大牛鈦客,分享行業(yè)干貨。


   

靈云平臺更多信息

www.AIcloud.com

體驗靈云客服機器人

010-82826886-8898

誠聘英才,歡迎有志從事人工智能的人士加盟。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2016-12-08
從語音到全方位人工智能 AI技術的融合發(fā)展之路
近幾年來,神經(jīng)網(wǎng)絡尤其是深度學習,提升了感知計算的一些模型方法,相關感知方面的技術取得了比較大的進步。

長按掃碼 閱讀全文