華為投資深思考,多模態(tài)語義理解的時代來了?

引言:

語義理解一直被認(rèn)為是“人工智能皇冠上的明珠”。

近日,36氪獲悉,深思考人工智能機器人科技(北京)有限公司(以下簡稱“深思考”)獲得華為旗下全資子公司哈勃科技投資有限公司(以下簡稱“哈勃投資”)的數(shù)千萬人民幣的戰(zhàn)略投資。

從深思考官網(wǎng)可以了解到,其最突出的技術(shù)是“多模態(tài)深度語義理解引擎(iDeepwise.ai)與人機交互技術(shù)”。官網(wǎng)顯示,該引擎技術(shù)可同時理解文本、視覺圖像等多模態(tài)非結(jié)構(gòu)化數(shù)據(jù)背后的深度語義,其中,對長文本的機器閱讀理解技術(shù)、自由跨域的多輪人機對話技術(shù)、對多種模態(tài)信息的語義理解技術(shù)是其非常突出的優(yōu)勢。

讓人好奇的核心是兩個問題,第一,深思考的核心技術(shù),即多模態(tài)深度語義理解與人機交互技術(shù)究竟是什么,又面向著怎樣的落地場景?第二,華為,或者說華為的子公司為什么要投資深思考,這其中存在著怎樣的商業(yè)考量與生態(tài)布局?

從接下來的文章中,我們或許可以一窺一二。

1、多模態(tài)和多模態(tài)語義理解

在8月結(jié)束的“2019機器閱讀理解競賽”中,在兩項核心技術(shù)指標(biāo)中,深思考均位列第一,從全球2000多支隊伍中脫穎而出,取得冠軍。當(dāng)時36氪,曾對深思考人工智能CEO兼AI算法科學(xué)家楊志明博士進(jìn)行過采訪。

“人類說話的時候,往往是口語化的、不連續(xù)的、支離破碎的,甚至語序顛倒的。語音識別只停留在語音指令,不能理解用戶語言及背后的邏輯,實際無法解決用戶在很多場景中的剛需。”楊志明舉例,人類在看電影時,不僅看畫面、聽聲音,也會看字幕,甚至還會根據(jù)電影主題進(jìn)行聯(lián)想。

每一種信息的來源或者形式,就可以稱為一種模態(tài),例如,人的視覺、觸覺、聽覺、嗅覺、味覺,信息媒介包括,語音、圖片、視頻、文字等,而傳感器則有紅外線、雷達(dá)、電磁等,

多模態(tài)的人工智能,就是通過不同的信息維度和信息來源,幫助人工智能以更像人類的方式進(jìn)行思考和學(xué)習(xí)。

隨著算法、算力、云及芯片等技術(shù)的不斷成熟,人工智能,尤其是強人工智能在過去幾年快速發(fā)展。據(jù)WIPOP2019年人工智能趨勢報告顯示,50%的AI專利在過去5年內(nèi)發(fā)表,這意味著從2014年-2018年這五年內(nèi),AI產(chǎn)業(yè)進(jìn)入了快速發(fā)展的階段。

當(dāng)然,多模態(tài)的人工智能技術(shù)比單一模態(tài)的人工智能技術(shù),無論是對算法,還是算力的要求,都會復(fù)雜不少,甚至可能是指數(shù)級的復(fù)雜程度,但最終的呈現(xiàn)的效果,也會更接近人類。

以智能家居場景為例,語音識別技術(shù),實現(xiàn)的效果是聽到語音指令,并執(zhí)行指令,一旦有復(fù)雜的語音表述,就會進(jìn)入,“我沒有聽懂您說的是什么”,或是,“您的意思是這樣”等,操作指令的進(jìn)一步確認(rèn),或者細(xì)化。

真正能夠幫助機器解決“聽懂”和“看懂”的問題,是靠語義理解,,而其中機器閱讀理解問題一直被認(rèn)為是語義理解和自然語言處理(NLP)的標(biāo)志性臨界點。

據(jù)2018年年底騰訊研究院統(tǒng)計,在中國人工智能企業(yè)中,融資占比排名前三的領(lǐng)域分別是計算機視覺與圖像,自然語言處理,以及自動駕駛/輔助駕駛,而排在第二名的自然語言處理,融資122億元,占比19%。

深思考的“多模態(tài)深度語義理解引擎(iDeepwise.ai)與人機交互技術(shù)”,簡單來說,就是實現(xiàn)從簡單的機器感知到深度的語義理解,而這一點,會使人機交互變得更加智能,也是機器真正邁向智能的關(guān)鍵。

這可能是深思考能夠吸引到華為投資的原因之一。

但顯然,并不是唯一的原因。

2、華為以及華為的生態(tài)

如今,人們已經(jīng)很難用一句簡單的話,來概括華為,其產(chǎn)業(yè)鏈包括通信設(shè)備、半導(dǎo)體、消費電子、云計算、安防等,公司營收也從2008年的183億美金增長到2018年的1052億美金。

不僅手機銷量超越蘋果,華為在5G、芯片和智能硬件端的表現(xiàn)也十分搶眼,尤其是5G產(chǎn)業(yè)上的發(fā)力,比如最新旗艦手機Mate30系列手機,其搭載的麒麟990芯片,也是行業(yè)中第一枚正式商用的5G SoC芯片。

再比如面向全場景的分布式操作系統(tǒng)鴻蒙OS,據(jù)發(fā)布會上的介紹,鴻蒙OS已在手機、平板上率先進(jìn)行了使用,并將會應(yīng)用在智能手表、智慧屏、車載設(shè)備、智能音箱等智能終端上。

但光有OS、芯片和5G技術(shù),并不能完全實現(xiàn)華為設(shè)想的萬物互聯(lián)的場景,他們像是華為未來AIoT戰(zhàn)略的基礎(chǔ),在基礎(chǔ)之上,需要更多有效的技術(shù)來增加基礎(chǔ)的抓手,落地更多的場景,觸達(dá)更多的用戶,并實現(xiàn)無感的體驗。

多模態(tài)語義理解技術(shù)及類腦人工智能技術(shù),則能夠起到關(guān)鍵性的作用。

目前,深思考基于AI多模態(tài)深度語義理解技術(shù)與人機對話產(chǎn)品主要落地于智能車聯(lián)網(wǎng)數(shù)字座艙、汽車智慧營銷、手機智能移動終端、智能家居、智慧醫(yī)療健康等應(yīng)用場景。

以移動端的場景為例,在智能手機終端場景下,深思考基于多模態(tài)深度語義理解與人機對話引擎(iDeepWise.ai),提供出行、健康咨詢、智慧辦公、休閑娛樂等場景的智能人機對話交互iDeepWise.ai.mobile 的AI Saas 服務(wù)。尤其在出行領(lǐng)域,為2億智能終端用戶提供一站式AI智能出行生活服務(wù),包括通過人機對話自動完成預(yù)訂機票火車票、自動完成酒店預(yù)訂等服務(wù)。

此前,通過哈勃投資,華為已經(jīng)投資了第三代半導(dǎo)體材料領(lǐng)域的山東天岳先進(jìn)材料科技有限公司、集成電路設(shè)計公司杰華特微電子(杭州)有限公司。不難看出,過去數(shù)月中華為戰(zhàn)略投資的三家公司,分別為華為提供了,人工智能所需的產(chǎn)品原材料、芯片設(shè)計生產(chǎn)和最適合的人工智能技術(shù)。

相信在未來,這三家公司在華為的大生態(tài)之下,會有更多的交流和合作。

而華為子公司對于深思考的投資,似乎也標(biāo)志著,人工智能進(jìn)入全面商業(yè)化的階段,不再只在實驗室進(jìn)行測試和訓(xùn)練,而是不斷在真實場景中區(qū)落地,去實驗,去更接近成功。

3、人工智能走出實驗室

對于巨頭公司,尤其是ICT領(lǐng)域的巨頭公司而言,其擁有的海量數(shù)據(jù),就是儲量豐富的金礦,但如果無法挖掘和發(fā)揮數(shù)據(jù)的價值,數(shù)據(jù)的存在便變毫無意義。他們擁有用戶、產(chǎn)品和場景,卻缺少人工智能這樣的“煉金術(shù)”,來幫助煉金,從而最終在同類型公司之中勝出。

而對于人工智能公司而言,找到一個好的生態(tài)合作伙伴,或是一個擁有真實業(yè)務(wù)需求的投資方,能夠快速實現(xiàn)技術(shù)的落地,并最終實現(xiàn)商業(yè)化,尤其是還有云和芯片的相關(guān)產(chǎn)業(yè)鏈。

仍然以智能家居場景為例,智能音響、智能電視、智能冰箱、智能空調(diào)等產(chǎn)品,最終需要被語音理解所賦能,提升理解能力,真正做到人工智能。

結(jié)合多模態(tài)語義理解技術(shù),這些智能家居和智能硬件,不再是簡單的人類語音命令執(zhí)行者,而是變成了隱形人工智能管家的觸點,他們會更了解人類的需求和習(xí)慣,并提供更加個性化和人性化的服務(wù)。

以智能車聯(lián)網(wǎng)為例,5G和人工智能的發(fā)展,讓自動駕駛和車聯(lián)網(wǎng)都被給予厚望。

傳統(tǒng)智能車載系統(tǒng),通常通過駕駛室的智能語音交互屏幕實現(xiàn)人機互動,而在智能車聯(lián)網(wǎng)場景下,汽車跟道路基礎(chǔ)設(shè)施之間、汽車跟汽車之間、汽車跟互聯(lián)網(wǎng)之間都能夠做信息的連接和交互。車輛本身也通過視覺對車外的環(huán)境做感知與理解,再加上溫度傳感器、語音信息輸入傳感器等。

對于用戶而言,語言是最有效的交互方式,但對于車輛而言,要接受和理解的語言,并且在極短時間內(nèi)做出反應(yīng),是有巨大的挑戰(zhàn)。而除了語言的模態(tài)外,智能車聯(lián)網(wǎng)還有手勢的模態(tài)和圖像的模態(tài)等信息。

數(shù)字化場景下,深思考提供的技術(shù)能為對上述多模態(tài)信息進(jìn)行綜合理解,為人車交互提供智能大腦,同時,還可以在座艙環(huán)境下,實現(xiàn)人、車和家庭的連接。加上RPA自動軟件機器人,不光可以實現(xiàn)人車對話,車輛還可以自動幫助駕駛員完成任務(wù),比如預(yù)定會議室、與其他智能設(shè)備的聯(lián)動、執(zhí)行等。

“更重要的是解決及提升物聯(lián)網(wǎng)和AIoT設(shè)備多模態(tài)語義理解的能力。”楊志明博士在此前36氪的采訪中曾提到, 未來的場景之中,更多的情況是,終端設(shè)備首先具備各項傳感器,能夠多維度的收集信息和數(shù)據(jù),同時端側(cè)AI芯片的植入,又能讓這類設(shè)備具有如圖像識別、語音識別、語義理解等人工智能能力,而云端則是更強大的算力和服務(wù)支持。一方面,如果所有終端的處理,都由云完成,性能和響應(yīng)可能會成為瓶頸,另一方面終端設(shè)備必須具備AI理解的能力,才能讓機器更好的理解人類意圖。下一個時代必定是AIot的時代,也是人工智能多模態(tài)語義理解的時代。

云、芯片和人工智能技術(shù),深思考的技術(shù)和華為生態(tài),相得益彰。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-10-12
華為投資深思考,多模態(tài)語義理解的時代來了?
引言:語義理解一直被認(rèn)為是“人工智能皇冠上的明珠”。

長按掃碼 閱讀全文