從電腦還是離不開物理按鍵鍵盤開始,到手機(jī)、車載顯示器,點(diǎn)觸即可,再到后來,一種新的交互方式隨著智能音箱的普及刷新了我們的生活,它就是智能語音交互。連屏幕都不用看了,想聽啥歌張嘴就行,真正解放雙手。很多人也許會(huì)新鮮的覺得,這種交互方式會(huì)是未來的趨勢(shì),其實(shí)并不是,未來最好的交互方式會(huì)是什么呢?毋庸置疑它肯定比智能語音更高級(jí),它就是多模態(tài)交互技術(shù)。
大部分聽到多模態(tài)的時(shí)候,也許會(huì)有點(diǎn)蒙圈,因?yàn)檫@個(gè)詞確實(shí)沒有智能語音那么好理解。這個(gè)創(chuàng)新概念是在 2015 年 12 月,圖靈機(jī)器人團(tuán)隊(duì)推出 Turing OS 機(jī)器人操作系統(tǒng)時(shí)提出的。手機(jī)有操作系統(tǒng),機(jī)器人也要有操作系統(tǒng)。Turing OS 機(jī)器人和人之間的交互方式,就叫做“多模態(tài)交互”。模態(tài)也就是英文里的“modality”,翻譯過來就是感官。而多模態(tài)就是把“文字、語音、視覺、動(dòng)作、環(huán)境”等多種方式融合在一起。說白了,這個(gè)交互的本質(zhì)就是“讓機(jī)器也有感情”。
接下來,讓我們通過上面的一張圖片了解多模態(tài)交互技術(shù)賦予機(jī)器的深度學(xué)習(xí)能力到底有多強(qiáng)。如果我們用深度學(xué)習(xí)來看上圖,會(huì)生成這么一句話:一個(gè)棒球運(yùn)動(dòng)員在扔一個(gè)球。為什么會(huì)生成這么一句話?比如,我們發(fā)現(xiàn)模型“看”成這個(gè)圖片的時(shí)候,它實(shí)際上先是注意力集中在棒球手套這個(gè)地方,這是一個(gè)特征表明這是一個(gè)棒球運(yùn)動(dòng)。隨后當(dāng)計(jì)算機(jī)注意到跟廣的區(qū)域的時(shí)候,它會(huì)提出這是個(gè)運(yùn)動(dòng)員。再往下,當(dāng)AI模型注意到一個(gè)大腿扭曲的姿態(tài)的時(shí)候,它會(huì)認(rèn)為這是一個(gè)人的動(dòng)作,憑這些,計(jì)算機(jī)會(huì)認(rèn)為這是一個(gè)人扔球的動(dòng)作,雖然這個(gè)球的占的整面積非常小,但是因?yàn)檎Z言模型在語義上的驅(qū)動(dòng),使得這個(gè)球也能夠被識(shí)別出來,最后形成一句完整的有意義的話。這就是跨越視覺和語言兩個(gè)模態(tài),從圖片到文本描述生成的過程。
想要讓機(jī)器擁有如此強(qiáng)大的深度學(xué)習(xí)能力,讓它聽明白和看明白人類的動(dòng)作和需求,離不開機(jī)器需要一顆強(qiáng)大的硬件芯片。強(qiáng)人工智能主要是指能夠?qū)W習(xí)知識(shí)、思考問題和解決問題的的通用智能,機(jī)器具有多通道的知覺并且具有意識(shí),在各方面都能和人類比肩。人工智能如果需要在生活中有更好的體驗(yàn),我們希望它能像人體一樣,能耳目鼻口協(xié)同工作,主動(dòng)提供服務(wù)。
經(jīng)過半個(gè)世紀(jì)的發(fā)展,在近十年,人工智能技術(shù)步入了發(fā)展的快車道,高性能的計(jì)算芯片甚至 AI 芯片、海量的數(shù)據(jù)積累和優(yōu)秀的軟件算法都在推動(dòng)人工智能向更深處不斷發(fā)展。炬芯科技在單模態(tài)交互芯片設(shè)計(jì)上擁有多年的經(jīng)驗(yàn)積累,相關(guān)產(chǎn)品廣受市場(chǎng)認(rèn)可。面對(duì)人工智能的時(shí)代躍遷,炬芯正向著更進(jìn)一步的技術(shù)延伸發(fā)展。國產(chǎn)芯片核心玩家,聲音前處理專家炬芯科技搶先推出旗下首顆多模態(tài)交互芯片:炬芯ATS3609D,是擁有多麥智能語音、輕智能圖像、手指點(diǎn)讀雙模態(tài)識(shí)別輸入解決方案。炬芯ATS3609D 將語音交互、機(jī)器視覺和傳感器三個(gè)模態(tài)綜合起來,為強(qiáng)人工智能下的多模態(tài)交互提供可行的解決方案。充足的算力,超低的功耗、強(qiáng)大的可擴(kuò)展性,將賦予智能機(jī)器更多的可能性。
隨著AI技術(shù)的發(fā)展,特別是人機(jī)對(duì)話、文本生成、情感智能技術(shù)的提升,我們開始逐漸進(jìn)入到人機(jī)融合、多模態(tài)智能交互的產(chǎn)業(yè)時(shí)代,通過大規(guī)模多模態(tài)交互與對(duì)話技術(shù),我們能夠?qū)?shù)字世界,比如銀行帳號(hào)、各種各樣的數(shù)字資產(chǎn)進(jìn)行管理,甚至還能通過AI更好的在情感世界和物理世界進(jìn)行溝通,希望隨著人工智能尤其是NLP和其他多模態(tài)智能的發(fā)展,我們可以做到真正的人機(jī)融合。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 螞蟻集團(tuán)架構(gòu)大調(diào)整:CTO線變革引領(lǐng)技術(shù)新潮流
- 蔚來智能駕駛重大調(diào)整:組織架構(gòu)重組,從"半成品"到"端到端"解決方案革新
- 滴滴致歉“臭車”事件,日產(chǎn)本田合并談判引關(guān)注,新車市波瀾再起
- 三星助力國內(nèi)手機(jī)廠商爭(zhēng)奪高端市場(chǎng),競(jìng)爭(zhēng)升級(jí),誰將脫穎而出?
- 美團(tuán)騎手過度疲勞工作?強(qiáng)制下線跑單超時(shí)者,保障騎手健康與安全
- 王自如離職風(fēng)波揭開真相:董明珠批緋聞無聊,職場(chǎng)風(fēng)波需理性對(duì)待
- 2024車市冷靜觀察:十大熱門車型背后的真實(shí)故事
- 中國云服務(wù)市場(chǎng)風(fēng)起云涌:阿里云、華為云、騰訊云三強(qiáng)爭(zhēng)霸,市場(chǎng)份額七成誰主沉浮
- 微信小店“送禮物”功能全面推進(jìn):騰訊回應(yīng):逐步灰度測(cè)試中,小心謹(jǐn)慎不冒進(jìn)
- 雷諾集團(tuán)權(quán)衡日產(chǎn)與本田合并:利益最大化需謹(jǐn)慎抉擇
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。