亚洲乱码一区二区三区国产精品,国产啪精品视频网站免,欧美日韩精品视频一区在线观看

原標(biāo)題：多模態(tài)學(xué)習(xí)，帶來AI全新應(yīng)用場景？

新的AI技術(shù)發(fā)展趨勢有哪些？多模態(tài)學(xué)習(xí)技術(shù)一定是其中之一。

最近，剛剛宣布“自立門戶”的微軟AI明星產(chǎn)品小冰改名為“紅棉小冰”。殊不知2014年誕生的這一個(gè)AI對話機(jī)器人已經(jīng)在5年時(shí)間里更新到了第七代了，據(jù)稱能力上正在“無限接近人類”?，F(xiàn)在的小冰，不僅是那個(gè)會作詩的機(jī)器人了，她還會唱歌作曲、閱讀朗誦、撰寫新聞，甚至去年還辦了一個(gè)虛擬7位畫家的個(gè)人畫展。多模態(tài)識別技術(shù)正是小冰越來越像人一樣溝通表達(dá)的關(guān)鍵之一。

多模態(tài)技術(shù)同樣也在視頻網(wǎng)站、電商物流、自動(dòng)駕駛等領(lǐng)域得到廣泛。像愛奇藝推出的“只看TA”功能，優(yōu)酷視頻正在使用的視頻幀、人臉幀的圖向量檢索，都離不開多模態(tài)識別技術(shù)的支持。而像京東淘寶等電商平臺的“拍照購”、“拍立淘”的搜索技術(shù)背后也都是在計(jì)算機(jī)視覺技術(shù)下，使用了圖像、文本和高層語義屬性等多模態(tài)下的信息融合，才實(shí)現(xiàn)高精度的“以圖搜圖”功能。百度提出的“多模態(tài)深度語義理解”，則讓AI實(shí)現(xiàn)從“看清聽清”到“看懂聽懂”的進(jìn)化。

可以說，人工智能在通向人的智能的道路上，多模態(tài)學(xué)習(xí)就是一個(gè)繞不開的發(fā)展方向。因?yàn)槿祟惐旧砭褪且粋€(gè)多模態(tài)學(xué)習(xí)的典范。

現(xiàn)在，多模態(tài)學(xué)習(xí)技術(shù)正在帶來眾多全新的應(yīng)用場景。關(guān)注AI技術(shù)和應(yīng)用發(fā)展趨勢的你，想必也想了解下多模態(tài)學(xué)習(xí)的來龍去脈，以及在這些新應(yīng)用場景中的技術(shù)現(xiàn)狀與問題。而這些問題也是本文重點(diǎn)探討的內(nèi)容。

“多模態(tài)學(xué)習(xí)”，正式認(rèn)識下

模態(tài)（Modality），雖然不是我們的日常用語，但卻十分容易理解。

我們每一天都會接觸到各種不同來源和形式的信息。正如我們有視覺、聽覺、嗅覺和觸覺等，那么我們接觸的信息就有視頻、圖像、文字、語音、味道、軟硬度等，這每一種信息的形式就可以稱作一種模態(tài)。

模態(tài)的范圍要比我們的感知能力更寬泛。除了視覺、聽覺獲得的模態(tài)信息，我們也可以利用傳感器獲得諸如雷達(dá)、紅外線等不同感應(yīng)數(shù)據(jù)的模態(tài)信息。

此外，模態(tài)的類型定義也可以非常寬泛，比如我們可以把兩種不同的語言當(dāng)做是兩種模態(tài)，把不同結(jié)構(gòu)下采集的數(shù)據(jù)，也可以當(dāng)做兩種模態(tài)。比如，僅僅一個(gè)視頻內(nèi)容數(shù)據(jù)，就是一個(gè)高維度、多模態(tài)的數(shù)據(jù)信息，其中包含了標(biāo)題、簡介、評論、字幕等文本信息，也有視頻幀的圖像、聲音，以及連貫動(dòng)作視頻片段的視覺、聲音信息。

多模態(tài)學(xué)習(xí)，從上世紀(jì)70年代就已經(jīng)起步，幾經(jīng)發(fā)展，現(xiàn)在正進(jìn)入到機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)的階段。通常稱為多模態(tài)機(jī)器學(xué)習(xí)（Multi-Modal Machine Learning ，MMML），試圖通過機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)對多源模態(tài)信息進(jìn)行分析和理解。當(dāng)前主要熱門的研究方向自然是對圖像、視頻、音頻、語義之間的多模態(tài)學(xué)習(xí)。

當(dāng)前，多模態(tài)學(xué)習(xí)主要研究方向有多模態(tài)表示學(xué)習(xí)、模態(tài)間映射，多模態(tài)對齊、融合、協(xié)同學(xué)習(xí)等。

多模態(tài)表示學(xué)習(xí)，研究如何將多個(gè)模態(tài)數(shù)據(jù)所蘊(yùn)含的語義信息數(shù)值化為實(shí)值向量，通俗理解就是對多個(gè)模態(tài)的數(shù)據(jù)進(jìn)行相關(guān)性編碼，讓不同模態(tài)建立起映射關(guān)系。按多模態(tài)表示共享的方式，主要分為公共表示學(xué)習(xí)和特異性表示學(xué)習(xí)，后者由于是分別學(xué)習(xí)不同模態(tài)的特征，可以應(yīng)用于諸如零次學(xué)習(xí)、模態(tài)間映射、跨模態(tài)檢索等任務(wù)中。

模態(tài)間映射，研究如何將某一特定模態(tài)數(shù)據(jù)中的信息映射至另一模態(tài)。例如，給定一幅圖像，通過機(jī)器學(xué)習(xí)得到這副圖像的描述，或者給定一段文字，生成一幅匹配的圖像。類似于我們學(xué)習(xí)中遇到的“看圖說話”和“以題作畫”的問題。模態(tài)間映射早已可以應(yīng)用于語音合成、圖像視頻描述以及跨模態(tài)檢索等應(yīng)用中。

此外，多模態(tài)對齊，主要研究如何識別不同模態(tài)之間的部件、元素的對應(yīng)關(guān)系，以促進(jìn)學(xué)習(xí)到的多模態(tài)表示更加精確，例如將電影畫面、口型、語音、字幕的自動(dòng)對齊；多模態(tài)融合，主要致力于不同模態(tài)間的模型與特征的整合，以獲得更全面的特征，提高模型魯棒性，并且保證模型在某些模態(tài)缺失時(shí)仍能有效工作；而多模態(tài)協(xié)同學(xué)習(xí)，主要考慮如何從信息豐富模態(tài)上學(xué)習(xí)的知識遷移到信息匱乏的模態(tài)，使各個(gè)模態(tài)的學(xué)習(xí)互相輔助。典型的方法包括多模態(tài)的零樣本學(xué)習(xí)、領(lǐng)域自適應(yīng)等。

近兩年，隨著機(jī)器學(xué)習(xí)的模型的飛速進(jìn)展，多模態(tài)學(xué)習(xí)中出現(xiàn)的映射質(zhì)量問題、對齊的匹配度量以及融合噪聲干擾等問題，都在實(shí)現(xiàn)很好的優(yōu)化解決，為多模態(tài)的落地應(yīng)用做好了準(zhǔn)備。

多模態(tài)學(xué)習(xí)，正在豐富哪些應(yīng)用場景？

通過以上解釋可以知道，其實(shí)很多我們熟知的AI技術(shù)都可以歸類到模態(tài)學(xué)習(xí)當(dāng)中。比如，像機(jī)器翻譯，通過輸入的一種A語言即時(shí)翻譯為另一種B語言，其實(shí)質(zhì)就是一種模態(tài)之間的映射轉(zhuǎn)化。類似的還有唇讀識別和語音翻譯，也就是分別將唇部視覺和語音信息轉(zhuǎn)換為文本信息。

在圖像識別中，會應(yīng)用到一種“圖片語義分割”，即嘗試給圖片的不同像素區(qū)域?qū)?yīng)到每一種類型標(biāo)簽，實(shí)現(xiàn)視覺和詞匯的對應(yīng)。這就是多模態(tài)對齊在空間維度的應(yīng)用。

當(dāng)然，基于多模態(tài)數(shù)據(jù)的豐富表示以及映射、對齊和融合的應(yīng)用，可以將目前AI的三種主要感知模態(tài)——語音交互、機(jī)器視覺、傳感器智能進(jìn)行多模態(tài)組合，產(chǎn)生全新的應(yīng)用場景。

在語音交互上，“多模態(tài)深度語義理解”技術(shù)正在為其帶來更深度的應(yīng)用場景。

對于前幾年的智能音箱，我們都有這樣的感觸，那就是語音交互只能完成簡單的搜索，一旦多聊幾句，就發(fā)現(xiàn)機(jī)器人要么只有萬能的“套路”公式，要么就“答非所問”。這一問題的根源就是人工智能無法更好的理解對話者的深層涵義，也沒有靈活的應(yīng)答機(jī)制和內(nèi)容。此外，也更難理解人的語氣、情緒這類情感模態(tài)信息，當(dāng)然因?yàn)闆]有視覺感知，更不可能去理解人的表情、動(dòng)作、姿態(tài)等信息。

多模態(tài)深度語義理解可以極大改善這類語音交互的語義理解難題。比如，其中一個(gè)應(yīng)用場景是智能汽車的數(shù)字座艙，正在從原本單一的車載語音識別，實(shí)現(xiàn)融合視覺、語音、車內(nèi)外場景圖像的多模態(tài)識別的轉(zhuǎn)變。

在實(shí)際的語音交互中，車載智能助手不僅可以實(shí)現(xiàn)語音的識別，也可以通過攝像頭識別人的表情神態(tài)、動(dòng)作，比如識別疲勞駕駛、分心、發(fā)熱等狀況，以進(jìn)行即時(shí)的語音提醒。語音交互也可以更加以人類的自然語言進(jìn)行交互，而不必要使用生硬的指令型語言。

而在以機(jī)器視覺為主的應(yīng)用中，多模態(tài)學(xué)習(xí)技術(shù)也帶來新的應(yīng)用可能。

以電商平臺購物為例，用戶的一大痛點(diǎn)就是看到一些“心水”的好物或者同款，但不知道名字，通過拍照識別和檢索，將為用戶提供最便捷的推薦服務(wù)。另外，在電商的智能客服，用戶也希望能夠通過簡單對話或者發(fā)送圖片、視頻的方式處理訂單問題。在這些場景中，跨模態(tài)檢索和映射轉(zhuǎn)化技術(shù)就得到了深度應(yīng)用。

比如，在商品推薦和信息流廣告中，就需要結(jié)合海量商品圖像與對應(yīng)的商品語義屬性，學(xué)習(xí)圖像語義特征表達(dá)，以提高符合用戶需求的商品推薦度。而與智能客服進(jìn)行的多輪對話中，融入視覺到語言的跨模態(tài)轉(zhuǎn)換技術(shù)，可以自動(dòng)實(shí)現(xiàn)對用戶上傳的圖片或視頻進(jìn)行自動(dòng)應(yīng)答。

在傳感器智能上，多模態(tài)識別技術(shù)可以應(yīng)用到大量的物聯(lián)網(wǎng)設(shè)備場景中。通過在大量的智能設(shè)備中增加視覺、溫度、濕度和光線傳感器，來實(shí)現(xiàn)多模態(tài)的智能交互。比如在智能空調(diào)中，加入語音交互、視覺識別指令，結(jié)合傳感器判斷屋內(nèi)溫度和濕度，可以根據(jù)屋內(nèi)人數(shù)、位置等因素來實(shí)現(xiàn)更精準(zhǔn)的控溫方案。而現(xiàn)在更多智能大屏應(yīng)用，也在將機(jī)器視覺、語音交互和一些智能傳感器引入到智能硬件中，實(shí)現(xiàn)對屋內(nèi)光線的調(diào)節(jié)、音量、觀看者狀態(tài)（離得是否太近，是否有未成年人）等因素的智能識別和調(diào)節(jié)。

而近期，華為推出的一款針對辦公場景的智慧屏幕，可以根據(jù)視頻會議中的發(fā)言對象進(jìn)行視角跟蹤，將攝像頭跟蹤、焦點(diǎn)人物識別和身份識別結(jié)合起來。

正如開始列舉的，多模態(tài)學(xué)習(xí)技術(shù)更主要的應(yīng)用還是集中在語音和視覺的多模態(tài)識別上。在愛奇藝的“只看TA”的功能中，除了人臉識別要區(qū)分是真人還是卡通人物，還要對人體信息，甚至還有微表情、身體語言等識別，多模態(tài)技術(shù)成為視頻場景中不可缺少的技術(shù)支撐。而在未來的聊天機(jī)器人或者智能助手上，多模態(tài)學(xué)習(xí)將幫助智能機(jī)器人綜合處理圖像、聲音和文字信息，同時(shí)可以進(jìn)行綜合模態(tài)，甚至包括情感等特征信息的輸出與表達(dá)。

技術(shù)尚在中途，未來仍需努力

不過，我們?nèi)匀恍枰赋龅氖?，盡管多模態(tài)學(xué)習(xí)技術(shù)已經(jīng)有諸多的應(yīng)用場景，但其技術(shù)實(shí)現(xiàn)仍然有諸多不足，也會有一些場景仍然是“偽多模態(tài)”的技術(shù)應(yīng)用狀態(tài)，導(dǎo)致一些場景體驗(yàn)仍然不能“盡如人意”。

現(xiàn)在的多模態(tài)技術(shù)的結(jié)合多為“松耦合”狀態(tài)，各個(gè)模態(tài)可以一起工作，但耦合之下還不夠十分緊密。也就是現(xiàn)在更多實(shí)現(xiàn)的是兩種模態(tài)信息的轉(zhuǎn)化和融合。而一旦多種模態(tài)數(shù)據(jù)增加，耦合也會增多，沖突也就會增加，產(chǎn)生各種噪聲。比如，對于聊天機(jī)器人，如何在回復(fù)的聲音、文本中增加情感特征，就是一件非常困難的事情。因此，我們遇到的一批智能機(jī)器人都很容易是冷冰冰的客服腔調(diào)，以致于我們確實(shí)不好識別對方是真人還是機(jī)器人。

多模態(tài)技術(shù)主要還是采用已標(biāo)注的多模態(tài)數(shù)據(jù)來生成深度學(xué)習(xí)模型，這導(dǎo)致這些模型在真實(shí)場景下的泛化能力受到很大限制?，F(xiàn)有的多模態(tài)技術(shù)更多要與知識圖譜結(jié)合，融入專家、常識等知識，利用數(shù)據(jù)和知識的聯(lián)合來讓多模態(tài)技術(shù)建立其“智能”的作用。

此外，正如一位專家指出的，當(dāng)前的多模態(tài)技術(shù)還是屬于狹隘的單任務(wù)學(xué)習(xí)，整個(gè)訓(xùn)練和測試的過程都是在封閉和靜態(tài)的環(huán)境下進(jìn)行，這就和真實(shí)世界中開放動(dòng)態(tài)的應(yīng)用場景存在一定的差異性。這距離人類在真實(shí)場景中的泛化的多模態(tài)感知相距甚遠(yuǎn)。

未來為提高多模態(tài)的泛化感知能力，可以利用元學(xué)習(xí)的方式來讓模型自己學(xué)會如何認(rèn)知新的多模態(tài)知識，實(shí)現(xiàn)適用于開放動(dòng)態(tài)場景并具備終生學(xué)習(xí)能力的多模態(tài)模型。

而在推動(dòng)AI的推理能力上，在多模態(tài)模型訓(xùn)練的過程中，可以引入自監(jiān)督、自學(xué)習(xí)的推理性任務(wù)，“強(qiáng)迫”多模態(tài)模型進(jìn)行推理和思考，這也能在一定程度上讓機(jī)器去慢慢學(xué)會推理。

通過多模態(tài)學(xué)習(xí)技術(shù)實(shí)現(xiàn)AI的推理，看起來難度極大，這一假設(shè)還需要未來更多實(shí)驗(yàn)和驗(yàn)證。

總的來說，多模態(tài)技術(shù)已經(jīng)在試圖“復(fù)制”人類在日常生活中的各類場景，盡可能把人類的感知信息進(jìn)行分析處理和整合，并實(shí)現(xiàn)更全面綜合的理解，也能結(jié)合“數(shù)據(jù)”和“知識”給出相應(yīng)的回應(yīng)。但這距離真正的人類級別的智能還有質(zhì)的差別。

當(dāng)然，人們對多模態(tài)技術(shù)的發(fā)展前景仍然看好，相比于只側(cè)重單一模態(tài)的技術(shù)，多模態(tài)技術(shù)所構(gòu)建的智能應(yīng)用場景將更多樣化，也與我們普通人期待的智能生活更近一些。

更何況，多模態(tài)技術(shù)仍處在“襁褓狀態(tài)”，我們應(yīng)該留給它足夠長的成長時(shí)間，等待美好發(fā)生。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

多模態(tài)學(xué)習(xí)，帶來AI全新應(yīng)用場景？

下一篇

多模態(tài)學(xué)習(xí)，帶來AI全新應(yīng)用場景？