123,123,123

原標(biāo)題：看穿你的五分鐘和下一秒：AI動作能幫助人類做到什么？

相信了解電競的人，一定對“預(yù)判”二字非常熟悉。在游戲中，玩家通過豐富的對戰(zhàn)經(jīng)驗(yàn)，對對手的下一步動作進(jìn)行預(yù)估并提前進(jìn)行反應(yīng)。在籃球、足球、格斗、拳擊等等活動中也是一樣，對于高手來說，對手腰側(cè)一動就知道對方要打出左勾拳，便可以提前做出格擋動作。

當(dāng)然這種能力并不是誰都能擁有，通常都是“高手限定”。只有累積下大量經(jīng)驗(yàn)加上強(qiáng)大的反應(yīng)能力才能實(shí)現(xiàn)，尤其這種能力偏向于下意識反應(yīng)和直覺，很難以體系化的方式教授給更多的人。

說到這里，相信很多人都會想到一個(gè)問題，我們能否利用AI的力量復(fù)制動作預(yù)判能力呢？在AI醫(yī)療影像閱片、AI拍照等等技術(shù)之中，我們已經(jīng)可以看到AI對于專家能力的捕捉和復(fù)制。

其實(shí)此前有不少研究者對此進(jìn)行相關(guān)嘗試，常見的方法是通過Kinect設(shè)備來定點(diǎn)采集人的動作，將動作轉(zhuǎn)化為數(shù)據(jù)，通過機(jī)器學(xué)習(xí)方法訓(xùn)練模型，通過預(yù)測數(shù)據(jù)進(jìn)而模擬人的下一步動作?？珊芸烊藗兙桶l(fā)現(xiàn)，這種設(shè)備采集式的動作預(yù)測并沒有什么作用，因?yàn)榕浯畈杉O(shè)備會極大的阻礙人類進(jìn)行動作，從數(shù)據(jù)采集成本上來說也相對較高。

一直以來，科學(xué)家們也都在嘗試?yán)闷渌椒▉韺?shí)現(xiàn)AI動作預(yù)測。

·例如通過說話聲音來實(shí)現(xiàn)

在與他人交談，尤其是公開演講時(shí)，人們常常會配上手勢來豐富表達(dá)。那么有沒有可能，這些手勢動作進(jìn)行預(yù)測呢？在UC Berkeley和MIT的研究中，就通過聲音語言來實(shí)現(xiàn)了這一點(diǎn)。

研究人員收集了10個(gè)人144小時(shí)的演講視頻，一方面通過視頻智能分析算法識別出圖像中演講者手指和手臂的動作，另一方面通過跨模態(tài)轉(zhuǎn)換技術(shù)，將演講者的語言聲波變換與動作變換一一對應(yīng)在一起。如此以來，AI就可以通過聲音來對人類的動作進(jìn)行下一步預(yù)測。

·或是通過RGB圖像來預(yù)測人體細(xì)節(jié)姿勢

在發(fā)現(xiàn)了硬件動作采集的不靠譜之后，人們慢慢開始嘗試使用其他方法，例如東京工業(yè)大學(xué)今年在IEEE上發(fā)布了一篇論文，就實(shí)現(xiàn)了在簡單背景下（例如比較初級的綠幕）通過2D圖像進(jìn)行動作捕捉和精準(zhǔn)預(yù)測。

這一方法利用殘差網(wǎng)絡(luò)將人體姿勢圖像轉(zhuǎn)換成一種2D“位置信息”，再通過LSTM學(xué)習(xí)時(shí)序位置，實(shí)現(xiàn)對于位置信息的預(yù)測。這種方式雖然對于預(yù)測對象所處的背景有所要求，但預(yù)測能力非常精準(zhǔn)，能夠達(dá)到預(yù)測15幀后，即0.5秒后的動作。

·甚至直接預(yù)言未來五分鐘的世界

有人追求細(xì)節(jié)動作的預(yù)測，但德國波恩大學(xué)則是以更粗放的方法，追求更長時(shí)間的動作預(yù)測。以往借助AI實(shí)現(xiàn)的動作預(yù)測，通常都屬于“單步預(yù)測”，例如AI可以預(yù)測拍球一個(gè)動作，知道球接觸到手時(shí)要向下壓，卻沒法預(yù)測拍球之后的運(yùn)球、投籃等等動作。

而在波恩大學(xué)的研究中，研究者將RNN和CNN結(jié)合在一起，對不同動作打上標(biāo)簽，既對動作細(xì)節(jié)進(jìn)行預(yù)測，又對不同標(biāo)簽出現(xiàn)的序列進(jìn)行預(yù)測。在這種方式之下，AI僅僅通過兩個(gè)小時(shí)的學(xué)習(xí)，就能夠在人類制作沙拉時(shí)，對剩下80%的動作進(jìn)行預(yù)測。

從“怎么想”到“怎么做”：AI動作預(yù)測能解決哪些問題？

伴隨著AI動作預(yù)測在技術(shù)上越來越完備，這一技術(shù)的應(yīng)用場景也被開發(fā)的越來越多。目前來說，我們可以為AI動作預(yù)測找到以下幾種用途。

從基礎(chǔ)角度，AI動作預(yù)測可以幫助人類更高效的進(jìn)行體育訓(xùn)練。

在東京工業(yè)大學(xué)的案例中，用戶只需戴上VR眼鏡，就能將AI對于人類走路、格斗、搏擊甚至踢球時(shí)的動作預(yù)測能力，以圖像的形式投射到眼前人身上。這時(shí)再進(jìn)行動作訓(xùn)練，就可以幫助普通人更加立體化的理解動作運(yùn)動邏輯。至于在足球這類運(yùn)動之中，則可以用來進(jìn)行戰(zhàn)術(shù)分析。

從更深一層看，只有掌握了利用AI預(yù)測動作的能力，才能通過動作細(xì)節(jié)識別視頻的真假。

我們已經(jīng)看到過很多案例，通過幾張照片和一段錄音，就能夠偽造出視頻。那么有了AI動作預(yù)測，豈不是更可以學(xué)習(xí)人類的動作習(xí)慣，偽造出更加逼真的視頻？實(shí)際上只有當(dāng)我們研發(fā)出AI預(yù)測動作的技術(shù)之后，才能生成對抗性鑒別器，反向?qū)σ曨l中內(nèi)容的真假進(jìn)行鑒定。

最后，只有當(dāng)AI擁有預(yù)測人類動作的能力時(shí)，人機(jī)協(xié)作才會更加高效。

很多時(shí)候我們以為AI想要和人類配合的親密無間，需要了解人類的所思所想，實(shí)際上想要達(dá)到這一點(diǎn)，AI不需要知道人類“怎么想”，只需要知道人類“怎么做”。德國波恩大學(xué)提出的設(shè)想，就是讓AI能夠在預(yù)測人類動作之后，進(jìn)行相關(guān)反應(yīng)來配合人類。例如通過預(yù)測人類拌沙拉的動作，幫助人類拌好一份半成品沙拉。尤其是在老人護(hù)理、兒童陪伴等等場景之中，這些對象由于種種限制可能沒法利用語言與機(jī)器人進(jìn)行交互，這時(shí)機(jī)器人通過動作預(yù)測來實(shí)現(xiàn)主動服務(wù)就變得十分必要。

人類肉體的步步行動無一不受精神支配，通過大腦運(yùn)作傳遞肌電信號，才能調(diào)動肌肉運(yùn)動肢體。對于人類和AI來說，弄清大腦的運(yùn)作方式都有些困難，但如果從“半路”攔截，直接掌握肉體行動的邏輯，或許也是個(gè)不錯(cuò)的解決方案。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

看穿你的五分鐘和下一秒：AI動作能幫助人類做到什么？

下一篇

看穿你的五分鐘和下一秒：AI動作能幫助人類做到什么？