請(qǐng)你閉上眼睛,試著抓一個(gè)你身旁的物體,你會(huì)發(fā)現(xiàn)你并不難猜出你抓的東西是什么。在觸、握、提過(guò)程中所獲得的信息使人們能快速推測(cè)物體是什么。
然而同樣的事情對(duì)于機(jī)器人來(lái)說(shuō)并不容易。機(jī)器人目前仍然難以操縱實(shí)際物體。它們的最大問(wèn)題在于缺乏數(shù)據(jù)——顯然機(jī)器人的手并沒(méi)有像普通人的手那樣頻繁的握、提盡可能多的物體。
“人類(lèi)能夠很好的識(shí)別和操縱物體是因?yàn)槲覀兙哂杏|覺(jué)反饋。當(dāng)我們觸摸物體時(shí),我們能在范圍內(nèi)感知并意識(shí)到它們是什么。機(jī)器人沒(méi)有那么豐富的反饋信息”,機(jī)器人研究者、前MIT畢業(yè)生Subramanian Sundaram解釋說(shuō)。
“我們總想讓機(jī)器人做人類(lèi)能做的事情,比如洗碗或者其他家務(wù)活。如果你想讓機(jī)器人做這些事,它們必須得非常擅長(zhǎng)于操縱物體才行”,他補(bǔ)充道。
在上周發(fā)表于Nature的一篇論文中,Sundaram和他在MIT的同事展示了如何給機(jī)器人“幫把手”——他們利用一種價(jià)值15美元、被稱為STAG(Scalable tactile glove,變尺度觸覺(jué)手套)的手套構(gòu)建了一個(gè)龐大的物體交互數(shù)據(jù)庫(kù)。
這種編織手套上裝有548個(gè)微小的傳感器,覆蓋了幾乎整個(gè)手掌。手套由人佩戴,當(dāng)人在觸、提、握、放一系列物體時(shí),這些傳感器就將上述過(guò)程中的壓力信息記錄下來(lái)。
MIT的研究者們選取了26個(gè)日常物體來(lái)生成數(shù)據(jù)集,包括易拉罐、剪刀、網(wǎng)球、勺子、筆和馬克杯等。
僅僅利用這一數(shù)據(jù)集,他們提出的系統(tǒng)可以以76%的準(zhǔn)確率預(yù)測(cè)物體的類(lèi)別。這一系統(tǒng)還可估測(cè)大部分物體的重量(誤差在60g左右)。
“抓取”問(wèn)題所在
這種手套與電路板之間通過(guò)線路連接,將壓力數(shù)據(jù)轉(zhuǎn)化為“觸覺(jué)映射”——一種簡(jiǎn)潔的點(diǎn)狀視頻圖像,這些點(diǎn)畫(huà)在一個(gè)手的圖像上,每個(gè)點(diǎn)可以變大變小。點(diǎn)越大,則該點(diǎn)受到的壓力也越大。
利用135000幀上述視頻圖像,一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(通常用于圖像分類(lèi)任務(wù)的一種神經(jīng)網(wǎng)絡(luò))被訓(xùn)練用來(lái)將每種壓力特征與特定的物體關(guān)聯(lián)在一起,并用其僅通過(guò)觸摸物體來(lái)預(yù)測(cè)物體的重量,而不引入任何視覺(jué)輸入。
這些研究者想讓他們的卷積神經(jīng)網(wǎng)絡(luò)模擬“人類(lèi)通過(guò)幾種不同方式握持物體從而識(shí)別物體”的這一過(guò)程。他們?cè)O(shè)計(jì)使用視頻中選擇8個(gè)最不相似的半隨機(jī)幀來(lái)進(jìn)行訓(xùn)練,例如從邊緣、底部或手柄處握持一個(gè)馬克杯。
“我們希望最大化幀與幀之間的差異,從而給我們的神經(jīng)網(wǎng)絡(luò)盡可能最好的輸入信息”,MIT研究者Petr Kellnhofer說(shuō)。
“單個(gè)集群中的所有視頻幀都應(yīng)該具有類(lèi)似的特征,這些特征代表了抓取物體的相似方式。從多個(gè)集群中采樣模擬了人類(lèi)交互式地嘗試在探索一個(gè)物體的過(guò)程中尋找到不同的抓取方式的過(guò)程”,他解釋道。
這些研究者還利用這一數(shù)據(jù)集來(lái)分析在操縱物體的過(guò)程中手的不同區(qū)域之間是如何交互的。舉例來(lái)說(shuō),當(dāng)某人使用食指的中間關(guān)節(jié)時(shí),他們很少使用拇指。但食指和中指的指尖總是會(huì)與拇指一同使用。
Sundaram說(shuō),“我們第一次定量展示了如果我使用了我的手的某一部分,那么我同時(shí)使用手的另一部分的可能性”。
希望這項(xiàng)工作能夠幫助義肢制造商選擇放置壓力傳感器的最優(yōu)位置,使義肢更適合與日常物體進(jìn)行交互。
Sundaram說(shuō),“通過(guò)人工模擬機(jī)械性刺激感受器網(wǎng)絡(luò),深入理解人類(lèi)抓取的觸覺(jué)特征,可以有助于未來(lái)的義肢、機(jī)器人抓取工具以及人-機(jī)交互的新設(shè)計(jì)”。
本文譯自 COMPUTERWORLD,由譯者 荔枝冰糖葫蘆 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )