請你閉上眼睛,試著抓一個你身旁的物體,你會發(fā)現(xiàn)你并不難猜出你抓的東西是什么。在觸、握、提過程中所獲得的信息使人們能快速推測物體是什么。
然而同樣的事情對于機器人來說并不容易。機器人目前仍然難以操縱實際物體。它們的最大問題在于缺乏數(shù)據(jù)——顯然機器人的手并沒有像普通人的手那樣頻繁的握、提盡可能多的物體。
“人類能夠很好的識別和操縱物體是因為我們具有觸覺反饋。當我們觸摸物體時,我們能在范圍內(nèi)感知并意識到它們是什么。機器人沒有那么豐富的反饋信息”,機器人研究者、前MIT畢業(yè)生Subramanian Sundaram解釋說。
“我們總想讓機器人做人類能做的事情,比如洗碗或者其他家務活。如果你想讓機器人做這些事,它們必須得非常擅長于操縱物體才行”,他補充道。
在上周發(fā)表于Nature的一篇論文中,Sundaram和他在MIT的同事展示了如何給機器人“幫把手”——他們利用一種價值15美元、被稱為STAG(Scalable tactile glove,變尺度觸覺手套)的手套構(gòu)建了一個龐大的物體交互數(shù)據(jù)庫。
這種編織手套上裝有548個微小的傳感器,覆蓋了幾乎整個手掌。手套由人佩戴,當人在觸、提、握、放一系列物體時,這些傳感器就將上述過程中的壓力信息記錄下來。
MIT的研究者們選取了26個日常物體來生成數(shù)據(jù)集,包括易拉罐、剪刀、網(wǎng)球、勺子、筆和馬克杯等。
僅僅利用這一數(shù)據(jù)集,他們提出的系統(tǒng)可以以76%的準確率預測物體的類別。這一系統(tǒng)還可估測大部分物體的重量(誤差在60g左右)。
“抓取”問題所在
這種手套與電路板之間通過線路連接,將壓力數(shù)據(jù)轉(zhuǎn)化為“觸覺映射”——一種簡潔的點狀視頻圖像,這些點畫在一個手的圖像上,每個點可以變大變小。點越大,則該點受到的壓力也越大。
利用135000幀上述視頻圖像,一個卷積神經(jīng)網(wǎng)絡(通常用于圖像分類任務的一種神經(jīng)網(wǎng)絡)被訓練用來將每種壓力特征與特定的物體關聯(lián)在一起,并用其僅通過觸摸物體來預測物體的重量,而不引入任何視覺輸入。
這些研究者想讓他們的卷積神經(jīng)網(wǎng)絡模擬“人類通過幾種不同方式握持物體從而識別物體”的這一過程。他們設計使用視頻中選擇8個最不相似的半隨機幀來進行訓練,例如從邊緣、底部或手柄處握持一個馬克杯。
“我們希望最大化幀與幀之間的差異,從而給我們的神經(jīng)網(wǎng)絡盡可能最好的輸入信息”,MIT研究者Petr Kellnhofer說。
“單個集群中的所有視頻幀都應該具有類似的特征,這些特征代表了抓取物體的相似方式。從多個集群中采樣模擬了人類交互式地嘗試在探索一個物體的過程中尋找到不同的抓取方式的過程”,他解釋道。
這些研究者還利用這一數(shù)據(jù)集來分析在操縱物體的過程中手的不同區(qū)域之間是如何交互的。舉例來說,當某人使用食指的中間關節(jié)時,他們很少使用拇指。但食指和中指的指尖總是會與拇指一同使用。
Sundaram說,“我們第一次定量展示了如果我使用了我的手的某一部分,那么我同時使用手的另一部分的可能性”。
希望這項工作能夠幫助義肢制造商選擇放置壓力傳感器的最優(yōu)位置,使義肢更適合與日常物體進行交互。
Sundaram說,“通過人工模擬機械性刺激感受器網(wǎng)絡,深入理解人類抓取的觸覺特征,可以有助于未來的義肢、機器人抓取工具以及人-機交互的新設計”。
本文譯自 COMPUTERWORLD,由譯者 荔枝冰糖葫蘆 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )