數據顯示,我國目前有1700多萬視力障礙人士,越來越多的社會力量關注到了他們,并試圖用技術和公益來改變他們的困境。
2023年1月13日下午,位于北京大鐘寺的一個報告廳里,由抖音集團產品、研發(fā)工程師以及清華大學、浙江大學等高校學生組成的12支隊伍正在進行決賽。5個多月前,64支隊伍,501名參賽選手開啟了這場“AI助力視障群體”為主題的技術公益大賽。
01.
找對一雙襪子
“襪子會不會穿錯?冰箱里的食物會不會過期?我們是否可以幫視障用戶,擺脫這些基本的困擾,是我們做這件事情的初衷?!?/p>
來自“靈瞳”團隊的產品經理在決賽舞臺上闡明了團隊的目標,他們希望能為視障人群帶來一個全方位的視覺助手。這個助手需要是語音、識別以及互動的能力。
靈瞳產品演示資料
在大量調研之后他們發(fā)現,目前相關產品分為三類,一是AI語音助手,它能詢問天氣預報、語音輸入協助檢索互聯網上的信息,但是這僅實現了對話式智能,無法滿足視覺需求;第二類是視覺識別工具,例如微軟專為視障開發(fā)的Seeing AI和谷歌的Look out應用,其商品識別功能能夠幫助用戶獲取商品條碼中的信息,以及閱讀文檔。但是無法實現與用戶的交互,即,它的識別功能只會對物體進行識別,文檔閱讀功能只能閱讀全部文字,用戶無法傳遞自己的有效、具體需求,只能被動接收AI的識別結果;第三類則是人工求助,如 Be My Eyes 和 Aira 項目,工作人員或志愿者通過視頻的方式為視障人群提供幫助,但是其人力和付費成本都比較高,很難推廣。
因此,“靈瞳”團隊決定設計一款“對話式視覺助手”。簡單來說,這是一款應用于手機和智能眼鏡的APP,初始界面類似一個相機,它可以聽取和理解用戶發(fā)起的提問,同時點擊按鈕錄制物品信息,它會根據問題提取有效信息并語音回答。
為此,他們主要從兩個方面來改進靈瞳的功能,一個是交互,一個是視覺。交互上,除了連續(xù)探索模式,還可以指尖探索,即用手觸摸屏幕來告訴用戶物品的相對應位置,還有一種是對話定位,用戶可以先告訴靈瞳想要什么樣的物品,比如想要尋找一個黃色的東西,你可以拿著攝像頭去尋找,一旦你想要的目標出現在屏幕中,靈瞳就會提示用戶的位置,在屏幕的左側還是右側。靈瞳還有一些輔助能力,比如找對襪子,線下買衣服,靈瞳都可以幫助你做一些輔助信息和判斷。
“靈瞳”團隊成員在比賽現場
此外,視障人士在使用智能設備時,可能出現隱私問題,比如視障人士在拍攝時,并不知道他拍攝的畫面點有沒有相關的隱私信息,比如銀行卡的圖片,為此,他們加入了智能信息的檢測能力,檢測到涉及隱私信息的圖就要確保圖片不會傳出手機。
靈瞳團隊相關負責人介紹,該創(chuàng)意在技術層面涉及到多模態(tài)技術,如視覺語言問答、視覺語言預訓練、視覺文字描述等,這些技術近兩年在學術界取得了顯著進展。其它的計算機視覺技術和語音技術,包括文字檢測和光學字符識別、語音識別和語音合成等技術已經成熟穩(wěn)定并廣泛應用。
靈瞳團隊的成員,一名來自抖音集團的研發(fā)工程師表示,他最早的觸動來自身邊人——一位好朋友去年患上視網膜相關的疾病,接下來視力會慢慢受影響甚至完全失明。從那之后,他就開始關注相關領域的技術和研發(fā),直至這次參加比賽。
在決賽中,靈瞳團隊得分最高,獲得一等獎,目前靈瞳iOS端App已經進入內測階段。
02.
可以聽見的二維碼
另一款頗受關注的參賽作品是“聽碼”。日常工作和生活中頻繁出現的掃碼操作給視障人群帶來極大困擾,而“聽碼”能夠將目前的“平面圖片”掃碼轉換為一種更為沉浸式的“空間音頻”掃碼。
從技術而言,它構建了一種全端到端的編碼器以及解碼器模型訓練框架,編碼系統(tǒng)能將收款支付連接、身份識別信息、網頁入口鏈接等信息加入到一段聲音信號上。這段聲音信號可以是一首歌曲或者是一段指令語音。當視障人士聽到這段聲音信號后,會使用裝載有解碼系統(tǒng)的終端設備上麥克風來接收到語音信號。此時解碼系統(tǒng)會解碼得到二維碼信息,從而完成收付款、身份驗證、進入網頁等操作。目前該項目已通過技術評測并申請專利,未來,將融入抖音等產品的相關掃碼功能。
“聆影聽光”團隊想嘗試改善視障人群對于視頻內容的需求。目前,無障礙視頻內容流程是人工重新撰寫對應視頻內容的腳本,再配音錄制,輔之以智能讀屏。由于制作成本高,且標準不統(tǒng)一,視障用戶可選擇的內容少且體驗不好。
他們希望通過技術將現有的長短視頻能夠更智能的制作,核心技術是智能視頻理解、智能語音合成、智能語音識別。在視頻理解并自動生成旁白文本的能力還未成熟時,他們開發(fā)了標注平臺,通過標注和語音合成技術生成旁白底稿和音庫。在視頻理解自動生成底稿能力經過驗證后,即可全自動化生產中長音視頻內容,范圍逐漸可以擴大至電視劇、綜藝、電影、體育比賽等。
“聆影聽光”團隊成員在比賽現場
在團隊成員看來,視障人群在這方面的需求可能要更強烈,不僅是出于娛樂,還有社交的目的——有更多話題可以融入身邊環(huán)境。
12支進入決賽的團隊依據自身技術特點,還提供了關于視障人群的出行、辦公、購物、美妝、游戲等需求的智能解決方案。
“BANG”為視障人群提供了一款無障礙的創(chuàng)作工具:用AI技術實現文本轉圖、圖像編輯、色塊成圖等功能,支持語音交互方式,幫助視力障礙人群進行便捷創(chuàng)作和表達。
“世界和平“小隊則從工作場景出發(fā),希望提供一種面向B端的“工區(qū)無障礙改造”的智能工具,為有視力障礙人群就職的機構提供無障礙化改造方案,以給視障群體提供更加舒服的辦公環(huán)境。
03.
和視障人群“肩并肩”
人類的悲歡并不相通,“明眼人”也很難真正理解視障人群生活中的不便,一直致力于幫助視障群體的公益人傅高山對此深有感觸:“明眼人要真正與視障人群從面對面切換進入到肩并肩視角是很難的,讓明眼人理解我們真實的需求是第一步?!?/p>
要打破這樣的隔閡,僅僅熱情是不夠的,需要耐心的溝通,甚至放下自己對產品和技術的“執(zhí)念”。
比如“BANG”團隊的劉瑋,在對視障群體相關專家的用戶體驗做了反饋后就發(fā)現,自己原本的認知被顛覆了,也改變了產品的設計方向:“我們完全不應該把所謂的弱勢群體和視障群體去掛鉤,視障群體能做的和需要做的和非視障群體沒有區(qū)別,他們更希望自己使用的產品和非視障群體是相同的,重要的是我們能在產品設計初期就做好無障礙的適配,有利于未來去做一個面向全民的工具?!?/p>
而設計耳機的微光團隊,與用戶溝通需求后發(fā)現,起初他們認為可以通過技術讓產品落地,但實際上技術在很多問題上是沒有效果的?!凹词故巧系罔F和下地鐵,買東西和結賬,都要面臨非常細分的問題,好的技術可能不是使用所謂的高科技,而是能夠低成本且有效的解決問題?!弊罱K團隊回歸到對人的依賴上,讓用戶可以聯系在線的緊急聯系人,或者一公里內愿意提供支持的用戶。
技術公益,出發(fā)點和落腳點,都是公益而非技術,最終也要回歸到幫助視障人群真正解決問題上。靈瞳團隊的產品經理也經歷過這樣的改變:“技術人有時候會有一點技術潔癖,比如會追求一個漂亮的交互或者高級的算法,而忽略其他東西。比如,產品中有一個‘幫助視障者探索環(huán)境和定位感興趣物品’的小功能,它卡住了流程,交互和運行都不滿意。最后在受益人的建議下,我們采取了看起來比較低階的技術形式,但是解決了更多問題。關注真實需求,這也是我們的學習的經歷?!?/p>
比賽的評審問答互動環(huán)節(jié)
本次活動上,評委除了行業(yè)專家,還有視障專家團,如傅高山、盲人美妝師肖佳等。過程中他們作為觀察者,也坦誠給出各個隊伍和產品真實的反饋。中國盲人協會主席李慶忠,在比賽的最后表示,聽到這些項目很感動,因為感受到,項目團隊們對盲人的需求了解的非常深,也很有針對性。即使場景范圍較小的項目,比如美妝,也具有突破性的意義。
在最后,負責賽事的相關負責人表示,比賽只是為了提供更多的創(chuàng)意,創(chuàng)意之后可能還有demo、還有上線、還有運轉和維護等,賽后,抖音公益會支持和協助有價值的項目進行孵化和落地。
- 特斯拉CEO馬斯克身家暴漲,穩(wěn)居全球首富寶座
- 阿里巴巴擬發(fā)行 26.5 億美元和 170 億人民幣債券
- 騰訊音樂Q3持續(xù)穩(wěn)健增長:總收入70.2億元,付費用戶數1.19億
- 蘋果Q4營收949億美元同比增6%,在華營收微降
- 三星電子Q3營收79萬億韓元,營業(yè)利潤受一次性成本影響下滑
- 賽力斯已向華為支付23億,購買引望10%股權
- 格力電器三季度營收同比降超15%,凈利潤逆勢增長
- 合合信息2024年前三季度業(yè)績穩(wěn)?。籂I收增長超21%,凈利潤增長超11%
- 臺積電四季度營收有望再攀高峰,預計超260億美元刷新紀錄
- 韓國三星電子決定退出LED業(yè)務,市值蒸發(fā)超4600億元
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。