你盡管“動(dòng)腦”,話交給腦機(jī)接口來(lái)說(shuō)

原標(biāo)題:你盡管“動(dòng)腦”,話交給腦機(jī)接口來(lái)說(shuō)

很多人都知道霍金擁有一臺(tái)極高科技含量的輪椅,能在無(wú)法動(dòng)彈或者言語(yǔ)的情況下,合成語(yǔ)音,以與外界進(jìn)行交流,甚至還因此著書(shū)立說(shuō)。

但也可能有很多人不知道這臺(tái)輪椅是如何工作的。其實(shí)霍金一開(kāi)始可以用手指來(lái)敲打鍵盤輸出文字,但隨著病情的加重,手指也無(wú)法動(dòng)彈。于是相繼采用過(guò)眼球跟蹤和腦電波識(shí)別的技術(shù),但最終由于病情的加重而放棄。

后來(lái)的霍金是戴著一副安裝了紅外探測(cè)器的眼鏡,通過(guò)識(shí)別臉頰的一塊兒肌肉運(yùn)動(dòng),來(lái)代替原來(lái)的按鍵。

至少在霍金在世的時(shí)候,他采用的已經(jīng)是世界上最先進(jìn)的語(yǔ)音合成技術(shù)。但科技的進(jìn)步往往神速而出乎意料,如果霍金多活幾年,他連動(dòng)“肉”的勁兒都省掉,直接動(dòng)動(dòng)腦子,就能合成語(yǔ)音了。

因?yàn)?,腦機(jī)接口技術(shù),又搞了個(gè)大事情。

讓腦電波開(kāi)口“說(shuō)話”的前夜:先來(lái)打個(gè)字吧

以腦機(jī)接口的方式,捕捉大腦電波,然后實(shí)現(xiàn)打字的目的,再進(jìn)行語(yǔ)音合成輸出,并不是一個(gè)很難的課題。

去年世界機(jī)器人大會(huì)上,清華大學(xué)研發(fā)的“動(dòng)態(tài)窗穩(wěn)態(tài)視覺(jué)誘發(fā)電位腦機(jī)接口系統(tǒng)”就“主導(dǎo)”了一場(chǎng)通過(guò)腦機(jī)接口來(lái)打字的比賽。參賽者們只要在頭上戴上相關(guān)設(shè)備,將注意力集中到電腦屏幕上的虛擬鍵盤中的字母上,腦電波就會(huì)被捕捉,然后將對(duì)應(yīng)的字母顯示出來(lái)。

字母打得多了,字也就打出來(lái)了。

這種方式和對(duì)霍金的一小塊兒肌肉進(jìn)行捕捉原理上基本上沒(méi)有差別,都是通過(guò)捕捉人對(duì)字母的強(qiáng)烈反應(yīng)而實(shí)現(xiàn)語(yǔ)言的輸出。不同之處在于,霍金由世界頂尖科技團(tuán)隊(duì)開(kāi)發(fā),可以采用單詞聯(lián)想的方式提高打字的效率。

這種方法聽(tīng)起來(lái)確實(shí)很高端,但也存在一定的不足。

第一,打字的速度較慢。英語(yǔ)還好一點(diǎn),只要字母拼全就完成了打字的過(guò)程;而漢語(yǔ)還需要進(jìn)行轉(zhuǎn)化,遇到同音詞還需要進(jìn)一步進(jìn)行選擇,這就需要進(jìn)行二次腦電波捕捉。逐字的打字方法令其在單位時(shí)間內(nèi)能夠打出的文字相當(dāng)有限。

第二,對(duì)參與者的精神集中有要求,而且抗干擾較弱。腦電波是非常敏感而且活躍的。一方面人如果注意力無(wú)法高度集中,系統(tǒng)就將很難對(duì)字母進(jìn)行定位;另一方面人的大腦在看到字母的時(shí)候往往會(huì)不由自主地產(chǎn)生聯(lián)想,比如看到“c”會(huì)想到“copy”或者“car”等詞,這也會(huì)對(duì)系統(tǒng)識(shí)別產(chǎn)生干擾。

正常人想要順利打個(gè)字都極度耗費(fèi)體力,就更不要說(shuō)那些身患阿爾茲海默癥或者其他病癥導(dǎo)致無(wú)法言語(yǔ)的病人了?;艚鹬皼](méi)有采用類似的方案,就是考慮到無(wú)法承受如此的體力消耗。

當(dāng)然,個(gè)人認(rèn)為這種方案雖然目前僅僅還停留在科技“趣聞”或者“獵奇”的階段,但其本身是一種突破性的。它的意義并不在于有多好用或是取得了多少實(shí)際的效果,而是在于探索出了一條腦機(jī)接口的新的道路。至少讓人們看到,通過(guò)腦機(jī)接口來(lái)實(shí)現(xiàn)“意念”輸處文本甚至是語(yǔ)音輸出是完全可行的。

而這種可行性,被加州大學(xué)舊金山分校的一項(xiàng)研究成果,進(jìn)一步證實(shí)并且加強(qiáng)。

把腦電波合成為語(yǔ)音,總共分幾步?

加州大學(xué)舊金山分校的神經(jīng)科學(xué)家的解決方案,是從解剖學(xué)的角度出發(fā),模擬真人發(fā)音時(shí)大腦發(fā)出的口腔喉嚨肌電信號(hào)對(duì)發(fā)音系統(tǒng)的調(diào)動(dòng),比如在發(fā)“啊”這個(gè)音的時(shí)候,嘴唇、下巴、舌頭和喉嚨以及其他成分的動(dòng)作,然后合成相應(yīng)的語(yǔ)音。

那么,要把腦電信號(hào)合成為語(yǔ)音,總共分幾步呢?

第一步,樣本收集。研究者讓5名完全健康的志愿者在UCSF Epileps接受了一項(xiàng)外科手術(shù),在其大腦中臨時(shí)植入了一塊電極。接下來(lái),志愿者被要求大聲朗讀指定的數(shù)百句話。在朗讀的過(guò)程中,科學(xué)家記錄了不同語(yǔ)言文字在朗讀過(guò)程中在大腦區(qū)域內(nèi)的活動(dòng)信號(hào)。

第二步,破譯信號(hào)。通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的不斷學(xué)習(xí),研究者將大腦神經(jīng)信號(hào)轉(zhuǎn)換成了發(fā)音器官動(dòng)作的信號(hào),這些信號(hào)與發(fā)音器官的動(dòng)作直接相關(guān),比如嘴唇、下巴、舌頭、喉嚨等。

第三步,虛擬聲道。虛擬不同聲音所產(chǎn)生的聲道運(yùn)動(dòng),就像漢語(yǔ)中雙唇音、唇齒音、舌尖中音等所需要調(diào)動(dòng)的不同發(fā)音部位一樣,正常來(lái)說(shuō),如果模擬的發(fā)音運(yùn)動(dòng)模式和人正常說(shuō)話時(shí)一樣,那么所發(fā)的音也一定是一樣的。

最后一步,就可以進(jìn)行語(yǔ)音輸出了。

為了測(cè)試虛擬語(yǔ)音的流暢性,研究者們?cè)趤嗰R遜的任務(wù)眾包平臺(tái)Mechanical Turk上招募聽(tīng)眾來(lái)對(duì)這些合成語(yǔ)音的325個(gè)單詞和101個(gè)句子進(jìn)行辨認(rèn),結(jié)果大部分的單詞和句子都被人們成功識(shí)別。

這意味著,不用動(dòng)嘴,通過(guò)腦電波來(lái)實(shí)現(xiàn)語(yǔ)音輸出,完全是有可能的。這對(duì)于中風(fēng)、腦損傷或其他疾病而導(dǎo)致的語(yǔ)言功能障礙的輔助,將具有里程碑式的意義。

技術(shù)落地尚遠(yuǎn),“腦機(jī)”仍需努力

相較于“字母表模式”,這項(xiàng)研究的優(yōu)勢(shì)是顯而易見(jiàn)的。

首先,語(yǔ)音合成速度會(huì)得到大大提高。字母表模式下,比如通過(guò)眼動(dòng)或者肌肉塊兒的捕捉,每分鐘能成功輸出10個(gè)單詞左右。對(duì)于正常交流而言,一分鐘說(shuō)10個(gè)字,一方面的確很不便,另一方面確實(shí)很考驗(yàn)人的耐心。而通過(guò)聲道模擬語(yǔ)音,每分鐘輸出的單詞可以達(dá)到150個(gè),這與自然語(yǔ)言中每分鐘100-150個(gè)單詞已經(jīng)幾乎沒(méi)有差別。實(shí)現(xiàn)正常人般的交流,可以說(shuō)毫無(wú)壓力。

其次,相較于捕捉大腦信號(hào)對(duì)字母的感應(yīng),語(yǔ)音產(chǎn)生的機(jī)電信號(hào)更為強(qiáng)烈,也就更容易捕捉。所以,這在很大程度上可以緩解因信號(hào)識(shí)別緩慢而導(dǎo)致語(yǔ)音合成效率低下和患者焦慮的問(wèn)題,更進(jìn)一步而言,也增加了患者的接受度。

當(dāng)然,作為一項(xiàng)尚未走出實(shí)驗(yàn)室的技術(shù),它的缺陷也明顯存在。

第一,人工智能識(shí)別的準(zhǔn)確率和數(shù)據(jù)的豐富程度呈正相關(guān)。也就是說(shuō),利用RNN去進(jìn)行學(xué)習(xí)破譯腦電波信號(hào)并將其轉(zhuǎn)化為發(fā)音器官動(dòng)作的信號(hào),要想實(shí)現(xiàn)較高的正確率,就需要大量的數(shù)據(jù)。目前的現(xiàn)實(shí)是,雖然語(yǔ)音輸出的速度很快,但也只有一半的句子會(huì)被識(shí)別出來(lái)。就像說(shuō)話的時(shí)候嘴里含著一口水,必然是會(huì)影響交流的感受和效率的。

第二,不同語(yǔ)言、不同方言之間的通用性很弱,即便是同一種語(yǔ)言,由于方言的差異性也會(huì)導(dǎo)致發(fā)音的時(shí)候各部位的運(yùn)動(dòng)存在著細(xì)節(jié)性的發(fā)音差異,會(huì)導(dǎo)致語(yǔ)音合成的混淆。比如在漢語(yǔ)中“六”的發(fā)音,不同地域之間的差別達(dá)到了二十多個(gè)。為一種語(yǔ)言建立一種樣本?似乎有點(diǎn)過(guò)于繁瑣。

所以,如果能找到一種更好的方法能夠增強(qiáng)該技術(shù)的通用性尚可,如果僅僅停留在這個(gè)層面,其產(chǎn)品很可能無(wú)法走入尋常百姓家,而是成為顯貴人群的私人訂制。

研究者們自己也承認(rèn),聲道運(yùn)動(dòng)和語(yǔ)音的最終形成是一個(gè)復(fù)雜的關(guān)系,目前該系統(tǒng)對(duì)合成較慢的發(fā)音比較擅長(zhǎng),對(duì)說(shuō)話者的節(jié)奏和語(yǔ)調(diào)有一定的要求,距離最終的應(yīng)用,仍然是有很長(zhǎng)的一段路要走。

但不管怎樣,這也應(yīng)該屬于腦機(jī)接口技術(shù)的一次重大突破了。試想在不遠(yuǎn)的將來(lái),你只需要?jiǎng)觿?dòng)腦子,就會(huì)有準(zhǔn)確無(wú)誤的文本或者語(yǔ)音轉(zhuǎn)化出來(lái),人機(jī)交互將會(huì)變得多么順暢而自然;而對(duì)于那些長(zhǎng)期存在語(yǔ)言表達(dá)障礙的弱勢(shì)群體而言,或許“福音”二字,已經(jīng)遠(yuǎn)不足以表達(dá)其所蘊(yùn)含的難以估量的價(jià)值。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-06-02
你盡管“動(dòng)腦”,話交給腦機(jī)接口來(lái)說(shuō)
人如果注意力無(wú)法高度集中,系統(tǒng)就將很難對(duì)字母進(jìn)行定位;另一方面人的大腦在看到字母的時(shí)候往往會(huì)不由自主地產(chǎn)生聯(lián)想,比如看到“c”會(huì)想到“copy”或者“car”等詞,這也會(huì)對(duì)系統(tǒng)識(shí)別產(chǎn)生干擾。

長(zhǎng)按掃碼 閱讀全文