123,123

很多人都知道霍金擁有一臺極高科技含量的輪椅，能在無法動彈或者言語的情況下，合成語音，以與外界進(jìn)行交流，甚至還因此著書立說。

但也可能有很多人不知道這臺輪椅是如何工作的。其實霍金一開始可以用手指來敲打鍵盤輸出文字，但隨著病情的加重，手指也無法動彈。于是相繼采用過眼球跟蹤和腦電波識別的技術(shù)，但最終由于病情的加重而放棄。

后來的霍金是戴著一副安裝了紅外探測器的眼鏡，通過識別臉頰的一塊兒肌肉運(yùn)動，來代替原來的按鍵。

至少在霍金在世的時候，他采用的已經(jīng)是世界上最先進(jìn)的語音合成技術(shù)。但科技的進(jìn)步往往神速而出乎意料，如果霍金多活幾年，他連動“肉”的勁兒都省掉，直接動動腦子，就能合成語音了。

因為，腦機(jī)接口技術(shù)，又搞了個大事情。

讓腦電波開口“說話”的前夜：先來打個字吧

以腦機(jī)接口的方式，捕捉大腦電波，然后實現(xiàn)打字的目的，再進(jìn)行語音合成輸出，并不是一個很難的課題。

去年世界機(jī)器人大會上，清華大學(xué)研發(fā)的“動態(tài)窗穩(wěn)態(tài)視覺誘發(fā)電位腦機(jī)接口系統(tǒng)”就“主導(dǎo)”了一場通過腦機(jī)接口來打字的比賽。參賽者們只要在頭上戴上相關(guān)設(shè)備，將注意力集中到電腦屏幕上的虛擬鍵盤中的字母上，腦電波就會被捕捉，然后將對應(yīng)的字母顯示出來。

字母打得多了，字也就打出來了。

這種方式和對霍金的一小塊兒肌肉進(jìn)行捕捉原理上基本上沒有差別，都是通過捕捉人對字母的強(qiáng)烈反應(yīng)而實現(xiàn)語言的輸出。不同之處在于，霍金由世界頂尖科技團(tuán)隊開發(fā)，可以采用單詞聯(lián)想的方式提高打字的效率。

這種方法聽起來確實很高端，但也存在一定的不足。

第一，打字的速度較慢。英語還好一點(diǎn)，只要字母拼全就完成了打字的過程；而漢語還需要進(jìn)行轉(zhuǎn)化，遇到同音詞還需要進(jìn)一步進(jìn)行選擇，這就需要進(jìn)行二次腦電波捕捉。逐字的打字方法令其在單位時間內(nèi)能夠打出的文字相當(dāng)有限。

第二，對參與者的精神集中有要求，而且抗干擾較弱。腦電波是非常敏感而且活躍的。一方面人如果注意力無法高度集中，系統(tǒng)就將很難對字母進(jìn)行定位；另一方面人的大腦在看到字母的時候往往會不由自主地產(chǎn)生聯(lián)想，比如看到“c”會想到“copy”或者“car”等詞，這也會對系統(tǒng)識別產(chǎn)生干擾。

正常人想要順利打個字都極度耗費(fèi)體力，就更不要說那些身患阿爾茲海默癥或者其他病癥導(dǎo)致無法言語的病人了?；艚鹬皼]有采用類似的方案，就是考慮到無法承受如此的體力消耗。

當(dāng)然，個人認(rèn)為這種方案雖然目前僅僅還停留在科技“趣聞”或者“獵奇”的階段，但其本身是一種突破性的。它的意義并不在于有多好用或是取得了多少實際的效果，而是在于探索出了一條腦機(jī)接口的新的道路。至少讓人們看到，通過腦機(jī)接口來實現(xiàn)“意念”輸處文本甚至是語音輸出是完全可行的。

而這種可行性，被加州大學(xué)舊金山分校的一項研究成果，進(jìn)一步證實并且加強(qiáng)。

把腦電波合成為語音，總共分幾步？

加州大學(xué)舊金山分校的神經(jīng)科學(xué)家的解決方案，是從解剖學(xué)的角度出發(fā)，模擬真人發(fā)音時大腦發(fā)出的口腔喉嚨肌電信號對發(fā)音系統(tǒng)的調(diào)動，比如在發(fā)“啊”這個音的時候，嘴唇、下巴、舌頭和喉嚨以及其他成分的動作，然后合成相應(yīng)的語音。

那么，要把腦電信號合成為語音，總共分幾步呢？

第一步，樣本收集。研究者讓5名完全健康的志愿者在UCSF Epileps接受了一項外科手術(shù)，在其大腦中臨時植入了一塊電極。接下來，志愿者被要求大聲朗讀指定的數(shù)百句話。在朗讀的過程中，科學(xué)家記錄了不同語言文字在朗讀過程中在大腦區(qū)域內(nèi)的活動信號。

第二步，破譯信號。通過循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的不斷學(xué)習(xí)，研究者將大腦神經(jīng)信號轉(zhuǎn)換成了發(fā)音器官動作的信號，這些信號與發(fā)音器官的動作直接相關(guān)，比如嘴唇、下巴、舌頭、喉嚨等。

第三步，虛擬聲道。虛擬不同聲音所產(chǎn)生的聲道運(yùn)動，就像漢語中雙唇音、唇齒音、舌尖中音等所需要調(diào)動的不同發(fā)音部位一樣，正常來說，如果模擬的發(fā)音運(yùn)動模式和人正常說話時一樣，那么所發(fā)的音也一定是一樣的。

最后一步，就可以進(jìn)行語音輸出了。

為了測試虛擬語音的流暢性，研究者們在亞馬遜的任務(wù)眾包平臺Mechanical Turk上招募聽眾來對這些合成語音的325個單詞和101個句子進(jìn)行辨認(rèn)，結(jié)果大部分的單詞和句子都被人們成功識別。

這意味著，不用動嘴，通過腦電波來實現(xiàn)語音輸出，完全是有可能的。這對于中風(fēng)、腦損傷或其他疾病而導(dǎo)致的語言功能障礙的輔助，將具有里程碑式的意義。

技術(shù)落地尚遠(yuǎn)，“腦機(jī)”仍需努力

相較于“字母表模式”，這項研究的優(yōu)勢是顯而易見的。

首先，語音合成速度會得到大大提高。字母表模式下，比如通過眼動或者肌肉塊兒的捕捉，每分鐘能成功輸出10個單詞左右。對于正常交流而言，一分鐘說10個字，一方面的確很不便，另一方面確實很考驗人的耐心。而通過聲道模擬語音，每分鐘輸出的單詞可以達(dá)到150個，這與自然語言中每分鐘100-150個單詞已經(jīng)幾乎沒有差別。實現(xiàn)正常人般的交流，可以說毫無壓力。

其次，相較于捕捉大腦信號對字母的感應(yīng)，語音產(chǎn)生的機(jī)電信號更為強(qiáng)烈，也就更容易捕捉。所以，這在很大程度上可以緩解因信號識別緩慢而導(dǎo)致語音合成效率低下和患者焦慮的問題，更進(jìn)一步而言，也增加了患者的接受度。

當(dāng)然，作為一項尚未走出實驗室的技術(shù)，它的缺陷也明顯存在。

第一，人工智能識別的準(zhǔn)確率和數(shù)據(jù)的豐富程度呈正相關(guān)。也就是說，利用RNN去進(jìn)行學(xué)習(xí)破譯腦電波信號并將其轉(zhuǎn)化為發(fā)音器官動作的信號，要想實現(xiàn)較高的正確率，就需要大量的數(shù)據(jù)。目前的現(xiàn)實是，雖然語音輸出的速度很快，但也只有一半的句子會被識別出來。就像說話的時候嘴里含著一口水，必然是會影響交流的感受和效率的。

第二，不同語言、不同方言之間的通用性很弱，即便是同一種語言，由于方言的差異性也會導(dǎo)致發(fā)音的時候各部位的運(yùn)動存在著細(xì)節(jié)性的發(fā)音差異，會導(dǎo)致語音合成的混淆。比如在漢語中“六”的發(fā)音，不同地域之間的差別達(dá)到了二十多個。為一種語言建立一種樣本？似乎有點(diǎn)過于繁瑣。

所以，如果能找到一種更好的方法能夠增強(qiáng)該技術(shù)的通用性尚可，如果僅僅停留在這個層面，其產(chǎn)品很可能無法走入尋常百姓家，而是成為顯貴人群的私人訂制。

研究者們自己也承認(rèn)，聲道運(yùn)動和語音的最終形成是一個復(fù)雜的關(guān)系，目前該系統(tǒng)對合成較慢的發(fā)音比較擅長，對說話者的節(jié)奏和語調(diào)有一定的要求，距離最終的應(yīng)用，仍然是有很長的一段路要走。

但不管怎樣，這也應(yīng)該屬于腦機(jī)接口技術(shù)的一次重大突破了。試想在不遠(yuǎn)的將來，你只需要動動腦子，就會有準(zhǔn)確無誤的文本或者語音轉(zhuǎn)化出來，人機(jī)交互將會變得多么順暢而自然；而對于那些長期存在語言表達(dá)障礙的弱勢群體而言，或許“福音”二字，已經(jīng)遠(yuǎn)不足以表達(dá)其所蘊(yùn)含的難以估量的價值。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個人觀點(diǎn)，與極客網(wǎng)無關(guān)。文章僅供讀者參考，并請自行核實相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

你盡管“動腦”，話交給腦機(jī)接口來說

下一篇