搜索“世界上最快的鳥是什么?”
谷歌會告訴你:“游隼。根據(jù)Youtube,游隼被記錄下最高 389 km/h 的時速。”
這的確是正確答案,但它并非來自于谷歌的數(shù)據(jù)庫。當你輸入這個問題的時候,谷歌搜索引擎找出了一個描述世界上五種最快鳥兒的 Youtube 視頻。然后它只把最快的“一種”鳥兒的信息提取出來,不提及另外四種。
這是谷歌搜索最新的技術(shù)進展。為了回答這些問題,谷歌需要借助深度神經(jīng)網(wǎng)絡(luò)。作為 AI 技術(shù)之一,它不僅正在重塑谷歌搜索引擎,還在革新谷歌全套人工智能服務(wù)。其它互聯(lián)網(wǎng)巨頭當然也受到波及,例如 Facebook 和微軟。
深度神經(jīng)網(wǎng)絡(luò)是一種模式識別系統(tǒng)。它能通過分析海量數(shù)據(jù),學(xué)習如何處理特定任務(wù)。這個例子中,它學(xué)會了怎么在網(wǎng)絡(luò)上的長篇文字中找出相關(guān)的一句或一段話,然后提取其中的要點呈現(xiàn)給你。
移動端谷歌搜索剛剛上線這種“句子壓縮算法”(sentence compression algorithms)。這個對人類來說很簡單,但對傳統(tǒng)的機器來說很難的任務(wù),終于能被 AI 系統(tǒng)完成。這說明,深度學(xué)習正在促進自然語言理解這門藝術(shù)(理解并回應(yīng)人類語言)的發(fā)展。
谷歌研發(fā)產(chǎn)品經(jīng)理 David Orr 說:“對于“句子壓縮”,你不得不使用神經(jīng)網(wǎng)絡(luò)算法,因為這是目前我們發(fā)現(xiàn)的唯一方法。”
為了訓(xùn)練神經(jīng)網(wǎng)絡(luò)算法,谷歌在全世界聘用了約百名語言學(xué)博士處理數(shù)據(jù),對它們?nèi)斯ずY選。事實上,谷歌的系統(tǒng)是從人類那里學(xué)習,怎么在大段文字中提取有用信息。而這過程需要一遍遍地重復(fù)——這是深度學(xué)習一個很大的限制。雇傭大批語言學(xué)家不停地篩選數(shù)據(jù)既麻煩又極其昂貴,但短期內(nèi)谷歌沒有別的辦法。
“黃金數(shù)據(jù)”和“白銀數(shù)據(jù)”
谷歌也使用過期的新聞來訓(xùn)練 AI 問答系統(tǒng)。這使 AI 逐漸理解,新聞標題是如何對文章主體進行歸納的。但這并不意味著谷歌不需要成批語言學(xué)家了。他們不僅示范句子壓縮,還要對語句的不同部分做標記,以幫助神經(jīng)網(wǎng)絡(luò)理解人類語言是如何工作的。David Orr 把谷歌語言學(xué)家團隊處理的數(shù)據(jù)稱為“黃金數(shù)據(jù)”,過期新聞則是“白銀數(shù)據(jù)”。“白銀數(shù)據(jù)”作用不小,因為它的體量很大。但價值最大的還是“黃金數(shù)據(jù)”,它們是 AI 訓(xùn)練的核心。語言學(xué)家團隊的負責人 Linne Ha 透露,在可見的將來,語言學(xué)家隊伍仍會繼續(xù)擴大。
這類需要人工輔助的 AI 學(xué)習便是“監(jiān)督學(xué)習”(supervised learning),目前,神經(jīng)網(wǎng)絡(luò)都是這么運作的。有時候公司會把這個業(yè)務(wù)進行眾包,有時候它會自發(fā)地進行。比方說,全世界的網(wǎng)民已經(jīng)為數(shù)百萬的貓咪照片添加了“貓咪”標簽,這會讓神經(jīng)網(wǎng)絡(luò)學(xué)習識別貓咪變得很簡單——訓(xùn)練數(shù)據(jù)已經(jīng)處理好了。但很多情況下,研究人員們別無選擇,只能自己一次次為數(shù)據(jù)添加標簽。
深度學(xué)習初創(chuàng)公司Skymind 的創(chuàng)始人 Chris Nicholson 認為,長遠來看,人工標注數(shù)據(jù)是不可行的。他說:“將來一定不會是這樣。這是極度枯燥的活兒。我想不出比這更無聊的 PhD 工作了。”
監(jiān)督學(xué)習的缺陷遠不止如此:除非谷歌聘請所有語言的語言學(xué)家,否則這個系統(tǒng)無法在其他語言中運轉(zhuǎn)。現(xiàn)在,語言學(xué)家團隊的工作橫跨了 20 至 30 種語言。谷歌必須在將來的某一天,采取更自動化的 AI 訓(xùn)練方式,即“無監(jiān)督學(xué)習”(unsupervised learning)。
到了那時,機器將能夠從未經(jīng)人工標注的數(shù)據(jù)中學(xué)習?;ヂ?lián)網(wǎng)上海量的數(shù)字信息可以被直接用于神經(jīng)網(wǎng)絡(luò)學(xué)習。 Google、Facebook 和 OpenAI這樣的巨頭們已經(jīng)開始這個領(lǐng)域的研究,但它的實際應(yīng)用仍然非常遙遠?,F(xiàn)在,AI 學(xué)習仍然需要幕后的大批語言學(xué)家隊伍
- 充電寶公司494名員工年入超百萬,安克創(chuàng)新高額獎金分紅引熱議
- 蘋果智能門鈴新特性揭秘:MagSafe技術(shù)加持,安全與便捷并存
- 海信電視新黑馬:墨晶屏+300Hz高刷,DeepSeek技術(shù)加持,2月26日驚艷開售
- 石頭智能洗地機A30 Pro Steam發(fā)布:革新清潔方式,蒸汽洗+熱水洗雙模式帶來全新體驗
- GL.iNet Spitz Plus:告別單一流量卡,4G無線路由器也能雙 SIM eSIM,高速上網(wǎng)更自由
- 海信攜手 XREAL 創(chuàng)新,AR/AI 眼鏡引領(lǐng)未來科技風潮,新品下半年震撼登場
- 高溫殺菌掃地機新寵:4299元追覓S50 Pro掃地機,越障能力強到爆
- 華為余承東劇透“想不到的產(chǎn)品”,騰訊積極回應(yīng):共同打磨極致體驗
- iPhone 17全系設(shè)計圖出爐:Plus機型缺席,4款機型3種設(shè)計引熱議
- 小米音箱升級新功能:小愛控車,智能家居再升級
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。