搜索“世界上最快的鳥(niǎo)是什么?”
谷歌會(huì)告訴你:“游隼。根據(jù)Youtube,游隼被記錄下最高 389 km/h 的時(shí)速。”
這的確是正確答案,但它并非來(lái)自于谷歌的數(shù)據(jù)庫(kù)。當(dāng)你輸入這個(gè)問(wèn)題的時(shí)候,谷歌搜索引擎找出了一個(gè)描述世界上五種最快鳥(niǎo)兒的 Youtube 視頻。然后它只把最快的“一種”鳥(niǎo)兒的信息提取出來(lái),不提及另外四種。
這是谷歌搜索最新的技術(shù)進(jìn)展。為了回答這些問(wèn)題,谷歌需要借助深度神經(jīng)網(wǎng)絡(luò)。作為 AI 技術(shù)之一,它不僅正在重塑谷歌搜索引擎,還在革新谷歌全套人工智能服務(wù)。其它互聯(lián)網(wǎng)巨頭當(dāng)然也受到波及,例如 Facebook 和微軟。
深度神經(jīng)網(wǎng)絡(luò)是一種模式識(shí)別系統(tǒng)。它能通過(guò)分析海量數(shù)據(jù),學(xué)習(xí)如何處理特定任務(wù)。這個(gè)例子中,它學(xué)會(huì)了怎么在網(wǎng)絡(luò)上的長(zhǎng)篇文字中找出相關(guān)的一句或一段話,然后提取其中的要點(diǎn)呈現(xiàn)給你。
移動(dòng)端谷歌搜索剛剛上線這種“句子壓縮算法”(sentence compression algorithms)。這個(gè)對(duì)人類來(lái)說(shuō)很簡(jiǎn)單,但對(duì)傳統(tǒng)的機(jī)器來(lái)說(shuō)很難的任務(wù),終于能被 AI 系統(tǒng)完成。這說(shuō)明,深度學(xué)習(xí)正在促進(jìn)自然語(yǔ)言理解這門(mén)藝術(shù)(理解并回應(yīng)人類語(yǔ)言)的發(fā)展。
谷歌研發(fā)產(chǎn)品經(jīng)理 David Orr 說(shuō):“對(duì)于“句子壓縮”,你不得不使用神經(jīng)網(wǎng)絡(luò)算法,因?yàn)檫@是目前我們發(fā)現(xiàn)的唯一方法。”
為了訓(xùn)練神經(jīng)網(wǎng)絡(luò)算法,谷歌在全世界聘用了約百名語(yǔ)言學(xué)博士處理數(shù)據(jù),對(duì)它們?nèi)斯ずY選。事實(shí)上,谷歌的系統(tǒng)是從人類那里學(xué)習(xí),怎么在大段文字中提取有用信息。而這過(guò)程需要一遍遍地重復(fù)——這是深度學(xué)習(xí)一個(gè)很大的限制。雇傭大批語(yǔ)言學(xué)家不停地篩選數(shù)據(jù)既麻煩又極其昂貴,但短期內(nèi)谷歌沒(méi)有別的辦法。
“黃金數(shù)據(jù)”和“白銀數(shù)據(jù)”
谷歌也使用過(guò)期的新聞來(lái)訓(xùn)練 AI 問(wèn)答系統(tǒng)。這使 AI 逐漸理解,新聞標(biāo)題是如何對(duì)文章主體進(jìn)行歸納的。但這并不意味著谷歌不需要成批語(yǔ)言學(xué)家了。他們不僅示范句子壓縮,還要對(duì)語(yǔ)句的不同部分做標(biāo)記,以幫助神經(jīng)網(wǎng)絡(luò)理解人類語(yǔ)言是如何工作的。David Orr 把谷歌語(yǔ)言學(xué)家團(tuán)隊(duì)處理的數(shù)據(jù)稱為“黃金數(shù)據(jù)”,過(guò)期新聞則是“白銀數(shù)據(jù)”。“白銀數(shù)據(jù)”作用不小,因?yàn)樗捏w量很大。但價(jià)值最大的還是“黃金數(shù)據(jù)”,它們是 AI 訓(xùn)練的核心。語(yǔ)言學(xué)家團(tuán)隊(duì)的負(fù)責(zé)人 Linne Ha 透露,在可見(jiàn)的將來(lái),語(yǔ)言學(xué)家隊(duì)伍仍會(huì)繼續(xù)擴(kuò)大。
這類需要人工輔助的 AI 學(xué)習(xí)便是“監(jiān)督學(xué)習(xí)”(supervised learning),目前,神經(jīng)網(wǎng)絡(luò)都是這么運(yùn)作的。有時(shí)候公司會(huì)把這個(gè)業(yè)務(wù)進(jìn)行眾包,有時(shí)候它會(huì)自發(fā)地進(jìn)行。比方說(shuō),全世界的網(wǎng)民已經(jīng)為數(shù)百萬(wàn)的貓咪照片添加了“貓咪”標(biāo)簽,這會(huì)讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)識(shí)別貓咪變得很簡(jiǎn)單——訓(xùn)練數(shù)據(jù)已經(jīng)處理好了。但很多情況下,研究人員們別無(wú)選擇,只能自己一次次為數(shù)據(jù)添加標(biāo)簽。
深度學(xué)習(xí)初創(chuàng)公司Skymind 的創(chuàng)始人 Chris Nicholson 認(rèn)為,長(zhǎng)遠(yuǎn)來(lái)看,人工標(biāo)注數(shù)據(jù)是不可行的。他說(shuō):“將來(lái)一定不會(huì)是這樣。這是極度枯燥的活兒。我想不出比這更無(wú)聊的 PhD 工作了。”
監(jiān)督學(xué)習(xí)的缺陷遠(yuǎn)不止如此:除非谷歌聘請(qǐng)所有語(yǔ)言的語(yǔ)言學(xué)家,否則這個(gè)系統(tǒng)無(wú)法在其他語(yǔ)言中運(yùn)轉(zhuǎn)。現(xiàn)在,語(yǔ)言學(xué)家團(tuán)隊(duì)的工作橫跨了 20 至 30 種語(yǔ)言。谷歌必須在將來(lái)的某一天,采取更自動(dòng)化的 AI 訓(xùn)練方式,即“無(wú)監(jiān)督學(xué)習(xí)”(unsupervised learning)。
到了那時(shí),機(jī)器將能夠從未經(jīng)人工標(biāo)注的數(shù)據(jù)中學(xué)習(xí)?;ヂ?lián)網(wǎng)上海量的數(shù)字信息可以被直接用于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。 Google、Facebook 和 OpenAI這樣的巨頭們已經(jīng)開(kāi)始這個(gè)領(lǐng)域的研究,但它的實(shí)際應(yīng)用仍然非常遙遠(yuǎn)?,F(xiàn)在,AI 學(xué)習(xí)仍然需要幕后的大批語(yǔ)言學(xué)家隊(duì)伍
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- Counterpoint:59%的受訪者計(jì)劃在一年內(nèi)升級(jí)到Gen AI智能手機(jī)
- 美國(guó)ITC裁定聯(lián)想智能手機(jī)侵犯愛(ài)立信專利
- 英特爾高通隔空叫陣:兩大巨頭在較什么勁?
- IDC最新預(yù)測(cè):2024年P(guān)C和平板電腦市場(chǎng)將增長(zhǎng)3.8%至4.035億臺(tái)
- 蘋(píng)果Vision Pro頭顯即將登陸中國(guó)臺(tái)灣,12月17日正式發(fā)售
- 全球折疊屏手機(jī)出貨量首次遭遇季度下滑,三星旗艦機(jī)型表現(xiàn)不佳是主因
- HUAWEI Mate X6 震撼登場(chǎng),折疊引領(lǐng)者,巔峰再跨越
- 五年持續(xù)領(lǐng)跑,華為折疊屏一步領(lǐng)先,一路領(lǐng)先
- 全新HUAWEI MatePad Pro 13.2 英寸首發(fā)亮相,鴻蒙專業(yè)生產(chǎn)力體驗(yàn)再升級(jí)
- 華為凌霄子母路由 Q7 網(wǎng)線版推出,讓每個(gè)房間都有滿格信號(hào)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。