智能搜索時代:且看知識的力量

摘要:前幾天,谷歌發(fā)布了一個全新的書籍搜索產(chǎn)品:“TalktoBooks”,用戶可以通過對話的方式得到一本書籍的推薦,比如輸入:“Whatisthebestprogramminglanguage?”(什么是

前幾天,谷歌發(fā)布了一個全新的書籍搜索產(chǎn)品:“Talk to Books”,用戶可以通過對話的方式得到一本書籍的推薦,比如輸入:“What is thebest programming language?”(什么是最好的編程語言?),就會被推薦《C Programming for Arduino 》。這個產(chǎn)品是典型的知識圖譜技術的應用,它讓搜索引擎可以理解用戶的問題和每一本書的內容,進而進行精準匹配——就像有人在豆瓣給你薦書一樣。事實上,知識圖譜仍舊在驅動著已有20多年歷史的搜索引擎進化。

?智能搜索時代來臨

以前的搜索引擎長什么樣?聯(lián)想一下我們用得最多的百度,不難描述:簡潔的白色頁面有一個搜索框,鍵入關鍵詞后,就會得到一個網(wǎng)頁列表,而決定用戶體驗的只有一個因素:結果是否足夠多,排序是否足夠準。

然而今天的百度,已經(jīng)變得截然不同。除了首頁有了信息流外,搜索結果頁變得更加豐富,左側結果列表頁內容更加多樣化,聚合了百科、新聞、圖片等等內容,右側變得前所未有的豐富。比如你搜索馬云,出現(xiàn)在右側的關聯(lián)內容列表就有三個:阿里創(chuàng)始成員、知名企業(yè)家、馬云風云史。

信息的聚合似乎還不能讓用戶感知到搜索引擎的“智能”,頂多是“豐富”。如果你搜索“太陽的質量”、“2的五次方等于多少”、“形容大海的成語”、“成龍的老婆是誰”,就會發(fā)現(xiàn)百度可以精準地理解你的問題,再給你個性化的結果,它不只是可以理解一段文字,也可以理解圖片和聲音,比如你可以用百度App上傳一張植物的圖片,百度會告訴你這是什么。

在百度App搜索在精準化上表現(xiàn)更明顯,搜索不同內容,每次的結果頁面前面的卡片都截然不同。理論上來說,移動搜索更需要這樣的智能聚合。手機屏幕很小,如果按照傳統(tǒng)的列表來展示搜索結果頁對用戶并不友好,精準、智能和個性化地呈現(xiàn)結果十分重要,直接決定用戶體驗。PC搜索的體驗是由排序算法決定的,而移動搜索的體驗是由精準程度決定的,最終搜索引擎應該只給用戶一個答案——他最需要的答案。

谷歌“Talk to Books”只會給你推薦一本你最需要的書,而不是一個書籍的列表,Siri、度秘這樣的語音助理,給你的答案同樣只有一個,PC搜索要豐富,移動搜索求精準,少即是多。

說到底,相對于五年前而言,搜索引擎更能理解你的意圖——不論是自然語言、關鍵詞、語音還是圖片,都可以揣摩到你想要找什么內容的意圖,同時更加智能地整合更適合的結果到一個頁面。搜索的case不能窮舉,搜索結果頁面的不同也無法一一列舉,因為這是完全個性化的,針對不同搜索需求采取不同形式,對結果進行展現(xiàn),一擊即中。

互聯(lián)網(wǎng)從來不缺新技術和新產(chǎn)品,信息流、短視頻、AI、區(qū)塊鏈、IoT、邊緣計算,新生事物層出不窮。搜索引擎作為互聯(lián)網(wǎng)最基礎也是最廣泛的應用之一,每天被我們使用,其潛移默化的進化被許多人忽視。如果拿一張五年前的搜索截圖和今天的進行對比,你一定會發(fā)現(xiàn)它們截然不同,智能化是核心變化——智能地理解搜索需求,智能地呈現(xiàn)個性而精準的結果。

知識圖譜成搜索新基石

搜索引擎的技術基石是什么?自然語言處理技術,不論是爬取、處理和索引網(wǎng)頁,還是理解用戶的搜索訴求,關鍵技術就是自然語言處理技術。五年前這個答案是正確的,今天再來看這個問題,答案已經(jīng)變成了知識圖譜。

知識圖譜是在技術層面,將現(xiàn)實世界的知識點進行關聯(lián),形成一個知識網(wǎng)絡,對機器來說就是圖譜。比如提到李彥宏,我們就會想到百度,互聯(lián)網(wǎng)大佬,企業(yè)家,山西等等標簽,每一個標簽會有對應的內容,如互聯(lián)網(wǎng)大佬就是馬云、馬化騰等等,如此不斷聯(lián)想不斷關聯(lián)就可以形成一個龐大的知識點網(wǎng)絡。

搜索引擎的知識圖譜比上面所聯(lián)想的要龐大很多,因為形成知識圖譜的過程本質是在建立認知,理解世界。每個人都有自己的知識面,或者說知識結構,本質就是不同的知識圖譜,一個人窮盡一生能夠構建的知識圖譜在搜索引擎面前都是滄海一束,因為后者是映射的整個真實世界。

當構建了知識圖譜,就可以利用它來讓搜索變得更加智能。一方面,有知識圖譜等于對世界有了認知,再加上自然語言處理技術,可以理解用戶的自然語言、聽懂用戶的語音命令,理解各種內容進而更好地匹配答案。另一方面,基于知識圖譜和自然語言處理技術孵化出了許多創(chuàng)新的智能搜索產(chǎn)品,如智能問答、對話式搜索、信息流等等,比如被視作“被動搜索引擎”的信息流,每個用戶看到的結果都不一樣,看了一篇文章的行為會決定接下來會被推薦什么,一切都是動態(tài)的,而其基礎除了用戶理解和內容理解技術以外,同樣包括知識圖譜:內容被建立了圖譜,用戶被貼上了標簽(畫像),進而智能推薦。

總之,今天的智能搜索邏輯,跟當年基于關鍵詞匹配的搜索邏輯已經(jīng)截然不同了。五年前搜索引擎是在理解你的搜索需求后,通過關鍵詞去索引庫匹配答案,如今的搜索引擎可以理解你的需求,結合知識圖譜去關聯(lián)對應的內容,知識圖譜成為基石。

谷歌是知識圖譜的始作俑者,而在知識圖譜的探索上,百度在中國走在了前面,2014年上半年就已開始提供線上服務,四年的時間線上服務量整體上增長了300多倍,正是因為構建了知識圖譜,所以百度能夠提供跟五年前截然不同的智能搜索體驗。日前,在蘇州第十三屆中國電子信息技術年會上,百度知識圖譜獲電子學會科技進步一等獎,證明了其學術價值。事實上,緊隨百度步伐,搜狗搜索、神馬搜索都已構建起自己的知識圖譜,以求實現(xiàn)智能搜索服務。

百度副總裁,AI技術平臺體系(AIG)總負責人王海峰透露,百度知識圖譜已有幾個億的節(jié)點(知識點),它們基于百度對幾千億的鏈接(每個鏈接是一個內容,也是一個實體)進行智能挖掘而形成,隨著百度連接的內容越來越多(包括網(wǎng)頁和平臺內容),這個知識圖譜正在以幾何級數(shù)量爆發(fā)式增長。同時百度在歷史、商業(yè)、通信、零售、科技等等垂直行業(yè)上進行知識圖譜的完善細化,讓搜索引擎更懂領域知識。

王海峰認為,“互聯(lián)網(wǎng)很大程度是真實世界的一個鏡像,而搜索引擎又是互聯(lián)網(wǎng)的一個鏡像,所以,搜索引擎很大程度上成了真實世界的鏡像。”知識圖譜是搜索引擎描述和映射真實世界的關鍵。王海峰是自然語言處理領域的頂尖專家,是百度AI技術的奠基人,也是百度知識圖譜的推動者。智能搜索時代來臨,王海峰提前對AI和知識圖譜技術的布局,給百度奠定了堅實的技術基礎。

知識圖譜不只是改變搜索

智能搜索是知識圖譜最典型的應用,不過,既然知識圖譜的本質是數(shù)字世界對真實世界的認知的構建,它的應用場景就不只是智能搜索。

很早以前,就有一種說話,互聯(lián)網(wǎng)的本質是將原子世界變?yōu)楸忍?。過去幾十年,互聯(lián)網(wǎng)最大的價值是讓實體世界數(shù)字化,比如大量的數(shù)據(jù)可以被傳感器、攝像頭、人工采集錄入存儲。未來幾十年,人工智能會讓數(shù)字世界構建對實體世界的認知,不只是對現(xiàn)實世界從空間和時間維度進行“快照存儲”,而是要理解真實世界正在發(fā)生的一切,理解這個世界,而要認知世界就要構建知識圖譜。

王海峰此前曾表達過一個觀點:知識是人工智能的基礎,因為機器可以模仿人類的視覺、聽覺等感知能力,但這種感知能力不是人類的專屬,動物也具備感知能力,甚至某些感知能力比人類更強,比如狗的嗅覺,認知語言是人區(qū)別于其他動物的能力,同時,知識也使人不斷地進步,不斷地凝練、傳承知識,是推動人不斷進步的重要基礎,知識對于人工智能的價值就在于讓機器具備認知能力。

AlphaGo或許不需要知識圖譜,不過倘若將AI應用到金融、零售、醫(yī)療、媒體、娛樂、出行諸多行業(yè),就無法離開知識圖譜。去年,我國政府制定了《新一代人工智能發(fā)展規(guī)劃》,將人工智能上升到國家戰(zhàn)略層面,并提出:人工智能產(chǎn)業(yè)要成為新的重要經(jīng)濟增長點,而且要在2030年成為世界主要人工智能創(chuàng)新中心,為躋身創(chuàng)新型國家前列和經(jīng)濟強國奠定重要基礎。伴隨著互聯(lián)網(wǎng)+的浪潮,人工智能滲透到各行各業(yè)成為一個大趨勢,它要在不同行業(yè)發(fā)揮作用的關鍵,就是構建知識圖譜。

比如智能金融中,機器要能夠反欺詐,或者智能授信,就必須建立金融行業(yè)的知識圖譜——當然,技術層面這個過程可能叫做建模。百度2015年就有過嘗試,將知識圖譜應用在股票領域,旗下產(chǎn)品股市通通過數(shù)據(jù)(招股書、年報、公告、研報、新聞、行情)、信息(股東、子公司、供應商、客戶、合作伙伴、競爭對手)與股票的關系,以及股票與股票之間的關系,在股票領域首創(chuàng)知識圖譜,實現(xiàn)智能選股。再比如智能醫(yī)療中,機器要能給病人看病開藥,沒有準確和完善的醫(yī)療知識圖譜根本做不到。

除了AI外,目前最熱門的新技術,IoT(物聯(lián)網(wǎng))、區(qū)塊鏈,其本質都是為了更好地映射真實世界——IoT更好地感知世界,區(qū)塊鏈解決現(xiàn)實世界的信任問題。通過映射真實世界得到數(shù)據(jù)后,再由AI進行智能化的處理,進而給出反饋,只要涉及到映射真實世界,知識圖譜都是不可或缺的技術,可見其應用將遠遠不止智能搜索,百度在知識圖譜上的積累將會進一步釋放出價值。百度使命是讓復雜的世界更簡單,理解這個復雜的世界,將其映射為機器可以理解的知識圖譜,也是必經(jīng)之路。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2018-04-22
智能搜索時代:且看知識的力量
摘要:前幾天,谷歌發(fā)布了一個全新的書籍搜索產(chǎn)品:“TalktoBooks”,用戶可以通過對話的方式得到一本書籍的推薦,比如輸入:“Whatisthebestprogramminglanguage?”(

長按掃碼 閱讀全文