得到App首席數(shù)據(jù)科學家分享:為什么知識服務以程序員為本?

2019 年 5 月 26 日,得到 App 正式上線 3 周年,得到 App 通過 16 場主題演講完整公開了得到團隊從事知識服務 3 年來的工作心法。在當天的演講中,得到 App 首席數(shù)據(jù)科學家楊溥解釋了為什么知識服務要以程序員為本。他首次公開了「得到大腦」計劃,并表示「得到大腦」要做的核心就是利用人工智能技術(shù),為用戶建立某個領(lǐng)域的知識圖譜。

本文為楊溥在當天的演講內(nèi)容。

大家好,我叫楊溥,我是得到的首席數(shù)據(jù)科學家。在過去十年的時間里,我一直在做和人工智能相關(guān)的事情。

得到App首席數(shù)據(jù)科學家分享:為什么知識服務以程序員為本?

大家都知道,得到是一家知識服務公司,做課程、做電子書、做跨年演講。去年呢,我們的創(chuàng)始人提了一個夢想,要建立一所為終身學習者服務的通識教育大學。然后呢,這個任務就交給了我們。

你可能要問,為什么建學校這件事,不是交給老師,也不是交給班主任,而是交給了我們程序員呢?這是因為歷史上的每一次知識大爆炸,都是靠背后的工程師來搞定的,就像蔡倫造紙,古騰堡發(fā)明印刷術(shù),他們給全世界帶來了知識。所以我現(xiàn)在的工作,就是要用我們這一代的技術(shù),去解決未來的學習問題。

顯然,這一代的技術(shù),必然離不開人工智能的支持。說到人工智能,我們生活中已經(jīng)隨處可見了,但是大家有沒有發(fā)現(xiàn)一些問題。比如,我打開外賣平臺點餐,系統(tǒng)在首頁上給我推薦了日餐,但事實上,我已經(jīng)連續(xù)吃了5天的日餐了;再比如,我打開電商平臺購買了一件運動服,系統(tǒng)仍然會不停的給我推薦各種不同品牌的運動服,而實際上,為了下定決心去運動,我已經(jīng)購買了6件運動服了。

這就是現(xiàn)在很多智能推薦系統(tǒng)和內(nèi)容平臺的做法,它在根據(jù)我過往的行為,預測我的喜好,并不停的給我推薦類似的商品和內(nèi)容。作為一個從業(yè)者,我會問自己:“得到也要這樣做么?”

如果一個用戶在得到上,已經(jīng)學習了長時間的《薛兆豐經(jīng)濟學》,我們還應該反復的給他推薦經(jīng)濟學的內(nèi)容嗎?按照這種邏輯,他的首頁,可能永遠只會是這塊內(nèi)容了。

所以,類似這樣的人工智能方法,在學習領(lǐng)域并不能滿足需求。特別是得到用戶,是一群對未知有著強烈好奇心的人,他們的好奇心會驅(qū)使他們學習不一樣的內(nèi)容。所以,得到面臨的挑戰(zhàn),是全新的。

今天,我想給大家分享的是一個內(nèi)部稱做“得到大腦”的項目。在上臺之前,我問過公司的法務,這個項目可以披露嗎?他們說:反正一時半會你也做不出來,隨便你。那什么是得到大腦呢?得到大腦就是期望通過技術(shù)的手段,來盡可能的改善大家的學習體驗,就像給我們的大腦,增加了一個外掛。

前段時間,我接待了一個得到的重度用戶,她給我詳細的介紹了她在得到里的學習歷程。最初她是被薛兆豐的經(jīng)濟學課吸引了進來;學完經(jīng)濟學之后,就想去學金融學。學金融學的時候,當看到非理性的股市時,就想去了解心理學對人決策的影響。之后,她又想去了解更底層的生命科學,她說她最近正在學習王立銘老師的課程,并且因為對生命產(chǎn)生了敬畏,已經(jīng)在小本上列了下一步的計劃,那就是學習高爽老師的天文學。

你看,這個過程就有點像我們的學習過程,最開始只是黑暗中的一團小火苗,但是因為知識之間的互相關(guān)聯(lián),從而變成了熊熊烈火,點燃了我們的探索之路。這也正是終身學習和傳統(tǒng)的學校學習不一樣的地方,它不是一個線性的,越來越專業(yè)的學習,而是在不斷擴大你的知識范圍。

當然,剛才只是她一個人的探索路線,每個人的探索道路都會不一樣,但探索不是搜索,得到大腦的目標不是做一個更好的搜索引擎,而是去給每個用戶都展示一個,可以自由探索的知識世界,幫助用戶完成自己的探索。

長期思考的人都知道,要想讓自己的認知能力突飛猛進,很多時候不是因為你搜集了多少信息,而是在你探索的時候,有個瞬間,你突然意識到了一個從來沒有想過的維度,知識和知識之間突然產(chǎn)生了化學反應。

所以,得到大腦第一步想要完成的,就是要借助機器的力量,給每個人配上一個學習助理,然后從各種維度,主動的幫你將所有相關(guān)的信息整合在一起,再傳達給你。

但是,新的問題又來了。目前,以深度學習為主的人工智能技術(shù),我們稱作為感知智能,它還無法完成這樣的工作。接下來,我們需要達到認知智能的水平,也就是讓機器“能理解,會思考”,而知識圖譜就是認知智能中最核心的技術(shù)。

知識圖譜這個概念,最早是在2012年由谷歌提出來的,主要用來提升谷歌的語義搜索服務能力。今天,當你搜索一個問題,比如“C羅的生日”,它給出的不僅僅是關(guān)鍵詞匹配的結(jié)果,它還會給出具體的生日日期,C羅的百科介紹,甚至還有C羅在球隊中的統(tǒng)計資料。

現(xiàn)在,當有了知識圖譜,再結(jié)合虛擬現(xiàn)實的技術(shù),我們就可以想象出未來學習的場景了。比如,你想了解蘇東坡這個人。你只需要一個入口,然后,你就可以跟著他的腳步,知道他哪一年走出四川,哪一年走進開封,哪一年被貶黃州,哪一年寫了《赤壁賦》;每一年遇到了什么樣的人,做了什么樣的事,寫了什么樣的詩詞。這每一個人、每一件事、每一首詩,過往的學者對它們做了什么樣的研究,寫出了什么樣的著作。你現(xiàn)在所在的地方,和蘇東坡當年待過的地方,相距有多遠。他的遺作,藏在了你身邊的哪一座博物館里……

過程中,你突然對曾經(jīng)看不慣蘇東坡的王安石,產(chǎn)生了興趣,你可以繼續(xù)跳轉(zhuǎn)到他的視角,開啟新的知識探索。你看,整個過程,你不是在學習蘇東坡,而是在代入蘇東坡。

好了,那這一系列的場景,它背后的知識圖譜是什么樣的呢?圍繞著蘇東坡,我們從時間、空間、人物、作品等各種各樣的維度,構(gòu)建了這樣的一張知識圖譜。它類似于思維導圖,但是它具有更規(guī)范的層次結(jié)構(gòu)和更強大的知識表示能力。為了構(gòu)造知識的基本框架,知識圖譜除了包含實體之外,還需要包括概念、屬性、關(guān)系這些信息。因為人的認知過程,正是不斷用這些概念、屬性和關(guān)系去理解世界、解釋世界。

《福爾摩斯探案集》的作者亞瑟·柯南道爾有句名言:“一個邏輯學家,不需要親眼見過或聽過大西洋和尼亞加拉大瀑布,他從一滴水中就能推測出它們。”

知識圖譜也是如此,它采集碎片化的信息和數(shù)據(jù),然后按照標準化的方式加以整理,再將各種看似不相關(guān),但背后有著共同聯(lián)系的信息關(guān)聯(lián)起來。

好了,確定完技術(shù)方向,下一步,我們該如何構(gòu)建一個面向?qū)W習者的知識圖譜呢?

首先,需要確定知識圖譜的構(gòu)建范圍。顯然,在知識服務領(lǐng)域,我們將會圍繞“通識教育”和“學科教育”,去構(gòu)建一個領(lǐng)域知識圖譜。

接下來,我們需要填充知識圖譜中的內(nèi)容。主要是兩塊內(nèi)容:第一塊,是以“知識點”為中心的實體內(nèi)容,比如一些專業(yè)術(shù)語、歷史人物、著作等等。第二塊,就是這些知識點之間的關(guān)系內(nèi)容。

這些內(nèi)容需要借助大量的自然語言處理技術(shù),甚至輔助一定的人工手段,從海量的結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)、非結(jié)構(gòu)化的文本中挖掘出來。比如,對于知識點的挖掘,我們會用到“領(lǐng)域詞挖掘”、“命名實體識別”這些技術(shù)。

對于關(guān)系的挖掘,我們會用到“事件抽取”、“關(guān)系抽取”的技術(shù)。其中,“事件抽取”是從文本中抽取出重要的事件信息,比如事件發(fā)生的時間、地點、人物、原因等等,然后再將這些信息與知識點相關(guān)聯(lián)。

知識圖譜中的知識,會按照前面的步驟不斷的進行擴充。這個過程,我們還會結(jié)合“知識融合”相關(guān)的技術(shù),用來消除歧義信息,保證只有高質(zhì)量的知識才可以進入圖譜。當知識達到一定量級以后,就可以開始知識的探索之旅了。

事實上,借助“實體鏈接”的技術(shù),機器就擁有了“理解”的能力。當你提出一個問題,問題中的信息就會和圖譜中的信息鏈接起來。接下來,你可以在其中任意的穿梭,發(fā)現(xiàn)一個又一個有興趣的關(guān)聯(lián)。這個過程,就像是今天你喜歡的逛商場、打游戲。

可更多的時候,當你面對一個新領(lǐng)域,我們是沒有明確目標的。尤其是當你學習的范圍越來越廣,涉及的領(lǐng)域越來越多的時候,你就越覺得自己無知,這也是學習最大的難題。

更高效的做法,不僅是要讓機器理解知識,還要能夠懂你、了解你,讓你知道先學什么、后學什么。這也是為什么很多時候,當你想要快速的學習一個新的領(lǐng)域,你會找到這個領(lǐng)域中最專業(yè)的朋友進行溝通,因為他既懂專業(yè)知識,也懂你。

所以,得到大腦第二步想要做的事,就是著手研究,如何為學習者量身打造合適的學習路徑。

首先,我們需要去挖掘知識的脈絡結(jié)構(gòu),比如知識點的前后依賴關(guān)系、上下位關(guān)系、從簡單到復雜的遞進關(guān)系等等。目前我們也正在和國內(nèi)的高校團隊進行合作,目標是從高質(zhì)量的圖書中挖掘出這些關(guān)系,并將這些關(guān)系按照一顆顆“知識樹”的形態(tài)來構(gòu)建。

接著,就是在這顆知識樹上,找到用戶的定位。一方面,對于老用戶,我們可以根據(jù)他的歷史閱讀記錄、搜索記錄,了解他對知識點的掌握情況,并映射到對應的知識樹中。另一方面,對于新用戶,我們可以提供一些標簽入口,讓用戶自己選擇一些感興趣的領(lǐng)域,然后不斷收集他的行為記錄。當用戶了解了自己的定位以后,學習上就可以更容易的進行取舍了。比如,哪些知識又是僅限于目前的了解就夠了的,哪些知識是必不可少的,哪些知識又是要繼續(xù)深入學習的。

所以,這就是“得到大腦”正在開展的兩個方向。未來,當你帶著問題來到得到,AI會為你找到問題相關(guān)的知識,并在小范圍內(nèi)呈現(xiàn)給你。當你面對一個新的領(lǐng)域,不清楚該學習什么的時候,AI會為你推薦合適的學習路徑。

你可能要問我,什么時候能用到這些東西,現(xiàn)在我還不能明確的告訴你。但我能明確的是,當你用上這些功能的時候,我們已經(jīng)在探索更遠的方向了。

好了,剛才的那些技術(shù)細節(jié),可能并不是很好理解,但是沒關(guān)系,實際上我想講的是:我們正在努力做的這件事,就是為了讓你的探索更自由。

謝謝大家。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-06-03
得到App首席數(shù)據(jù)科學家分享:為什么知識服務以程序員為本?
2019 年 5 月 26 日,得到 App 正式上線 3 周年,得到 App 通過 16 場主題演講完整公開了得到團隊從事知識服務 3 年來的工作心法。

長按掃碼 閱讀全文