美國(guó)“存儲(chǔ)Twitter”,中國(guó)也要給博文“建檔”

4月19日,“國(guó)家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”在北京啟動(dòng)。

這個(gè)項(xiàng)目的名字有些讓人費(fèi)解,國(guó)家圖書館與互聯(lián)網(wǎng)信息怎么會(huì)聯(lián)系在一起,還要戰(zhàn)略保存呢?這要從圖書館的變遷說(shuō)起。

圖書館存儲(chǔ)公共數(shù)字資源

查一下國(guó)家圖書館的百度百科就能知道所以然。

國(guó)家圖書館是世界最大、最先進(jìn)的國(guó)家圖書館之一,也是亞洲最大圖書館。互聯(lián)網(wǎng)時(shí)代,隨著信息創(chuàng)造、傳播和存儲(chǔ)的數(shù)字化,國(guó)家圖書館與時(shí)俱進(jìn),1995年就按照數(shù)字化、網(wǎng)絡(luò)化建設(shè)的思路,制定了《國(guó)家圖書館網(wǎng)絡(luò)建設(shè)發(fā)展規(guī)劃(1997-2000)》。2001年11月,國(guó)家圖書館二期工程暨國(guó)家數(shù)字圖書館工程正式立項(xiàng)。截至2017年12月,館藏?cái)?shù)字資源總量達(dá)1323.35TB,包括電子圖書、期刊、報(bào)紙、特藏專藏和視聽文獻(xiàn)。

換言之,圖書館早已不是人們印象中的一個(gè)存滿紙質(zhì)圖書的物理空間,而是一個(gè)以各種載體儲(chǔ)存人類創(chuàng)作信息的地方,圖書館的本質(zhì)就是信息存儲(chǔ)空間。在軟件工程里面,library也有“信息庫(kù)”的意思,它包含構(gòu)建應(yīng)用所需的一切,如源代碼、資源文件等等。我大學(xué)讀的是軟件工程,一個(gè)室友留校在圖書館工作,當(dāng)初以為他放棄了本業(yè),現(xiàn)在看來(lái),我誤會(huì)他了,圖書館數(shù)字化的大趨勢(shì)下,計(jì)算機(jī)、信息化、數(shù)字化都變得越來(lái)越重要。

互聯(lián)網(wǎng)公司有海量信息存儲(chǔ)在自己的數(shù)據(jù)庫(kù),就像人人家里都有藏書一樣,但在社會(huì)中扮演書籍收藏和公共文化服務(wù)的則是圖書館,這樣再來(lái)看“國(guó)家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”就更容易理解。

按照官方說(shuō)法:

“國(guó)家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”是一個(gè)旨在“建設(shè)覆蓋全國(guó)的分級(jí)分布式中文互聯(lián)網(wǎng)信息資源采集與保存體系,通過(guò)與國(guó)內(nèi)重點(diǎn)數(shù)字文化生產(chǎn)和保存機(jī)構(gòu)的合作,推動(dòng)互聯(lián)網(wǎng)信息的社會(huì)化保存與服務(wù),構(gòu)建國(guó)家互聯(lián)網(wǎng)信息資源戰(zhàn)略保障體系。”

翻譯一下,就是國(guó)家圖書館啟動(dòng)一個(gè)項(xiàng)目,希望可以采集和存儲(chǔ)有價(jià)值的中文互聯(lián)網(wǎng)信息,再將這些信息用于社會(huì),比如政策決策和學(xué)術(shù)研究等非商業(yè)用途。

用國(guó)家圖書館官方公布的話術(shù)來(lái)說(shuō)就是:

“互聯(lián)網(wǎng)信息成為人類文明和社會(huì)記憶的新載體,客觀反映著一定時(shí)期內(nèi)政治、經(jīng)濟(jì)、文化和社會(huì)等方面的變遷。易逝性和不可再生性,使互聯(lián)網(wǎng)信息的采集和保存尤為迫切,而隨著移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)信息的規(guī)模爆炸式增長(zhǎng),調(diào)動(dòng)社會(huì)力量參與也成為互聯(lián)網(wǎng)信息采集和保存的趨勢(shì)。”

現(xiàn)已成為阿里副總裁的涂子沛在《大數(shù)據(jù)》一書也曾分享,美國(guó)政府運(yùn)轉(zhuǎn)的底層基礎(chǔ)其實(shí)就是數(shù)據(jù),“社會(huì)計(jì)算是大數(shù)據(jù)時(shí)代最大的亮點(diǎn)?!边@本書拿到了國(guó)家圖書館文津圖書獎(jiǎng),想必對(duì)國(guó)家圖書館管理層也有所啟發(fā)。

國(guó)家圖書館從2003年開始嘗試對(duì)互聯(lián)網(wǎng)資源進(jìn)行采集和保存,2009年成立互聯(lián)網(wǎng)信息保存保護(hù)中心,對(duì)國(guó)內(nèi)外政治、經(jīng)濟(jì)、文化、科技等領(lǐng)域重要網(wǎng)站和重大專題資源進(jìn)行采集保存,截至2018年,全國(guó)各級(jí)公共圖書館累計(jì)采集網(wǎng)站23000余個(gè)?!巴七M(jìn)數(shù)字資源建設(shè)與保存工作”是國(guó)家圖書館“十三五”規(guī)劃的重要工作之一。在這樣的整體規(guī)劃下,國(guó)家圖書館啟動(dòng)了互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目。

首家互聯(lián)網(wǎng)信息戰(zhàn)略保存基地同日在新浪掛牌,由國(guó)家圖書館與新浪共建。國(guó)家圖書館相關(guān)負(fù)責(zé)人透露:

“在中國(guó)境內(nèi)開展互聯(lián)網(wǎng)業(yè)務(wù)、并在相關(guān)領(lǐng)域處于領(lǐng)先地位的企業(yè)機(jī)構(gòu),均可申請(qǐng)成為互聯(lián)網(wǎng)信息戰(zhàn)略保存基地共建主體。共建主體需確保其提供的信息數(shù)據(jù)完整、有效、安全,并擁有合法所有權(quán)、知識(shí)產(chǎn)權(quán)或已獲得相應(yīng)授權(quán)?!?/p>

換言之,大多數(shù)互聯(lián)網(wǎng)公司都可加入這一項(xiàng)目,這是國(guó)家圖書館牽頭的一次社會(huì)化數(shù)據(jù)共享、存儲(chǔ)和應(yīng)用實(shí)驗(yàn)。

美國(guó)國(guó)會(huì)圖書館存儲(chǔ)Twitter

美國(guó)圖書館行業(yè)一直走在世界前列,一方面,圖書館歷史久、數(shù)量多、規(guī)格高,比如每個(gè)大城市都有歷史古老且富麗堂皇的公共圖書館,很多城市圖書館已成為旅游者打卡地。另一方面,受益于發(fā)達(dá)的IT產(chǎn)業(yè),圖書館擁抱數(shù)字化技術(shù)較為積極。

美國(guó)國(guó)會(huì)圖書館是美國(guó)四個(gè)官方國(guó)家圖書館之一,是美國(guó)歷史最悠久的聯(lián)邦文化機(jī)構(gòu),已經(jīng)成為世界上最大的知識(shí)寶庫(kù)。2010年,它就與Twitter達(dá)成一項(xiàng)合作協(xié)議,后者向前者提供所有公開的推文,已被刪除和屏蔽的除外,其認(rèn)為,Twitter上簡(jiǎn)短的信息可以將“國(guó)家故事”中微小、但卻非常重要的部分反映出來(lái)。

美國(guó)國(guó)會(huì)圖書館與Twitter的“Twitter保存項(xiàng)目”通過(guò)總部位于科羅拉多州博爾德市的社交媒體聚合網(wǎng)站Gnip落地,Gnip發(fā)現(xiàn)要做好這件看似簡(jiǎn)單的“信息存儲(chǔ)”的事并不容易。

首先,數(shù)據(jù)高速膨脹。項(xiàng)目啟動(dòng)三年后,2013年Gnip終于實(shí)現(xiàn)了對(duì)1700億條推文的存儲(chǔ),當(dāng)時(shí)已需要每天存儲(chǔ)用戶創(chuàng)造的4億條內(nèi)容,這對(duì)存儲(chǔ)空間的消耗十分驚人。移動(dòng)互聯(lián)網(wǎng)時(shí)代,隨著越來(lái)越多人使用Twitter,每天產(chǎn)生的內(nèi)容高速膨脹,而且短視頻等新的內(nèi)容形式被不斷引入——數(shù)據(jù)大爆炸是整個(gè)互聯(lián)網(wǎng)面臨的問(wèn)題。

其次,數(shù)據(jù)峰值問(wèn)題。Gnip直言,這一項(xiàng)目真正的挑戰(zhàn)來(lái)自高峰時(shí)期對(duì)tweets 的收集,比如2011年3月日本海嘯期等事件的爆發(fā),當(dāng)時(shí),每秒鐘產(chǎn)生的tweet信息數(shù)量有好幾千。

再次,數(shù)據(jù)利用問(wèn)題。碎片化的數(shù)據(jù)多且雜,要利用它們就需要大數(shù)據(jù)挖掘等技術(shù)。美國(guó)國(guó)會(huì)圖書館的想法是,先把數(shù)據(jù)存下來(lái)再說(shuō),怎么用來(lái)不及考慮,甚至連歸類都來(lái)不及做,到現(xiàn)在,這些數(shù)據(jù)也僅僅是存儲(chǔ)下來(lái)而已。

最后,數(shù)據(jù)開放問(wèn)題。既然是公共圖書館,最大價(jià)值就是對(duì)全社會(huì)開放,數(shù)字內(nèi)容也不例外。在美國(guó)國(guó)會(huì)圖書館啟動(dòng)“Twitter保存項(xiàng)目”后,全世界研究人員都很感興趣,他們很快收到來(lái)自世界各地研究人員的約400個(gè)查詢請(qǐng)求,查詢的主題涉及文化、政治、醫(yī)療、經(jīng)濟(jì)等諸多方面,然而數(shù)據(jù)量太大,技術(shù)實(shí)現(xiàn)不了——即使對(duì)2006年和2010年間產(chǎn)生的tweet查閱一邊也需要24個(gè)小時(shí)。

美國(guó)國(guó)會(huì)圖書館在2013年公布的白皮書中寫到:

“讓研究人員獲得這些數(shù)據(jù)的技術(shù)水平要明顯落后于這些數(shù)據(jù)的產(chǎn)生和傳播的技術(shù)水平?,F(xiàn)在技術(shù)不足,而開發(fā)這些技術(shù)的成本非常高?!?/p>

當(dāng)時(shí),美國(guó)政府開始推行財(cái)政緊縮政策,國(guó)會(huì)圖書館經(jīng)費(fèi)緊張,此前其在數(shù)據(jù)收集上已花費(fèi)一大筆資金,沒有更多資金投入到數(shù)據(jù)的挖掘、利用和開放上。2018年,這一項(xiàng)目再次遇到困難,Twitter信息爆炸式增長(zhǎng),服務(wù)器不堪重負(fù),美國(guó)國(guó)會(huì)圖書館表示將不再收集Twitter上所有公開推文,而是保存他們認(rèn)為重要的(比如特朗普的?),到現(xiàn)在為止,這一項(xiàng)目也僅限于數(shù)據(jù)存儲(chǔ),依然未能實(shí)現(xiàn)對(duì)數(shù)據(jù)的挖掘、利用和開放,當(dāng)然我們不用懷疑這樣做的價(jià)值:數(shù)據(jù)就是資產(chǎn),未來(lái)終可挖掘。

不只是美國(guó),澳大利亞、法國(guó)、瑞典和荷蘭等國(guó)都在90年代啟動(dòng)了國(guó)家級(jí)的互聯(lián)網(wǎng)數(shù)據(jù)收集策略,相對(duì)而言,中國(guó)“國(guó)家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”雖然來(lái)得較晚,卻有望基于當(dāng)下更加成熟的技術(shù)和更加獨(dú)特的模式,實(shí)現(xiàn)互聯(lián)網(wǎng)信息存儲(chǔ)、利用和開放的多贏。

國(guó)家圖書館憑什么存儲(chǔ)整個(gè)互聯(lián)網(wǎng)?

或許是看到了美國(guó)國(guó)會(huì)圖書館與Twitter合作遇到的困難,“國(guó)家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”采取了截然不同的模式。

與美國(guó)國(guó)會(huì)圖書館將Twitter內(nèi)容存儲(chǔ)到合作方的服務(wù)器不同,“國(guó)家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”采取社會(huì)化、分布式和分級(jí)式的數(shù)據(jù)保存機(jī)制,國(guó)家圖書館根據(jù)保存規(guī)范、數(shù)據(jù)遴選機(jī)制和服務(wù)需要提供使用需求,互聯(lián)網(wǎng)公司負(fù)責(zé)內(nèi)容存儲(chǔ),這樣可以避免數(shù)據(jù)的重復(fù)存儲(chǔ)。

將所有互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行二次存儲(chǔ)本身就不現(xiàn)實(shí)。互聯(lián)網(wǎng)內(nèi)容十分多元,比如首家參與到這一項(xiàng)目的微博,覆蓋的數(shù)據(jù)類型比Twitter更多樣,不只是有短文字,還有短視頻、圖片和文章等大雜燴內(nèi)容,財(cái)報(bào)顯示,2018年12月微博月活已達(dá)4.62億,12月日均活躍用戶數(shù)突破2億關(guān)口,微博上的存量?jī)?nèi)容,截至2018年12月已有多達(dá)2000多億條博文、500多億張圖片、4億個(gè)視頻和近5000億互動(dòng),每天博文增量超過(guò)1億,數(shù)據(jù)量巨大。如此海量數(shù)據(jù),再轉(zhuǎn)存到單獨(dú)服務(wù)器即不可能,亦無(wú)必要。

正是基于社會(huì)化存儲(chǔ)的模式,“國(guó)家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”不像美國(guó)國(guó)會(huì)圖書館只與Twitter一樣“點(diǎn)對(duì)點(diǎn)”合作,而是“點(diǎn)對(duì)多”合作。國(guó)家圖書館牽頭,任何符合條件的互聯(lián)網(wǎng)公司都可申請(qǐng)加入其中。隨著移動(dòng)互聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)正時(shí)時(shí)刻刻對(duì)真實(shí)世界進(jìn)行映射,不僅是微博的博文,快手記錄真實(shí)世界的短視頻、知乎的帖子,都是寶貴的社會(huì)信息資源,都可以成為“國(guó)家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”保存的目標(biāo)。

尤為重要的是,“國(guó)家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”不只是單純地保存數(shù)據(jù),而是“保存、利用和開放”三管旗下,國(guó)家圖書館擅長(zhǎng)的是學(xué)術(shù)和公信力,而不是技術(shù),因此具體的應(yīng)用依然是國(guó)圖提需求,互聯(lián)網(wǎng)公司負(fù)責(zé)信息處理。

比如在與新浪的合作中,互聯(lián)網(wǎng)數(shù)據(jù)分析報(bào)告、政府公開信息分析報(bào)告、社會(huì)群體的公益性信息服務(wù),都有可能成為這些信息的用途。今天,AI技術(shù)特別是自然語(yǔ)言處理技術(shù)比前幾年已經(jīng)成熟很多,擁有信息流、搜索等業(yè)務(wù)的微博和新浪在自然語(yǔ)言處理技術(shù)上也有深厚積累,這意味著,它們有能力對(duì)平臺(tái)上的海量互聯(lián)網(wǎng)內(nèi)容進(jìn)行挖掘,滿足公共社會(huì)的非商業(yè)公益查詢需求。

從“國(guó)家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”的設(shè)計(jì)來(lái)看,應(yīng)該是看到美國(guó)國(guó)會(huì)圖書館與Twitter的合作模式的弊端后,進(jìn)行的全新機(jī)制設(shè)計(jì)。雖然這一項(xiàng)目沒有形式上的“保存”,但事實(shí)上卻實(shí)現(xiàn)了互聯(lián)網(wǎng)公開信息的“歸檔”,同時(shí)可以實(shí)現(xiàn)利用和開放。

跟美國(guó)國(guó)會(huì)圖書館看中Twitter“小卻重要”內(nèi)容能反映社會(huì)進(jìn)程的邏輯一樣,國(guó)家圖書館首先與微博合作也是看中其UGC社會(huì)化屬性。微博上每個(gè)用戶以不同形式從個(gè)體視角記錄生活、探索世界和討論話題,形成了海量信息,這部分信息和其他互聯(lián)網(wǎng)平臺(tái)的信息是差異化的,而在國(guó)家圖書館此前對(duì)互聯(lián)網(wǎng)信息的采集和保護(hù)中,這類信息也不是重點(diǎn),是從結(jié)構(gòu)上豐富了國(guó)家圖書館的館藏信息,所以具有更大的價(jià)值。

不僅如此,最近幾年已經(jīng)發(fā)生過(guò)很多因?yàn)楣娫谖⒉┥系膮⑴c而引起關(guān)注、最后推動(dòng)事件獲得解決的案例,比如2017年網(wǎng)友舉報(bào)有人駕駛越野車追趕藏羚羊的案件、2018年的“疫苗造假事件”等。可以說(shuō),微博不但是能全面反映社會(huì)發(fā)展進(jìn)程的互聯(lián)網(wǎng)平臺(tái),而且用戶在微博上發(fā)布的內(nèi)容,本身就是社會(huì)發(fā)展進(jìn)程的一部分。這種獨(dú)特的價(jià)值是其他平臺(tái)無(wú)法取代的。

如果“國(guó)家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”項(xiàng)目能夠成功,對(duì)于很多已經(jīng)和即將開展互聯(lián)網(wǎng)信息保存的國(guó)家來(lái)說(shuō),應(yīng)該會(huì)成為又一個(gè)“中國(guó)式樣本”。

如果覺得文章不錯(cuò),可以+我luochaozhuli進(jìn)群(備注:進(jìn)群)交流。

歡迎關(guān)注 BT商業(yè)科技(bttimes)

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-04-20
美國(guó)“存儲(chǔ)Twitter”,中國(guó)也要給博文“建檔”
4月19日,“國(guó)家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目”在北京啟動(dòng)。圖書館存儲(chǔ)公共數(shù)字資源查一下國(guó)家圖書館的百度百科就能知道所以然。

長(zhǎng)按掃碼 閱讀全文