百度,技術(shù)求道二十年

一家公司,可以靠技術(shù)走到多遠?

1996年的李彥宏是否認真想過這個問題,我們不得而知。但他做的一些事,已經(jīng)為這個問題作了回答。當時還在華爾街工作的李彥宏獲得了超鏈分析的技術(shù)專利,這項技術(shù)創(chuàng)造性地把互聯(lián)網(wǎng)頁面引用相關(guān)性納入了搜索引擎的考慮范疇。

在此之前的搜索引擎世界,你輸入某個詞,可能搜索出的第一個結(jié)果是某個無聊的人,在網(wǎng)頁上把這個詞打了一萬遍。而超鏈分析的加入,讓最權(quán)威、最官方、最熱門的搜索結(jié)果有可能第一時間展現(xiàn)在用戶面前。

憑借著這個信息學技術(shù)與互聯(lián)網(wǎng)應用“天馬行空”般的結(jié)合,李彥宏創(chuàng)造了進入21世紀之后新一代搜索引擎的關(guān)鍵技術(shù),也創(chuàng)造了百度。

從這個角度看,百度就是誕生于技術(shù)創(chuàng)新之上的。它因技術(shù)車輪的轉(zhuǎn)動而生,也在技術(shù)引擎的呼嘯聲中不斷向前。而今超鏈分析作為百度的原創(chuàng)技術(shù),已經(jīng)在全球所有搜索引擎中服務(wù)這個世界,而百度究竟有過多少種技術(shù)創(chuàng)新,恐怕也需要某種厲害的技術(shù)才能統(tǒng)計清楚。

今年是百度成立的第二十年。不知道從什么時候開始,互聯(lián)網(wǎng)圈子里開始說這樣一句話:騰訊的產(chǎn)品,阿里的運營,百度的技術(shù)。

而當時針悄然劃到2020,從搜索到AI,從互聯(lián)網(wǎng)浪潮的崛起到智能時代的晨曦。這家名叫百度的公司,已經(jīng)行走于,篤信于、開墾于技術(shù),整整二十年。

這是百度從未休息過的技術(shù)創(chuàng)新二十年。

技術(shù)就是閃電

“眾里尋他千百度”。百度這個名字,可能注定就是要探索更多未知。

可能很多人已經(jīng)不記得,初生時的百度就是一家技術(shù)服務(wù)提供商。2000年6月,百度首次為門戶網(wǎng)站提供搜索技術(shù)服務(wù),隨后又提供中文網(wǎng)頁信息檢索服務(wù)。此后不到兩年時間,百度就占據(jù)了全國80%的網(wǎng)站搜索技術(shù)服務(wù)市場?;貞浺幌拢瑫l(fā)現(xiàn)技術(shù)優(yōu)勢是百度誕生之源,而在眾多互聯(lián)網(wǎng)公司中,百度可以說是先天具備to B基因那一家。

隨后,李彥宏決定迅速調(diào)整戰(zhàn)略,將業(yè)務(wù)模型從提供搜索技術(shù)服務(wù),轉(zhuǎn)向到自行經(jīng)營搜索引擎。在這場從企業(yè)市場走向消費市場的變革中,技術(shù)依然是百度的主干道。

在所謂“互聯(lián)網(wǎng)模式還未興起”,中國還沒有流行“微創(chuàng)新”的時候,也很少有人相信依靠硬技術(shù),一家中國公司可以干掉全球化布局、技術(shù)遙遙領(lǐng)先業(yè)界的谷歌。

但李彥宏卻相信可以。而這之后的故事證明,這真的是一個非常樸實的技術(shù)判斷。

在2002年,李彥宏親自發(fā)起了能刻上《搜索引擎史》的“閃電計劃”,即要求百度在9個月內(nèi),將日訪問頁面提升10倍,頁面反應速率達到和谷歌一樣快,內(nèi)容更新頻率全面超越谷歌。

在閃電計劃的最后幾個月,李彥宏親自下場帶領(lǐng)小組成員進行研發(fā)。經(jīng)過對搜索引擎大幅度的技術(shù)優(yōu)化,兼容吸收了眾多前沿技術(shù)之后,到2002年年底閃電計劃目標已經(jīng)完成。在那之后,百度一舉奠定了技術(shù)體驗最好引擎的交椅,也為飛馳的中國互聯(lián)網(wǎng)產(chǎn)業(yè)拉開了序幕。

那時候,李彥宏經(jīng)常把搜索引擎比作CPU。沒有CPU電腦無法工作,沒有搜索引擎互聯(lián)網(wǎng)也就無法完成信息的傳輸和交互。CPU是電腦中最精密、技術(shù)難度最高的部件,搜索引擎也如是。

在百度看來,搜索引擎的技術(shù)進化是無止境的。在2005年,百度提出了“更懂中文的搜索引擎”這一口號,實質(zhì)上已經(jīng)開啟了搜索引擎與語義理解、語言分析等智能技術(shù)的結(jié)合。從搜索到智能,百度技術(shù)之道“一以貫之”。

框計算的未來屬性

二十年時間,會沉淀眾多關(guān)鍵改變的發(fā)生節(jié)點。對于百度來說,2009年的百度技術(shù)創(chuàng)新大會可算一個。

那時智能手機還沒有興起,中國互聯(lián)網(wǎng)產(chǎn)業(yè)普遍更多關(guān)重營銷和渠道,鮮少有大會提及技術(shù)。這時,李彥宏卻首次提出了“框計算”概念。所謂框計算,是指用戶在“百度框”中輸入服務(wù)需求,系統(tǒng)就能明確識別這種需求,并將該需求分配給最優(yōu)的內(nèi)容資源或應用提供商處理,快速反饋給用戶精準結(jié)果。比如用戶輸入“搞笑的句子”,搜索引擎將為用戶送上這些句子,而不是帶有這句話的網(wǎng)頁。

即使在今天,框計算依然代表著非常高級的人機交互方式?;氐?009年,這一技術(shù)理念更是具有絕對說服力的前瞻性技術(shù)。

“框計算”的本質(zhì),就是AI技術(shù)中非常關(guān)鍵的需求識別與知識圖譜。實現(xiàn)框計算,既需要極具前瞻性的AI技術(shù)探索,同時也需要強大的搜索引擎技術(shù)作為支撐。比如搜索“搞笑的句子”這句話就要通過3億次計算來識別需求,并在100億個網(wǎng)頁資源中檢索并進行需求分配,整個過程要在不到十分之一秒內(nèi)完成。

這項跨越了兩個代際的超前技術(shù),不止展現(xiàn)出百度的技術(shù)厚度,同時也充分釋放了百度對未來技術(shù)世界的構(gòu)想與判斷。如今擔任百度CTO的王海峰,在當時已經(jīng)是享譽國際的AI科學家,他就是了解到百度在框計算領(lǐng)域的投入和篤定,才決定加盟這家成立不到十年的互聯(lián)網(wǎng)公司。

對于技術(shù)信仰者來說,遠見是最有吸引力的一種品質(zhì);當你拿出一項技術(shù)時,也就完成了與時代的無聲交流——這也是在技術(shù)世界中,百度始終是那座高塔的原因。

看到AI,探索AI

到了2010年前后,中國互聯(lián)網(wǎng)用戶規(guī)模突破了4億,智能手機剛剛完成了3G網(wǎng)絡(luò)的普及。那時你與99%的中國互聯(lián)網(wǎng)從業(yè)者討論AI,他大概都會聊起電影和文學。

而百度,竟然真的在那時開始布局和構(gòu)建AI了。

百度與AI結(jié)緣之早,至今是眾多互聯(lián)網(wǎng)愛好者眼中的“未解之謎”。但是如果從技術(shù)發(fā)展的趨勢看,卻可以看出百度的誕生就建立在將搜索引擎智能化的基礎(chǔ)上。開拓期的十年間,智能化也成為百度眼中最清晰的未來。

而王海峰的加盟,某種意義上代表著百度技術(shù)開啟了新的階段:科學家與互聯(lián)網(wǎng)公司攜手合作的日子開始了。

如今,科學家的多少已經(jīng)成為了互聯(lián)網(wǎng)公司的某種“指標”。但在2010年,大部分互聯(lián)網(wǎng)公司還是一股“草莽味道”。這時間的百度,卻走向了產(chǎn)學研高度結(jié)合的技術(shù)迭代之路。

隨著王海峰的到來,百度在隨后移動時代與智能化浪潮中的技術(shù)組織布局接連啟動。比如后來被稱為“技術(shù)鐵軍”的 “百度自然語言處理部門”成立,以服務(wù)搜索引擎中發(fā)生的NLP需求與智能化升級趨勢。隨后在語音、圖像的智能化領(lǐng)域,百度“多媒體部門”誕生,接著非常重要的知識圖譜系統(tǒng)也被確定。

在百度業(yè)務(wù)體系中布局AI技術(shù)組織之外,還誕生了另一個百度技術(shù)史上的關(guān)鍵節(jié)點——百度深度學習研究院(IDL)的成立。

當時,深度學習對于互聯(lián)網(wǎng)產(chǎn)業(yè)來說還是極盡陌生的名詞。我們似乎無法想象,會有一家公司能夠像百度一樣,在2012-2013年間就開始布局深度學習。

奇妙的是,李彥宏和王海峰關(guān)于在百度開展深度學習基礎(chǔ)研究的想法一拍即合。就這樣,深度學習在中國的齒輪開啟了轉(zhuǎn)動。

這之后,前瞻性技術(shù)與產(chǎn)學研高度一體化研究,開始成為了百度技術(shù)的標配。2013年初IDL成立后,百度又陸續(xù)成立了大數(shù)據(jù)實驗室BDL、硅谷人工智能實驗室SVAIL等,并將這些研究團隊,逐漸打造成負責前瞻性科學探索研究的百度研究院。

2019年底,國家工業(yè)信息安全發(fā)展研究中心發(fā)布了《人工智能中國專利技術(shù)分析報告》。報告顯示 ,百度以5712件位居AI專利申請量榜第一。成績的果實背后,總有關(guān)于技術(shù)的洞察、布局和經(jīng)年磨礪作為前因。

搜索與智能合流

在百度技術(shù)史中,是無法把搜索引擎和AI徹底區(qū)分開的。確切來說,AI作為一種通用底層技術(shù),可以廣泛融入和支撐起作為應用技術(shù)的搜索引擎。

從2014年開始,百度開始基于知識圖譜、圖像識別、語音識別、自然語言處理等技術(shù),開始進一步加碼對搜索技術(shù)的升級。并且開始將深度學習技術(shù)引入搜索引擎之中,讓搜索的智能體驗更加準確和自然。

接下來的幾年間,百度搜索推出了語音搜索、圖像搜索和拍照搜索功能,并且建立了全球最大的中文知識圖譜。這些技術(shù)的攀爬,推動百度搜索不再僅僅是單一的搜索引擎,同時變成了用戶了解世界、探索世界的入口。

與此同時,百度AI在移動互聯(lián)網(wǎng)領(lǐng)域也加速了技術(shù)推進。比如百度信息流產(chǎn)品上,百度的AI技術(shù)支撐起了領(lǐng)先業(yè)界的內(nèi)容抓取準確度和用戶推薦模型精準度。又比如這一時間由語音搜索功能孵化出了度秘,這一技術(shù)體系成為百度移動生態(tài)、百度輸入法,乃至后來整個小度軟硬件體系的起點。

到2019年第三季度,百度搜索的首條滿足率已經(jīng)達到了56%。搜索引擎已經(jīng)能夠準確理解用戶需求,提供直觀、準確的信息、知識和服務(wù)。百度APP多輪語音對話問答和真人聊天幾乎無區(qū)別,點開相機圖標就能自動識別超過1000萬種物品,30+場景識別。

而百度的技術(shù)之路,也開始指向下一個宏偉的時代。

智能時代的基座

從貝爾實驗室到IBM,技術(shù)公司的前行往往會經(jīng)歷這樣一個過程:從應用技術(shù)不斷向底層技術(shù)、基礎(chǔ)技術(shù)發(fā)展,最終通過底層技術(shù)的突破和發(fā)展,孕育下一個產(chǎn)業(yè)時代。

相比從搜索到AI的明線,從應用到底層技術(shù)的層層突圍,可能是百度較少為外人所知的技術(shù)暗線。在百度開始布局AI等前瞻技術(shù)的同時,也開始堅定推動相關(guān)技術(shù)的平臺化,打造技術(shù)基礎(chǔ)設(shè)施。而當AI時代真正到來,整個中國社會會在產(chǎn)業(yè)智能化道路上,發(fā)現(xiàn)對關(guān)鍵基礎(chǔ)基座的戰(zhàn)略性需求——而此時,百度已經(jīng)準備好了那個支點,是謂中國AI的“百度紅利”。

百度紅利的最典型體現(xiàn),就是飛槳的創(chuàng)生與成長。

如今,AI開發(fā)需要基于深度學習框架,幾乎變得家喻戶曉。但在2012年,深度學習框架的概念在中國幾乎是完全的空白。在歐美主流框架也剛剛開始發(fā)展的彼時,百度卻已經(jīng)著手開發(fā)了飛槳這款中國第一個、也是目前唯一一個完全意義上的深度學習開發(fā)框架。

當時開發(fā)飛槳,百度的初心其實無比簡單。就是當時主流歐美開發(fā)框架僅支持單一GPU,無法進行大規(guī)模數(shù)據(jù)處理的問題。于是百度帶著技術(shù)公司獨特的剛猛,決定干脆自己造地基,經(jīng)過長期內(nèi)部應用后,飛槳在2016年正式開源。

這也讓百度成為繼谷歌、Facebook、IBM之后,全球第四家、中國第一家開源深度學習開發(fā)框架的科技公司,從而讓中國在這個關(guān)鍵領(lǐng)域沒有陷入長期滯后。

2017年秋天開始,百度開始給予飛槳強力支持。2018年7月,百度調(diào)集精兵強將,成立了深度學習技術(shù)平臺部。到了2019年,飛槳的升級速度已若雷霆。通過對大量技術(shù)、服務(wù)、定制工具以及預訓練模型的集成,飛槳成為了以深度學習框架為核心的深度學習平臺,下接芯片,上承各種應用,是名副其實的“智能時代的操作系統(tǒng)”。

作為國內(nèi)唯一開源開放、功能完備的深度學習平臺,飛槳已經(jīng)走向了標準化、自動化和模塊化的發(fā)展階段,可以滿足產(chǎn)業(yè)開發(fā)者復雜多樣的AI開發(fā)需求,并且具備開發(fā)便捷的產(chǎn)業(yè)級深度學習框架、超大規(guī)模深度學習模型訓練技術(shù)、多端多平臺部署的高性能推理引擎、開源開放覆蓋多領(lǐng)域的產(chǎn)業(yè)級模型庫四大全球領(lǐng)先的核心技術(shù)。

如果說飛槳是AI時代的操作系統(tǒng),是開發(fā)者隨時可用的工廠;那么百度大腦就是AI時代技術(shù)集大成的代表,是可以滿足各種產(chǎn)業(yè)智能化需要的AI超市。

早在2016年的百度世界大會上,百度大腦正式對外發(fā)布。這一舉動標志著百度將積累數(shù)年之久的AI核心技術(shù)和AI平臺對外開放。到了2019年互聯(lián)網(wǎng)公司開始講技術(shù)中臺,而百度的技術(shù)平臺化卻能上溯到幾年前,并且通過百度大腦之名完成了對社會的開放賦能。

AI技術(shù)的企業(yè),不可能像百度一樣從頭開始研發(fā)AI技術(shù)。能站在百度的肩膀上進行技術(shù)和應用創(chuàng)新,對剛剛興起的中國AI產(chǎn)業(yè)來說是一個關(guān)鍵利好。

為了讓AI技術(shù)的應用者,不必從頭建造輪子,百度大腦從開放開始,每年都完成著幅度巨大的進化。2017年7月的百度AI開發(fā)者大會上,百度大腦2.0正式發(fā)布,這一版本開放了包含基礎(chǔ)層、感知層、認知層和平臺層在內(nèi)的完整AI技術(shù)體系;開放了語音、圖像、視頻、增強現(xiàn)實、自然語音處理等60多項AI核心能力,讓AI賦能開發(fā)者和行業(yè)應用有了足夠多的技術(shù)支撐。

到2018年的百度AI開發(fā)者大會,百度大腦宣布升級至3.0,所開放的核心AI技術(shù)達到110多項,形成了從芯片到深度學習框架、平臺、生態(tài)的AI全棧技術(shù)布局。尤其“多模態(tài)深度語義理解”的技術(shù)突破,讓百度大腦走向了世界AI產(chǎn)業(yè)的技術(shù)最前沿。

2019年,百度大腦又進一步得到了跨越式的升級。在百度大腦5.0版本中,語音、視覺、語言和知識等核心算法都得到了再次突破。例如語音方面,流式多級的截斷注意力模型(SMLTA)使語音識別速度和識確度大幅提升,并可解決中英文混合語音的識別難題;風格遷移的語音合成技術(shù),僅需20句話就可以制作一個人的專屬聲音,不僅保留語音中的音色、風格、情感等要素,使用時還可任意組合、靈活控制。

自2016年至今,百度大腦已經(jīng)開放了228項領(lǐng)先AI能力,開發(fā)者數(shù)量超過150萬,日均調(diào)用量突破1萬億次,語音、人臉、NLP、OCR調(diào)用量中國第一,是業(yè)內(nèi)最全面、最領(lǐng)先、服務(wù)規(guī)模最大的AI開放平臺。百度大腦成為了具備深度學習框架、場景化AI能力、定制化訓練平臺到軟硬一體模組和解決方案等,可以為多樣性的AI需要提供技術(shù)支撐。

假如說,搜索引擎的核心突破,讓百度成為了互聯(lián)網(wǎng)時代的“CPU”;那么從飛槳到百度大腦的AI基座建設(shè),則讓百度有機會成為智能時代,千行萬業(yè)的“發(fā)動機”。

用技術(shù)改變時代這件事,百度習以為常。

超級綻放

剛進入21世紀的時候,大部分中國人還無法想象有一天可以用搜索的方式了解世界。那時候的中國,正在等待百度用核心技術(shù)表演一次“信息綻放”。

當時間來到21世紀的20年代,這個對我們所有人來說都很陌生的時代。百度走過了屬于技術(shù)的二十年,從百度用AI完成的各種改變中,我們已經(jīng)可以略微猜到接下來準備開啟的“超級綻放”。

2017年百度AIG的成立,標志著百度是國內(nèi)第一個將人工智能技術(shù)作為獨立部門運作的大型科技公司。依托于AIG提供的技術(shù)支持,百度原有業(yè)務(wù)體系得到了飛速強化、新業(yè)務(wù)戰(zhàn)略觸發(fā)點走向成熟。

比如,2017年,百度發(fā)布了全球首個自動駕駛開源項目Apollo自動駕駛開放平臺。目前,百度Apollo平臺已經(jīng)匯聚了全球177家生態(tài)合作伙伴;在全球有97個國家超過3.6萬名開發(fā)者使用Apollo開源代碼,開源代碼數(shù)量超過56萬,Apollo自動駕駛平臺已成為全球最強大、最開放、最活躍的自動駕駛平臺。2019年,百度Apollo公開了國內(nèi)唯一的純視覺L4級自動駕駛解決方案Apollo Lite,為自動駕駛這個人類夢想提供了堅實的新發(fā)展契機。

在對話式AI領(lǐng)域,最早從智能化搜索技術(shù)的路徑孵化出的小度助手,已經(jīng)成為了國內(nèi)技術(shù)體驗最好、生態(tài)最廣泛的對話式AI平臺。小度技能開放平臺為超過3.7萬開發(fā)者,提供3500多種技能支持;小度助手的合作伙伴數(shù)量已經(jīng)超過500家,可以控制的IoT智能家居設(shè)備已經(jīng)超過了7000萬。2019年,小度助手5.0還發(fā)布了全球領(lǐng)先的全雙工免喚醒能力,實現(xiàn)了“一次喚醒,多輪交互”免喚醒詞連續(xù)對話,真正實現(xiàn)了全球智能語音交互的領(lǐng)先。

在百度地圖上,2019年推出的全球首個地圖語音定制功能,讓每個人都能擁有專屬語音包;智能語音助手讓很多人習慣了出行 “動口不動手”,累積用戶量達到了3億,穩(wěn)居行業(yè)第一。依靠AI技術(shù)能力的加持,作為新一代AI地圖的百度地圖,已經(jīng)徹底在體驗上領(lǐng)先業(yè)界。

這種種綻放開的技術(shù)之花,僅僅是AI技術(shù)在百度體系內(nèi)的“試驗田”。在整個社會范圍內(nèi),百度的AI技術(shù)已經(jīng)滲透到各產(chǎn)業(yè)、各領(lǐng)域,為產(chǎn)業(yè)智能化時代的“超級綻放”做好了準備。

回望百度技術(shù)變遷的二十年,這個過程就像個小孩子,因為喜歡、熱愛,以及對宏偉未來的無盡想象,而專心用積木搭建他心愛的城堡。慕然回首時,燈火闌珊處已經(jīng)是廣廈萬間、桑林稻畝,他欣慰一笑,繼續(xù)埋頭于新的探索。

李彥宏在華爾街工作時,是憑借靈感和天才般的想象,把信息學與搜索引擎結(jié)合到了一起;王海峰加入百度時,看到的是互聯(lián)網(wǎng)公司也能發(fā)展人工智能的驚喜;無數(shù)科學家、工程師走進百度,是因為他們相信這里是最能夠純粹做技術(shù)的地方,這里有最多的數(shù)據(jù)、最佳的算力、最領(lǐng)先的算法,也有最初的那顆心。

永遠比時代超前兩步,永遠單純?nèi)绾⒆?。技術(shù)塑造了百度,技術(shù)最終會改變一切。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-01-15
百度,技術(shù)求道二十年
今超鏈分析作為百度的原創(chuàng)技術(shù),已經(jīng)在全球所有搜索引擎中服務(wù)這個世界,而百度究竟有過多少種技術(shù)創(chuàng)新,恐怕也需要某種厲害的技術(shù)才能統(tǒng)計清楚。

長按掃碼 閱讀全文