GOTC 2023 出品人劉松:二十年 IT 見證者眼中,數(shù)據(jù)技術(shù)的未來

一個(gè)詞來介紹我,我是個(gè)經(jīng)歷者,但更像一個(gè)觀察者。我其實(shí)是整個(gè)軟件行業(yè)過去 20 多年的一個(gè)見證者和觀察者。作為觀察者要有客觀總結(jié)能力,然后包括對(duì)未來的一些看法,但是未來的看法不一定對(duì),比如說 GPT 的看法沒有人能打包票。

——PingCAP 副總裁 劉松

每個(gè)時(shí)代都需要觀察者,尤其是在技術(shù)變革加速的今天。在 GPT 帶來的震蕩之中,各領(lǐng)域技術(shù)都在尋找新的方向, 數(shù)據(jù)庫(kù)技術(shù)也不例外,動(dòng)作快的數(shù)據(jù)庫(kù)和服務(wù)廠商也已經(jīng)集成了 AI 工具做 SQL 自動(dòng)生成與性能優(yōu)化。然而,面對(duì) “來勢(shì)洶洶” 的 AI 技術(shù)浪潮,數(shù)據(jù)庫(kù)技術(shù)的方向在哪?又該如何用好 AI?OSCHINA 采訪了 GOTC2023 出品人、PingCAP 副總裁劉松,請(qǐng)他談?wù)勛罱鬅岬?AI 技術(shù),以及在新浪潮之下,數(shù)據(jù)技術(shù)的未來。

劉松,PingCAP 副總裁

簡(jiǎn)介:曾經(jīng)擔(dān)任甲骨文大中國(guó)區(qū)技術(shù)戰(zhàn)略部總經(jīng)理,阿里云副總裁等職務(wù),曾負(fù)責(zé)阿里云的云計(jì)算生態(tài)構(gòu)建,智庫(kù)合作,人才培養(yǎng)計(jì)劃等工作。劉松長(zhǎng)期活躍于中國(guó)軟件產(chǎn)業(yè),親身觀察互聯(lián)網(wǎng)與信息化產(chǎn)業(yè)融合趨勢(shì),在軟件與互聯(lián)網(wǎng)行業(yè)發(fā)展趨勢(shì),云計(jì)算和開源產(chǎn)業(yè)的商業(yè)模式構(gòu)建,數(shù)據(jù)庫(kù)技術(shù)發(fā)展趨勢(shì),企業(yè)數(shù)字化轉(zhuǎn)型等方面多年的實(shí)踐經(jīng)驗(yàn)。

5 月 28 日,劉松擔(dān)任 GOTC 2023 “數(shù)據(jù)與數(shù)據(jù)庫(kù)技術(shù)” 分論壇出品人,并發(fā)表《從 HTAP 到 Serverless,TiDB 的技術(shù)演進(jìn)之路》主題演講,敬請(qǐng)期待!

參會(huì)報(bào)名,請(qǐng)?jiān)L問: http://m.ygpos.cn/uploadfile/pic2020/2023/0522/202305220940048G>OSCHINA:您最近這段時(shí)間很關(guān)注 GPT 的動(dòng)態(tài),到目前為止,對(duì)它最深的感觸是什么?

劉松:

我覺得可以用一個(gè)詞 —— 涌現(xiàn),Emergency。

我個(gè)人是一個(gè)復(fù)雜性系統(tǒng)科學(xué)的愛好者,大家可能聽說過圣達(dá)菲研究所,致力于復(fù)雜系統(tǒng)科學(xué)的研究。在八九十年代的美國(guó),涌現(xiàn)有一個(gè)時(shí)代特定的含義 —— 當(dāng)一個(gè)復(fù)雜性系統(tǒng)超過某個(gè)臨界點(diǎn),就會(huì)誕生很多按照原本系統(tǒng)的線性思維下預(yù)測(cè)不可能發(fā)生的事情。

首先是大模型,過了千億級(jí)別以后,一下子就變得有智能了,這是一種涌現(xiàn)。

第二個(gè)涌現(xiàn)現(xiàn)在正在發(fā)生,當(dāng) GPT 這類大模型的技術(shù)與我們熟悉的軟件事業(yè)、各行業(yè)場(chǎng)景結(jié)合后會(huì)有更大一輪的涌現(xiàn)。現(xiàn)在發(fā)生了很多原來我沒想過的一些非線性的爆發(fā),短時(shí)間內(nèi)突然產(chǎn)生了原來沒有的東西,這些東西的形態(tài)又是一個(gè)爆發(fā)狀態(tài),像所謂寒武紀(jì)大爆發(fā)的邏輯。

ChatGPT 從去年 12 月開放,中文世界到了今年 2 月之后,一下子話題爆了。一方面是技術(shù)過了臨界點(diǎn),讓每個(gè)人都有所觸動(dòng),發(fā)現(xiàn)自己懂的東西原來 AI 更懂。另外一點(diǎn)就是,尤其 IT 圈以外的人,都覺得它能改變我的工作甚至是未來的命運(yùn),都是有可能的,所以我想這可能是最重要的感觸,是一個(gè)涌現(xiàn)的開始。

OSCHINA:您最近還說過一句話 —— 十年云舞臺(tái),新的舞者是 Serverless+HTAP+AI。怎么理解這句話?

劉松:

我成為一個(gè)云的從業(yè)者剛好是十年前,2013 年是我在 Oracle 的最后一年,從那時(shí)候開始,Oracle 中國(guó)的人給我的稱謂是 Mr. Cloud。那時(shí)候 Oracle 剛開始轉(zhuǎn)型做云,包括數(shù)據(jù)庫(kù)、SAAS。后來第二年我就去了阿里云,算是阿里云商業(yè)化的第一批人,主要負(fù)責(zé)云生態(tài),也做了一些垂直行業(yè)比如金融云的工作。所以對(duì)云的理解差不多正好是十年。

到了前兩年我認(rèn)為云 1.0 差不多算是收官了,以資源型為主的云是基礎(chǔ)設(shè)施,可以讓所有行業(yè)應(yīng)用可以快速、彈性上云。我在云舞臺(tái)上已經(jīng)待了十年?,F(xiàn)在回頭看,云最大的方向是承擔(dān)全社會(huì)數(shù)字化轉(zhuǎn)型的最終命題,其中隱含的兩個(gè)關(guān)鍵技術(shù),一個(gè)是數(shù)據(jù)技術(shù),一個(gè)是人工智能,而且這兩個(gè)東西都強(qiáng)調(diào)是以云為主。

在數(shù)字化里面,所有用戶都希望要有以 HTAP 技術(shù)為代表的一體化的數(shù)據(jù)服務(wù)。AI 技術(shù)方面,這一波 GPT 的涌現(xiàn)已經(jīng)告訴所有人,要有巨大的算力支撐才能將 AI 訓(xùn)練到這個(gè)級(jí)別。

那么這三種技術(shù)在未來會(huì)有更深地融合。

我們?cè)?1 月 10 發(fā)布了一個(gè)小產(chǎn)品,在 TiDB Cloud 上面發(fā)布了基于 AIGC 的智能數(shù)據(jù)探索功能 - Chat2Query。大家可以很容易看到自然語言秒內(nèi)生成 SQL,然后通過 HTAP 這種技術(shù),快速用行存列存混合的方式返回一個(gè)要查詢的結(jié)果。當(dāng)資源不夠的時(shí)候,會(huì)通過 Serverless 自動(dòng)擴(kuò)展。

Serverless+ HTAP + AI,這三種技術(shù)在今天也有一個(gè)共同的承諾或者說特點(diǎn) —— 在秒級(jí)別去反饋人類的需求,秒級(jí)別把你說的話變成 SQL、秒級(jí)別做復(fù)雜查詢、當(dāng)資源不夠時(shí)再秒級(jí)地做用戶無感的云資源調(diào)用。

過去十年,很多互聯(lián)網(wǎng)公司、大型企業(yè)數(shù)字化講上云,但本質(zhì)上是做兩件事,第一件事是買云端資源,用戶采用租用的模式,付費(fèi)方式并不是因?yàn)槟硞€(gè)特定 Query 的查詢來付費(fèi)。過去十年云計(jì)算市場(chǎng)形成了通過互聯(lián)網(wǎng)的方式提供資源租用的形態(tài),但這個(gè)形態(tài)大家已經(jīng)進(jìn)入到同質(zhì)化的階段。向上延伸就是把云 1.0 的底座夯實(shí)。

夯實(shí)算力基礎(chǔ),不管是 CPU 還是 GPU 都是非常重要的。大模型訓(xùn)練也是靠這個(gè),OpenAI 訓(xùn)練的背后很大程度上也是靠微軟的云。今天亞馬遜云,阿里云也都快速跟進(jìn),因?yàn)檫@對(duì)云廠商來說絕對(duì)是一個(gè)機(jī)會(huì)。

OSCHINA:未來的關(guān)鍵塑造因素在哪?數(shù)據(jù)庫(kù)技術(shù)可能的服務(wù)場(chǎng)景是什么樣的?

劉松:

如果說過去的十幾年亞馬遜在全球靠基礎(chǔ)設(shè)施的創(chuàng)新,包含軟硬件的創(chuàng)新領(lǐng)先。那么往下五到十年,云 2.0 的最大舞臺(tái)依賴三個(gè)關(guān)鍵塑造因素,一個(gè)是云自己的云原生,二是數(shù)據(jù)技術(shù),第三個(gè)是 AI 變成一種類似基礎(chǔ)服務(wù)?當(dāng)然還有另外一點(diǎn)是,新的大模型和數(shù)據(jù)庫(kù)技術(shù)能不能在 B 端融合創(chuàng)造出更多新場(chǎng)景,這也是大家非常關(guān)注的話題。

云端的 AI 和數(shù)據(jù)庫(kù)的融合可能是發(fā)生在 B 端。我們現(xiàn)在用 GPT 類產(chǎn)品主要還是普通人在一個(gè)公共廣場(chǎng)上解決一些科普性的問題,而且大部分是非結(jié)構(gòu)化數(shù)據(jù)。但是我們?cè)囅胍幌?一個(gè)企業(yè)的 CEO,他非常關(guān)注的話題,GPT 類產(chǎn)品是不能直接解決的,比如說我希望讓我的企業(yè)的下個(gè)月人才提效指標(biāo) 10% 應(yīng)該從哪些部門入手?

對(duì)于這個(gè)問題,一方面需要企業(yè)內(nèi)部的數(shù)據(jù)庫(kù)里有大量的專業(yè)應(yīng)用的模型和算法,另一方面還要比對(duì)外界的同行、考慮經(jīng)濟(jì)環(huán)境是怎么樣的。所以我們?cè)O(shè)想一下,假如我們列一個(gè) CEO 的 100 個(gè)常見問題。那么未來五到十年,能不能通過自然語言的方式詢問?通過 AI 和數(shù)據(jù)庫(kù)結(jié)合,包括大模型,內(nèi)外部數(shù)據(jù)的結(jié)合,給到 CEO 這些問題,這個(gè)是我們可以憧憬的一個(gè)地方。

OSCHINA:數(shù)據(jù)技術(shù)和 AI 技術(shù)發(fā)展的不同在哪?

劉松:

數(shù)據(jù)庫(kù)行業(yè)是四世同堂,到今天,你還是可以在云端,比如說 AWS 上買到 Oracle 的數(shù)據(jù)庫(kù)服務(wù),無論是之后的開源 MySQL、Redis,還是我們的分布式數(shù)據(jù)庫(kù) NewSQL 像 TiDB 這樣的數(shù)據(jù)庫(kù)云都有市場(chǎng)。數(shù)據(jù)庫(kù)相對(duì)來說格局更清晰,四世同堂,每一個(gè)都能盡量尋找自己的價(jià)值和體驗(yàn)。價(jià)值就是你能不能以更好、更快的方式兌現(xiàn)數(shù)據(jù)價(jià)值,體驗(yàn)是指在云端的數(shù)據(jù)庫(kù)體驗(yàn)會(huì)不會(huì)更好。

在數(shù)據(jù)庫(kù)領(lǐng)域,數(shù)據(jù)庫(kù)領(lǐng)域的多種技術(shù)都有存在的意義,另外一方面反過來說,沒有一種新技術(shù)能夠完全替代原來所有的技術(shù)。

但 AI 技術(shù)正好相反,AI 技術(shù)的屬性是弒父。新的技術(shù)只要一出來,原有的技術(shù),不管是爺爺還是父親全部都沒有意義了,這個(gè)就是從 GPT 對(duì)于 NLP 的顛覆就能夠看出來,這思路就完全變了。那下一代出來的東西很有可能也會(huì)把當(dāng)前的 GPT 模式完全殺掉。這方面看大模型類的 AI 應(yīng)用確實(shí)風(fēng)險(xiǎn)等大,但機(jī)會(huì)也會(huì)更大。

我覺得 AI 相關(guān)的大模型或者應(yīng)用生存的關(guān)鍵在于專業(yè)門檻,未來無非就是向上和向下兩個(gè)方向發(fā)展。一個(gè)是底層技術(shù)的先進(jìn)性,比如大模型本身的先進(jìn)性,這個(gè)大家都看得到。然后 AI 技術(shù)向場(chǎng)景延伸時(shí),有兩個(gè)地方必須閉環(huán),形成門檻:一個(gè)是專業(yè)領(lǐng)域的數(shù)據(jù),比如醫(yī)療、汽車等領(lǐng)域,如果大模型能訪問到其數(shù)據(jù),在這個(gè)領(lǐng)域里就會(huì)更強(qiáng);還有向上應(yīng)用的創(chuàng)建性,面向用戶的,可以想象,未來無論是人力資源管理還是所有的客服體系、數(shù)字營(yíng)銷、新一代的 BI,廣義上的新一代搜索等等,這些可能都會(huì)被 GPT 這樣的智能技術(shù)重新做一遍。

那么重復(fù)的門檻在哪里?一個(gè)是模型本身,一個(gè)就是專業(yè)數(shù)據(jù)的提煉和學(xué)習(xí)能力,還有一個(gè)就是應(yīng)用構(gòu)建的友好度,或者說是體驗(yàn)。即 AI 在垂直行業(yè)的體驗(yàn)加上價(jià)值,在這個(gè)基礎(chǔ)上,AI 可能要比數(shù)據(jù)技術(shù)面臨更大的或然性和挑戰(zhàn)。

OSCHINA:PingCAP 現(xiàn)在對(duì)未來是什么看法,采取了哪些行動(dòng)?

劉松:

我們現(xiàn)在有一個(gè)新的信念,認(rèn)為 AI 和數(shù)據(jù)融合會(huì)對(duì)于企業(yè)用戶產(chǎn)生巨大的、全方位的價(jià)值。

有三個(gè)層次,第一個(gè)層次是用戶最容易見到的,像 Chat2Query 里做的,就是自然語言代替了 SQL,成為主要的查詢語句。在用戶想要獲取一些洞察及服務(wù)的時(shí)候,比如一個(gè)快遞小哥、外送小哥、或者每個(gè)消費(fèi)者去查詢你的商品、外賣到哪里了的行為,其實(shí)是一種數(shù)據(jù)消費(fèi)。如果這樣的查詢都用自然語言來解決,整個(gè)數(shù)據(jù)庫(kù)的使用人數(shù)和頻次可能會(huì)大 100 倍、1000 倍,甚至更大。反過來,這對(duì)數(shù)據(jù)技術(shù)與 AI 技術(shù)的融合帶來了更高的要求。

第二個(gè)層次,以數(shù)據(jù)庫(kù)技術(shù)的處理和查詢優(yōu)化為例,這幾年數(shù)據(jù)庫(kù)技術(shù)領(lǐng)域主要有兩個(gè)流派,一個(gè)是 AI For DB,一個(gè)是 DB For AI。簡(jiǎn)單來說,一個(gè)是數(shù)據(jù)庫(kù)的 “自動(dòng)駕駛”,維護(hù)可以用機(jī)器學(xué)習(xí)去優(yōu)化,這樣就不用花太多人力成本,尤其是在云端。另外一個(gè)是查詢的優(yōu)化,包括性能的調(diào)優(yōu),這是數(shù)據(jù)庫(kù)領(lǐng)域老大難的問題,現(xiàn)在可以通過 GPT 和相關(guān)的 AI 技術(shù)來解決。那么這些數(shù)據(jù)運(yùn)維,以及數(shù)據(jù)架構(gòu)師的工作量就大幅降低了,任何一個(gè)項(xiàng)目都會(huì)以比之前更快的速度迭代。

最后一層對(duì)于數(shù)據(jù)庫(kù)技術(shù)本身的要求,當(dāng) AI 變成每個(gè)人通用的、用來做查詢和獲取洞察的工具的時(shí)候,中間有一些工程調(diào)優(yōu),包括對(duì)算法的調(diào)用等等,那么數(shù)據(jù)技術(shù)到底應(yīng)該以什么方式來組織?

我們認(rèn)為,可能傳統(tǒng)數(shù)據(jù)庫(kù)的未來會(huì)變成一種在線數(shù)據(jù)服務(wù)的形態(tài) ——Online Data Service,這是廣義的,還不是簡(jiǎn)單的數(shù)據(jù)庫(kù)變成了服務(wù)。這也是 PingCAP 在過去幾年一直在演進(jìn)的。

我想我們最大的變化是從一個(gè)更多地服務(wù)互聯(lián)網(wǎng)場(chǎng)景的分布式數(shù)據(jù)庫(kù),變成了一個(gè)以云端為主的數(shù)據(jù)服務(wù)廠商,這是一個(gè)廣泛意義上的數(shù)據(jù)服務(wù),不管是交易還是查詢都有,我們現(xiàn)在也是一個(gè)開放式的架構(gòu)。

所以我想總結(jié)一下,這一波 AI 變成了一個(gè)新一代的 GUI,會(huì)增加千倍萬倍的使用數(shù)據(jù)的用戶。首先對(duì)于數(shù)據(jù)庫(kù)的所有的從業(yè)人員,AI 是提升性能調(diào)優(yōu)和各種項(xiàng)目工程進(jìn)度的巨大助力。另外在現(xiàn)在這種數(shù)據(jù)服務(wù)這種形態(tài),可能更能夠和 AI 做很好地結(jié)合。這也回到我剛剛講的小例子,關(guān)于 Chat2Query,用戶用秒級(jí)自然語言提問的問題,變成 Query,再到通過 HTAP 技術(shù)來實(shí)現(xiàn)查詢,這其實(shí)就是一個(gè)數(shù)據(jù)服務(wù),然后很快給用戶反饋結(jié)果、帶來一個(gè)決策,那這個(gè)閉環(huán)是在秒級(jí)。這就是我們認(rèn)為未來,AI 和數(shù)據(jù)技術(shù)在云端,三者形成了一個(gè)全新的、組合式的創(chuàng)新,變成了一種新的數(shù)據(jù)服務(wù)形態(tài)。

“數(shù)據(jù)與數(shù)據(jù)庫(kù)技術(shù)” 分論壇將在 5 月 28 日與大家見面,屆時(shí)多位數(shù)據(jù)與數(shù)據(jù)庫(kù)技術(shù)領(lǐng)域大咖將到現(xiàn)場(chǎng)分享自己項(xiàng)目經(jīng)驗(yàn),歡迎感興趣的小伙伴點(diǎn)擊下文鏈接,報(bào)名參會(huì)!

參會(huì)報(bào)名,請(qǐng)?jiān)L問: http://m.ygpos.cn/uploadfile/pic2020/2023/0522/202305220940048G align="center">

全球開源技術(shù)峰會(huì)(Global Open-source Technology Conference),簡(jiǎn)稱 GOTC,是由開放原子開源基金會(huì)、上海浦東軟件園、Linux 基金會(huì)亞太區(qū)和開源中國(guó)聯(lián)合發(fā)起的,面向全球開發(fā)者的一場(chǎng)盛大開源技術(shù)盛宴。 5 月 27 日至 28 日,GOTC 2023 將于上海舉辦為期 2 天的開源行業(yè)盛會(huì)。大會(huì)將以行業(yè)展覽、主題發(fā)言、專題論壇、開源市集的形式展現(xiàn),與會(huì)者將一起探討元宇宙、3D 與游戲、eBPF、Web3.0、區(qū)塊鏈等熱門技術(shù)主題,以及開源社區(qū)、AIGC、汽車軟件、AI 編程、開源教育培訓(xùn)、云原生等熱門話題,探討開源未來,助力開源發(fā)展。

GOTC 2023 報(bào)名通道現(xiàn)已開啟,誠(chéng)邀全球各技術(shù)領(lǐng)域開源愛好者共襄盛舉!

進(jìn)入官網(wǎng)了解更多信息,請(qǐng)?jiān)L問: https://gotc.oschina.net/

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )