前文介紹:
北京時(shí)間2023年9月15日早上10:00, World Science Hill獨(dú)家專訪了北京瀾舟科技有限公司創(chuàng)始人及CEO、微軟亞洲研究院前副院長(zhǎng)、中國(guó)計(jì)算機(jī)學(xué)會(huì)副理事長(zhǎng)周明博士。
專訪嘉賓:周明
周明博士,北京瀾舟科技有限公司創(chuàng)始人及CEO, 中國(guó)計(jì)算機(jī)學(xué)會(huì)副理事長(zhǎng),是中國(guó)和國(guó)際上NLP領(lǐng)域的領(lǐng)導(dǎo)者之一,曾任國(guó)際計(jì)算語(yǔ)言學(xué)會(huì)主席,發(fā)表了100余篇ACL文章。他在NLP領(lǐng)域重要論文發(fā)表數(shù)目名列世界前列,谷歌H-Index 107。
在創(chuàng)辦瀾舟科技之前,周明博士曾任微軟亞洲研究院副院長(zhǎng),領(lǐng)導(dǎo)微軟NLP領(lǐng)域的R&D業(yè)務(wù),覆蓋了大模型、機(jī)器翻譯、搜索、聊天和對(duì)話系統(tǒng)等技術(shù)并成為微軟的重要產(chǎn)品例如Windows,Office,Azure,Cognitive Service,小冰的核心技術(shù)。
1. 能否簡(jiǎn)單介紹一下您和您的瀾舟科技團(tuán)隊(duì)正在做的工作?
瀾舟科技是一家專注于認(rèn)知智能領(lǐng)域的人工智能公司,致力于為全球企業(yè)提供新一代認(rèn)知智能平臺(tái),助力企業(yè)數(shù)字化轉(zhuǎn)型升級(jí)。
我于2020年底預(yù)感到大模型的未來(lái)發(fā)展,離開工作了21年的微軟亞洲研究院(期間我多年擔(dān)任NLP研究的副院長(zhǎng)),在創(chuàng)新工場(chǎng)支持下,著手孵化一家大模型公司。瀾舟科技公司于2021年6月正式成立。
該公司開發(fā)了著名的“孟子(Mengzi)”系列的大模型技術(shù),專注To B開發(fā)行業(yè)大模型并應(yīng)用到金融等重要領(lǐng)域。目前該公司在To B大模型研發(fā)和應(yīng)用方面,尤其是金融大模型方面,走在中國(guó)前列。
瀾舟科技公司曾獲得2021年中國(guó)HICOOL全球創(chuàng)業(yè)大賽的一等獎(jiǎng)及AI和金融賽道的第一名。它是達(dá)沃斯2023年技術(shù)先鋒(Technology Pioneers),2023年被列為The Information評(píng)選出的五個(gè)有可能成為中國(guó)OpenAI的公司之一。
2. 能否請(qǐng)您介紹一下,整個(gè)深度學(xué)習(xí)與自然語(yǔ)言處理這個(gè)方向從最初的 Word2vec 和 CBOW (Continuous Bag of Words),一路發(fā)展到如今以GPT4為代表的一眾大語(yǔ)言模型,您認(rèn)為中間經(jīng)歷了多少次重大技術(shù)創(chuàng)新?
自從深度學(xué)習(xí)被引入自然語(yǔ)言處理領(lǐng)域以來(lái),這一領(lǐng)域發(fā)生了許多重要的技術(shù)進(jìn)步。下面是一些我認(rèn)為對(duì)自然語(yǔ)言處理產(chǎn)生重大影響的事件或算法:
●CBOW (Continuous Bag of Words)和Word2Vec
這些都是用多維向量刻畫一個(gè)詞的語(yǔ)義的方法,支持靜態(tài)詞匯之間、兩個(gè)句子之間的語(yǔ)義計(jì)算。它使得神經(jīng)網(wǎng)絡(luò)能夠更好地理解單詞之間的關(guān)系,從而提高了自然語(yǔ)言處理任務(wù)的性能。但是這種詞匯的語(yǔ)義描述方法是靜態(tài)的描述,這個(gè)問(wèn)題,在后來(lái)發(fā)展出來(lái)的預(yù)訓(xùn)練模型得以解決。
●LSTM (Long Short-Term Memory) 和 GRU (Gated Recurrent Unit)
這兩種循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)解決了傳統(tǒng) RNN 中的梯度消失問(wèn)題,使其更適合用于序列建模任務(wù)。
●LSTM(Long Short-Term Memory)
是一種特殊類型的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),主要用于解決傳統(tǒng) RNN 中的梯度消失問(wèn)題。在傳統(tǒng) RNN 中,由于反饋權(quán)重只依賴于當(dāng)前時(shí)刻的輸出狀態(tài),因此當(dāng)遞歸層數(shù)增加時(shí),信息逐漸流失,導(dǎo)致較早時(shí)刻的信息無(wú)法傳遞給后續(xù)時(shí)刻,最終出現(xiàn)梯度消失問(wèn)題。
而 LSTM 通過(guò)添加三個(gè)門控單元(輸入門、遺忘門和輸出門)以及細(xì)胞狀態(tài)更新規(guī)則,有效地緩解了梯度消失問(wèn)題,并且能夠記住長(zhǎng)期依賴關(guān)系,因而適用于需要考慮上下文信息的建模任務(wù),如語(yǔ)音識(shí)別、機(jī)器翻譯、情感分析等。GRU則是LSTM的一個(gè)改良。
●Transformer
Transformer是一種用于自然語(yǔ)言處理任務(wù)的神經(jīng)網(wǎng)絡(luò)架構(gòu),最初被應(yīng)用在機(jī)器翻譯領(lǐng)域中。它主要基于自注意力機(jī)制來(lái)實(shí)現(xiàn)對(duì)輸入序列進(jìn)行編碼和解碼操作,從而得到最終的翻譯結(jié)果。
與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比,Transformer具有更好的并行性、更高效的計(jì)算速度以及更強(qiáng)的表達(dá)能力等優(yōu)點(diǎn)。
具體來(lái)說(shuō),Transformer將每個(gè)單詞表示為一個(gè)向量,然后通過(guò)多頭自注意力機(jī)制將這些向量映射到不同的特征空間中,以便提取出它們之間的相關(guān)信息。接著,使用前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network, FNN)對(duì)這些特征進(jìn)行加權(quán)求和,最后再經(jīng)過(guò)一層線性變換和softmax函數(shù)得到整個(gè)句子的概率分布。
這種方式可以有效地捕捉長(zhǎng)距離依賴關(guān)系,并且能夠同時(shí)考慮所有位置上的信息,因此對(duì)于一些需要全局理解的NLP任務(wù)表現(xiàn)出了很好的效果。
●BERT (Bidirectional Encoder Representations from Transformers)
這是 Google 發(fā)布的一種雙向 Transformer 模型,通過(guò)預(yù)訓(xùn)練方式大大提升了各種自然語(yǔ)言處理任務(wù)的表現(xiàn)。
●GPT 系列
包括 GPT、GPT-2、GPT-3 等,這些大型語(yǔ)言模型利用了大量數(shù)據(jù)進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,具有很強(qiáng)的泛化能力,可用于多種自然語(yǔ)言處理任務(wù)。
3. 在我的印象中,最初的自然語(yǔ)言處理有很多子方向,例如自動(dòng)問(wèn)答,摘要生成等等。每一個(gè)子領(lǐng)域都有很多專精的研究者。但是現(xiàn)在似乎整個(gè)自然語(yǔ)言處理只剩下的大語(yǔ)言模型這一個(gè)方向,您對(duì)此怎么看?
確實(shí)如您所說(shuō),近年來(lái)大語(yǔ)言模型已經(jīng)成為自然語(yǔ)言處理領(lǐng)域中的主流技術(shù)之一,許多重要的進(jìn)展都是建立在這類模型之上?;诖竽P?幾乎所有NLP任務(wù)只需要經(jīng)過(guò)微調(diào)或者指令就可以得到不錯(cuò)的效果。
然而我認(rèn)為并不能完全否定其他子領(lǐng)域的價(jià)值和意義,因?yàn)楦鞣N類型的自然語(yǔ)言處理任務(wù)本身就有著各自獨(dú)特的特點(diǎn)和挑戰(zhàn),而針對(duì)這些特殊需求開發(fā)出的方法也同樣值得我們?nèi)リP(guān)注和探索。
比如,直接用大模型做某些領(lǐng)域的信息抽取任務(wù),也許不一定有用BERT(小模型)做檢索增強(qiáng)來(lái)的效果好。而且大模型本身也有很多問(wèn)題,比如幻象問(wèn)題、可解釋問(wèn)題,這些問(wèn)題也許用其他自然語(yǔ)言方法可以避免。大模型的算力消耗和數(shù)據(jù)消耗也產(chǎn)生嚴(yán)重的環(huán)境問(wèn)題,而且也阻礙了其未來(lái)可持續(xù)性發(fā)展。
隨著大模型算法不斷發(fā)展和改進(jìn),新的技術(shù)和思想也會(huì)隨之涌現(xiàn)出來(lái),推動(dòng)著各個(gè)子領(lǐng)域不斷進(jìn)步和創(chuàng)新。
除了幻象和缺乏可解釋之外,當(dāng)前大模型在企業(yè)應(yīng)用實(shí)際落地過(guò)程中仍面臨不少挑戰(zhàn),比如面對(duì)復(fù)雜問(wèn)題時(shí)使用門檻較高、信息更新不及時(shí)、領(lǐng)域知識(shí)匱乏、無(wú)法與外部系統(tǒng)交互等等問(wèn)題。這些問(wèn)題催生了類似于Langchain的框架的發(fā)展,也期待著未來(lái)AI Agents的到來(lái)。
4. 我們知道現(xiàn)在的大語(yǔ)言模型,如 ChatGPT 相較于初代的 Transformer 而言,做了很多工程上的改進(jìn),例如 RLHF、Chain of thoughts 等等。您認(rèn)為這其中哪一樣是起到最大作用的。這一代代的大語(yǔ)言模型您認(rèn)為是量變還是質(zhì)變?
這是個(gè)非常有意思的問(wèn)題。其實(shí)從歷史角度來(lái)看,每次新版本的大語(yǔ)言模型發(fā)布后,往往都伴隨著多種不同的改進(jìn)措施,很難判斷到底哪一種才是關(guān)鍵因素。我認(rèn)為首先是預(yù)訓(xùn)練數(shù)據(jù)集的增大和質(zhì)量提高;其次是模型的參數(shù)量大幅度提升。
至于RLHF,我認(rèn)為是引導(dǎo)大語(yǔ)言模型的輸出結(jié)果和人類的倫理規(guī)范對(duì)齊的一個(gè)技術(shù)措施,其中要讀在于保證結(jié)果的可用性。而思維鏈則是引導(dǎo)大模型進(jìn)行逐步推理或者計(jì)算得到最終結(jié)果的一個(gè)技術(shù)措施。這些都很重要,但是似乎也是理所當(dāng)然可以想象出來(lái)的措施。
至于是否屬于“質(zhì)變”,這個(gè)問(wèn)題有點(diǎn)難以界定。如果按照純粹的科學(xué)標(biāo)準(zhǔn)來(lái)看,只有當(dāng)某項(xiàng)發(fā)現(xiàn)或者發(fā)明真正顛覆了原有的理論體系時(shí)才能稱得上“質(zhì)變”,但實(shí)際情況卻遠(yuǎn)沒(méi)有這么簡(jiǎn)單。
畢竟任何一次迭代升級(jí)都不是孤立存在的,而是建立在已有基礎(chǔ)之上的繼續(xù)推進(jìn),所以應(yīng)該把它視作是一個(gè)漸進(jìn)式的過(guò)程。
5. 我們知道最近瀾舟科技也是剛剛發(fā)布了自己的400億參數(shù)孟子大語(yǔ)言模型,在各大榜單上取得了極佳的成績(jī)和極大的影響力,您能給大家介紹一下瀾舟的一些基本業(yè)務(wù)構(gòu)成嗎?
2021年成立以來(lái),瀾舟科技一直致力于預(yù)訓(xùn)練模型的研發(fā)與應(yīng)用。我們?cè)?022年底推出了基于孟子預(yù)訓(xùn)練模型的認(rèn)知智能平臺(tái),包括AIGC、機(jī)器翻譯、金融NLP等20多個(gè)產(chǎn)品服務(wù)。
我們堅(jiān)定地專注于孟子大模型在垂直領(lǐng)域和專業(yè)賽道的應(yīng)用,為企業(yè)客戶量身定制解決方案,并始終秉承以客戶價(jià)值為第一的原則,持續(xù)投入行業(yè)深耕。
瀾舟科技推出了孟子大模型面向企業(yè)的“L1-L2-L3-L4”的產(chǎn)品體系。包括L1-孟子通用大模型、L2-孟子行業(yè)大模型、L3-場(chǎng)景服務(wù)模型和L4-AI Agents四個(gè)級(jí)別。每個(gè)級(jí)別的產(chǎn)品都具有不同的功能和優(yōu)勢(shì)。具體如下:
●L1-孟子通用大模型
提供閱讀理解、通用寫作、機(jī)器翻譯、多輪對(duì)話等通用能力。
●L2-孟子行業(yè)大模型
基于行業(yè)或者垂直領(lǐng)域?qū)I(yè)數(shù)據(jù)、聯(lián)合行業(yè)客戶和伙伴,打造出來(lái)的更加專業(yè)的行業(yè)大模型, 行業(yè)任務(wù)表現(xiàn)更優(yōu)。
●L3-場(chǎng)景服務(wù)模型
完全面向企業(yè)客戶的業(yè)務(wù)場(chǎng)景,聚焦業(yè)務(wù)效果,基于提示(prompt)工程或者微調(diào)(SFT)后實(shí)現(xiàn)更加定向的優(yōu)化效果。
●L4-AI Agents
面向復(fù)雜場(chǎng)景,孟子大模型擔(dān)當(dāng)”大腦“角色,將復(fù)雜場(chǎng)景需求自主拆解為任務(wù)列表,自動(dòng)執(zhí)行,實(shí)現(xiàn)”所說(shuō)即所得“。
“在企業(yè)的數(shù)智化道路上,通用大模型和行業(yè)大模型都非常重要,通用大模型像是底座,提供未來(lái)的可能性,行業(yè)大模型更重視業(yè)務(wù)應(yīng)用。而我們?cè)谧龅木褪前研袠I(yè)伙伴的最后一公里做起來(lái),結(jié)合業(yè)務(wù)場(chǎng)景,實(shí)現(xiàn)真正的價(jià)值落地。未來(lái),我們也會(huì)繼續(xù)努力,不斷優(yōu)化和完善我們的大模型,與行業(yè)伙伴緊密合作,共同推動(dòng)人工智能技術(shù)在各個(gè)領(lǐng)域的應(yīng)用和發(fā)展”。
嘉賓:周明
主持:Mia王璟晗
作者:Mia王璟晗
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )