中文无码狠狠操,亚洲伊人久久综合一区二区

前文介紹:

北京時間2023年9月15日早上10:00, World Science Hill獨家專訪了北京瀾舟科技有限公司創(chuàng)始人及CEO、微軟亞洲研究院前副院長、中國計算機學會副理事長周明博士。

專訪嘉賓:周明

周明博士,北京瀾舟科技有限公司創(chuàng)始人及CEO, 中國計算機學會副理事長,是中國和國際上NLP領域的領導者之一,曾任國際計算語言學會主席,發(fā)表了100余篇ACL文章。他在NLP領域重要論文發(fā)表數(shù)目名列世界前列,谷歌H-Index 107。

在創(chuàng)辦瀾舟科技之前,周明博士曾任微軟亞洲研究院副院長,領導微軟NLP領域的R&D業(yè)務,覆蓋了大模型、機器翻譯、搜索、聊天和對話系統(tǒng)等技術并成為微軟的重要產(chǎn)品例如Windows,Office,Azure,Cognitive Service,小冰的核心技術。

1. 能否簡單介紹一下您和您的瀾舟科技團隊正在做的工作?

瀾舟科技是一家專注于認知智能領域的人工智能公司,致力于為全球企業(yè)提供新一代認知智能平臺,助力企業(yè)數(shù)字化轉(zhuǎn)型升級。

我于2020年底預感到大模型的未來發(fā)展,離開工作了21年的微軟亞洲研究院(期間我多年擔任NLP研究的副院長),在創(chuàng)新工場支持下,著手孵化一家大模型公司。瀾舟科技公司于2021年6月正式成立。

該公司開發(fā)了著名的“孟子(Mengzi)”系列的大模型技術,專注To B開發(fā)行業(yè)大模型并應用到金融等重要領域。目前該公司在To B大模型研發(fā)和應用方面,尤其是金融大模型方面,走在中國前列。

瀾舟科技公司曾獲得2021年中國HICOOL全球創(chuàng)業(yè)大賽的一等獎及AI和金融賽道的第一名。它是達沃斯2023年技術先鋒(Technology Pioneers),2023年被列為The Information評選出的五個有可能成為中國OpenAI的公司之一。

2. 能否請您介紹一下,整個深度學習與自然語言處理這個方向從最初的 Word2vec 和 CBOW (Continuous Bag of Words),一路發(fā)展到如今以GPT4為代表的一眾大語言模型,您認為中間經(jīng)歷了多少次重大技術創(chuàng)新?

自從深度學習被引入自然語言處理領域以來,這一領域發(fā)生了許多重要的技術進步。下面是一些我認為對自然語言處理產(chǎn)生重大影響的事件或算法:

●CBOW (Continuous Bag of Words)和Word2Vec

這些都是用多維向量刻畫一個詞的語義的方法,支持靜態(tài)詞匯之間、兩個句子之間的語義計算。它使得神經(jīng)網(wǎng)絡能夠更好地理解單詞之間的關系,從而提高了自然語言處理任務的性能。但是這種詞匯的語義描述方法是靜態(tài)的描述,這個問題,在后來發(fā)展出來的預訓練模型得以解決。

●LSTM (Long Short-Term Memory) 和 GRU (Gated Recurrent Unit)

這兩種循環(huán)神經(jīng)網(wǎng)絡結構解決了傳統(tǒng) RNN 中的梯度消失問題,使其更適合用于序列建模任務。

●LSTM(Long Short-Term Memory)

是一種特殊類型的循環(huán)神經(jīng)網(wǎng)絡(RNN),主要用于解決傳統(tǒng) RNN 中的梯度消失問題。在傳統(tǒng) RNN 中,由于反饋權重只依賴于當前時刻的輸出狀態(tài),因此當遞歸層數(shù)增加時,信息逐漸流失,導致較早時刻的信息無法傳遞給后續(xù)時刻,最終出現(xiàn)梯度消失問題。

而 LSTM 通過添加三個門控單元(輸入門、遺忘門和輸出門)以及細胞狀態(tài)更新規(guī)則,有效地緩解了梯度消失問題,并且能夠記住長期依賴關系,因而適用于需要考慮上下文信息的建模任務,如語音識別、機器翻譯、情感分析等。GRU則是LSTM的一個改良。

●Transformer

Transformer是一種用于自然語言處理任務的神經(jīng)網(wǎng)絡架構,最初被應用在機器翻譯領域中。它主要基于自注意力機制來實現(xiàn)對輸入序列進行編碼和解碼操作,從而得到最終的翻譯結果。

與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(RNN)或卷積神經(jīng)網(wǎng)絡(CNN)相比,Transformer具有更好的并行性、更高效的計算速度以及更強的表達能力等優(yōu)點。

具體來說,Transformer將每個單詞表示為一個向量,然后通過多頭自注意力機制將這些向量映射到不同的特征空間中,以便提取出它們之間的相關信息。接著,使用前饋神經(jīng)網(wǎng)絡(Feedforward Neural Network, FNN)對這些特征進行加權求和,最后再經(jīng)過一層線性變換和softmax函數(shù)得到整個句子的概率分布。

這種方式可以有效地捕捉長距離依賴關系,并且能夠同時考慮所有位置上的信息,因此對于一些需要全局理解的NLP任務表現(xiàn)出了很好的效果。

●BERT (Bidirectional Encoder Representations from Transformers)

這是 Google 發(fā)布的一種雙向 Transformer 模型,通過預訓練方式大大提升了各種自然語言處理任務的表現(xiàn)。

●GPT 系列

包括 GPT、GPT-2、GPT-3 等,這些大型語言模型利用了大量數(shù)據(jù)進行無監(jiān)督預訓練,具有很強的泛化能力,可用于多種自然語言處理任務。

3. 在我的印象中,最初的自然語言處理有很多子方向,例如自動問答,摘要生成等等。每一個子領域都有很多專精的研究者。但是現(xiàn)在似乎整個自然語言處理只剩下的大語言模型這一個方向,您對此怎么看?

確實如您所說,近年來大語言模型已經(jīng)成為自然語言處理領域中的主流技術之一,許多重要的進展都是建立在這類模型之上?；诖竽Ｐ?幾乎所有NLP任務只需要經(jīng)過微調(diào)或者指令就可以得到不錯的效果。

然而我認為并不能完全否定其他子領域的價值和意義,因為各種類型的自然語言處理任務本身就有著各自獨特的特點和挑戰(zhàn),而針對這些特殊需求開發(fā)出的方法也同樣值得我們?nèi)リP注和探索。

比如,直接用大模型做某些領域的信息抽取任務,也許不一定有用BERT(小模型)做檢索增強來的效果好。而且大模型本身也有很多問題,比如幻象問題、可解釋問題,這些問題也許用其他自然語言方法可以避免。大模型的算力消耗和數(shù)據(jù)消耗也產(chǎn)生嚴重的環(huán)境問題,而且也阻礙了其未來可持續(xù)性發(fā)展。

隨著大模型算法不斷發(fā)展和改進,新的技術和思想也會隨之涌現(xiàn)出來,推動著各個子領域不斷進步和創(chuàng)新。

除了幻象和缺乏可解釋之外,當前大模型在企業(yè)應用實際落地過程中仍面臨不少挑戰(zhàn),比如面對復雜問題時使用門檻較高、信息更新不及時、領域知識匱乏、無法與外部系統(tǒng)交互等等問題。這些問題催生了類似于Langchain的框架的發(fā)展,也期待著未來AI Agents的到來。

4. 我們知道現(xiàn)在的大語言模型,如 ChatGPT 相較于初代的 Transformer 而言,做了很多工程上的改進,例如 RLHF、Chain of thoughts 等等。您認為這其中哪一樣是起到最大作用的。這一代代的大語言模型您認為是量變還是質(zhì)變?

這是個非常有意思的問題。其實從歷史角度來看,每次新版本的大語言模型發(fā)布后,往往都伴隨著多種不同的改進措施,很難判斷到底哪一種才是關鍵因素。我認為首先是預訓練數(shù)據(jù)集的增大和質(zhì)量提高;其次是模型的參數(shù)量大幅度提升。

至于RLHF,我認為是引導大語言模型的輸出結果和人類的倫理規(guī)范對齊的一個技術措施,其中要讀在于保證結果的可用性。而思維鏈則是引導大模型進行逐步推理或者計算得到最終結果的一個技術措施。這些都很重要,但是似乎也是理所當然可以想象出來的措施。

至于是否屬于“質(zhì)變”,這個問題有點難以界定。如果按照純粹的科學標準來看,只有當某項發(fā)現(xiàn)或者發(fā)明真正顛覆了原有的理論體系時才能稱得上“質(zhì)變”,但實際情況卻遠沒有這么簡單。

畢竟任何一次迭代升級都不是孤立存在的,而是建立在已有基礎之上的繼續(xù)推進,所以應該把它視作是一個漸進式的過程。

5. 我們知道最近瀾舟科技也是剛剛發(fā)布了自己的400億參數(shù)孟子大語言模型,在各大榜單上取得了極佳的成績和極大的影響力,您能給大家介紹一下瀾舟的一些基本業(yè)務構成嗎?

2021年成立以來,瀾舟科技一直致力于預訓練模型的研發(fā)與應用。我們在2022年底推出了基于孟子預訓練模型的認知智能平臺,包括AIGC、機器翻譯、金融NLP等20多個產(chǎn)品服務。

我們堅定地專注于孟子大模型在垂直領域和專業(yè)賽道的應用,為企業(yè)客戶量身定制解決方案,并始終秉承以客戶價值為第一的原則,持續(xù)投入行業(yè)深耕。

瀾舟科技推出了孟子大模型面向企業(yè)的“L1-L2-L3-L4”的產(chǎn)品體系。包括L1-孟子通用大模型、L2-孟子行業(yè)大模型、L3-場景服務模型和L4-AI Agents四個級別。每個級別的產(chǎn)品都具有不同的功能和優(yōu)勢。具體如下:

●L1-孟子通用大模型

提供閱讀理解、通用寫作、機器翻譯、多輪對話等通用能力。

●L2-孟子行業(yè)大模型

基于行業(yè)或者垂直領域?qū)I(yè)數(shù)據(jù)、聯(lián)合行業(yè)客戶和伙伴,打造出來的更加專業(yè)的行業(yè)大模型, 行業(yè)任務表現(xiàn)更優(yōu)。

●L3-場景服務模型

完全面向企業(yè)客戶的業(yè)務場景,聚焦業(yè)務效果,基于提示(prompt)工程或者微調(diào)(SFT)后實現(xiàn)更加定向的優(yōu)化效果。

●L4-AI Agents

面向復雜場景,孟子大模型擔當”大腦“角色,將復雜場景需求自主拆解為任務列表,自動執(zhí)行,實現(xiàn)”所說即所得“。

“在企業(yè)的數(shù)智化道路上,通用大模型和行業(yè)大模型都非常重要,通用大模型像是底座,提供未來的可能性,行業(yè)大模型更重視業(yè)務應用。而我們在做的就是把行業(yè)伙伴的最后一公里做起來,結合業(yè)務場景,實現(xiàn)真正的價值落地。未來,我們也會繼續(xù)努力,不斷優(yōu)化和完善我們的大模型,與行業(yè)伙伴緊密合作,共同推動人工智能技術在各個領域的應用和發(fā)展”。

嘉賓:周明

主持:Mia王璟晗

作者:Mia王璟晗

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。）

World Science Hill創(chuàng)始人Mia王璟晗：獨家專訪瀾舟科技創(chuàng)始人及CEO、微軟亞洲研究院前副院長周明

World Science Hill創(chuàng)始人Mia王璟晗：獨家專訪瀾舟科技創(chuàng)始人及CEO、微軟亞洲研究院前副院長周明