免费b站软件推广网站2023,精品久久久久久久国产高清,午夜两性色视频在线观看

原標題：跨越AI天塹時：行動代號“盤古大模型”

我采訪過一個案例，某工廠的IT負責(zé)人想要應(yīng)用AI，咨詢之后卻發(fā)現(xiàn)開發(fā)成本過于高昂，人才、算力、算法等條件都不具備，最后只能作罷。

我認識一位朋友，任職于某家AI技術(shù)供應(yīng)商，他們推出的行業(yè)解決方案備受好評，卻在實際進入商業(yè)化階段時，發(fā)現(xiàn)大量客戶都需要定制，只能讓公司的AI專家四處奔波，解決用戶的細小問題，最后利潤卻連人員開支都無法覆蓋。

還記得一條朋友圈。一位AI開發(fā)者在使用之后感嘆GPT-3的神奇，同時也惋惜于中文世界缺少類似的NLP預(yù)訓(xùn)練大模型。

其實，這些朋友都遇到了同一個問題：一道名為“AI開發(fā)”的產(chǎn)業(yè)天塹。

當我們談?wù)揂I時，總是會將其效果等同于數(shù)據(jù)集、實驗室里的能力上限，卻忽略了在真實的開發(fā)、訓(xùn)練、部署中，AI有著太多碎片化與不確定性的因素。

而跨過這道產(chǎn)業(yè)天塹，也成為了一場名副其實的全球大賽。這場賽跑中至關(guān)重要的一個項目，名為“預(yù)訓(xùn)練大模型”。2018年，谷歌AI團隊發(fā)布了BERT模型，預(yù)訓(xùn)練模型的價值一時間成為全球焦點。2020 年 5 月，Open AI公布了擁有 1750 億參數(shù)的 GPT-3 預(yù)訓(xùn)練大模型，打破了人類有史以來創(chuàng)建最大神經(jīng)網(wǎng)絡(luò)的記錄。

與此同時，隨著預(yù)訓(xùn)練大模型的產(chǎn)業(yè)與戰(zhàn)略價值水漲船高，致力于將AI打造為新一代信息技術(shù)核心抓手的中國產(chǎn)學(xué)各界出現(xiàn)了一絲緊迫。

中文世界什么時候能迎來強大可用的預(yù)訓(xùn)練大模型？又是否能夠沖出GPT-3帶來的能力邊界？面對AI開發(fā)的”天塹”，我們有什么自己的辦法？

就在種種聲音不斷發(fā)酵的同時，華為云人工智能領(lǐng)域首席科學(xué)家田奇，正在和團隊一同發(fā)起一次安靜的沖鋒。

這次沖鋒的“行動代號”，叫做——盤古大模型。

天塹：“小作坊式”的AI開發(fā)困境

試想一下，如果每家企業(yè)在進行研發(fā)時，都需要自己做螺絲、軸承、齒輪這些基礎(chǔ)部件，那整個社會的工業(yè)化從何說起？

但在AI領(lǐng)域，卻真的會出現(xiàn)這種情況。如今，AI技術(shù)的企業(yè)滲透率僅僅為4%，距離產(chǎn)業(yè)爆發(fā)期還有相當長的路要走。究其原因，并不是AI缺乏價值，而是開發(fā)過程中存在大量的碎片化因素。每家想要應(yīng)用AI的企業(yè)，可能都需要一些技術(shù)水平很高的人才來進行獨立的架構(gòu)設(shè)計與調(diào)參。這就像每家工廠都需要聘請設(shè)計師來設(shè)計螺絲，是一種相當粗放、原始的手工作坊模式。

來到華為云的田奇，就和同事們共同發(fā)現(xiàn)了這樣的問題。

加入華為之前，田奇已經(jīng)是業(yè)界知名的AI領(lǐng)域?qū)W者。他是美國伊利諾伊大學(xué)香檳分校博士、IEEE Fellow，也是原德州大學(xué)圣安東尼奧分校計算機系正教授。在高校任教17年之后，帶著學(xué)術(shù)界的前沿思考和科研成果，田奇與團隊來到了產(chǎn)業(yè)一線。而他們首先關(guān)注到的，就是廣泛存于各個角落的AI開發(fā)困境。

由于傳統(tǒng)的NLP、機器視覺模型開發(fā)都來自研究機構(gòu)，所以其開發(fā)模式也天然與實驗室對齊，缺乏產(chǎn)業(yè)界要求的效率、標準化與成本可控。

比如說，一家企業(yè)的一個項目，往往都需要開發(fā)一系列定制化的小模型。但每個模型的開發(fā)周期都相對較長，并且需要不斷完成各種數(shù)據(jù)清洗、數(shù)據(jù)增強、模型適配等等瑣碎繁雜的工作。這個過程中，開發(fā)人員會選擇自己熟悉、擅長的模型與開發(fā)方式，又導(dǎo)致每個模型之間差異化很大。一旦出現(xiàn)問題就可能推倒重來，而人員變動更可能讓所有努力付諸東流。

這種開發(fā)模式，存在著“三高”的問題：開發(fā)人員專業(yè)性要求高、綜合成本高、不可控程度高。

那么如何突破這道產(chǎn)業(yè)天塹呢？從工業(yè)體系的邏輯上看，核心方案就是提升AI開發(fā)前置工作的標準化程度，把不同開發(fā)者所需模型的公約部分提前訓(xùn)練好。這就是工業(yè)化中的零件化、標準化和流程化。

在探索AI工業(yè)化的過程中，預(yù)訓(xùn)練大模型逐漸成為行業(yè)認可的方案。它的邏輯就是提前將知識、數(shù)據(jù)、訓(xùn)練成果沉淀到一個模型中，然后將這個基礎(chǔ)釋放到產(chǎn)業(yè)。由不同行業(yè)、不同企業(yè)的開發(fā)者在此基礎(chǔ)上進行二次開發(fā)和微調(diào)。就像一個工業(yè)化社會的第一步，是完善重型機械的建造能力。AI工業(yè)化的來臨，也需要首先擁有作為底座的“重型機械”。這也成為了盤古大模型團隊在華為云體系中的首要任務(wù)。

翻越開發(fā)天塹，在于能筑“重器”。

登山：盤古大模型背后的人與事

想要打造一個屬于中文世界，并且適配各種真實產(chǎn)業(yè)場景的AI預(yù)訓(xùn)練大模型，首先擺在研發(fā)團隊面前的是兩大門檻。一個是技術(shù)門檻，大模型需要非常好的并行優(yōu)化來確保工作效率，這對網(wǎng)絡(luò)架構(gòu)設(shè)計能力提出了很高要求；第二是資源門檻，大模型訓(xùn)練需要極大的算力。后來在訓(xùn)練千億參數(shù)的盤古大模型時，團隊調(diào)用了超過2000塊的昇騰910，進行了超過2個月的訓(xùn)練。這對于一般企業(yè)來說顯然難以承擔(dān)。

總之，想要快速打造一個可堪重用的AI大模型，需要調(diào)用各方的力量，并且精準完成技術(shù)上的進化。

2020年夏天GPT-3的出現(xiàn)，讓歐美AI界產(chǎn)生了對預(yù)訓(xùn)練大模型的極高興趣。但在國內(nèi)，產(chǎn)業(yè)界對NLP預(yù)訓(xùn)練大模型的關(guān)注還相對較少。而機器視覺領(lǐng)域的預(yù)訓(xùn)練大模型，在全球范圍內(nèi)都是十分陌生的新鮮事物。

此時，剛剛在2020年3月份加入華為云團隊的田奇，開始組建團隊并且進行方向梳理。到了8月，團隊迎來了核心專家的加入。隨后在9月，團隊開始推動盤古大模型的立項，希望能夠在華為云的產(chǎn)業(yè)基座上，完成適配各個產(chǎn)業(yè)AI開發(fā)的大模型。

來到2020年11月，盤古大模型在華為云內(nèi)部立項成功，也完成了與合作伙伴、高校的合作搭建。在開始打造盤古大模型的時候，團隊確立了三項最關(guān)鍵的核心設(shè)計原則：一是模型要大，可以吸收海量數(shù)據(jù)；二是網(wǎng)絡(luò)結(jié)構(gòu)要強，能夠真正發(fā)揮出模型的性能；三是要具有優(yōu)秀的泛化能力，可以真正落地到各行各業(yè)的工作場景。

接下來就是選擇賽道的問題。NLP領(lǐng)域的預(yù)訓(xùn)練大模型當時已經(jīng)得到了廣泛關(guān)注，自然是盤古大模型的重中之重。同時，AI在產(chǎn)業(yè)中應(yīng)用的更廣泛需求是機器視覺能力，所以盤古大模型同時也瞄準這一領(lǐng)域，同時開啟了NLP和機器視覺兩個領(lǐng)域的大模型開發(fā)。

與此同時，盤古大模型也做好了未來規(guī)劃。首先希望能夠把機器視覺、NLP、語音，甚至計算機圖形學(xué)的技術(shù)結(jié)合起來，形成多模態(tài)的預(yù)訓(xùn)練大模型，增強預(yù)訓(xùn)練大模型的跨領(lǐng)域協(xié)同落地能力。另外，AI落地中還有一個十分重要的領(lǐng)域是科學(xué)計算。海洋、氣象、制藥、能源等領(lǐng)域都有非常強的知識處理、科學(xué)計算需求。用AI的方法去求解科學(xué)計算問題，將帶來十分巨大的價值潛力。因此，多模態(tài)與科學(xué)計算大模型，將是盤古接下來的行動方向。

確定了建設(shè)方案與賽道選擇之后，接下來的研發(fā)工作可以順理成章地開展，同時也必然經(jīng)歷創(chuàng)造性研究中難免產(chǎn)生的一系列挑戰(zhàn)。

比如盤古大模型的核心開發(fā)過程，就是以海量有效數(shù)據(jù)進行模型預(yù)訓(xùn)練，實現(xiàn)吸收大量數(shù)據(jù)之后模型的高度智能化。那么數(shù)據(jù)和算力從哪來，就成為了一個不可避免的問題。在盤古大模型的開發(fā)過程中，華為云和合作伙伴的多方推動，確保了所需數(shù)據(jù)和算力資源的保障到位。即便華為云擁有非常好的資源基礎(chǔ)，在千億參數(shù)級別的大模型面前也依舊存有不足。為此，田奇團隊也嘗試了與合作伙伴的緊密協(xié)作，調(diào)用一切資源來確保開發(fā)進度。比如團隊同著名的鵬城實驗室合作，來完成了模型訓(xùn)練所需算力的調(diào)用。

而在數(shù)據(jù)與知識方面，盤古大模型的開發(fā)團隊經(jīng)常會遇到與具體行業(yè)知識體系、數(shù)據(jù)系統(tǒng)的磨合問題。這在具體過程中經(jīng)常出現(xiàn)意料之外的情況。比如一個醫(yī)學(xué)數(shù)據(jù)的準確率，顯然應(yīng)該依賴醫(yī)學(xué)專家的解答。但在具體場景中，往往醫(yī)學(xué)專家的判斷準確率也并不高。這類AI之外領(lǐng)域的情況，往往會反向影響到盤古大模型的開發(fā)。為此，盤古大模型團隊需要與具體的行業(yè)專家進行反復(fù)溝通，希望把他們的知識或者直觀感受，轉(zhuǎn)化為計算機可量化的模型，再對訓(xùn)練出的結(jié)果進行協(xié)同驗證。這種反復(fù)的跨領(lǐng)域溝通與聯(lián)動，才最終可能達成關(guān)于AI的共識。

在盤古大模型開發(fā)過程中，由于時間緊張、訓(xùn)練難度與成本巨大，并且還是機器視覺與NLP雙模型同時推動，自然也需要內(nèi)部團隊的“超人發(fā)揮”。田奇回憶，團隊內(nèi)部都叫自己“特戰(zhàn)隊員”，也就是角色需要經(jīng)?；Q，工作需要相互支撐，哪里缺人就要哪里頂上。一個技術(shù)專家，同時也要考慮很多產(chǎn)業(yè)落地、商業(yè)化方面的問題。

支撐著盤古大模型不斷攻堅克難的團隊，起初僅有6、7人，他們是讓盤古大模型得以從實驗室走向產(chǎn)業(yè)的中堅力量。如今團隊已陸續(xù)壯大起來，已包括20多名博士、30多名工程師、3名廣受關(guān)注的“華為天才少年”，還有50多名來自全國C9高校的專家。

翻山越嶺從來不易，智能時代亦是如此。

翻越：“盤古”究竟強在何處？

2021年4月，盤古大模型正式對外發(fā)布。其中盤古NLP大模型是業(yè)界首個千億參數(shù)的中文預(yù)訓(xùn)練大模型，在CLUE打榜中實現(xiàn)了業(yè)界領(lǐng)先。為了訓(xùn)練NLP大模型，團隊在訓(xùn)練過程中使用了40TB的文本數(shù)據(jù)，包含了大量的通用知識與行業(yè)經(jīng)驗。

而盤古CV大模型，在業(yè)界首次實現(xiàn)了模型的按需抽取，可以在不同部署場景下抽取出不同大小的模型，動態(tài)范圍可根據(jù)需求，覆蓋特定的小場景到綜合性的復(fù)雜大場景；提出的基于樣本相似度的對比學(xué)習(xí)，實現(xiàn)了在ImageNet上小樣本學(xué)習(xí)能力業(yè)界第一。

這些數(shù)據(jù)下，我們可以進一步考察盤古大模型的優(yōu)勢和能力點在何處。尤其盤古大模型與GPT-3的對比情況究竟如何，應(yīng)該會有很多朋友好奇。

橫向?qū)Ρ缺P古大模型與GPT-3的差異，也是透視盤古大模型技術(shù)創(chuàng)新的有效方案。首先我們知道盤古大模型有機器視覺模型，這是GPT-3所沒有的。回到NLP領(lǐng)域中，GPT-3更偏重于生成，其理解能力相對較弱。這也是為什么我們看到的GPT-3案例基本都與文本生成相關(guān)。而在盤古大模型的研發(fā)過程中，團隊考慮到真實的產(chǎn)業(yè)場景中有大量的內(nèi)容理解需求，比如客服、智能對話等等，于是給盤古大模型設(shè)計了兼顧架構(gòu)，能夠同時高度完成理解與生成任務(wù)。

再來看具體一些的技術(shù)差異，盤古大模型提升了復(fù)雜場景下的小樣本學(xué)習(xí)能力，在小樣本學(xué)習(xí)上比GPT-3提升了一個數(shù)量級的效率；在微調(diào)能力上，盤古有著更好的數(shù)據(jù)吸收理解能力，可以在真實行業(yè)場景中實現(xiàn)提升模型應(yīng)用效率；再有盤古大模型集成行業(yè)知識的能力更強，其采用更靈活的模塊設(shè)計，能夠根據(jù)業(yè)務(wù)場景適配，提升行業(yè)知識吸收效率。

在技術(shù)創(chuàng)新之外，盤古大模型還是一個天然瞄準AI工業(yè)化、現(xiàn)實場景的項目。在立項初期，研發(fā)團隊就與合作伙伴進行了一系列商業(yè)化驗證，以此來確保盤古大模型走入真實產(chǎn)業(yè)場景中的效率和適應(yīng)能力。這也是盤古大模型的一大差異，它并非為實驗室而創(chuàng)造，而是將工業(yè)化的一面放置在更高的優(yōu)先級上，是一個以商業(yè)價值驅(qū)動研發(fā)創(chuàng)新的“實干模式”大模型。

再有一點，盤古大模型與其他預(yù)訓(xùn)練大模型不同的是，團隊在研發(fā)過程中始終將生態(tài)化、協(xié)同創(chuàng)新納入考量。盤古大模型是一個開放、可生長的產(chǎn)業(yè)實體，可以在各個環(huán)節(jié)引入生態(tài)合作伙伴、高?？蒲袌F隊，以及不同領(lǐng)域AI開發(fā)者的力量。這樣確保了盤古大模型融入產(chǎn)業(yè)鏈條、搭建生態(tài)化合作的能力。從技術(shù)化、商業(yè)化、生態(tài)化三個層面，盤古大模型都驅(qū)動預(yù)訓(xùn)練大模型來到了一個新的階段，建造了一個從“作坊式AI開發(fā)”到“工業(yè)化AI開發(fā)”的轉(zhuǎn)換基礎(chǔ)。

盤古之力，在于合力。

燈火：大模型的落地進行時

雖然剛剛發(fā)布幾個月，但從立項之初，盤古大模型就已經(jīng)開展了一系列產(chǎn)業(yè)合作。這些來自千行百業(yè)的“盤古故事”，可以讓我們看到大模型與AI開發(fā)之變帶來的真實影像。

在物流場景，盤古大模型協(xié)助浦發(fā)銀行構(gòu)建了“物的銀行”——浦慧云倉。在人員行為、貨物檢測方面，可以實現(xiàn)性能提升5%到10%；同時開發(fā)效率也極大提升，原本需要1到2個月的開發(fā)工作，現(xiàn)在只需要兩三天就可以完成，開發(fā)中的人力、算力、維護成本都極大降低。

在盤古大模型的落地進程中，也經(jīng)常會出現(xiàn)一些“意外”的驚喜。比如在國家電網(wǎng)巡檢案例中，由于缺陷種類復(fù)雜多樣，傳統(tǒng)的方法需要對大多數(shù)缺陷適配特定模型以滿足性能需求，這樣100余種缺陷就需要開發(fā)20+模型，造成模型迭代維護困難。盤古大模型創(chuàng)造性地提供行業(yè)預(yù)訓(xùn)練模型，得益于其突出的特征表達能力，能夠做到一個模型適配所有缺陷，極大地提升了開發(fā)效率，同時識別效果平均提升超過18%。同時，盤古大模型還提供針對零樣本的缺陷檢測功能，能夠快速判斷新缺陷，真正貼近于巡檢員能力。

這樣的案例不斷增多，讓盤古大模型的行業(yè)認可度節(jié)節(jié)攀升。繼而也讓“預(yù)訓(xùn)練大模型是AI工業(yè)化主要途徑”成為行業(yè)共識與產(chǎn)業(yè)發(fā)展方向。目前，盤古大模型已經(jīng)在100多個行業(yè)場景完成驗證，包括能源、零售、金融、工業(yè)、醫(yī)療、環(huán)境、物流等等。精度提升、效率加強、開發(fā)成本下降，逐漸成為盤古大模型走向產(chǎn)業(yè)的幾個“標簽”。

萬家燈火初上，百業(yè)AI將興。

思索：AI工業(yè)化的虹吸與變革

盤古大模型的故事當然剛剛開始，但從它的立項、研發(fā)和落地進程中，我們卻可以得到一些關(guān)于AI工業(yè)化的思考。

從歷史中看，一種產(chǎn)品的工業(yè)化進程必然需要經(jīng)歷研發(fā)為重—基座為重—產(chǎn)品為重三個層級。比如說我們熟悉的智能手機，在經(jīng)歷了微型處理、無線通訊、屏幕觸控等技術(shù)的儲備階段之后，最終形成了一套標準化的集成邏輯與基礎(chǔ)產(chǎn)業(yè)鏈。這一階段，廠商不必再花費巨資進行基礎(chǔ)研發(fā)，而是可以用相對較低的成本完成零部件采購與集成制造。也只有這樣，廠商才能打磨產(chǎn)品，雕琢功能，消費者才能用上物美價廉的智能手機。

將這個邏輯回溯到AI領(lǐng)域。自深度學(xué)習(xí)為代表的AI第三次興起之后，這項技術(shù)得到了快速發(fā)展。但其基礎(chǔ)業(yè)態(tài)還處于“研發(fā)為重”的第一階段。行業(yè)中缺乏公開、有效、低成本的產(chǎn)業(yè)基礎(chǔ)，最終導(dǎo)致很多理論上成立的落地方案難以成行。

而盤古大模型的價值，恰恰就在于推動AI的低成本、可復(fù)制。雖然在打造大模型的階段需要耗費巨大的研發(fā)成本與資源，但一旦突破產(chǎn)業(yè)規(guī)模期，將帶來全行業(yè)的普惠價值。田奇認為，目前我們處在AI工業(yè)化開發(fā)模式起步后的快速發(fā)展階段，而大模型是最有希望將AI進行落地的一個方向。

從這個角度看，我們在觀察、思考和推動預(yù)訓(xùn)練大模型發(fā)展時，就不應(yīng)該停留在科研基礎(chǔ)設(shè)施的角度，而是應(yīng)該以產(chǎn)業(yè)應(yīng)用為導(dǎo)向，引導(dǎo)各方全力以赴，謀求AI工業(yè)化進程的質(zhì)變契機。

從盤古大模型的故事中看，這個過程需要多重力量的攜手與跨界。比如說，田奇加入華為，一度被視作AI學(xué)者進入產(chǎn)業(yè)界的代表性事件。而今天來看，這種“跨界”和“變化”確實起到了作用。田奇有著最新的研究方法、技術(shù)創(chuàng)新能力與國際視野；而在華為云的產(chǎn)業(yè)結(jié)構(gòu)中，田奇團隊也找到了學(xué)術(shù)界所不具備的驅(qū)動力——在產(chǎn)業(yè)界，科學(xué)家必須思考功耗、效率、成本、商業(yè)場景等等一系列真實問題，“學(xué)以致用”需要落進方方面面。

再比如，盤古大模型的開發(fā)過程，也是一場AI學(xué)者與工程師，同各行業(yè)專家、企業(yè)的對話。鐵路、物流、醫(yī)學(xué)、天文，種種知識要融入大模型之中，這就需要更強的協(xié)同能力與互相理解。

產(chǎn)學(xué)研的縱向融合，不同行業(yè)領(lǐng)域的橫向協(xié)同，誕生了AI在工業(yè)化階段必須經(jīng)歷的虹吸效應(yīng)。從這個角度看，盤古大模型也是一次產(chǎn)業(yè)、科研的虹吸范本。

這種“協(xié)同發(fā)力、重裝行動”的盤古大模型模式，或許將在未來一段時間內(nèi)不斷涌現(xiàn)，也將成為云計算與AI產(chǎn)業(yè)的戰(zhàn)略重心。而其影響，可能是AI開發(fā)的綜合門檻下降，一系列產(chǎn)業(yè)與社會價值的提升，以及戰(zhàn)略級AI基礎(chǔ)設(shè)施的完備。

田奇回憶說，在打造大模型的過程中，他更多考慮的是可能帶來的商業(yè)價值。如果不能復(fù)制推廣，那么大模型可能就是“一個toy、一個只能在實驗室中被觀賞的東西”。團隊希望大模型能夠在更多場景中被使用，這樣才能帶來改變。

當更多科學(xué)家、行業(yè)專家、AI架構(gòu)師，用這樣的角度和動力去思考AI、推動AI、建造AI，橫亙在AI面前的產(chǎn)業(yè)天塹，最終會成為登山者的豐碑，成為AI工業(yè)化變革的標志。

也許有一天，我們在聊AI往事的時候，會記住這么幾個字：

AI落地，“盤古”開天。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

跨越AI天塹時：行動代號“盤古大模型”

下一篇