123,123

10月26日消息，10月26日，騰訊宣布，騰訊混元大模型迎來全新升級，并正式對外開放“文生圖”功能，展示了其在圖像自動生成領域的領先能力。升級后的騰訊混元中文能力整體超過GPT3.5，代碼能力大幅提升20%，達到業(yè)界領先水平。

作為實用級的通用大模型，騰訊混元大模型的應用場景豐富多樣。目前，超過180個騰訊內部業(yè)務已接入騰訊混元，包括騰訊會議、騰訊文檔、企業(yè)微信、騰訊廣告和微信搜一搜等。最近，QQ瀏覽器還基于騰訊混元推出了“PDF閱讀助手”，具備智能摘要、智能問答和多輪提問等功能。

目前，已有來自零售、教育、金融、醫(yī)療、傳媒、交通、政務等多個行業(yè)的客戶，通過騰訊云調用騰訊混元大模型API，應用領域涉及智能問答、內容創(chuàng)作、數(shù)據(jù)分析、代碼助手等多個場景。今年9月首批通過備案后，騰訊混元大模型也已經面向C端用戶陸續(xù)開放體驗，用戶通過小程序或網頁端，就能與騰訊混元對話。

此次，騰訊自研的面向垂直領域的7B和13B模型也首次亮相，同等效果下僅需較少的tokens，訓練效率更高。模型實測中英文效果整體優(yōu)于國內外開源模型，能夠以更高的性價比和效率支持應用落地，滿足各種垂直場景和業(yè)務需求，助力騰訊全面擁抱大模型。

據(jù)了解，騰訊掌握從模型算法到機器學習框架再到AI基礎設施的全鏈路自研技術，這為大模型的快速迭代提供了有利條件。自首次公開亮相以來，騰訊混元大模型進入了加速升級的軌道。在自研算法的支持下，模型穩(wěn)定性和可靠性穩(wěn)步提升。

騰訊混元文生圖驚艷亮相，廣告場景應用效果明顯

文生圖是AIGC領域的核心技術之一，也是體現(xiàn)通用大模型能力的試金石，對模型算法、訓練平臺、算力設施都有較高的要求。

騰訊最早在廣告場景進行AI自動生成圖像的探索，在此過程中積累了深厚的研發(fā)能力。據(jù)介紹，相比其他大模型，騰訊混元的文生圖應用，在人像真實感、場景真實感上有比較明顯的優(yōu)勢，同時，在中國風景、動漫游戲等場景等生成上有較好的表現(xiàn)。

在業(yè)界公認難度較高的人臉畫像生成上，騰訊混元也交出了令人滿意的作品。比如，輸入提示詞“生成可愛的亞洲 4 歲女孩穿著棉質連衣裙，大眼睛，古代中國，攝影風格，漢服”，騰訊混元大模型生成如下：

可以看到，騰訊混元大模型可以很好地理解提示詞中提到的“棉質連衣裙”、“漢服”等內容，同時在風格上，也通過建筑和風景等襯托，很好的展示了“古代中國”的風格要求。

另外一個例子中，輸入提示詞“ 一個城市CBD辦公樓，現(xiàn)代化設計，高層建筑，玻璃幕墻，近景拍攝，攝影風格，攝影照片”，騰訊混元大模型交出了如下作品：

更簡單一些，輸入提示詞“輕舟已過萬重山，水墨畫風格”就可以得到下面的圖片：

大模型文生圖的難點體現(xiàn)在對提示詞的語義理解、生成內容的合理性以及生成圖片的效果。針對這三個技術難點，騰訊進行了專項的技術研究，提出了一系列原創(chuàng)算法，來保證生成圖片的可用性和畫質。

在語義理解方面，騰訊混元采用了中英文雙語細粒度的模型。模型同時建模中英文實現(xiàn)雙語理解，并通過優(yōu)化算法提升了模型對細節(jié)的感知能力與生成效果，有效避免多文化差異下的理解錯誤。

在內容合理性方面，AI生成人體結構和手部經常容易變形。混元文生圖通過增強算法模型的圖像二維空間位置感知能力，并將人體骨架和人手結構等先驗信息引入到生成過程中，讓生成的圖像結構更合理，減少錯誤率。

在畫面質感方面，混元文生圖基于多模型融合的方法，提升生成質感。經過模型算法的優(yōu)化之后，混元文生圖的人像模型，包含發(fā)絲、皺紋等細節(jié)的效果提升了30%，場景模型，包含草木、波紋等細節(jié)的效果提升了25%。

prompt：生成一幅照片：桂林漓江的山水，江上有一艘小船

作為“從實踐中來，到實踐中去”的大模型，騰訊混元文生圖能力，目前已經被用于素材創(chuàng)作、商品合成、游戲出圖等多項業(yè)務中，此外在廣告業(yè)務下的多輪測評中，騰訊混元文生圖的案例優(yōu)秀率和廣告主采納率分別達到86%和26%，均高于同類模型。

代碼能力行業(yè)領先，騰訊內部已經用大模型“寫”代碼

過去一個月，騰訊混元大模型不僅各項能力均有升級，代碼、數(shù)學能力也大幅提升。經過對32種主流語言代碼文件、各類計算機書籍和博客的學習增訓，騰訊混元代碼處理水平提升超過20%，代碼處理效果勝出ChatGPT 6.34%，在HumanEval公開測試集指標上全面超過Starcoder、Codellama等業(yè)界頭部開源代碼大模型。

只需輸入簡單的指令如“幫我用前端語言實現(xiàn)一個貪吃蛇”，騰訊混元便能自動生成可運行的代碼，快速制作出一個貪吃蛇小游戲。此外，騰訊混元還支持Python、C++、Java、Javascript等多種語言的指令生成，比如輸入“用Python畫紅色的心形線”，騰訊混元會提供代碼庫選擇、安裝命令、繪制代碼等具體操作步驟的指引。

Prompt：用Python畫紅色的心形線

騰訊內部目前已經有多個開發(fā)平臺接入了騰訊混元大模型，工程師們可以使用騰訊混元來進行代碼生成、代碼補全、代碼漏洞檢測和修復、表格數(shù)據(jù)處理、數(shù)據(jù)庫查詢等工作。

比如，在IDE編程場景中，騰訊工蜂Copilot通過接入混元大模型，可根據(jù)注釋生成對應代碼，或基于上下文智能補全代碼，大大提高了編程效率。混元大模型還可以幫助用戶進行代碼漏洞檢測和修復，保障軟件開發(fā)過程中的安全性。

騰訊混元大模型持續(xù)升級背后，離不開騰訊自研一站式機器學習平臺Angel的支撐。自研AngelPTM訓練框架可提供高效的分布式訓練解決方案，具備業(yè)界領先的內存利用率和訓練吞吐效率，訓練速度相比業(yè)界主流框架提升1 倍；自研AngelHCF訓練框架，具備從蒸餾、微調、壓縮到模型加速的完整能力，支持多種模型并行，保證模型的最小化部署及最大化吞吐，推理速度相比業(yè)界主流框架FasterTransformer快1.3倍。

從2021年開始，騰訊先后推出千億和萬億參數(shù)的NLP稀疏大模型，打破CLUE三大榜單紀錄，實現(xiàn)在中文理解能力上的新突破。2023年9月混元大模型的亮相，代表騰訊在大模型理解和生成通路上的融合打通。隨著文生圖功能的出現(xiàn)，騰訊混元大模型加入了對圖像的處理能力，模態(tài)進一步豐富。

大模型多模態(tài)交互能力被認為是通往通用人工智能的必由之路，也是不斷擴充大模型能力象限的一個重要方向。據(jù)介紹，騰訊混元大模型正在不斷強化圖片、視頻、音頻等各類模態(tài)的處理能力，相關成果也將很快面向外界推出。

免責聲明：本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網站出現(xiàn)的信息，均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時，應及時向本網站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。

騰訊混元大模型升級：新增“文生圖”功能

下一篇