大模型之戰(zhàn)，騰訊來了

2023-09-08 17:08:27 來源：InfoQ公眾號

9月7日，騰訊在數(shù)字生態(tài)大會上正式推出混元大模型。據(jù)介紹，騰訊混元大模型是由騰訊全鏈路自研的通用大語言模型，擁有超千億參數(shù)規(guī)模，預(yù)訓(xùn)練語料超2萬億 tokens，具備強(qiáng)大的中文創(chuàng)作能力，復(fù)雜語境下的邏輯推理能力，以及可靠的任務(wù)執(zhí)行能力。

目前，騰訊云、騰訊廣告、騰訊游戲、騰訊金融科技、騰訊會議、騰訊文檔、微信搜一搜、QQ 瀏覽器等超過50個騰訊業(yè)務(wù)和產(chǎn)品，已經(jīng)接入騰訊混元大模型測試。同時，騰訊混元大模型將作為騰訊云 MaaS 服務(wù)的底座，客戶不僅可以直接通過 API 調(diào)用，也可以將混元大模型作為基底模型，為不同產(chǎn)業(yè)場景構(gòu)建專屬應(yīng)用。

在這一波大模型浪潮中，云服務(wù)被認(rèn)為是最理想的大模型承載平臺，而大模型也將引領(lǐng)下一代云服務(wù)的演進(jìn)。通過云廠商所提供的基礎(chǔ)設(shè)施、模型服務(wù)、訓(xùn)練加速框架等支持，大模型的能力將很快滲透到各行各業(yè)中。

(資料圖)

與此同時，算力緊缺是擺在眼前的困境。如何在有限的卡上，構(gòu)建穩(wěn)定可靠的算力集群，如何讓有限的算力資源發(fā)揮出最大的價值，也成為各家云廠商和模型公司最重要的課題。

大模型時代的贏家

如今我們正處于“智能涌現(xiàn)”的風(fēng)口浪尖，人工智能只需訪問每天產(chǎn)生的2.5萬億字節(jié)數(shù)據(jù)中的一小部分，就能創(chuàng)造出人類智力無法比擬的奇跡。不久前，由 Google DeepMind 構(gòu)建的 AlphaDev，結(jié)合了計算機(jī)推理和直覺，幫助我們?nèi)祟惏l(fā)現(xiàn)一些我們原本不知道的東西:一種全新且更快的排序算法，排序速度上取得的突破超越了科學(xué)家們幾十年來的研究。

人類可能需要20年的時間才能成為領(lǐng)域?qū)＜遥缓髮⑦@種思維應(yīng)用于解決實(shí)際問題。如今，人工智能可以在幾分鐘或幾秒鐘內(nèi)實(shí)現(xiàn)這種專編程客棧業(yè)化。

騰訊集團(tuán)副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 COO、騰訊云總裁邱躍鵬將今年這一特殊的年份描述為“大模型的元年”，他說:“今天有點(diǎn)像移動互聯(lián)網(wǎng)剛到來的時候，那一年我們往后看，可能沒有太多人想到十幾年之后移動互聯(lián)網(wǎng)帶來的深刻改變。”

如今，在技術(shù)創(chuàng)新帶來的這股潮流趨勢下，全球的科技企業(yè)都開始了 GPT“軍備”競賽，希望通過研發(fā)更強(qiáng)大的 GPT 模型來增強(qiáng)他們的產(chǎn)品和服務(wù)。以微軟納德拉為首的一眾大佬都聲稱要將“所有產(chǎn)品上搭載 AI，徹底改造”。

然而，人工智能的高成本構(gòu)成了一個不容忽視的難題，這也成為了許多企業(yè)參與的障礙，大企業(yè)反而比初創(chuàng)企業(yè)更能占據(jù)有利的地位。Semianalysis 估計，截至編程客棧2023年2月，OpenAI 使用超過3，600臺 Nvidia HGX A100服務(wù)器來為 ChatGPT 提供服務(wù)。這些 HGX 服務(wù)器均包含8個 A100GPU，每臺成本為 $10，000美元。這大約相當(dāng)于為 ChatGPT 提供服務(wù)的硬件成本高達(dá)2.88億美元，顯然這些基礎(chǔ)設(shè)施只有大型云服務(wù)提供商才能提供。

另一方面，訓(xùn)練和“推理”（實(shí)際運(yùn)行）大語言模型的高昂成本是一種結(jié)構(gòu)性成本，與之前的計算熱潮不同。即使軟件被構(gòu)建或訓(xùn)練，它仍然需要大量的計算資源來運(yùn)行大語言模型，因?yàn)槊看紊商崾卷憫?yīng)時都需要進(jìn)行數(shù)十億次計算。相比之下，我們?nèi)粘Ｊ褂玫膽?yīng)用程序所需的計算要少得多。也就是說，訓(xùn)練模型的成本只是冰山一角，隱藏在水面之下還有巨大的“推理成本”，即每次調(diào)用模型輸出時產(chǎn)生的成本。Semianalysis 表示，“以任何合理規(guī)模部署模型時，推理成本遠(yuǎn)遠(yuǎn)超過訓(xùn)練成本。事實(shí)上，ChatGPT 推理的成本超過了每周的訓(xùn)練成本?！?/p>

因此，以最低的綜合成本獲取算力資源已經(jīng)成為人工智能公司成功的關(guān)鍵因素，而在云計算行業(yè)中，那些提供這種“鏟子”的企業(yè)價值不可小覷。

“針對大模型所有相關(guān)能力的投入和研究是必需的，所有云廠商都js必須做好對于 AGI 的支持，這是一個必答題，沒有人能不答這道題?！鼻褴S鵬表示。

“目前投資規(guī)模最大的是在訓(xùn)練，沒有幾十億的資本投入，很難下場去持續(xù)做大模型。另一方面，真的下場做大模型的企業(yè)不多，未來真正的應(yīng)用場景還是在下游。結(jié)合場景看，未來，推理是比訓(xùn)練更大的市場。今天我們看到很多場景用了大模型之后，帶來的效果提升確實(shí)非常明顯，這說明大模型的商業(yè)模式相對來說更清晰。雖然目前還很難講具體的算力需求究竟有多少，但一定是非常長期的機(jī)會?！?/p>

傳統(tǒng)云服務(wù)能滿足需求嗎?

傳統(tǒng)的云基礎(chǔ)設(shè)施并不是為支持大規(guī)模人工智能而設(shè)計的，隨著 AI 普及度和復(fù)雜度越來越高，云廠商也面臨了一些全新的挑戰(zhàn)，計算、存儲以及 IT 架構(gòu)等層面都發(fā)生著翻天覆地的變化。

傳統(tǒng)云服務(wù)大部分由通用 CPU 的服務(wù)器組成，而更適合運(yùn)行 AI 工作負(fù)載的 GPU 集群只占基礎(chǔ)設(shè)施的一小部分。根據(jù)英偉達(dá)在2023年臺北電腦展會上的演講，如果使用 GPU 進(jìn)行訓(xùn)練，相比 CPU 服務(wù)器，客戶可以以4% 的成本和1.2% 的電力消耗來訓(xùn)練一個 LLM。因此，該公司表示 CPU 已落伍，用 GPU 才是訓(xùn)練大語言模型的首選。

傳統(tǒng)服務(wù)器和 AI 服務(wù)器對 GPU 的依賴對比，來自摩根大通的估計。

但高密度算力需求，也會給云服務(wù)帶來影響，比如 IDC（數(shù)據(jù)中心）的規(guī)劃對于高密集算力而言，仍然有許多瓶頸，例如需要高功率供電的機(jī)架。高功率的電力供給基礎(chǔ)設(shè)施都很早期，高功率供電的機(jī)架很稀缺。

邱躍鵬提到，“IDC 是非常長周期的投資，面向未來，算力基礎(chǔ)設(shè)施也需要相應(yīng)地升級，來更好地承接大模型帶來的新需求?！?/p>

而從存儲方面來說，在過去幾年中，大語言模型的尺寸每年平均增長了10倍，參數(shù)數(shù)量從數(shù)百萬個到萬億不等，大語言模型（LLM）也會面臨存儲容量的挑戰(zhàn)，單個存儲設(shè)備是不可能滿足存儲要求的。例如，OpenAI 的 GPT-3模型擁有1750億個參數(shù)，僅其參數(shù)就需要超過300GB 的存儲空間。

正如 OpenAI 論文“Language Models are Few-Shot Learners”中表示的那樣，較大的模型往往表現(xiàn)更好，然而，參數(shù)數(shù)量增加也提出了更高的存儲容量需求。如果在讀取數(shù)據(jù)時機(jī)器出現(xiàn)問題，或者導(dǎo)致 SSD 硬件故障，都是不能容忍的。

最后一個是大模型“解鎖”了各行各業(yè)的數(shù)據(jù)。以前是個別企業(yè)帶著大家通過 AI 技術(shù)逐個攻克單一領(lǐng)域的問題，模型參數(shù)量和算力需求在多年來其實(shí)也一直是一個比較穩(wěn)定的水平，據(jù)估算，海量數(shù)據(jù)因?yàn)橐蕾嚱Y(jié)構(gòu)化也只用起來了20%。而現(xiàn)在，隨著大模型通用能力的加持，各行各業(yè)的萬千企業(yè)都已經(jīng)參與到了這里面來，Embeding（向量化）技術(shù)讓非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用也有了更多的想象空間，模型訓(xùn)練的所需算力也變成了千卡規(guī)模，數(shù)據(jù)檢索也會面臨更大的壓力。

基于以上種種挑戰(zhàn)，騰訊云認(rèn)為，在新的大模型時代，需要更高效的云技術(shù)。如果把之前的云稱為 AI1.0時代，那么在1.0時代里，行業(yè)著重關(guān)注的是單機(jī)單卡的性能、標(biāo)量數(shù)據(jù)的結(jié)構(gòu)化精確檢索，以及云原生帶來的自動調(diào)度。而現(xiàn)在，當(dāng)行業(yè)進(jìn)入到了 AI2.0時代，在這個背景下，由于服務(wù)重點(diǎn)發(fā)生了轉(zhuǎn)變，現(xiàn)在更多關(guān)注 AI 企業(yè)和大模型，云廠商需要將重點(diǎn)轉(zhuǎn)向集群性能的提升、向量數(shù)據(jù)的存儲與檢索等方向上。

騰訊云是如何解決當(dāng)前挑戰(zhàn)的

傳統(tǒng)云計算已經(jīng)無法滿足 AI 企業(yè)及大模型訴求，云智算已成為了關(guān)鍵支撐，騰訊面向 AI 場景專用，打造了騰訊云 AI 超級底座。

在這次大會上，我們關(guān)注到了騰訊云 AI 超級底座的幾個關(guān)鍵產(chǎn)品:

高性能算力集群

基于當(dāng)下大模型大規(guī)模、高效率的訓(xùn)練需求，騰訊云上線了全新一代高性能計算集群 HCC，相比上一代整體提升了3倍。在實(shí)際業(yè)務(wù)測試當(dāng)中，業(yè)內(nèi)傳統(tǒng)的集群方案訓(xùn)練一次需要50天的時間，而騰訊云只需要4天。

HCC 不止是一個單純的算力資源，還包含了目前騰訊最先進(jìn)的存儲和3.2T RDMA 網(wǎng)絡(luò)能力，以及上層最前沿的軟件定義技術(shù)、云原生編排技術(shù)和加速框架。

存儲層面，訓(xùn)練場景下，幾千臺計算節(jié)點(diǎn)會同時讀取一批數(shù)據(jù)集，需要盡可能縮短數(shù)據(jù)集的加載時長。騰訊云提供了 COS+GooseFS 對象存儲方案，提升端到端的數(shù)據(jù)讀取性能，以及 CFS Turbo 高性能并行文件存儲方案，解決大模型場景大數(shù)據(jù)量、高帶寬、低延時的訴求。

騰訊稱，目前 HCC 已成為國內(nèi)性能最強(qiáng)的訓(xùn)練集群，算力能夠?qū)崿F(xiàn)無損釋放。

他們在硬件方面進(jìn)行了大量的優(yōu)化和升級，不斷提高了集群的計算能力和穩(wěn)定性，基于騰訊自研星星海服務(wù)器，搭載了目前業(yè)內(nèi)領(lǐng)先的 GPU 芯片，支持單卡在 FP16精度下輸出989TFlops 的算力（如果在精度差一點(diǎn)的推理場景下，可以接近2000TFlops）。

另外，運(yùn)行成本是開發(fā)者普遍非常關(guān)心的問題，大模型興起初期，有開發(fā)者抱怨說:“跑一把大模型，體驗(yàn)就感覺就像坐在一輛被困在路上的出租車?yán)?要么下車，要么盯著計價器跳動”。

雖然云計算工程師們已經(jīng)能把故障率降得很低很低，但由于大模型任務(wù)和環(huán)境的復(fù)雜，仍然有可能出現(xiàn)偶發(fā)的中斷。訓(xùn)練中斷也是當(dāng)前整個行業(yè)高度關(guān)注的話題。

騰訊云基于云原生能力，能夠支持集群的監(jiān)控和斷點(diǎn)續(xù)算能力。為此騰訊提供了7*24小時的全局監(jiān)控視角，支持編排、框架、實(shí)例等多層級的指標(biāo)監(jiān)控。一旦觸發(fā)故障，系統(tǒng)能夠在5分鐘內(nèi)恢復(fù)任務(wù)，10分鐘內(nèi)恢復(fù)基礎(chǔ)設(shè)施，并且無需人工干預(yù)，就能夠自動最大化保障任務(wù)的連續(xù)進(jìn)行。一個粗略的計算是，每減少一小時異常，干卡規(guī)模可節(jié)省數(shù)十萬元成本。

高性能數(shù)據(jù)處理

為了滿足企業(yè)在這個新時代對數(shù)據(jù)檢索的需求，騰訊推出了一款專為 AI 場景打造的數(shù)據(jù)庫:騰訊云向量數(shù)據(jù)庫。

這是一款企業(yè)級的分布式向量數(shù)據(jù)庫，相較于傳統(tǒng)的單機(jī)插件式向量數(shù)據(jù)庫方案，騰訊提供了10倍的單索引規(guī)模，支持高達(dá)10億級行數(shù)，助力企業(yè)應(yīng)對海量非結(jié)構(gòu)化數(shù)據(jù)檢索的挑戰(zhàn)。

許多企業(yè)在 AI 接入過程中，Embedding 工程成為了非常大的瓶頸。而騰訊向量數(shù)據(jù)庫集成 Embedding 能力，可以使得企業(yè)數(shù)據(jù)接入 AI 的工期從30天縮短到了3天，效率提升10倍。

大模型的成功依賴于三編程個要素:模型、算力和數(shù)據(jù)，擁有高質(zhì)量的數(shù)據(jù)能夠使模型更加精準(zhǔn)。

騰訊在云上打造了云原生數(shù)據(jù)湖倉、向量數(shù)據(jù)庫。它們就像“過濾器”，能夠?qū)Υ罅康脑紨?shù)據(jù)進(jìn)行清洗、分類。

云原生數(shù)據(jù)湖倉配合 COS 數(shù)據(jù)湖存儲，目前能支持每秒百萬級數(shù)據(jù)更新入湖、TB 級海量吞吐能力。配合剛剛發(fā)布的騰訊云向量數(shù)據(jù)庫，能夠?qū)崿F(xiàn)10億級向量檢索規(guī)模、100億級的離線數(shù)據(jù)清洗規(guī)模，并將延遲控制在毫秒級。

實(shí)測效果顯示，對比傳統(tǒng)方式，騰訊云的高性能數(shù)據(jù)處理引擎，讓原始數(shù)據(jù)清洗性能提升了40%+，企業(yè)運(yùn)行綜合成本降低50% 。

通過對各類數(shù)據(jù)的收集、分類、去重、清洗、管理，能夠給大模型提供純度極高的數(shù)據(jù)“燃料”，大模型也能基于這些高質(zhì)量數(shù)據(jù)，全面提升訓(xùn)練和推理效率。

TI 平臺提供精調(diào)部署能力

很多企業(yè)需要在通用大模型的基礎(chǔ)上，灌入自己的數(shù)據(jù)做訓(xùn)練或精調(diào)，從而打造出適合自身業(yè)務(wù)的行業(yè)大模型。騰訊云也結(jié)合開發(fā)者和企業(yè)的使用需求，進(jìn)一步完善了訓(xùn)練推理框架和 TI 平臺工具鏈。

在訓(xùn)練推理層面，騰訊借助自研的機(jī)器學(xué)習(xí)框架 Angel，完成了混元的訓(xùn)練。Angel 訓(xùn)練速度相比業(yè)界主流框架提升1倍，推理速度比業(yè)界主流框架提升1.3倍。目前，企業(yè)和開發(fā)者可以通編程過 TI 平臺直接使用該框架。

TI 平臺提供的工具覆蓋環(huán)境準(zhǔn)備、代碼調(diào)試、性能評估和部署全鏈路，具備高性能的大模型精調(diào)與部署能力，覆蓋大模型開發(fā)、應(yīng)用全生命周期，讓客戶只需加入自己獨(dú)有的場景數(shù)據(jù)，即可在短時間內(nèi)精調(diào)出專屬的模型方案。

寫在最后

大模型已經(jīng)成為當(dāng)前云服務(wù)提供商不可或缺的機(jī)遇。

事實(shí)上，云廠商之間正在圍繞大模型展開競爭，重新爭奪公有云市場，因?yàn)?AI 并不只是帶來算力投入的增長，而是會帶來整個業(yè)務(wù)的增長——當(dāng)大模型的能力不斷進(jìn)化，企業(yè)在云上使用模型服務(wù)的需求也會增加;而被大模型改造的應(yīng)用和產(chǎn)品，也帶來了新的市場空間?；A(chǔ)設(shè)施、模型和應(yīng)用，三者相輔相成，已經(jīng)成為云廠商必爭的空間。

面對全新的發(fā)展機(jī)遇，騰訊集團(tuán)高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 CEO 湯道生表示:“以大模型生成技術(shù)為核心，人工智能正在成為下一輪數(shù)字化發(fā)展的關(guān)鍵動力，也為解決產(chǎn)業(yè)痛點(diǎn)，帶來了全新的思路。騰訊產(chǎn)業(yè)互聯(lián)網(wǎng)將通過智能增強(qiáng)、數(shù)據(jù)增強(qiáng)、連接增強(qiáng)，持續(xù)助力產(chǎn)業(yè)增強(qiáng)?！?/p>

截至目前，國內(nèi)主要大廠的大模型均已上線，而真正的競爭才剛剛開始，能否落地，能否真正產(chǎn)生價值，才是制勝關(guān)鍵。

關(guān)鍵詞：

分享到：

版權(quán)和免責(zé)申明

凡注有"星島中文網(wǎng)"或電頭為"星島中文網(wǎng)"的稿件，均為星島中文網(wǎng)獨(dú)家版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載或鏡像；授權(quán)轉(zhuǎn)載必須注明來源為"星島中文網(wǎng)"，并保留"星島中文網(wǎng)"的電頭。

相關(guān)閱讀