2月12日,智譜AI正式發(fā)布并開(kāi)源全新一代旗艦大模型GLM-5。作為國(guó)內(nèi)唯一掌握TPU架構(gòu)高性能AI芯片核心技術(shù)并實(shí)現(xiàn)量產(chǎn)的企業(yè),中昊芯英同日完成對(duì)GLM-5的Day0推理適配。

憑借自研TPU芯片“剎那®”高帶寬近存架構(gòu)與高效張量計(jì)算核心的AI原生架構(gòu)優(yōu)勢(shì),GLM-5已在中昊芯英計(jì)算平臺(tái)上實(shí)現(xiàn)高吞吐、低延遲的穩(wěn)定運(yùn)行。這不僅是雙方生態(tài)合作的里程碑,更是專(zhuān)用算力芯片(TPU)在復(fù)雜工程化場(chǎng)景(Coding&Agent)中性能優(yōu)勢(shì)的集中體現(xiàn)。

GLM-5:Agentic Engineering時(shí)代最好的開(kāi)源模型

GLM-5是智譜AI推出的全新基座模型,在真實(shí)編程場(chǎng)景體感逼近ClaudeOpus4.5。其參數(shù)規(guī)模擴(kuò)展至744B,首次集成稀疏注意力機(jī)制,是目前開(kāi)源領(lǐng)域最強(qiáng)的Coding與Agent模型之一。

在全球權(quán)威的ArtificialAnalysis榜單中,GLM-5位居全球第四、開(kāi)源第一。

(GLM-5在Artificial Analysis榜單全球排名第四、開(kāi)源第一)

GLM-5在眾多學(xué)術(shù)基準(zhǔn)測(cè)試中相比GLM-4.7取得了顯著提升,并在推理、編碼和智能體任務(wù)上取得了全球所有開(kāi)源模型中的最佳性能,縮小了與前沿模型的差距。

(GLM-5的眾多學(xué)術(shù)基準(zhǔn)測(cè)試情況)

Day 0適配之路:TPU賦能Coding與Agent規(guī)?;涞?/strong>

“剎那®”TPU架構(gòu)高性能AI專(zhuān)用算力芯片,由中昊芯英歷時(shí)近5年100%自研,擁有完全自主可控的IP核、全自研指令集與計(jì)算平臺(tái)。在AI大模型計(jì)算場(chǎng)景中,算力性能超越海外著名GPU產(chǎn)品近1.5倍,能耗降低30%。同時(shí),通過(guò)采用Chiplet技術(shù)與2.5D封裝,實(shí)現(xiàn)了同等制程工藝下的性能躍升,并支持1024片芯片片間互聯(lián),實(shí)現(xiàn)千卡集群線性擴(kuò)容,支撐超千億參數(shù)大模型運(yùn)算需求。

(中昊芯英TPU架構(gòu)高性能AI專(zhuān)用算力芯片)

中昊芯英對(duì)GLM全系列模型保持著長(zhǎng)期的深度跟蹤與適配優(yōu)化。在此前GLM-4.5&4.7的適配過(guò)程中,中昊芯英研發(fā)團(tuán)隊(duì)基于“剎那®”TPU的近存架構(gòu)與高效張量核心,完成了芯片與GLM系列模型架構(gòu)的深度融合,實(shí)現(xiàn)了GLM-4.5&4.7在TPU集群上推理吞吐量的顯著提升,更為此次GLM-5的Day0高效適配積累了豐富的底層算子庫(kù)與工程經(jīng)驗(yàn)。

TPU架構(gòu)專(zhuān)為AI/ML而生,通過(guò)優(yōu)化計(jì)算單元的維度和數(shù)據(jù)傳輸?shù)穆窂?,在大模型推?訓(xùn)練等特定計(jì)算范式下,TPU比傳統(tǒng)GPU架構(gòu)能實(shí)現(xiàn)更高的能效比和計(jì)算密度。在長(zhǎng)期以來(lái)與GLM系列模型的適配中,“剎那®”芯片的可重構(gòu)多級(jí)存儲(chǔ)、近存運(yùn)算設(shè)計(jì)以及流水線式的時(shí)空映射,有效提升了GLM大模型計(jì)算速度和精度,為模型在復(fù)雜任務(wù)中的運(yùn)行提供了高效支持。

依托自研GPTPU軟件棧,中昊芯英“剎那®”TPU原生適配PyTorch、vLLM、DeepSpeed、Megatron-LM及SGLang等主流深度學(xué)習(xí)框架與推理引擎,助力用戶實(shí)現(xiàn)算法的“零成本”跨平臺(tái)遷移。無(wú)論是構(gòu)建支持1024片芯片片間互聯(lián)的“泰則®”大規(guī)模計(jì)算集群,還是部署面向Coding&Agent場(chǎng)景的高并發(fā)、低延遲在線推理服務(wù),中昊芯英均展現(xiàn)出對(duì)標(biāo)主流專(zhuān)用算力產(chǎn)品的卓越能效與穩(wěn)定性,旨在為AIGC時(shí)代筑牢堅(jiān)實(shí)、易用的國(guó)產(chǎn)專(zhuān)用算力底座。

(中昊芯英TPU芯片AI軟件棧)

從計(jì)算單元到集群:軟硬件協(xié)同與核心技術(shù)突破

GLM-5擁有高達(dá)744B的超大規(guī)模參數(shù)并首次集成稀疏注意力機(jī)制,對(duì)底層算力的并發(fā)性、通信帶寬及指令調(diào)度提出了極高的要求。中昊芯英從計(jì)算、通信、調(diào)度三層面的技術(shù)突破,系統(tǒng)性構(gòu)筑了從單芯片到千卡集群的軟硬一體高效計(jì)算底座:

·算力協(xié)同優(yōu)化:攻克稀疏計(jì)算瓶頸

針對(duì)GLM-5稠密計(jì)算與稀疏激活交錯(cuò)并存的MoE特性,中昊芯英采用了面向稀疏計(jì)算的算力協(xié)同優(yōu)化架構(gòu),在提升算力利用率的同時(shí),確保了模型在處理復(fù)雜Coding任務(wù)時(shí)的訓(xùn)練吞吐率與收斂效率。

·自適應(yīng)片上網(wǎng)絡(luò):打通大模型負(fù)載通信高速路

大模型推理的延遲往往受限于片上通信。中昊芯英通過(guò)自適應(yīng)片上網(wǎng)絡(luò)通信架構(gòu),引入動(dòng)態(tài)低延遲路由算法與網(wǎng)絡(luò)狀態(tài)感知機(jī)制,有效解決了大模型負(fù)載下的通信效率瓶頸。這使得“剎那®”芯片在驅(qū)動(dòng)GLM-5執(zhí)行長(zhǎng)程Agent任務(wù)時(shí),能夠保持極高的鏈路利用率與通信穩(wěn)定性。

·分布式執(zhí)行環(huán)境:實(shí)現(xiàn)多級(jí)并行的高效調(diào)度

為了讓GLM-5在服務(wù)器集群上實(shí)現(xiàn)線性擴(kuò)容,中昊芯英構(gòu)建了面向AI指令體系的分布式編譯及執(zhí)行環(huán)境。該技術(shù)支持節(jié)點(diǎn)間、設(shè)備內(nèi)及指令級(jí)的多層次并行調(diào)度,通過(guò)融合靜態(tài)圖穩(wěn)定性與動(dòng)態(tài)圖靈活性的混合建圖策略,為GLM-5形成了端到端的高效執(zhí)行路徑,確保了模型在異構(gòu)平臺(tái)上的原生高效運(yùn)行。

GLM-5擅長(zhǎng)處理復(fù)雜系統(tǒng)工程與長(zhǎng)程Agent任務(wù),中昊芯英的TPU AI芯片與計(jì)算平臺(tái)為其提供了堅(jiān)實(shí)的算力底座。通過(guò)“自研TPU芯片+超算集群+頂級(jí)大模型”的深度融合,雙方將共同為客戶提供極具競(jìng)爭(zhēng)力的AI軟硬件解決方案。

中昊芯英“剎那®”TPU AI芯片對(duì)GLM-5的Day0適配,再次印證了TPU芯片“ForAI”的專(zhuān)用架構(gòu)在AIGC時(shí)代的先進(jìn)性。未來(lái),中昊芯英將繼續(xù)堅(jiān)定TPU技術(shù)路徑,聚焦AI計(jì)算本質(zhì),并通過(guò)深化與智譜AI等頂尖合作伙伴的生態(tài)共建,為全球客戶提供具備生產(chǎn)力變革能力的AI創(chuàng)新方案。