英偉達(dá)小模型持續(xù)獲勝。
ARC-AGI 2最新成績(jī),4B小模型NVARC以27.64%的公開(kāi)榜成績(jī)力壓GPT-5 Pro 18.3%登頂榜首。
且每任務(wù)成本僅20美分,大約是GPT-5 Pro單任務(wù)成本(超過(guò)7美元)的1/36。
據(jù)官方分析,此次NVARC奪冠的亮點(diǎn)在于零預(yù)訓(xùn)練深度學(xué)習(xí)方法,沒(méi)有依賴大規(guī)模通用數(shù)據(jù)集進(jìn)行前期預(yù)訓(xùn)練,規(guī)避了預(yù)訓(xùn)練模型的領(lǐng)域偏見(jiàn)、數(shù)據(jù)依賴等問(wèn)題。
而ARC-AGI 2確實(shí)是一個(gè)消除了與公共訓(xùn)練數(shù)據(jù)重疊的更高難度測(cè)試,主要是看測(cè)試模型能否高效地獲取超出其訓(xùn)練數(shù)據(jù)的新技能。
成績(jī)出爐后,官方訪談到了NVARC團(tuán)隊(duì)的Jean-Francois Puget和Ivan Sorokin,進(jìn)行技術(shù)剖析。
快來(lái)看看“性價(jià)比之王”是如何“練”成的?
不靠參數(shù)堆料英偉達(dá)的策略是將復(fù)雜推理移至離線的合成數(shù)據(jù)管道,訓(xùn)練能在評(píng)估時(shí)快速運(yùn)行的較小模型。
簡(jiǎn)單來(lái)說(shuō)就是大規(guī)模合成高質(zhì)量數(shù)據(jù),然后對(duì)現(xiàn)有模型進(jìn)行優(yōu)化,并且將昂貴的計(jì)算工作轉(zhuǎn)移到離線進(jìn)行。
由于Kaggle比賽對(duì)計(jì)算資源限制非常嚴(yán)格,團(tuán)隊(duì)意識(shí)到,他們不能直接使用那些需要超強(qiáng)算力的大型LMM來(lái)進(jìn)行復(fù)雜的、一步一步的推理和代碼生成。
因此他們改變了思路,決定將最燒錢的計(jì)算工作轉(zhuǎn)移到離線完成。比如利用GPT-OSS-120B來(lái)大規(guī)模制作高質(zhì)量的合成謎題。
團(tuán)隊(duì)從H-ARC、BARC數(shù)據(jù)集中搜集了現(xiàn)有的ARC謎題數(shù)據(jù),然后將簡(jiǎn)單的謎題混合起來(lái),生成更復(fù)雜的新謎題。
為了確保數(shù)據(jù)質(zhì)量,他們將復(fù)雜的推理管線拆分成不同的階段,每個(gè)階段都可以獨(dú)立驗(yàn)證。
通過(guò)這種方式,他們建立了一個(gè)含320萬(wàn)+增強(qiáng)樣本的合成數(shù)據(jù)集,其中每個(gè)樣本最多有7對(duì)輸入/輸出。
這里忍不住提一嘴,哈薩比斯剛強(qiáng)調(diào)了Scaling Law的重要性,那么合成數(shù)據(jù)的Scaling怎么不算呢(doge)?
言歸正傳,NVARC核心的推理模塊以改進(jìn)版ARChitects方法為基礎(chǔ),選用小參數(shù)模型Qwen3-4B,通過(guò)對(duì)話式模板簡(jiǎn)化謎題理解。
訓(xùn)練時(shí)借助NeMo RL框架和Megatron后端進(jìn)行監(jiān)督微調(diào)。
不過(guò),讓模型取得優(yōu)異成績(jī)的關(guān)鍵一步在于測(cè)試時(shí)微調(diào)(TTFT)。
針對(duì)ARC-AGI-2“每個(gè)任務(wù)都是全新規(guī)則”的特點(diǎn),NVARC引入了LoRA微調(diào)技術(shù),并且是針對(duì)每一個(gè)問(wèn)題都進(jìn)行微調(diào),讓模型在做題前快速適應(yīng)。
而對(duì)ARChitects方法的改進(jìn)在于解碼階段DFS算法做了批處理優(yōu)化,修復(fù)結(jié)果非確定性問(wèn)題。
同時(shí)統(tǒng)一了8種數(shù)據(jù)增強(qiáng)操作評(píng)估候選解,最終在公開(kāi)榜獲得了27.64%的分?jǐn)?shù)。
在競(jìng)賽后期,團(tuán)隊(duì)還應(yīng)用了“少即是多”的TRM方法,嘗試與Qwen3-4B集成補(bǔ)充分?jǐn)?shù),雖然有一定提升,但受各種限制并沒(méi)有大幅優(yōu)化。
那么問(wèn)題來(lái)了,有人會(huì)說(shuō)這樣訓(xùn)練出來(lái)的小模型不就是做題機(jī)器嗎?哪里比得上全面發(fā)力的超級(jí)大模型?
但更值得關(guān)注的或許不在于模型本身,而在于實(shí)現(xiàn)突破的方法。
在特定領(lǐng)域任務(wù)中,小模型經(jīng)過(guò)針對(duì)性優(yōu)化,性能并不遜色,再加之成本、速度、適配性與領(lǐng)域聚焦優(yōu)勢(shì),它們已經(jīng)在諸多場(chǎng)景嶄露頭角。
將正確的方法用在正確的地方,將會(huì)實(shí)現(xiàn)更大的價(jià)值。