亚洲天堂激情一区,精品人妻无码一区二

英偉達(dá)小模型持續(xù)獲勝。

ARC-AGI 2最新成績(jī)，4B小模型NVARC以27.64%的公開(kāi)榜成績(jī)力壓GPT-5 Pro 18.3%登頂榜首。

且每任務(wù)成本僅20美分，大約是GPT-5 Pro單任務(wù)成本（超過(guò)7美元）的1/36。

據(jù)官方分析，此次NVARC奪冠的亮點(diǎn)在于零預(yù)訓(xùn)練深度學(xué)習(xí)方法，沒(méi)有依賴大規(guī)模通用數(shù)據(jù)集進(jìn)行前期預(yù)訓(xùn)練，規(guī)避了預(yù)訓(xùn)練模型的領(lǐng)域偏見(jiàn)、數(shù)據(jù)依賴等問(wèn)題。

而ARC-AGI 2確實(shí)是一個(gè)消除了與公共訓(xùn)練數(shù)據(jù)重疊的更高難度測(cè)試，主要是看測(cè)試模型能否高效地獲取超出其訓(xùn)練數(shù)據(jù)的新技能。

成績(jī)出爐后，官方訪談到了NVARC團(tuán)隊(duì)的Jean-Francois Puget和Ivan Sorokin，進(jìn)行技術(shù)剖析。

快來(lái)看看“性價(jià)比之王”是如何“練”成的？

不靠參數(shù)堆料

英偉達(dá)的策略是將復(fù)雜推理移至離線的合成數(shù)據(jù)管道，訓(xùn)練能在評(píng)估時(shí)快速運(yùn)行的較小模型。

簡(jiǎn)單來(lái)說(shuō)就是大規(guī)模合成高質(zhì)量數(shù)據(jù)，然后對(duì)現(xiàn)有模型進(jìn)行優(yōu)化，并且將昂貴的計(jì)算工作轉(zhuǎn)移到離線進(jìn)行。

由于Kaggle比賽對(duì)計(jì)算資源限制非常嚴(yán)格，團(tuán)隊(duì)意識(shí)到，他們不能直接使用那些需要超強(qiáng)算力的大型LMM來(lái)進(jìn)行復(fù)雜的、一步一步的推理和代碼生成。

因此他們改變了思路，決定將最燒錢的計(jì)算工作轉(zhuǎn)移到離線完成。比如利用GPT-OSS-120B來(lái)大規(guī)模制作高質(zhì)量的合成謎題。

團(tuán)隊(duì)從H-ARC、BARC數(shù)據(jù)集中搜集了現(xiàn)有的ARC謎題數(shù)據(jù)，然后將簡(jiǎn)單的謎題混合起來(lái)，生成更復(fù)雜的新謎題。

為了確保數(shù)據(jù)質(zhì)量，他們將復(fù)雜的推理管線拆分成不同的階段，每個(gè)階段都可以獨(dú)立驗(yàn)證。

通過(guò)這種方式，他們建立了一個(gè)含320萬(wàn)+增強(qiáng)樣本的合成數(shù)據(jù)集，其中每個(gè)樣本最多有7對(duì)輸入/輸出。

這里忍不住提一嘴，哈薩比斯剛強(qiáng)調(diào)了Scaling Law的重要性，那么合成數(shù)據(jù)的Scaling怎么不算呢（doge）？

言歸正傳，NVARC核心的推理模塊以改進(jìn)版ARChitects方法為基礎(chǔ)，選用小參數(shù)模型Qwen3-4B，通過(guò)對(duì)話式模板簡(jiǎn)化謎題理解。

訓(xùn)練時(shí)借助NeMo RL框架和Megatron后端進(jìn)行監(jiān)督微調(diào)。

不過(guò)，讓模型取得優(yōu)異成績(jī)的關(guān)鍵一步在于測(cè)試時(shí)微調(diào)（TTFT）。

針對(duì)ARC-AGI-2“每個(gè)任務(wù)都是全新規(guī)則”的特點(diǎn)，NVARC引入了LoRA微調(diào)技術(shù)，并且是針對(duì)每一個(gè)問(wèn)題都進(jìn)行微調(diào)，讓模型在做題前快速適應(yīng)。

而對(duì)ARChitects方法的改進(jìn)在于解碼階段DFS算法做了批處理優(yōu)化，修復(fù)結(jié)果非確定性問(wèn)題。

同時(shí)統(tǒng)一了8種數(shù)據(jù)增強(qiáng)操作評(píng)估候選解，最終在公開(kāi)榜獲得了27.64%的分?jǐn)?shù)。

在競(jìng)賽后期，團(tuán)隊(duì)還應(yīng)用了“少即是多”的TRM方法，嘗試與Qwen3-4B集成補(bǔ)充分?jǐn)?shù)，雖然有一定提升，但受各種限制并沒(méi)有大幅優(yōu)化。

那么問(wèn)題來(lái)了，有人會(huì)說(shuō)這樣訓(xùn)練出來(lái)的小模型不就是做題機(jī)器嗎？哪里比得上全面發(fā)力的超級(jí)大模型？

但更值得關(guān)注的或許不在于模型本身，而在于實(shí)現(xiàn)突破的方法。

在特定領(lǐng)域任務(wù)中，小模型經(jīng)過(guò)針對(duì)性優(yōu)化，性能并不遜色，再加之成本、速度、適配性與領(lǐng)域聚焦優(yōu)勢(shì)，它們已經(jīng)在諸多場(chǎng)景嶄露頭角。

將正確的方法用在正確的地方，將會(huì)實(shí)現(xiàn)更大的價(jià)值。

日本最新三极片久久久,国产一二三四,大香蕉伊人网AV,Av青青草原高潮喷水,99亚洲综合,亚洲久久香蕉久久视频,亚洲另类男女自偷自拍,精品不卡区,操小骚逼影院

英偉達(dá)4B小模型擊敗GPT-5 Pro！成本僅1/36

寧夏首個(gè)國(guó)產(chǎn)千卡智算集群簽約，摩爾線程聯(lián)合中能建助力西部算力產(chǎn)業(yè)高質(zhì)量發(fā)展

加快推進(jìn)分拆上市比亞迪半導(dǎo)體引入小米等30位戰(zhàn)投

旭化成微電子亮相CES?2025，首次展出新一代老齡科技的多款解決方案

成都集成電路產(chǎn)業(yè)規(guī)模排名全國(guó)第五高新區(qū)規(guī)劃2022年目標(biāo)

中芯國(guó)際：復(fù)工率90% 生產(chǎn)研發(fā)100%運(yùn)行

半導(dǎo)體行業(yè)全景圖

日本最新三极片久久久,国产一二三四,大香蕉伊人网AV,Av青青草原高潮喷水,99亚洲综合,亚洲久久香蕉久久视频,亚洲另类男女自偷自拍,精品不卡区,操小骚逼影院

英偉達(dá)4B小模型擊敗GPT-5 Pro！成本僅1/36

相關(guān)閱讀

寧夏首個(gè)國(guó)產(chǎn)千卡智算集群簽約，摩爾線程聯(lián)合中能建助力西部算力產(chǎn)業(yè)高質(zhì)量發(fā)展

加快推進(jìn)分拆上市 比亞迪半導(dǎo)體引入小米等30位戰(zhàn)投