北大團(tuán)隊(duì)提出2比特復(fù)數(shù)模型iFairy{±1, ±i},精度反超量化前,可手機(jī)部署
version 8.14
摘要:為破解大模型部署與推理成本高昂的困境,北京大學(xué)楊仝老師團(tuán)隊(duì)首次提出名為iFairy的超低比特量化方案。該方案創(chuàng)新性地利用復(fù)數(shù){±1, ±i}對(duì)模型權(quán)重進(jìn)行2-bit量化,在實(shí)現(xiàn)1/8極致壓縮與“無(wú)乘法”推理加速的同時(shí),語(yǔ)言建模能力和下游任務(wù)表現(xiàn)甚至反超了其全精度的LLaMA基座模型。
當(dāng)下,大語(yǔ)言模型(LLM)的研究熱潮席卷全球,技術(shù)迭代日新月異。然而,在這片繁榮之下,一個(gè)嚴(yán)峻的現(xiàn)實(shí)不容忽視:LLM在真實(shí)世界中產(chǎn)生的商業(yè)價(jià)值,很大程度上仍無(wú)法覆蓋其高昂的訓(xùn)練與推理成本。
究其根源,大模型走向產(chǎn)業(yè)落地的道路上,橫亙著兩大“攔路虎”:空間瓶頸和時(shí)間瓶頸。
為了追求更高的模型性能,業(yè)界普遍的策略是不斷堆疊參數(shù)量,這使得模型部署成本高昂。
同時(shí),龐大的參數(shù)量帶來(lái)了計(jì)算量的激增,盡管學(xué)界和業(yè)界已涌現(xiàn)出如gpt-oss的MXFP4訓(xùn)練等優(yōu)秀的量化方案,但其核心計(jì)算邏輯依然沒(méi)有消除對(duì)硬件資源消耗巨大的“乘法”運(yùn)算的依賴,推理延遲沒(méi)有實(shí)現(xiàn)根本性的降低。
能否同時(shí)攻克這兩大瓶頸,實(shí)現(xiàn)模型的輕量化和推理加速,已成為推動(dòng)大模型發(fā)展從“技術(shù)奇觀”邁向“生產(chǎn)力工具”新階段的關(guān)鍵。
為解決這一難題,北京大學(xué)楊仝老師團(tuán)隊(duì)在一篇名為“iFairy: the First 2-bit Complex LLM with All Parameters in {±1,±i}”的論文中,提出了一個(gè)腦洞大開(kāi)的方案:跳出實(shí)數(shù)軸的束縛,進(jìn)入復(fù)數(shù)平面!
這看似簡(jiǎn)單的維度提升,卻蘊(yùn)含著破解瓶頸的深刻智慧。
一、空間魔法:極致壓縮,體積僅為1/8
在“空間”上,iFairy實(shí)現(xiàn)了極致的壓縮。
傳統(tǒng)的全精度(FP16)權(quán)重需要16比特,而iFairy方案僅用2比特,就完成了對(duì)一個(gè)權(quán)重信息的編碼。
這意味著,相較于流行的FP16模型,其模型體積可以直接壓縮至原來(lái)的1/8。這種“史詩(shī)級(jí)”的壓縮率,為大模型在手機(jī)、汽車等邊緣設(shè)備上的部署掃清了最大的存儲(chǔ)障礙。
二、時(shí)間魔法:“無(wú)乘法”計(jì)算的革命
在“時(shí)間”上,iFairy實(shí)現(xiàn)了“無(wú)乘法”計(jì)算的革命。這個(gè)魔法是如何實(shí)現(xiàn)的呢?
1. PhaseQuant算法的神來(lái)之筆
這一切,都源于團(tuán)隊(duì)提出的全新量化算法PhaseQuant。它不再將權(quán)重映射到實(shí)數(shù)軸上的點(diǎn),而是基于參數(shù)的相位將其映射到復(fù)平面上的四個(gè)單位根{±1, ±i}。
這一操作堪稱神來(lái)之筆,一舉多得:
信息密度拉滿:用{±1, ±i} 四個(gè)值,徹底利用了2-bit的全部信息容量,信息熵從傳統(tǒng)三元量化(如BitNet b1.58)的log?(3)≈1.58-bit,提升到滿格的log?(4)=2-bit。
優(yōu)雅的對(duì)稱性:這四個(gè)點(diǎn)在復(fù)平面上關(guān)于原點(diǎn)中心對(duì)稱,保持了模型訓(xùn)練所需的良好性質(zhì)。
隱含的稀疏性:每個(gè)量化后的復(fù)數(shù)權(quán)重,其實(shí)部或虛部必有一個(gè)為零,這在高維度上保留了稀疏性的優(yōu)勢(shì)。
2. 驚艷的“無(wú)乘法”運(yùn)算
最令人拍案叫絕的是,引入復(fù)數(shù),計(jì)算仍然高效!一個(gè)標(biāo)準(zhǔn)的復(fù)數(shù)乘法 (a+ib)(c+id) 需要4次實(shí)數(shù)乘法和2次加法,計(jì)算量不小。
但在iFairy模型中,當(dāng)一個(gè)復(fù)數(shù)激活值與量化后的權(quán)重 {±1, ±i} 相乘時(shí),運(yùn)算發(fā)生了奇妙的“退化”:所有乘法都消失了。
看!整個(gè)模型中最核心、最龐大的矩陣乘法(GEMM),被徹底重構(gòu)了!原本昂貴的浮點(diǎn)乘法運(yùn)算,被完全替換為硬件成本幾乎為零的加法、減法和數(shù)據(jù)交換(shuffle)操作。這從根本上消除了計(jì)算瓶頸,為實(shí)現(xiàn)數(shù)量級(jí)的推理加速提供了可能。
三、架構(gòu)革新:一個(gè)全面“復(fù)數(shù)化”的Transformer
為了讓這個(gè)魔法完美落地,研究團(tuán)隊(duì)還將整個(gè)Transformer架構(gòu)都進(jìn)行了“復(fù)數(shù)化”改造。
復(fù)數(shù)注意力機(jī)制:傳統(tǒng)注意力計(jì)算Q和K的點(diǎn)積,這里則巧妙地使用了Hermitian內(nèi)積的實(shí)部作為相似度分?jǐn)?shù),既利用了所有復(fù)數(shù)信息,又自然地得到了實(shí)數(shù)分?jǐn)?shù)用于Softmax。
復(fù)數(shù)旋轉(zhuǎn)位置編碼(RoPE):在復(fù)數(shù)域,位置編碼的旋轉(zhuǎn)操作變得異常簡(jiǎn)潔和統(tǒng)一,一個(gè)簡(jiǎn)單的復(fù)數(shù)乘法即可實(shí)現(xiàn)。
四、驚艷成果:PPL降低10%,性能反超全精度!
理論如此優(yōu)雅,實(shí)踐效果如何呢?結(jié)果同樣令人矚目。
iFairy 不僅沒(méi)有出現(xiàn)超低比特量化常見(jiàn)的性能懸崖,反而實(shí)現(xiàn)了驚人的性能反超。
在LLM的語(yǔ)言建模能力方面,模型的困惑度(PPL)越低,代表模型對(duì)文本的理解和預(yù)測(cè)能力越強(qiáng)。在對(duì)PPL的測(cè)試中,基于相同數(shù)據(jù)集訓(xùn)練(注:為保證對(duì)比的嚴(yán)謹(jǐn)性,所有對(duì)比模型的訓(xùn)練數(shù)據(jù)均保持一致,具體信息可參見(jiàn)論文)的2-bit的iFairy 模型取得了比全精度(FP16)模型更低的困惑度(PPL),降幅高達(dá) 10%。
而在下游任務(wù)評(píng)測(cè)方面,iFairy 模型更是在多個(gè)任務(wù)的評(píng)分反超了全精度的Llama基座模型。
這意味著,一個(gè)體積只有原來(lái)1/8、計(jì)算幾乎“零”乘法的模型,其能力反而更強(qiáng)了。這徹底顛覆了我們的傳統(tǒng)認(rèn)知。
對(duì)量化后權(quán)重的分析還發(fā)現(xiàn),模型在訓(xùn)練后,這四個(gè)復(fù)數(shù)值 {±1, ±i} 的分布非常均勻,證明模型確實(shí)學(xué)會(huì)了充分利用這套全新的“編碼系統(tǒng)”。
總而言之,這項(xiàng)工作開(kāi)創(chuàng)性地將復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)的思想與超低比特量化相結(jié)合,通過(guò)利用“相位”這一被忽略的信息維度,在不增加任何存儲(chǔ)成本的前提下,顯著提升了模型的表達(dá)能力和最終性能,真正實(shí)現(xiàn)了“魚(yú)與熊掌兼得”。
它為設(shè)計(jì)下一代超高效、高性能的大語(yǔ)言模型,打開(kāi)了一扇全新的大門。或許,我們離在普通手機(jī)上流暢運(yùn)行GPT-5級(jí)別的模型,又近了一步。 相關(guān)論文、訓(xùn)練代碼、模型權(quán)重與實(shí)驗(yàn)?zāi)_本已全部開(kāi)源,配套提供從訓(xùn)練、評(píng)測(cè)到可復(fù)現(xiàn)實(shí)驗(yàn)的完整流程,人人皆可復(fù)現(xiàn)訓(xùn)練。
【廣告】 (免責(zé)聲明:本文為本網(wǎng)站出于傳播商業(yè)信息之目的進(jìn)行轉(zhuǎn)載發(fā)布,不代表本網(wǎng)站的觀點(diǎn)及立場(chǎng)。本文所涉文、圖、音視頻等資料的一切權(quán)利和法律責(zé)任歸材料提供方所有和承擔(dān)。本網(wǎng)站對(duì)此資訊文字、圖片等所有信息的真實(shí)性不作任何保證或承諾,亦不構(gòu)成任何購(gòu)買、投資等建議,據(jù)此操作者風(fēng)險(xiǎn)自擔(dān)。) 本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人,如有侵權(quán),請(qǐng)聯(lián)系本網(wǎng)進(jìn)行刪除。
責(zé)任編輯:邱晨露