典型的大模型管道可以分為如Fig 1所示的幾部分,其中的行為模擬(Behavior Mimic)通常是通過(guò)指令微調(diào)(Supervised Fintune, SFT)的方式,使得模型可以從預(yù)訓(xùn)練后的續(xù)寫(xiě)模型,變?yōu)橐粋€(gè)可以遵循用戶(hù)指令進(jìn)行回答的模型,通過(guò)偏好對(duì)齊(Preference Alignment)能夠使得回答更具有人類(lèi)偏好。存在不少工作認(rèn)為行為模擬只是對(duì)模型回答的格式進(jìn)行規(guī)范,是一種偏向于『記憶(Memorize)』的過(guò)程 [2,3],而偏好對(duì)齊才是能進(jìn)一步提高模型泛化能力的關(guān)鍵 [3]。至于說(shuō)到推理時(shí)擴(kuò)展(Inference-time Scaling),則是考慮在推理階段采用復(fù)雜的答案采樣/答案改寫(xiě)方式,提升模型的最終性能,可參考筆者在博文 [4] 中的介紹。
Fig 1. 典型的大模型訓(xùn)練和推理管道。
Best-of-N (下文簡(jiǎn)稱(chēng)BoN)采樣是推理時(shí)擴(kuò)展的一種經(jīng)典做法,指的是給定一個(gè)提示詞x, 大模型對(duì)其進(jìn)行采樣N次,得到N個(gè)完整回答
,
,通過(guò)獎(jiǎng)勵(lì)模型分別打分得到N個(gè)獎(jiǎng)勵(lì)打分
,取其打分最高的作為BoN結(jié)果。整個(gè)過(guò)程可以表示為公式 (1) 所示
作者在文中證明了BoN結(jié)果是考慮了KL散度約束情況下的漸進(jìn)最優(yōu)策略,在論文 [5] 中同樣進(jìn)行了這一點(diǎn)的證明,整個(gè)過(guò)程比較復(fù)雜,筆者也沒(méi)完全看懂,盡量挑一些關(guān)鍵結(jié)論和過(guò)程進(jìn)行解釋。
首先我們看到偏好對(duì)齊,偏好對(duì)齊的目標(biāo)是對(duì)于一個(gè)SFT后的模型,稱(chēng)之為,我們希望學(xué)習(xí)出一個(gè)新模型
,
應(yīng)該在某個(gè)指標(biāo)層面上要優(yōu)于
。為了使得訓(xùn)練過(guò)程可控,我們也不希望
太過(guò)遠(yuǎn)離
,可以考慮用KL散度去度量這兩者的距離,其中
為給定了提示詞x情況下的KL散度,而
則是對(duì)提示詞集合D進(jìn)行求期望得到的KL散度。KL散度取值范圍為
,越小表示兩個(gè)分布之間差別越小。
一種可以考慮衡量優(yōu)于
的指標(biāo)是勝率(win-rate),定義如下公式(3)所示,也就是通過(guò)獎(jiǎng)勵(lì)函數(shù)去判斷
優(yōu)于
的概率。
不妨可以將偏好對(duì)齊看成是一個(gè)探索&利用(Explore and Exploit)的過(guò)程,如Fig 2所示,消耗KL散度距離衡量和初始模型的偏離程度,可以認(rèn)為是探索程度,用獎(jiǎng)勵(lì)模型新探索的模型進(jìn)行評(píng)估,則可看成是利用過(guò)程。因此KL距離是一種可消耗的資源,這個(gè)觀點(diǎn)在一些工作中也有所體現(xiàn),可參考 [6]。為何不希望新策略太過(guò)于偏離初始策略呢?筆者的理解是:
如果不在訓(xùn)練過(guò)程中對(duì)此進(jìn)行約束,新策略可能會(huì)容易出現(xiàn)大幅度偏離初始策略,導(dǎo)致整個(gè)訓(xùn)練過(guò)程不穩(wěn)定且難以控制。獎(jiǎng)勵(lì)模型通常是在初始策略模型的基礎(chǔ)上,采樣后進(jìn)行人工標(biāo)注樣本訓(xùn)練得到的,也就是說(shuō)如果新策略模型太過(guò)于遠(yuǎn)離初始策略模型,那么很可能會(huì)出現(xiàn)獎(jiǎng)勵(lì)模型無(wú)法很好地衡量新策略模型效果的情況,從而導(dǎo)致過(guò)擬合。
Fig 2. 在偏好對(duì)齊過(guò)程中,通過(guò)消耗KL距離探索新策略模型,而獎(jiǎng)勵(lì)模型作為『法官』進(jìn)行效果判斷。偏好對(duì)齊的方法整體有兩種,第一個(gè)通過(guò)人工反饋的強(qiáng)化學(xué)習(xí)方法(RLHF),如公式(4)所述;
第二種則是通過(guò)對(duì)比式方法(Contrastive methods),典型的如DPO方法,如公式(5)所示。
RLHF方式顯式地引入KL散度約束項(xiàng),而DPO方法則通過(guò)新策略模型分布和初始策略模型分布進(jìn)行比較的方式,都一定程度上約束了新策略模型不至于偏離初始策略模型。如果獎(jiǎng)勵(lì)模型是Bradley-Terry模型,那么有:
作者文中說(shuō)因此RLHF和DPO的解析解則可以表示為(對(duì)此,筆者不知道具體推導(dǎo)過(guò)程,望請(qǐng)教):
也就是說(shuō)新策略模型是對(duì)初始策略模型的加權(quán),而權(quán)值會(huì)收到獎(jiǎng)勵(lì)模型的影響。作者認(rèn)為不僅對(duì)于RLHF和DPO,對(duì)于包括BoN方式在內(nèi)的一切對(duì)齊策略來(lái)說(shuō),存在統(tǒng)一的表達(dá),即是有:
其中的是一個(gè)非減函數(shù),會(huì)收到不同提示詞x的影響。基于此,可以推導(dǎo)出BoN方式的勝率為(具體過(guò)程參考原論文):
那么最優(yōu)策略的勝率如何呢?首先我們定義最優(yōu)策略,就是在給定的KL散度情況下能取得盡可能高的勝率,如公式(10)所示:
此時(shí)可以推導(dǎo)出最優(yōu)策略模型為:
那么最優(yōu)策略的勝率可以表示為
如果對(duì)BoN和最優(yōu)策略分別繪制曲線圖的話,如Fig 3所示,會(huì)發(fā)現(xiàn)BoN方式是在有KL散度約束下的漸進(jìn)的最優(yōu)策略。
Fig 3. 就勝率與KL散度的關(guān)系而言,BoN本質(zhì)上與最優(yōu)策略表現(xiàn)一致。就勝率與KL散度的關(guān)系而言,BoN本質(zhì)上與最優(yōu)策略表現(xiàn)一致。 左圖:BoN與最優(yōu)策略的勝率隨KL散度變化曲線。右圖:不同n值下最優(yōu)策略與BoN策略的勝率差異。
那么問(wèn)題來(lái)了,如何將模型的BoN的結(jié)果蒸餾到模型自身上呢?本文提出了BoNBoN方式,損失函數(shù)如公式(13)所示
損失的第一項(xiàng)為SFT損失,其
為BoN結(jié)果,顯然這種方法只是采用了BoN結(jié)果作為模仿目標(biāo),并沒(méi)有充分利用數(shù)據(jù),比如Worst-of-N(WoN)部分的數(shù)據(jù)。
而損失的第二項(xiàng)是一個(gè)對(duì)比式的損失IPO(是DPO的升級(jí),添加了正則項(xiàng)減少過(guò)擬合),關(guān)于這里的正則項(xiàng)文中附錄有推導(dǎo),博文就不贅述了。IPO-BoN損失不僅采用了BoN結(jié)果作為正向樣本(也就是
,還采用了WoN結(jié)果作為負(fù)向樣本(也就是
? ),數(shù)據(jù)的利用率更高。
在實(shí)驗(yàn)部分,作者比較了Summarization和helpful and Harmless這兩塊任務(wù),如Fig 4.所示,其中的黑線(BoN theoretical)是根據(jù)公式(9)繪制出來(lái)的,而B(niǎo)oN Sampling則是真實(shí)采樣得到的結(jié)果,可以發(fā)現(xiàn)是能夠符合曲線的。我們看這個(gè)圖,應(yīng)該從兩個(gè)維度看:
勝率越高,說(shuō)明相比初始策略模型效果更好越接近Reference Model(無(wú)論是KL散度還是平均響應(yīng)長(zhǎng)度),說(shuō)明消耗的KL距離越少,則是更占優(yōu)勢(shì)(筆者認(rèn)為是勝率計(jì)算更加準(zhǔn)確)從這個(gè)分析角度看,我們發(fā)現(xiàn)BoNBoN方法在消耗更少KL距離(或者和初始策略模型更加接近長(zhǎng)度的平均響應(yīng)長(zhǎng)度)的情況下,能取得更高的勝率。此外,我們看到DPO BoN 效果持續(xù)遠(yuǎn)遠(yuǎn)優(yōu)于DPO original HH,后者是采用HH數(shù)據(jù)(也就是所謂的off-policy的數(shù)據(jù)),而前者則來(lái)自于模型自身的BoN結(jié)果組建偏序數(shù)據(jù),也就是所謂的on-policy數(shù)據(jù)。從這個(gè)結(jié)果,我們得到一個(gè)結(jié)論是,應(yīng)當(dāng)盡可能采用on-policy數(shù)據(jù)進(jìn)行模型偏好對(duì)齊,即便這些結(jié)果可能相對(duì)來(lái)說(shuō)比較弱(對(duì)比其他更好的模型采樣或者標(biāo)注)。
Fig 4. BoNBoN在實(shí)現(xiàn)高勝率的同時(shí),對(duì)生成過(guò)程中非目標(biāo)方面的影響極小(也就是偏離初始策略模型的程度)。每個(gè)數(shù)據(jù)點(diǎn)代表采用特定對(duì)齊方法的模型,我們使用一個(gè)Ranker測(cè)量其相對(duì)于基礎(chǔ)模型的勝率。為評(píng)估非目標(biāo)行為的改變,我們同時(shí)測(cè)量了估計(jì)的KL散度(左圖)和平均響應(yīng)長(zhǎng)度(右圖)。上方:BoNBoN與基線模型在摘要任務(wù)中的對(duì)比結(jié)果。
下方:BoNBoN與基線模型在單輪對(duì)話任務(wù)中的對(duì)比結(jié)果。讀后感筆者看完這篇文章后,第一感覺(jué)就是公式好多… 其實(shí)整個(gè)蒸餾BoN結(jié)果的思路很直接,就是在SFT的基礎(chǔ)上添加了一個(gè)DPO類(lèi)的損失(或者反過(guò)來(lái)說(shuō),在DPO偏好對(duì)齊的基礎(chǔ)上加了一個(gè)SFT行為模仿),其實(shí)整篇文章很多篇幅在證明BoN是KL約束下的漸進(jìn)最優(yōu)策略,然后想辦法去接近BoN。因此我總結(jié)從這篇文章得到的收獲的話:
BoN是LLM的KL約束限制下的漸進(jìn)最優(yōu)策略新策略模型可以表示為初始策略模型的分布加權(quán)on-policy vs off-policy 數(shù)據(jù)作為偏好對(duì)齊,應(yīng)當(dāng)盡可能采用前者SFT+DPO類(lèi)損失能夠更加充分利用數(shù)據(jù)
Reference
[1]. Gui, Lin, Cristina Gârbacea, and Victor Veitch. “Bonbon alignment for large language models and the sweetness of best-of-n sampling.” arXiv preprint arXiv:2406.00832 (2024). aka BoNBoN
[2]. Zhou, Chunting, Pengfei Liu, Puxin Xu, Srinivasan Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma et al. “Lima: Less is more for alignment.” Advances in Neural Information Processing Systems 36 (2023): 55006-55021. aka LIMA
[3]. Chu, Tianzhe, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, and Yi Ma. “Sft memorizes, rl generalizes: A comparative study of foundation model post-training.” arXiv preprint arXiv:2501.17161 (2025).
[4]. 《大模型推理時(shí)的尺度擴(kuò)展定律》, https://fesianxu.github.io/2025/03/02/test-time-scaling-laws-20250302/
[5]. Yang, Joy Qiping, Salman Salamatian, Ziteng Sun, Ananda Theertha Suresh, and Ahmad Beirami. “Asymptotics of language model alignment.” In 2024 IEEE International Symposium on Information Theory (ISIT), pp. 2027-2032. IEEE, 2024.
[6]. 《獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持》, https://fesianxu.github.io/2025/02/09/scaling-law-in-reward-model-20250209/