首頁(yè)>資訊 >
世界看熱訊:對(duì)話OpenAI研究科學(xué)家:他們是如何讓GPT4更像人的? 2023-03-31 20:03:11  來源:36氪

究竟是怎樣的大腦創(chuàng)造出了跨時(shí)代的ChatGPT?作為ChatGPT的姊妹模型,InstructGPT的核心技術(shù)和ChatGPT有很多相通之處。

近期,美國(guó)AI可觀察性平臺(tái)Arize AI采訪了OpenAI的兩位研究科學(xué)家歐陽(yáng)龍(Long Ouyang) 和Ryan Lowe,他們是InstructGPT(采用人類反饋的強(qiáng)化學(xué)習(xí) (RLHF) 訓(xùn)練大型語(yǔ)言模型的首批主要應(yīng)用之一)的創(chuàng)造者,在RLHF模型的演變和為GPT-4奠基方面發(fā)揮了重要作用。

以下是對(duì)話中的一些要點(diǎn)。


【資料圖】

圖源:AI PUB, ARIZE AI

開發(fā)InstructGPT背后的動(dòng)機(jī)是什么?GPT-3的哪些問題啟發(fā)了InstructGPT的誕生?

歐陽(yáng)龍:我認(rèn)為我們?cè)噲D解決的一個(gè)主要問題是,當(dāng)GPT-3問世時(shí),人們對(duì)用它來做有用的認(rèn)知工作感到過于興奮,例如總結(jié)一篇新聞文章。但它的設(shè)計(jì)初衷并不是為了做這個(gè),而是為了預(yù)測(cè)互聯(lián)網(wǎng)上的人在特定環(huán)境下可能會(huì)說什么。事實(shí)證明,你可以通過設(shè)置文本來誘使模型為你執(zhí)行有用的工作,當(dāng)模型自動(dòng)完成任務(wù)時(shí),它可以給你你想要的東西。

因此,就摘要來說,一個(gè)例子是,也許你需要先給出一篇文章中的幾個(gè)事例,然后是文章的摘要,最后是你想要獲得摘要的文章和要點(diǎn)總結(jié),然后你要求他們完成概括。所以這個(gè)模型并不是被設(shè)計(jì)成一個(gè)助手或有用的工具,但在某些情況下你可以把它用作這個(gè)用途。這篇文本或者說這個(gè)項(xiàng)目的總體目標(biāo)就是在一個(gè)目標(biāo)函數(shù)上對(duì)模型進(jìn)行微調(diào),使其成為一個(gè)有用的助手或工具——直到今天也依然如此。這來自于一些早期的工作,我們稱之為調(diào)整語(yǔ)言模型。

對(duì)了,Ryan,你想談?wù)凮penAI的調(diào)整問題嗎?

Ryan Lowe:人們對(duì)調(diào)整有不同的定義。但你可以使用的一個(gè)定義是,如何讓我們正在訓(xùn)練的人工智能系統(tǒng)優(yōu)化我們實(shí)際上想要優(yōu)化的東西?

從歷史上看,它始于一個(gè)小團(tuán)隊(duì),這就是最初早期RLHF工作發(fā)揮作用的地方。后來我們有了一個(gè)短期的調(diào)整團(tuán)隊(duì),主要負(fù)責(zé)用現(xiàn)有的語(yǔ)言模型來優(yōu)化我們真正想要優(yōu)化的東西,讓我們的目標(biāo)變得有用、有幫助,同時(shí)也可以減輕危害,遵循事實(shí)。還有一些關(guān)于長(zhǎng)期調(diào)整的工作,試圖思考可能出現(xiàn)的新的調(diào)整問題。因此,未來還可能出現(xiàn)一些關(guān)于可擴(kuò)展的監(jiān)管和其他一些事情的工作。

你能對(duì)InstructGPT做一個(gè)簡(jiǎn)短的推薦或者對(duì)其做一個(gè)總結(jié)嗎?

歐陽(yáng)龍:這是一個(gè)自動(dòng)化的系統(tǒng),你提供一些文本作為輸入,它也會(huì)提供一些文本作為輸出。這些是我們所說的標(biāo)記的概率分布,一個(gè)標(biāo)記是單詞的一部分,有時(shí)是整個(gè)單詞,然后通過在每個(gè)階段抽樣出下一個(gè)可能的標(biāo)記,然后繼續(xù)這個(gè)過程,直到得到你目標(biāo)的產(chǎn)出。所以有時(shí)候你會(huì)得到不同的結(jié)果,因?yàn)檫@個(gè)模型有一點(diǎn)概率性。

重要的是,你給這個(gè)模型的輸入只是一個(gè)自然語(yǔ)言命令或指令,比如“用法語(yǔ)寫一個(gè)關(guān)于青蛙的故事”,又因?yàn)樗诟鞣N不同的任務(wù)上接受過訓(xùn)練,所以它可以概括兩個(gè)任務(wù),第一個(gè)任務(wù)是使用法語(yǔ),第二個(gè)任務(wù)是寫一個(gè)關(guān)于青蛙的故事,我想這是在訓(xùn)練中他不會(huì)遇到的。

為了強(qiáng)調(diào)指令模型和早期香草語(yǔ)言模型之間的區(qū)別,指令模型“理解”你給了它一些明確的認(rèn)知任務(wù),同時(shí)你用語(yǔ)言明確地給出了這些指令;而在之前的模型之下,通過模型交流的方式,你想要完成的任務(wù)可能是通過一些例子或一種更含蓄的方式。

Ryan Lowe:從高層次上講,我們實(shí)現(xiàn)這一目標(biāo)的方式基本上是利用人類數(shù)據(jù)。通過使用數(shù)據(jù)標(biāo)注者——我們雇傭了一組承包商為我們標(biāo)記數(shù)據(jù),我們?cè)谡5恼Z(yǔ)言模型預(yù)訓(xùn)練階段上做了一個(gè)額外的微調(diào)階段。

這些數(shù)據(jù)標(biāo)注者產(chǎn)生的主要數(shù)據(jù)之一是給定一些輸入,如"寫一個(gè)關(guān)于青蛙的故事"有多個(gè)候選輸出,由不同的模型生成,而標(biāo)注者會(huì)根據(jù)一些指令集和他們對(duì)指令的解釋,將這些輸入從最佳輸出到有效輸出進(jìn)行排序。然后我們使用強(qiáng)化學(xué)習(xí)來訓(xùn)練模型,以試圖產(chǎn)生更接近人類偏好或排名較高的輸出。

為什么要訓(xùn)練獎(jiǎng)勵(lì)模型呢?為什么要在第一步進(jìn)行監(jiān)督微調(diào)?

歐陽(yáng)龍:也許我們會(huì)從獎(jiǎng)勵(lì)模式開始,因?yàn)檫@是我們的方法中真正關(guān)鍵的部分。有了Ryan之前提到的那種數(shù)據(jù),即數(shù)據(jù)標(biāo)注者給出了他們的偏好,比如關(guān)于青蛙的故事,我們就會(huì)用這些數(shù)據(jù)來訓(xùn)練一個(gè)非常大的神經(jīng)網(wǎng)絡(luò),我們稱之為獎(jiǎng)勵(lì)模型。

你可以把獎(jiǎng)勵(lì)模式想象成電子游戲中的分?jǐn)?shù)或一個(gè)老師。獎(jiǎng)勵(lì)模型的輸入是指令和輸出,它返回一個(gè)分?jǐn)?shù),這個(gè)分?jǐn)?shù)會(huì)告訴你的輸出有多好。如果這個(gè)分?jǐn)?shù)不錯(cuò),就意味著關(guān)于青蛙的故事是個(gè)好故事,如果這個(gè)分?jǐn)?shù)很低,就意味著關(guān)于青蛙的故事是個(gè)爛故事。我們根據(jù)人類的判斷來訓(xùn)練這個(gè)獎(jiǎng)勵(lì)模型,所以這個(gè)大模型有點(diǎn)像近似于人們認(rèn)為在寫青蛙故事或總結(jié)新聞文章或其他方面的一個(gè)好嘗試。然后當(dāng)我們訓(xùn)練一個(gè)完全不同的模型,我們也能根據(jù)獎(jiǎng)勵(lì)模型來做得更好。

因此,我們的方法的重要之處在于,我們沒有采用其他方法,而是明確地學(xué)習(xí)了人們對(duì)一項(xiàng)任務(wù)的良好表現(xiàn)的看法。然后,我們單獨(dú)優(yōu)化一個(gè)神經(jīng)網(wǎng)絡(luò),使其根據(jù)該表征完成一項(xiàng)好工作。因此,這就是從人類反饋中進(jìn)行的實(shí)質(zhì)性強(qiáng)化學(xué)習(xí)。

我們正在做強(qiáng)化學(xué)習(xí),因?yàn)槲覀冊(cè)噲D根據(jù)一個(gè)模型去構(gòu)建另一個(gè)完全不同的但能很好運(yùn)行的新模型。然后人類的反饋部分來自老師或分?jǐn)?shù)模型,這些模型經(jīng)過訓(xùn)練,可以預(yù)測(cè)人類的偏好。這就是這個(gè)方法的核心,然后,為了引導(dǎo)一堆數(shù)據(jù),我們又做了所謂的監(jiān)督學(xué)習(xí)或監(jiān)督微調(diào),在那里,我們實(shí)際上只是要求他們直接制作所謂的示范,而不是讓人們對(duì)已經(jīng)寫好的青蛙的故事給出他們的偏好。所以,他們自己被要求用法語(yǔ)寫一個(gè)關(guān)于青蛙的故事,我們訓(xùn)練模型模仿他們?cè)谶@些情況下使用的單詞。這對(duì)引導(dǎo)數(shù)據(jù)很有用,但對(duì)RLHF方法來說不一定是必需的。

Open AI研究科學(xué)家歐陽(yáng)龍,圖源:AI PUB

你是否看到其他主要的應(yīng)用程序跳過了第一步?

歐陽(yáng)龍:我們有時(shí)還會(huì)這樣做,我想有一點(diǎn)是,現(xiàn)在少數(shù)的片段提示已經(jīng)變得很有競(jìng)爭(zhēng)力了。因此,你有時(shí)可以跳過收集演示,因?yàn)閺哪P偷膸讉€(gè)片段的輸出已經(jīng)是可以接受的,或者說是已經(jīng)足夠好,以至于沒有必要進(jìn)行單獨(dú)的監(jiān)督微調(diào)。

Ryan Lowe:一種思考方法是,RLHF幫助您獲得更細(xì)粒度的模型行為調(diào)優(yōu),而監(jiān)督式調(diào)優(yōu)和收集演示可以更徹底地改變模型行為。例如,假設(shè)你有一個(gè)模型,它在生成摘要方面很糟糕。在不同的糟糕摘要之間獲得一堆排名反饋并不是最有用的。所以你要做的是收集一些非常好的總結(jié)的例子,然后讓你的模型試著模仿一下。實(shí)際上,這是一個(gè)經(jīng)驗(yàn)問題,什么時(shí)候最好從收集演示轉(zhuǎn)換到收集比較或排名數(shù)據(jù)。我們?cè)诹硪黄撐闹袑?duì)此有一些結(jié)果但這仍然是一個(gè)非常開放的問題。

你是怎么想到InstructGPT這個(gè)主意的?這個(gè)想法是如何出現(xiàn)的,以及這個(gè)項(xiàng)目是如何在OpenAI中出現(xiàn)的?

歐陽(yáng)龍:我們實(shí)際上已經(jīng)研究這個(gè)方法有一段時(shí)間了,只是動(dòng)機(jī)略有不同。調(diào)整團(tuán)隊(duì)通常感興趣的不一定是使模型更好,盡管有時(shí)確實(shí)會(huì)產(chǎn)生副作用,但最終目的是使它們更符合我們想要的。因此,在之前的幾篇論文中,我們將這種方法應(yīng)用于更窄的領(lǐng)域,看看它是否有效。緊跟著GPT-3通過API部署到公眾面前,團(tuán)隊(duì)的一些成員想到將我們?cè)谝郧暗恼撐闹虚_發(fā)的對(duì)齊技術(shù)應(yīng)用到這個(gè)新模型上,我們現(xiàn)在正在為公眾服務(wù)。

Ryan Lowe:最初寫谷歌文件提出這個(gè)建議的人是Paul Chirstiano,他當(dāng)時(shí)是調(diào)整團(tuán)隊(duì)的負(fù)責(zé)人。

很多人都在議論下一代語(yǔ)言模型將會(huì)非常強(qiáng)大。這是否會(huì)帶來有趣的挑戰(zhàn),或者是否有新的方法來適應(yīng)這種挑戰(zhàn)并處理這些更強(qiáng)大的語(yǔ)言模型?你想把這項(xiàng)工作推進(jìn)到哪里?

Ryan Lowe:我們有一個(gè)內(nèi)容政策,說我們不希望模型生成代碼來入侵銀行或做其他類似的違法亂紀(jì)的事情,但我們發(fā)現(xiàn)實(shí)際上它有可能被犯罪分子用來編寫代碼來入侵銀行。現(xiàn)在我們有一個(gè)艱難的過程來引導(dǎo)事情朝著不這樣做的方向發(fā)展,但在可靠性和耐久性方面仍然存在差距。所以我們只能繼續(xù)擁有我們的技術(shù),讓它們變得更好,這樣如果你發(fā)現(xiàn)一些偏差,你可以迅速修復(fù)它。

Anthropic最近發(fā)表了一些關(guān)于使用模型來幫助這個(gè)過程的論文,非常有趣。我特別感興趣的一件事是超越了本質(zhì)上與平均標(biāo)簽者設(shè)立的框架。當(dāng)我們開始問:你在根據(jù)誰在調(diào)整這些模型時(shí),將會(huì)有一些非常棘手的問題。現(xiàn)在基本上是我們的標(biāo)簽員加上我們通過一組指令讓他們遵循。但OpenAI并不想處在這樣一個(gè)道德獨(dú)裁者的位置,即我們來決定怎么做是正確的,以及什么是正確的價(jià)值觀。因此,駕馭這個(gè)問題將是一個(gè)挑戰(zhàn),涉及到機(jī)器學(xué)習(xí)的干預(yù),但也涉及到更廣泛的社會(huì)技術(shù)角度。

Open AI研究科學(xué)家Ryan Lowe,圖源:AI PUB

隨著語(yǔ)言模型變得越來越強(qiáng)大,這類研究是否會(huì)出現(xiàn)有趣的問題或新的挑戰(zhàn)和新的方向?

歐陽(yáng)龍:其中一個(gè)問題是,如果這些模型非常強(qiáng)大,那么僅僅是進(jìn)行這些比較判斷就會(huì)變得更加困難。因此,我們想要給出一個(gè)強(qiáng)大模型的任務(wù)示例是:為GitHub上的這個(gè)拉拽請(qǐng)求編寫代碼審查?,F(xiàn)在的模型還不能做到這一點(diǎn),但你可以想象,在一兩年內(nèi),更有能力的模型可能就能做到,這絕對(duì)是我們希望機(jī)器學(xué)習(xí)幫助解決的事情。數(shù)據(jù)標(biāo)簽承包商評(píng)估模型編寫的代碼的時(shí)間可能非常長(zhǎng),也可能他們根本無法做到這一點(diǎn)。

因此,在使用模型處理的事情超過個(gè)人評(píng)估模型的能力時(shí),一個(gè)非常突出的挑戰(zhàn)是,當(dāng)模型在大量不同的事情上非常強(qiáng)大的時(shí)候,那么評(píng)判他們做得是否很好就會(huì)相當(dāng)不容易。這是一個(gè)構(gòu)建其他人工智能模型幫助人們?cè)u(píng)估其他機(jī)器學(xué)習(xí)系統(tǒng)的新領(lǐng)域。

Ryan Lowe:我同意歐陽(yáng)龍所說的,我唯一想補(bǔ)充的是關(guān)于長(zhǎng)期的一致性研究;這些系統(tǒng)會(huì)根據(jù)你的程序來優(yōu)化。因此,如果他們優(yōu)化的是人類在做排名時(shí)哪些排名靠前的東西,那么你所優(yōu)化的就是產(chǎn)生對(duì)人類來說聽起來不錯(cuò)的輸出。隨著模型變得越來越強(qiáng)大,有可能在優(yōu)化過程中,他們會(huì)發(fā)現(xiàn)有趣的或棘手的或具有欺騙性的(也許有待商榷)方法來產(chǎn)生高分的輸出,而這實(shí)際上不是我們想要的輸出。我認(rèn)為我們還沒有完全做到,但至少這是我們想要關(guān)注的事情。

至于如何緩解這種情況,有歐陽(yáng)龍談到的各種方法,也就是你有其他人工智能模型來幫助你評(píng)估輸出——這就是我談到的可擴(kuò)展的監(jiān)督研究風(fēng)格。因此,人們正在研究更多的可解釋性問題,比如:我們能否嘗試?yán)斫庖粋€(gè)模型內(nèi)部發(fā)生了什么? 這是另一個(gè)調(diào)整研究的思路。我們什么時(shí)候能夠?qū)崿F(xiàn)它還很難說,但這是值得思考的。

你剛剛提到有人在觀察模型內(nèi)部發(fā)生的事情。你能指出你最近在這個(gè)領(lǐng)域看到的任何有趣的外部事物嗎?

Ryan Lowe:我還沒有深入研究這方面的文獻(xiàn),但從我所看到的和略讀到的資料來看,Anthropic在可解釋性方面的研究非常有趣。他們正在研究較小規(guī)模的轉(zhuǎn)換器,試圖了解里面到底發(fā)生了什么。

歐陽(yáng)龍:對(duì)于建立語(yǔ)言模型所做的工作來說,有一些補(bǔ)充工作是以一種更可觀察的方式進(jìn)行的。Anthropic對(duì)于“監(jiān)督語(yǔ)言模型所做的過程,而不是結(jié)果”這個(gè)想法很感興趣,就像我們一樣。因此,這里的想法可能是把一個(gè)大任務(wù)分解成一堆小的組件,而你可能對(duì)其中的一些組成部分比對(duì)整個(gè)端到端的訓(xùn)練過程有更好的把握。

這是訓(xùn)練的一部分還是最后的微調(diào)?

歐陽(yáng)龍:我一直以來在人們編寫程序時(shí)也看到過這種情況。有一個(gè)名為Ought的研究小組,也為學(xué)術(shù)論文建立了一個(gè)所謂的文獻(xiàn)審查助手。他們已經(jīng)使用這種技術(shù)來構(gòu)建他們的語(yǔ)言模型輔助閱讀復(fù)習(xí)工具。到目前為止我看到的例子都是這樣的,但是思考如何分解訓(xùn)練是很有趣的。

要進(jìn)一步了解這篇論文或者了解你更廣泛的工作,你有什么建議嗎?

Ryan Lowe:我認(rèn)為人們可能已經(jīng)在這么做了,但如果你還沒有,不妨嘗試一下這些模型,對(duì)它能做什么和不能做什么有一個(gè)直覺的了解。要特別去留意那些你試圖讓它做,而它卻沒有做的事情。我們正在做調(diào)整工作,但你也可以考慮為一個(gè)非常具體的用例進(jìn)行調(diào)整的工作。

此外,也許人們還可以發(fā)展出一點(diǎn)好奇心,思考如果我們有GPT7會(huì)發(fā)生什么,因?yàn)橐呀?jīng)有人在思考這些更長(zhǎng)期的調(diào)整問題。我們專注于長(zhǎng)期調(diào)整方面的同事寫了一篇關(guān)于批判的論文,同時(shí)他還訓(xùn)練語(yǔ)言模型來批判,這算是在可擴(kuò)展的調(diào)整問題中的一個(gè)步驟。

歐陽(yáng)龍:我也建議你試試InstructGPT。這是一個(gè)公開的模型,你可以在beta.openai.com上得到一些免費(fèi)的點(diǎn)數(shù)來玩,這一點(diǎn)并沒有很多人知道。

Ryan Lowe:是的,這很有趣,因?yàn)榈讓拥腉PT 3.5從去年早些時(shí)候就已經(jīng)可以使用了,但是只有當(dāng)人們免費(fèi)使用它,而且是以助手的形式,它才真正流行起來。去試試InstructGPT吧,在某些方面它比ChatGPT更好,但在某些方面又比ChatGPT更差。

本文作者是Arize AI聯(lián)合創(chuàng)始人兼CPO、福布斯撰稿人,文章內(nèi)容僅代表作者本人觀點(diǎn)。本文譯自

https://www.forbes.com/sites/aparnadhinakaran/2023/03/27/ten-questions-with-openai-on-reinforcement-learning-with-human-feedback

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片