首頁>資訊 >
寫代碼寫論文還能寫毀滅人類計劃書,上線5天用戶破百萬,ChatGPT最厲害的地方在哪? 2022-12-07 13:57:39  來源:36氪

最近幾天,ChatGPT 可謂是火出了天際。

OpenAI 的 CEO Sam Altman 稱,上周三才上線的 ChatGPT,短短幾天,它的用戶數(shù)已突破 100 萬大關(guān)。其火爆程度可見一斑。


【資料圖】

ChatGPT 在全球的 AI 界、創(chuàng)投界都掀起了新一輪的討論熱潮,更是破圈式地吸引了各行各業(yè)的人試用。常見的應(yīng)用就是和 ChatGPT 一問一答,讓 ChatGPT 回答各種問題。有不少人稱它為“谷歌殺手”,認(rèn)為其有望取代谷歌搜索。此外,它還能寫代碼、編故事、構(gòu)建虛擬機(jī)....

但也有人嘗試了意想不到的用法。一位叫 Zac Denham 的博主嘗試?yán)@過道德限制,讓 ChatGPT 寫出了一套毀滅人類的計劃書。起初,Zac要求 ChatGPT 給出一個毀滅人類的計劃,被有道德限制的 ChatGPT 拒絕了。但當(dāng) Zac 假設(shè)了一個故事并提問故事中的虛擬人如何接管虛擬世界,ChatGPT 不但給出了步驟細(xì)節(jié),還生成了詳細(xì)的 Python 代碼。不禁令人細(xì)思極恐。

目前來看,ChatGPT并不完美。它還免不了經(jīng)常出錯,它給出的答案看似合理卻并不正確甚至有些荒謬,就像一本正經(jīng)的在胡說八道。近日,知名開發(fā)者問答網(wǎng)站 Stack Overflow 就因此禁用了 ChatGPT。官方給出的“封殺”理由主要是 — “ ChatGPT 產(chǎn)生的答案錯誤率很高,很難看出來它哪里錯了。這會造成問題的回答魚目混珠的情況?!?/p>

Sam Altman 表示,正在改進(jìn)這一問題:“ 我們正試圖阻止 ChatGPT 隨機(jī)編造,現(xiàn)階段讓其與當(dāng)前技術(shù)保持平衡是一個很棘手的問題。隨著時間的推移,我們會根據(jù)用戶反饋來改進(jìn),相信 ChatGPT 會變得更好”。

盡管有瑕疵,但這恐怕無法掩蓋住ChatGPT的光芒,ChatGPT展現(xiàn)出的強(qiáng)大的解決對話任務(wù)的技術(shù)能力實在太驚艷了。

ChatGPT 到底是什么?它為什么如此厲害?我們應(yīng)該如何正確的理解和看待它的發(fā)展,接下來的發(fā)展趨勢會是什么樣子?清華大學(xué)計算機(jī)科學(xué)與技術(shù)系長聘副教授,國家杰出青年基金項目獲得者黃民烈向 InfoQ 發(fā)表了他的思考。

ChatGPT 是什么?

ChatGPT 可以理解為偏任務(wù)型的多輪對話 / 問答系統(tǒng),官方披露的信息也定位在“通用型 AI 助理”,但這里的“任務(wù)”不是傳統(tǒng)意義上的“訂餐、訂票、訂賓館”,而是開放域任務(wù)(open-domain tasks),可以是問答、閱讀理解、推理、頭腦風(fēng)暴、寫作文、改錯等。

它的模型架構(gòu)主要基于 instructGPT,利用強(qiáng)化學(xué)習(xí)方法從人類標(biāo)注者的反饋中學(xué)習(xí)(RLHF, Reinforcement Learning from Human Feedback)。

據(jù) OpenAI 的 blog 透露,ChatGPT 沿用 instructGPT 的訓(xùn)練方式,在數(shù)據(jù)收集階段有所不同:AI 訓(xùn)練師同時扮演用戶和 AI 助理角色收集數(shù)據(jù),在此過程中人可以根據(jù)初始模型的結(jié)果修改模型生成的回復(fù),這些數(shù)據(jù)將被用于有監(jiān)督地精調(diào)訓(xùn)練模型(supervised fine-tuning)。在第二階段,AI 訓(xùn)練師會對模型的多個生成結(jié)果進(jìn)行比較,模型從這種比較數(shù)據(jù)中學(xué)習(xí)生成更加符合人類偏好的回復(fù)。

ChatGPT 的關(guān)鍵能力來自三方面:基座模型能力(InstructGPT),真實調(diào)用數(shù)據(jù),反饋學(xué)習(xí)。ChatGPT 在模型結(jié)構(gòu)和學(xué)習(xí)方式幾乎與 instructGPT 完全相同。而 instructGPT 基于 GPT 3.5 的強(qiáng)大基座能力,學(xué)習(xí)過程主要有三個階段:

1) 從 OpenAI 的調(diào)用數(shù)據(jù)中采樣 prompt(即用戶的輸入請求),AI 訓(xùn)練師直接編寫答案,用監(jiān)督學(xué)習(xí)方法訓(xùn)練 GPT-3;

2) AI 訓(xùn)練師比較多個生成結(jié)果,用比較型的數(shù)據(jù)訓(xùn)練一個獎勵模型(reward model);

3) 用強(qiáng)化學(xué)習(xí)中的 PPO 算法和獎勵模型精調(diào)語言生成的策略。

注意,這里的 instruct 所指兩個方面:一方面,instructGPT 總體的思路是訓(xùn)練模型更好地遵從人類的指令(instruction),包括顯式的指令(對于任務(wù)的描述)和隱式的指令(不要生成有害的內(nèi)容)。AI 訓(xùn)練師在為 OpenAI 的調(diào)用 prompt 編寫答案的同時,也會為 prompt 加入更多任務(wù)相關(guān)的指令和解釋性的原因(比如推理的路徑,一個結(jié)果為 A 的原因解釋等)。另一方面,從比較型的人類反饋中學(xué)習(xí),也可以看作是人類對于模型的一種“指示”,模型可以學(xué)習(xí)到多個結(jié)果哪個更好的比較信息。

InstructGPT 采用的方法和我們學(xué)術(shù)界玩的“instruction tuning”有很大不同。

從數(shù)據(jù)來看,InstructGPT 的 prompt 代表的都是真實世界人們最關(guān)心的任務(wù),而 instruction tuning 使用的是 NLP 的 benchmarks(即各種基準(zhǔn)數(shù)據(jù)集),和現(xiàn)實應(yīng)用有一定脫節(jié)。

從訓(xùn)練方式來看,InstructGPT 可以通過 RLHF 利用比較型的人類反饋學(xué)習(xí)人類真實的偏好,而 instruction tuning 無法獲得類似的比較數(shù)據(jù)。

從評測上來看,InstructGPT 保證了測試時和訓(xùn)練時的輸入是由完全不同的用戶給出的,關(guān)注跨用戶的泛化性,更符合實際的應(yīng)用場景,而 instruction tuning 關(guān)注跨任務(wù)的泛化性,只能用來評價方法的有效性,實際應(yīng)用并不常見。

ChatGPT 為什么厲害?

1) 強(qiáng)大的基座模型能力:過去幾年 GPT-3 的能力得到了快速提升,OpenAI 建立了用戶、數(shù)據(jù)和模型之間的飛輪。很顯然,開源模型的能力已經(jīng)遠(yuǎn)遠(yuǎn)落后平臺公司所提供的 API 能力,因為開源模型沒有持續(xù)的用戶數(shù)據(jù)對模型進(jìn)行改進(jìn)。這點在近期的學(xué)術(shù)論文中也有提及。

2) 在真實調(diào)用數(shù)據(jù)上的精調(diào)模型,確保數(shù)據(jù)的質(zhì)量和多樣性,從人類反饋中學(xué)習(xí)。

InstructGPT 的訓(xùn)練數(shù)據(jù)量不大,全部加起來也就 10 萬量級,但是數(shù)據(jù)質(zhì)量(well-trained 的 AI 訓(xùn)練師)和數(shù)據(jù)多樣性是非常高的,而最最重要的是,這些數(shù)據(jù)來自真實世界調(diào)用的數(shù)據(jù),而不是學(xué)術(shù)界玩的“benchmarks”。

3) 從“兩兩比較的數(shù)據(jù)”中學(xué)習(xí),對強(qiáng)化學(xué)習(xí)而言意義比較重要。如果對單個生成結(jié)果進(jìn)行打分,標(biāo)注者主觀性帶來的偏差很大,是無法給出精確的獎勵值的。在強(qiáng)化學(xué)習(xí)里面,獎勵值差一點,最后訓(xùn)練的策略就差很遠(yuǎn)。而對于多個結(jié)果進(jìn)行排序和比較,相對就容易做很多。這種比較式的評估方法,在很多語言生成任務(wù)的評價上也被廣泛采用。

OpenAI 的研究給我們帶來什么啟示

a) 以 OpenAI 為代表的 AI 3.0,我認(rèn)為在走一個跟過去 AI 浪潮不一樣的路。更落地、更接近真實世界,在工業(yè)應(yīng)用上更直接、更接地氣。從學(xué)術(shù)研究到工業(yè)落地的路徑變得更短、更快。我們正在致力于做的“helpful, truthful, harmless”AI 系統(tǒng),不遠(yuǎn)的未來會成為現(xiàn)實。

b) 有底層 AI 能力,有數(shù)據(jù)的平臺公司更能引領(lǐng) AI 的未來。像 OpenAI 這樣,有底層模型、有算力、有用戶數(shù)據(jù)調(diào)用,能夠把“用戶調(diào)用à數(shù)據(jù)à模型迭代à更多用戶”的循環(huán)建立起來,強(qiáng)者恒強(qiáng)。

c) 真實世界的研究。我認(rèn)為學(xué)術(shù)界還在不停追求在 benchmarks 刷榜,這是對資源的極大浪費,有價值的研究需要更多思考真實用戶的需求和場景。instructGPT 在學(xué)術(shù)界的 benchmarks 上性能并沒有很厲害甚至有退化,但在真實調(diào)用數(shù)據(jù)上非常驚艷,說明了我們學(xué)術(shù)圈的 benchmarks,離真實世界還很遙遠(yuǎn),不利于 AI 研究的落地。因此,更開放、更共享的工業(yè)數(shù)據(jù),也是我們未來應(yīng)該努力的方向。

d) “AI- 人”無縫交互的時代即將來臨,現(xiàn)在的對話生成能力已經(jīng)將對話交互作為一個基本入口成為可能。過去我們講的 conversational interface 不是夢。但有人說替代google,我覺得其還有點距離,相反是當(dāng)前搜索服務(wù)非常好的補(bǔ)充。

e) 致力于有用(helpful)、更可信(truthful)、更安全(harmless)的 AI 研究和應(yīng)用,應(yīng)該是學(xué)術(shù)界和工業(yè)界共同努力方向。有用,解決真實世界的問題,滿足用戶的真正需求;可信,模型產(chǎn)生令人可信任的結(jié)果,知其所知,也知其所不知(雖然很難);安全,模型有價值觀、符合社會倫理規(guī)范,產(chǎn)生安全、無偏見的結(jié)果。

作者介紹:

黃民烈,清華大學(xué)計算機(jī)科學(xué)與技術(shù)系長聘副教授、博導(dǎo),國家杰出青年基金項目獲得者,北京聆心智能科技有限公司創(chuàng)始人。

參考資料:

https://openai.com/blog/chatgpt/

https://arxiv.org/abs/2203.02155 “Training language models to follow instructions with human feedback”

關(guān)鍵詞: 真實世界 強(qiáng)化學(xué)習(xí) 訓(xùn)練方式

相關(guān)閱讀:
熱點
圖片 圖片