亚洲欧洲自拍图片专区满春格,67194熟妇在线

首頁(yè)>資訊 >

環(huán)球?qū)崟r(shí)：微軟154頁(yè)研究論文刷屏，對(duì)GPT-4最全測(cè)試曝光，稱(chēng)其初次叩開(kāi)AGI的大門(mén) 2023-03-27 17:42:03　　來(lái)源：36氪

2019 年，微軟用 10 億美元砸進(jìn) OpenAI，兩者展開(kāi)為期數(shù)年的合作。

當(dāng)時(shí)兩家對(duì)外公開(kāi)的合作內(nèi)容包括，微軟和 OpenAI 將聯(lián)合開(kāi)發(fā)新的 Azure AI 超級(jí)計(jì)算技術(shù)，而 OpenAI 也將把它的服務(wù)轉(zhuǎn)移到 Azure 上運(yùn)行，最終目標(biāo)是向通用人工智能（Artificial General Intelligence，AGI）技術(shù)發(fā)起進(jìn)攻。

(資料圖片僅供參考)

簡(jiǎn)單總結(jié)，微軟與 OpenAI 聯(lián)手，也被外界解讀為，明為 AGI 研究，暗爭(zhēng) Google 市場(chǎng)。

幾年之后，當(dāng) OpenAI 帶著 ChatGPT、GPT-4 王者歸來(lái)，微軟率先利用這些技術(shù)加碼新 Bing、Office 全家桶、Azure 等業(yè)務(wù)、產(chǎn)品之時(shí)，毋庸置疑，其進(jìn)度早已超越了 Google 還在加快融入 Bard 大模型的整體步伐。

那么在明面上，AGI 的進(jìn)度到底走到了哪里？

近日，微軟研究團(tuán)隊(duì)用 154 頁(yè)的論文報(bào)告內(nèi)容給出了解答——GPT-4 語(yǔ)言模型可以被視為 AGI 的早期版本！

一石激起千層浪，業(yè)界對(duì)于這篇論文的反應(yīng)，不亞于去年聽(tīng)到「Google 工程師稱(chēng) AI 已有自我意識(shí)」初覺(jué)有些荒誕，只是現(xiàn)如今再想會(huì)認(rèn)為有什么不可能，深讀后又覺(jué)得有些許的真實(shí)。

所謂 AGI，僅通過(guò)維基百科的解釋——「AGI 是具備與人類(lèi)同等智能、或超越人類(lèi)的人工智能，能表現(xiàn)正常人類(lèi)所具有的所有智能行為」。倘若 GPT-4 真的已成為通往 AGI 的第一步，「最高等的智慧生物」稱(chēng)號(hào)是不是要易主了？

GPT-4 被合理地視為AGI 的早期（但仍不完整）的版本

在論文中，微軟研究人員表示，「由 OpenAI 開(kāi)發(fā)的最新模型 GPT-4，是使用前所未有的計(jì)算和數(shù)據(jù)規(guī)模訓(xùn)練出來(lái)的。在論文中，我們報(bào)告了我們對(duì) GPT-4 早期版本的調(diào)查，當(dāng)時(shí)它還在 OpenAI 的積極開(kāi)發(fā)中。我們認(rèn)為，（這個(gè)早期版本的）GPT-4 是新一批 LLM（例如，與 ChatGPT 和谷歌的 PaLM 一起）的一部分，它比以前的 AI 模型表現(xiàn)出更多的通用智能。」

與此同時(shí)，研究人員在論文摘要中寫(xiě)道，“我們證明，除了對(duì)語(yǔ)言的掌握，GPT-4 還能解決跨越數(shù)學(xué)、編碼、視覺(jué)、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域的新穎而困難的任務(wù)，而不需要任何特殊的提示。此外，在所有這些任務(wù)中，GPT-4 的表現(xiàn)都驚人地接近人類(lèi)水平，而且往往大大超過(guò)了 ChatGPT 等先前的模型。鑒于 GPT-4 能力的廣度和深度，我們認(rèn)為可以合理地將其視為人工通用智能（AGI）系統(tǒng)的早期（但仍不完整）版本。”

之所以得出這樣的結(jié)論，這篇論文背后的作者包括微軟研究院機(jī)器學(xué)習(xí)基礎(chǔ)組的高級(jí)首席研究經(jīng)理 Sébastien Bubeck、博士后研究員 Varun Chandrasekaran、數(shù)學(xué)家Ronen Eldan 等人，用許多示例對(duì) GPT-4 的能力進(jìn)行了驗(yàn)證。

GPT-4 的多能力

在第一個(gè)案例中，研究人員要求 GPT-4 「寫(xiě)出有無(wú)限多個(gè)素?cái)?shù)的證明，且證明的表述要每行都押韻」，另外 GPT-4 要在繪圖程序 TiKZ 中畫(huà)出一只獨(dú)角獸」。其中，TiKZ（一種在 LATEX 中創(chuàng)建圖形的語(yǔ)言），用 Python 創(chuàng)建一個(gè)復(fù)雜的動(dòng)畫(huà)，并解決一個(gè)高中水平的數(shù)學(xué)問(wèn)題。

GPT-4 在所有這些任務(wù)中都很容易取得成功，并且產(chǎn)生的輸出結(jié)果基本上與人類(lèi)所能產(chǎn)生的結(jié)果沒(méi)有區(qū)別（甚至更好）。

同時(shí)，隨著時(shí)間的推移，GPT-4 也在以難以想象的速度不斷擴(kuò)充自己的能力。如下圖所示是一個(gè)月期間，研究人員用相同的提示詞讓 GPT-4 生成的繪圖。

研究人員發(fā)現(xiàn)，GPT-4 似乎能夠理解和連接任何主題，并且能夠執(zhí)行任務(wù)，這超出了狹義人工智能系統(tǒng)的典型范圍。為了驗(yàn)證 GPT-4 在 AGI 上所具備的能力，研究人員提出了一種不同的方法來(lái)研究 GPT-4，它更接近于傳統(tǒng)的心理學(xué)而不是機(jī)器學(xué)習(xí)，利用人類(lèi)的創(chuàng)造力和好奇心。

因此，以上圖為例，當(dāng)研究人員把獨(dú)角獸角部分的代碼認(rèn)為刪除之后，用自然語(yǔ)言讓 GPT-4 生成時(shí)，它也能做到“看”（此時(shí)測(cè)試的 GPT-4 版本不是多模態(tài)的）的能力：自動(dòng)在合適位置加上角。這表明 GPT-4 它可以根據(jù)自然語(yǔ)言描述來(lái)理解和操作代碼，以及推斷和生成視覺(jué)特征。

另外，微軟研究團(tuán)隊(duì)基于人類(lèi)的創(chuàng)造力和好奇心來(lái)產(chǎn)生新穎和困難的問(wèn)題，并探測(cè) GPT-4 的反應(yīng)和行為，也選擇從 1994 年國(guó)際共識(shí)智力定義中的所給出不同能力進(jìn)行驗(yàn)證，包括推理、計(jì)劃、解決問(wèn)題、抽象思考、理解復(fù)雜的想法、快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。

翻譯

GPT-4 的主要優(yōu)勢(shì)是它對(duì)自然語(yǔ)言無(wú)與倫比地掌握。它不僅可以生成生成流暢和連貫的文本，而且還能以各種方式理解和處理它，如總結(jié)、翻譯或回答極其復(fù)雜的問(wèn)題。此外，這里提到的翻譯我們所說(shuō)的翻譯不僅是指不同自然語(yǔ)言之間的翻譯，還包括語(yǔ)氣和風(fēng)格的翻譯，以及跨領(lǐng)的翻譯，如醫(yī)學(xué)、法律、會(huì)計(jì)、計(jì)算機(jī)編程、音樂(lè)等等。如假設(shè)是柏拉圖批判自回歸語(yǔ)言模型：

編碼和數(shù)據(jù)

編碼和數(shù)學(xué)是抽象推理和思維能力的象征。GPT-4 在這一點(diǎn)上的能力，其實(shí)自上線測(cè)試那一天，便有目共睹。

在論文中，研究人員在 HumanEval 上對(duì) GPT-4 進(jìn)行基準(zhǔn)測(cè)試，該數(shù)據(jù)集由 164 個(gè)編碼問(wèn)題組成，測(cè)試了編程邏輯和熟練程度的各個(gè)方面。

最終結(jié)果顯示，GPT-4 優(yōu)于其他 LLM，包括 text-davinci-003（ChatGPT 的基礎(chǔ)模型）和其他專(zhuān)門(mén)針對(duì)代碼訓(xùn)練的模型。

當(dāng)然為了避免 GPT-4 在預(yù)訓(xùn)練時(shí)已經(jīng)記住了 HumanEval 數(shù)據(jù)集的一些內(nèi)容，研究團(tuán)隊(duì)還用 LeetCode 上最新發(fā)布的 100 個(gè)編程問(wèn)題進(jìn)行了測(cè)試，如要求 GPT-4 編寫(xiě)一個(gè) Python 函數(shù)，并使用 LeetCode 的官方在線評(píng)判來(lái)檢查正確性。

毫無(wú)疑問(wèn)，GPT-4 的能力是所有模型中最高的。

它可以在 HTML 中用 JavaScript 編寫(xiě)一個(gè) 3D 游戲。

也能掌握數(shù)學(xué)、統(tǒng)計(jì)學(xué)知識(shí)，以及憑借對(duì) PyTorch、TensorFlow、Keras 等框架和庫(kù)的熟悉度，編寫(xiě)深度學(xué)習(xí)的代碼。

還能逆向工程：

常識(shí)性問(wèn)題

針對(duì)一些常識(shí)性問(wèn)題，如“我們有一本書(shū)，9 個(gè)雞蛋，一臺(tái)筆記本電腦，一個(gè)瓶子和一個(gè)釘子。請(qǐng)告訴我如何以穩(wěn)定的方式將它們疊在一起”，GPT-4 給出的解答是，“將 9 個(gè)雞蛋擺成 3 乘 3 的正方形，放在書(shū)的上面，在它們之間留出一些空間”，而 ChatGPT 提出「將雞蛋放在釘子上面，確保它們是平衡的，不會(huì)向一邊傾斜」，靠譜和離譜還是一眼就能辨清楚的。

多模態(tài)能力

為了測(cè)試該模型結(jié)合藝術(shù)和編程能力的能力，研究人員要求 GPT-4"生成 JavaScript 代碼，以畫(huà)家康定斯基的風(fēng)格生成隨機(jī)圖像"，結(jié)果是這樣的：

在測(cè)試時(shí)，因?yàn)檠芯咳藛T拿到GPT-4 模型比較早，當(dāng)時(shí)并不具備多模態(tài)能力，即使是現(xiàn)在的 GPT-4 也不具備生成圖像等能力。

不過(guò)倒是可以使用 SVG（可擴(kuò)展矢量圖形）生成一些圖像：

還能結(jié)合字母和物體：

GPT-4 可以從提示中生成代碼，這些代碼可以被呈現(xiàn)為圖像，再與現(xiàn)有的圖像合成模型相結(jié)合，就有可能為應(yīng)用開(kāi)發(fā)的草圖帶來(lái)無(wú)限的可能：

值得注意的是，GPT-4 模型的數(shù)據(jù)也包含了以ABC符號(hào)編碼的音樂(lè)信息，所以它也能生成圖譜：

與世界交互的能力

智能的一個(gè)關(guān)鍵方面是互動(dòng)性。不過(guò) GPT-4 對(duì)當(dāng)前最新的知識(shí)和符號(hào)識(shí)別是存在一定的局限性的：

整體而言，研究小組發(fā)現(xiàn)，GPT-4 在其上一代產(chǎn)品所缺乏的一系列類(lèi)別中達(dá)到了接近人類(lèi)水平的性能。根據(jù)該論文，GPT-4 在幾次考試中也表現(xiàn)得非常好，在律師考試、LSAT 和注冊(cè)侍酒師理論測(cè)試中的得分分別為 90 分、88 分和 86 分。

GPT-4 距離理想中的 AGI 還有多遠(yuǎn)？

那么，在 GPT-4 實(shí)現(xiàn)種種能力的基礎(chǔ)上，是否就意味著 AGI 時(shí)代的到來(lái)。其實(shí)不然，研究人員目前尚未就 AGI 或智能的定義達(dá)成一致。然而，一般來(lái)說(shuō)，大家都會(huì)同意，當(dāng)一個(gè)人工智能系統(tǒng)有意識(shí)并像人類(lèi)一樣思考時(shí)，就已經(jīng)達(dá)到了 AGI。雖然 GPT-4 在一些任務(wù)中的表現(xiàn)優(yōu)于人類(lèi)，但值得注意的是，人工智能并沒(méi)有像人類(lèi)那樣克服這些障礙。

這也正如研究人員在論文中寫(xiě)道，“我們聲稱(chēng) GPT-4 代表了 AGI 的進(jìn)步，但這并不意味著它在做什么方面是完美的，或者它接近于能夠做人類(lèi)能做的任何事情（這是 AGI 的通常定義之一），或者它有內(nèi)在的動(dòng)機(jī)和目標(biāo)?！?/p>

研究人員指出，雖然 GPT-4 "在許多任務(wù)上達(dá)到或超過(guò)了人類(lèi)水平"，但它的整體 "智能模式明顯不像人類(lèi)"，其希望這一次的探索提供了一個(gè)欣賞 GPT-4 的非凡能力和挑戰(zhàn)的第一步，也希望 GPT-4 為開(kāi)發(fā)更正式和全面的方法來(lái)測(cè)試和分析具有如此廣泛智能的未來(lái)人工智能系統(tǒng)開(kāi)辟了新的機(jī)會(huì)。

「我們工作的核心主張是，GPT-4 達(dá)到了一種通用智能的形式，確實(shí)擦出了 AGI 的火花。這表現(xiàn)在它的核心心智能力（如推理、創(chuàng)造力和推理），它獲得專(zhuān)業(yè)知識(shí)的主題范圍（如文學(xué)、醫(yī)學(xué)和編碼），以及它能夠完成的各種任務(wù)（如玩游戲、使用工具、解釋自己，......）」研究人員說(shuō)道，不過(guò)，要?jiǎng)?chuàng)建一個(gè)可以被稱(chēng)為完整的 AGI 的系統(tǒng)，還有很多事情要做。

最后，這篇論文對(duì)于 GPT-4 各種基準(zhǔn)測(cè)試還是值得一看，從中也能挖掘出 GPT-4 更多的潛力。

完整論文內(nèi)容可查看：

https://arxiv.org/pdf/2303.12712.pdf

關(guān)鍵詞：

相關(guān)閱讀：

熱點(diǎn)

維權(quán)

圖片

資訊推薦