国产三级自拍,色视频在线,两个人看的视频在线观看

首頁>資訊 >

當前熱議!百度文心一言評測：與真正的“對話式AI”還有很長距離 2023-03-17 20:45:45　　來源：36氪

3月16日下午，百度召開文心一言發(fā)布會，當天晚間，界面新聞拿到了這款大語言模型的測試邀請碼，并進行了大量測試。

【資料圖】

整體來看，百度這次略顯匆忙推出的文心一言仍處于非常初級的階段，跟“生產(chǎn)力”基本不搭邊。無論是語義理解、持續(xù)對話、文生圖還是數(shù)理推理能力，都處于比較死板的狀態(tài)。

也就是說用戶需要按照特定的提問方式，才能獲得合格答案。它基本不允許用戶自由對話，與真正的“對話式AI”還有很長距離，更像普通的搜索引擎產(chǎn)品，只是省略了用戶自行篩選搜索答案的過程。

具體來說，文心一言面對單輪、簡單問題時，能夠直接給出答案。尤其是那些在百度搜索上能搜到的問題，文心一言會選取搜索引擎內(nèi)容給予回答（并不保證正確性），在形式上做到了有問有答。

但進入多輪對話之后，文心一言的表現(xiàn)有明顯下滑，經(jīng)?！扒把圆淮詈笳Z”。當你對它的答案不滿意，要求修訂之后，文心一言經(jīng)常會機械的承認錯誤，然后給出相同的錯誤答案。

百度在發(fā)布會上表示，本次發(fā)布的文心一言1.0版本包含文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解和多模態(tài)生成能力。

在界面新聞的測試中，這款產(chǎn)品的數(shù)理邏輯推算能力比較基礎，面對復雜描述、需要邏輯理解的問題或者錯誤問題時，文心一言經(jīng)常給出錯誤答案，并且不會糾正錯誤的問題。同時，該產(chǎn)品文生圖的能力也有待加強，畫風較為單一，無法根據(jù)用戶的典型標簽需求進行調整，甚至經(jīng)常錯誤理解一些簡單的標簽。

與ChatGPT表現(xiàn)出的“烏鴉智能”（全球知名計算機視覺專家朱松純教授曾說過烏鴉和鸚鵡的比喻，烏鴉具有“理解”能力，而鸚鵡的問答方式是“鸚鵡學舌”）相比，目前文心一言還停留在模仿階段。

雖然李彥宏在發(fā)布會上將文心一言與ChatGPT直接對標，甚至對標GPT-4，但從實際體驗來看，百度與微軟（Open AI）的這兩款產(chǎn)品差距極大，并不成稱之為對手或者競品。

李彥宏和王海峰也都在發(fā)布會現(xiàn)場承認，文心一言（1.0版本）在本次內(nèi)測發(fā)布之前，并沒有經(jīng)過太多訓練，未來需要很長時間的迭代。李彥宏主動提及，百度之所以這么快推出類ChatGPT產(chǎn)品，是因為內(nèi)部業(yè)務團隊和客戶有需求。

或許是考慮到訓練成本和產(chǎn)品成熟度問題，百度控制了本次測試的人員規(guī)模，未來文心一言的迭代效果如何，界面新聞會繼續(xù)保持關注。

以下是部分測試的截圖：

一、首先，提出簡單的問題：《原神》和《王者榮耀》哪一個更受歡迎？

從結果來看，文心一言抓取了網(wǎng)絡上的錯誤信息。首先，《王者榮耀》并沒有超過51%的收入來自于中國以外的市場；其次，《王者榮耀》單款游戲第四季度收入48億美元的信息也是錯誤的。此外，在答案格式上，文心一言還錯誤使用了“《》“。

我們點擊“重新生成”按鈕，希望文心一言再次回答，第二次的答案基本令人滿意：

我們并沒有就此停止，再次點擊“重新生成”，新的答復如下：

答案引用的是2021年的舊數(shù)據(jù)，且數(shù)據(jù)本身存在不少問題。回答的內(nèi)容也并不令人信服。

在另一個類似的話題結構上，文心一言的答案出現(xiàn)了重大失誤：

上面這段答案里，錯誤不僅是劃線的兩處。這應該是文心一言在百度頁面上抓取了一篇虛假內(nèi)容所導致的。

在這里能明顯反映出一個問題，那就是內(nèi)容源的污染，會直接影響對話式AI產(chǎn)品的輸出結果。

而有經(jīng)驗的網(wǎng)民都知道，目前在百度搜索的結果中充斥著大量不實信息和內(nèi)容，如何避免它們污染文心一言大語言模型，無疑是百度在未來需要重點解決的問題之一。

據(jù)界面新聞了解，文心一言的數(shù)據(jù)來源是百度的自有生態(tài)，也就意味著它無法抓取各大app的內(nèi)容。所以，移動時代的信息孤島效應，也制約著文心一言后期的迭代效果。

再看另一個測試。發(fā)布會當天，百度的股價有明顯下跌，我們向文心一言提出問題：

在涉及股價波動的問題上，它的回答基本符合預期。

二、在數(shù)理推算能力上，界面新聞向它提出了一個經(jīng)典問題，并在其中去掉了一個重要條件，文心一言并未反應過來，同時給出了錯誤答案：

因為題干中缺少相對距離，并不能得出任何時間結果。文心一言給出的運算過程也完全錯誤。

在另一道基礎數(shù)學題上，文心一言的表現(xiàn)不錯：

在一個腦筋急轉彎性質的數(shù)學題上，文心一言抓取了百度搜索頁面的結果：

這也印證了，百度生態(tài)內(nèi)部內(nèi)容源的質量，能直接決定文心一言的回答質量。如何防止內(nèi)容源被污染，尤為關鍵。

三、對于另一個頗受外界關注的文生圖能力，界面新聞也做了不少測試，發(fā)現(xiàn)了一些問題。比如我們先是提出了一個簡單需求：做一張?zhí)炜盏膱D片。

從結果來看，文心一言給出了天空+小孩的圖片。在標簽比較簡單的時候，它生成的圖片內(nèi)容反而比較復雜，精準度并不高。

再看另一組文生圖測試，標簽為四組簡單詞匯，圖片內(nèi)容缺少兩個元素。

繼續(xù)展開第二輪對話，因為目前文心一言不支持修改原圖，所以我們提出需求“重新畫一張”，結果如下：

這是一個完全錯誤的答案。在多次測試中界面新聞發(fā)現(xiàn)，一旦對話進入多輪狀態(tài)，文心一言通常會表現(xiàn)出力不從心的狀態(tài)，無法正確理解上下文語意，再比如下面這次測試：

此外，我們還在測試中還發(fā)現(xiàn)，文心一樣并不能準確的理解中文語意，有時理解能力甚至不如百度自家的搜索引擎，我們提出了下面的需求：

文心一樣將“網(wǎng)紅”理解為“紅”（紅色），對中文語意的理解本應該成為百度的優(yōu)勢。在這里放出百度搜索引擎的理解：

可以看出百度搜索對用戶中文語意的理解能力明顯正常很多。

四、在文學創(chuàng)作能力上，我們要求它模仿金庸和JK羅琳的風格，寫一段孫悟空的故事，回答如下：

但就文本內(nèi)容而言，是一段成形的故事。但兩次回答的內(nèi)容一字不差，可見文心一言目前做不到更深層次的文學內(nèi)容理解，所以無法分辨金庸和JK羅琳的風格區(qū)別，只是將同一個模板反復套用。

考慮到它只是1.0內(nèi)測版本的大語言模型，這些可以理解。

在文心一言的文案創(chuàng)作能力上，我們對它提出做一份《原神》和《王者榮耀》聯(lián)動的宣傳文案，答復如下：

我們得到了一篇比較簡短標準的官方公告。鑒于我們在問題上并未給出更多限制條件，所以文案的內(nèi)容也比較簡單。

當我們提出要求其創(chuàng)作一首歌曲，名字為《只因你太美》，答復如下：

我們也讓文心一言創(chuàng)作一篇論文，效果如下：

說實話，如果哪個大學生拿這篇論文交給老師，應該會被判不及格。北京某211大學教授新聞傳播課程的教師對該結果的評價是：車轱轆話。

對于網(wǎng)絡上很多用戶喜歡的調戲式問題，我們也給文心一言準備了一些。比如下面這段完整的內(nèi)容：

總體來看，如果是抱著尋求解放生產(chǎn)力的目的使用文心一言，那至少這個1.0版本是不合格的。如果對它抱有“未來可期”的態(tài)度，那可以繼續(xù)關注百度在接下來的時間內(nèi)對該產(chǎn)品的更新迭代。

眾所周知，對大模型的投入需要克服巨大的資金和資源壓力，同時也面臨著商業(yè)化場景稀缺的現(xiàn)狀，百度能否始終如一的堅持下去也值得關注。

就在今日，微軟舉辦了一場AI發(fā)布會，宣布將推出名為Copilot的人工智能服務，它由OpenAI最新推出的GPT-4模型驅動。微軟表示，它將適用于Word、PowerPoint、Excel、Outlook這些Microsoft 365商業(yè)軟件，幫助用戶生成文檔、電子郵件以及幻燈片等。

如果微軟最終將該產(chǎn)品大規(guī)模落地，那無疑是對生成式AI賽道的一劑強心劑，也遙遙領先于其它競爭對手，這個領域內(nèi)的商業(yè)競爭才剛剛起步。

關鍵詞：