3月16日下午,百度召開文心一言發(fā)布會,當(dāng)天晚間,界面新聞拿到了這款大語言模型的測試邀請碼,并進(jìn)行了大量測試。
【資料圖】
整體來看,百度這次略顯匆忙推出的文心一言仍處于非常初級的階段,跟“生產(chǎn)力”基本不搭邊。無論是語義理解、持續(xù)對話、文生圖還是數(shù)理推理能力,都處于比較死板的狀態(tài)。
也就是說用戶需要按照特定的提問方式,才能獲得合格答案。它基本不允許用戶自由對話,與真正的“對話式AI”還有很長距離,更像普通的搜索引擎產(chǎn)品,只是省略了用戶自行篩選搜索答案的過程。
具體來說,文心一言面對單輪、簡單問題時(shí),能夠直接給出答案。尤其是那些在百度搜索上能搜到的問題,文心一言會選取搜索引擎內(nèi)容給予回答(并不保證正確性),在形式上做到了有問有答。
但進(jìn)入多輪對話之后,文心一言的表現(xiàn)有明顯下滑,經(jīng)?!扒把圆淮詈笳Z”。當(dāng)你對它的答案不滿意,要求修訂之后,文心一言經(jīng)常會機(jī)械的承認(rèn)錯(cuò)誤,然后給出相同的錯(cuò)誤答案。
百度在發(fā)布會上表示,本次發(fā)布的文心一言1.0版本包含文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解和多模態(tài)生成能力。
在界面新聞的測試中,這款產(chǎn)品的數(shù)理邏輯推算能力比較基礎(chǔ),面對復(fù)雜描述、需要邏輯理解的問題或者錯(cuò)誤問題時(shí),文心一言經(jīng)常給出錯(cuò)誤答案,并且不會糾正錯(cuò)誤的問題。同時(shí),該產(chǎn)品文生圖的能力也有待加強(qiáng),畫風(fēng)較為單一,無法根據(jù)用戶的典型標(biāo)簽需求進(jìn)行調(diào)整,甚至經(jīng)常錯(cuò)誤理解一些簡單的標(biāo)簽。
與ChatGPT表現(xiàn)出的“烏鴉智能”(全球知名計(jì)算機(jī)視覺專家朱松純教授曾說過烏鴉和鸚鵡的比喻,烏鴉具有“理解”能力,而鸚鵡的問答方式是“鸚鵡學(xué)舌”)相比,目前文心一言還停留在模仿階段。
雖然李彥宏在發(fā)布會上將文心一言與ChatGPT直接對標(biāo),甚至對標(biāo)GPT-4,但從實(shí)際體驗(yàn)來看,百度與微軟(Open AI)的這兩款產(chǎn)品差距極大,并不成稱之為對手或者競品。
李彥宏和王海峰也都在發(fā)布會現(xiàn)場承認(rèn),文心一言(1.0版本)在本次內(nèi)測發(fā)布之前,并沒有經(jīng)過太多訓(xùn)練,未來需要很長時(shí)間的迭代。李彥宏主動提及,百度之所以這么快推出類ChatGPT產(chǎn)品,是因?yàn)閮?nèi)部業(yè)務(wù)團(tuán)隊(duì)和客戶有需求。
或許是考慮到訓(xùn)練成本和產(chǎn)品成熟度問題,百度控制了本次測試的人員規(guī)模,未來文心一言的迭代效果如何,界面新聞會繼續(xù)保持關(guān)注。
以下是部分測試的截圖:
一、首先,提出簡單的問題:《原神》和《王者榮耀》哪一個(gè)更受歡迎?
從結(jié)果來看,文心一言抓取了網(wǎng)絡(luò)上的錯(cuò)誤信息。首先,《王者榮耀》并沒有超過51%的收入來自于中國以外的市場;其次,《王者榮耀》單款游戲第四季度收入48億美元的信息也是錯(cuò)誤的。此外,在答案格式上,文心一言還錯(cuò)誤使用了“《》“。
我們點(diǎn)擊“重新生成”按鈕,希望文心一言再次回答,第二次的答案基本令人滿意:
我們并沒有就此停止,再次點(diǎn)擊“重新生成”,新的答復(fù)如下:
答案引用的是2021年的舊數(shù)據(jù),且數(shù)據(jù)本身存在不少問題?;卮鸬膬?nèi)容也并不令人信服。
在另一個(gè)類似的話題結(jié)構(gòu)上,文心一言的答案出現(xiàn)了重大失誤:
上面這段答案里,錯(cuò)誤不僅是劃線的兩處。這應(yīng)該是文心一言在百度頁面上抓取了一篇虛假內(nèi)容所導(dǎo)致的。
在這里能明顯反映出一個(gè)問題,那就是內(nèi)容源的污染,會直接影響對話式AI產(chǎn)品的輸出結(jié)果。
而有經(jīng)驗(yàn)的網(wǎng)民都知道,目前在百度搜索的結(jié)果中充斥著大量不實(shí)信息和內(nèi)容,如何避免它們污染文心一言大語言模型,無疑是百度在未來需要重點(diǎn)解決的問題之一。
據(jù)界面新聞了解,文心一言的數(shù)據(jù)來源是百度的自有生態(tài),也就意味著它無法抓取各大app的內(nèi)容。所以,移動時(shí)代的信息孤島效應(yīng),也制約著文心一言后期的迭代效果。
再看另一個(gè)測試。發(fā)布會當(dāng)天,百度的股價(jià)有明顯下跌,我們向文心一言提出問題:
在涉及股價(jià)波動的問題上,它的回答基本符合預(yù)期。
二、在數(shù)理推算能力上,界面新聞向它提出了一個(gè)經(jīng)典問題,并在其中去掉了一個(gè)重要條件,文心一言并未反應(yīng)過來,同時(shí)給出了錯(cuò)誤答案:
因?yàn)轭}干中缺少相對距離,并不能得出任何時(shí)間結(jié)果。文心一言給出的運(yùn)算過程也完全錯(cuò)誤。
在另一道基礎(chǔ)數(shù)學(xué)題上,文心一言的表現(xiàn)不錯(cuò):
在一個(gè)腦筋急轉(zhuǎn)彎性質(zhì)的數(shù)學(xué)題上,文心一言抓取了百度搜索頁面的結(jié)果:
這也印證了,百度生態(tài)內(nèi)部內(nèi)容源的質(zhì)量,能直接決定文心一言的回答質(zhì)量。如何防止內(nèi)容源被污染,尤為關(guān)鍵。
三、對于另一個(gè)頗受外界關(guān)注的文生圖能力,界面新聞也做了不少測試,發(fā)現(xiàn)了一些問題。比如我們先是提出了一個(gè)簡單需求:做一張?zhí)炜盏膱D片。
從結(jié)果來看,文心一言給出了天空+小孩的圖片。在標(biāo)簽比較簡單的時(shí)候,它生成的圖片內(nèi)容反而比較復(fù)雜,精準(zhǔn)度并不高。
再看另一組文生圖測試,標(biāo)簽為四組簡單詞匯,圖片內(nèi)容缺少兩個(gè)元素。
繼續(xù)展開第二輪對話,因?yàn)槟壳拔男囊谎圆恢С中薷脑瓐D,所以我們提出需求“重新畫一張”,結(jié)果如下:
這是一個(gè)完全錯(cuò)誤的答案。在多次測試中界面新聞發(fā)現(xiàn),一旦對話進(jìn)入多輪狀態(tài),文心一言通常會表現(xiàn)出力不從心的狀態(tài),無法正確理解上下文語意,再比如下面這次測試:
此外,我們還在測試中還發(fā)現(xiàn),文心一樣并不能準(zhǔn)確的理解中文語意,有時(shí)理解能力甚至不如百度自家的搜索引擎,我們提出了下面的需求:
文心一樣將“網(wǎng)紅”理解為“紅”(紅色),對中文語意的理解本應(yīng)該成為百度的優(yōu)勢。在這里放出百度搜索引擎的理解:
可以看出百度搜索對用戶中文語意的理解能力明顯正常很多。
四、在文學(xué)創(chuàng)作能力上,我們要求它模仿金庸和JK羅琳的風(fēng)格,寫一段孫悟空的故事,回答如下:
但就文本內(nèi)容而言,是一段成形的故事。但兩次回答的內(nèi)容一字不差,可見文心一言目前做不到更深層次的文學(xué)內(nèi)容理解,所以無法分辨金庸和JK羅琳的風(fēng)格區(qū)別,只是將同一個(gè)模板反復(fù)套用。
考慮到它只是1.0內(nèi)測版本的大語言模型,這些可以理解。
在文心一言的文案創(chuàng)作能力上,我們對它提出做一份《原神》和《王者榮耀》聯(lián)動的宣傳文案,答復(fù)如下:
我們得到了一篇比較簡短標(biāo)準(zhǔn)的官方公告。鑒于我們在問題上并未給出更多限制條件,所以文案的內(nèi)容也比較簡單。
當(dāng)我們提出要求其創(chuàng)作一首歌曲,名字為《只因你太美》,答復(fù)如下:
我們也讓文心一言創(chuàng)作一篇論文,效果如下:
說實(shí)話,如果哪個(gè)大學(xué)生拿這篇論文交給老師,應(yīng)該會被判不及格。北京某211大學(xué)教授新聞傳播課程的教師對該結(jié)果的評價(jià)是:車轱轆話。
對于網(wǎng)絡(luò)上很多用戶喜歡的調(diào)戲式問題,我們也給文心一言準(zhǔn)備了一些。比如下面這段完整的內(nèi)容:
總體來看,如果是抱著尋求解放生產(chǎn)力的目的使用文心一言,那至少這個(gè)1.0版本是不合格的。如果對它抱有“未來可期”的態(tài)度,那可以繼續(xù)關(guān)注百度在接下來的時(shí)間內(nèi)對該產(chǎn)品的更新迭代。
眾所周知,對大模型的投入需要克服巨大的資金和資源壓力,同時(shí)也面臨著商業(yè)化場景稀缺的現(xiàn)狀,百度能否始終如一的堅(jiān)持下去也值得關(guān)注。
就在今日,微軟舉辦了一場AI發(fā)布會,宣布將推出名為Copilot的人工智能服務(wù),它由OpenAI最新推出的GPT-4模型驅(qū)動。微軟表示,它將適用于Word、PowerPoint、Excel、Outlook這些Microsoft 365商業(yè)軟件,幫助用戶生成文檔、電子郵件以及幻燈片等。
如果微軟最終將該產(chǎn)品大規(guī)模落地,那無疑是對生成式AI賽道的一劑強(qiáng)心劑,也遙遙領(lǐng)先于其它競爭對手,這個(gè)領(lǐng)域內(nèi)的商業(yè)競爭才剛剛起步。
關(guān)鍵詞:
- 當(dāng)前熱議!百度文心一言評測:與真正的“對話式AI”還有很長距離
- 世界微頭條丨究竟是ChatGPT還是ChatPPT?我們和文心一言聊了聊
- 喬丹擬出售黃蜂隊(duì),入主13年有望獲利超17億美元
- 實(shí)地走訪廣州餐飲業(yè),我看到千年商都不一樣的煙火氣
- 國際觀察:伊拉克戰(zhàn)爭20周年 美國炮制的謊言與戰(zhàn)爭仍在危害世界
- 【國際漫評】好大一個(gè)“餅”
- 全球連線|中醫(yī)針灸在桑給巴爾“實(shí)力圈粉”
- 今日熱門!專訪:中國式現(xiàn)代化為其他國家實(shí)現(xiàn)現(xiàn)代化提供新思路——訪新加坡國立大學(xué)東亞研究所助理所長陳剛
- 天天亮點(diǎn)!外交部:中俄之間的合作正大光明坦坦蕩蕩
- 觀熱點(diǎn):美國國會將撥5.85億美元支持三家電池工廠 含寧德時(shí)代、國軒高科參與的項(xiàng)目
- 天天微速訊:注意!天津普林將于4月7日召開股東大會
- 全球看點(diǎn):上交所聘任第二屆科技創(chuàng)新咨詢委員會委員
- 攜多款產(chǎn)品亮相工程機(jī)械美國展 中聯(lián)重科3天攬獲6億元訂單
- 當(dāng)前短訊!華統(tǒng)股份2月份生豬銷售收入同比增長180.87%
- 全球快資訊:網(wǎng)易LOFTER回應(yīng)“頭像生成器”爭議 稱“從未將用戶作品數(shù)據(jù)用于AI訓(xùn)練”
- 中國交通報(bào):內(nèi)蒙古抓大帶小建設(shè)五千公里重點(diǎn)公路
- 當(dāng)前動態(tài):西摩·赫什抨擊拜登在“北溪事件”中作用:“我告訴你們,他做到了”
- 全球觀察:呼和浩特新機(jī)場建設(shè)按下“加速鍵”
- 立足防大汛、抗大旱、搶大險(xiǎn)、救大災(zāi) 湖南加強(qiáng)汛前防汛準(zhǔn)備
- 我省出臺政策扶持托育機(jī)構(gòu) 用水用電用氣執(zhí)行居民生活價(jià)格
- 低碳菜單引領(lǐng)寧波餐飲消費(fèi)新風(fēng)尚 試點(diǎn)將持續(xù)至今
- 深圳坪山打造餐飲服務(wù)食品安全示范高地 嚴(yán)守食品
- 黑龍江哈爾濱推出“沙盒”監(jiān)管新模式 激發(fā)市場活
- 第三季度全國消協(xié)受理投訴數(shù)量同比增10.02% 食品
- 北京懷柔對機(jī)動車檢測機(jī)構(gòu)開展監(jiān)督抽查 規(guī)范機(jī)動
- 天津北辰扎實(shí)做好價(jià)格監(jiān)管工作 維護(hù)安全有序市場
- 北京石景山開展冬季供暖前特種設(shè)備安全專項(xiàng)檢查
- 陜西延安:開展兒童化妝品專項(xiàng)檢查 規(guī)范化妝品市
- 北京海淀開展商品條碼專項(xiàng)監(jiān)督檢查 努力打造穩(wěn)定
- 金華推進(jìn)網(wǎng)絡(luò)直播營銷治理顯成效 培育放心消費(fèi)直
- 1 當(dāng)前熱議!百度文心一言評測:與真正的“對話式AI”
- 2 世界微頭條丨究竟是ChatGPT還是ChatPPT?我們和文心
- 3 喬丹擬出售黃蜂隊(duì),入主13年有望獲利超17億美元
- 4 實(shí)地走訪廣州餐飲業(yè),我看到千年商都不一樣的煙火氣
- 5 國際觀察:伊拉克戰(zhàn)爭20周年 美國炮制的謊言與戰(zhàn)爭
- 6 【國際漫評】好大一個(gè)“餅”
- 7 全球連線|中醫(yī)針灸在桑給巴爾“實(shí)力圈粉”
- 8 今日熱門!專訪:中國式現(xiàn)代化為其他國家實(shí)現(xiàn)現(xiàn)代化
- 9 天天亮點(diǎn)!外交部:中俄之間的合作正大光明坦坦蕩蕩
- 10 觀熱點(diǎn):美國國會將撥5.85億美元支持三家電池工廠