神譯局是36氪旗下編譯團(tuán)隊,關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點介紹國外的新技術(shù)、新觀點、新風(fēng)向。
編者按:機器學(xué)習(xí)技術(shù)日新月異,且有很多來自大公司的免費資源可用。初創(chuàng)公司如果能跟上模型變化的速度,正確利用手邊的資源,將能夠在創(chuàng)業(yè)過程中如虎添翼。本文來自編譯,希望對您有所啟發(fā)。
隨著機器學(xué)習(xí)技術(shù)的成熟,并從一開始的好奇研究轉(zhuǎn)向工業(yè)化的使用,支持大規(guī)模機器學(xué)習(xí)所需的方法和基礎(chǔ)設(shè)施也在不斷發(fā)展。利用這些進(jìn)展對初創(chuàng)公司來說既是機遇也是風(fēng)險,幾乎所有的初創(chuàng)公司都在以這樣或那樣的方式利用機器學(xué)習(xí),以爭奪市場份額。
【資料圖】
這一過程始于 9 年多以前,2012 年,一份名為 AlexNet 的文件向年度 ImageNet LSVRC 競賽(由研究界舉辦的計算機視覺競賽)提交了參賽作品,啟動了深度學(xué)習(xí)革命。在這篇論文中,一個三人小組(Alex Krizhevsky, Illya Sutskever 和 Geoffrey Hinton)使用了一種被稱為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network)的技術(shù)來理解照片的內(nèi)容。他們輕松地贏得了比賽,以巨大的優(yōu)勢擊敗了其他所有人,而且是用一個用于玩視頻游戲的 700 美元的電腦顯卡訓(xùn)練出來的系統(tǒng)。
機器學(xué)習(xí)的世界被永遠(yuǎn)地改變了。一年之內(nèi),復(fù)制 AlexNet 的創(chuàng)業(yè)公司如雨后春筍般涌現(xiàn)。我之前的公司 AlchemyAPI(2015 年被 IBM 收購),早在 2013 年就通過我們的 AlchemyVision 計算機視覺 API 發(fā)布了這項工作的首批商業(yè)版本。這一時期成立的其他創(chuàng)業(yè)公司包括 DeepMind(被谷歌收購)、MetaMind(被Salesforce收購)和 Clarifai 等。學(xué)術(shù)界也發(fā)生了巨大的轉(zhuǎn)變,許多專家從對人工智能的懷疑,迅速轉(zhuǎn)變?yōu)槿硇牡負(fù)肀疃葘W(xué)習(xí)。
時間快進(jìn)到 2022 年:神經(jīng)網(wǎng)絡(luò)已經(jīng)改變了我們?nèi)粘J褂玫能浖到y(tǒng)中機器智能的各個方面,從識別語音到推薦新聞動態(tài)(無論是好是壞)。今天的系統(tǒng)仍然使用神經(jīng)網(wǎng)絡(luò),但規(guī)模大不相同。最近用于理解和生成人類語言的系統(tǒng),如 OpenAI 的 GPT-3,是在超級計算機規(guī)模的資源上進(jìn)行訓(xùn)練的:數(shù)千個 GPU(每個成本至少為 1 萬美元)被編織在高速網(wǎng)絡(luò)互連和數(shù)據(jù)存儲基礎(chǔ)設(shè)施的復(fù)雜結(jié)構(gòu)中。雖然 2012 年最先進(jìn)的系統(tǒng)可以在一張 700 美元的視頻游戲卡上訓(xùn)練,但今天最先進(jìn)的系統(tǒng)(通常被稱為基礎(chǔ)模型)可能需要數(shù)千萬美元的計算量來訓(xùn)練。
這些大規(guī)模、高成本的基礎(chǔ)模型的出現(xiàn),為初創(chuàng)公司和其他想要在人工智能和機器學(xué)習(xí)領(lǐng)域創(chuàng)新的公司帶來了機會、風(fēng)險和限制。盡管它們可能無法在前沿研究領(lǐng)域與谷歌、Facebook 或 OpenAI 競爭,但小型實體可以利用這些巨頭的工作,包括基礎(chǔ)模型,來啟動自己的機器學(xué)習(xí)驅(qū)動應(yīng)用程序的開發(fā)。
1. “預(yù)訓(xùn)練”的網(wǎng)絡(luò)可以幫助初創(chuàng)公司成長
像 AlexNet 這樣的神經(jīng)網(wǎng)絡(luò)最初是為每項任務(wù)從零開始訓(xùn)練的,當(dāng)網(wǎng)絡(luò)需要在單個游戲硬件上花費數(shù)周的時間時,這是可行的,但當(dāng)網(wǎng)絡(luò)規(guī)模、計算資源和訓(xùn)練數(shù)據(jù)量開始以數(shù)量級增長時,難度就大得多了。這導(dǎo)致了一種被稱為“預(yù)訓(xùn)練”(pre-training)的方法的普及,即神經(jīng)網(wǎng)絡(luò)首先在使用大量計算資源的大型通用數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后使用少量的數(shù)據(jù)和計算資源對手頭的任務(wù)進(jìn)行微調(diào)。
近年來,隨著機器學(xué)習(xí)的產(chǎn)業(yè)化已經(jīng)占據(jù)了許多領(lǐng)域(如語言或語音處理),以及可用于訓(xùn)練的數(shù)據(jù)量急劇增加,預(yù)訓(xùn)練網(wǎng)絡(luò)的使用出現(xiàn)了爆炸性增長。例如,使用預(yù)先訓(xùn)練的網(wǎng)絡(luò),初創(chuàng)公司可以用比從零開始所需的更少的數(shù)據(jù)和計算資源構(gòu)建產(chǎn)品。這種方法在學(xué)術(shù)界也越來越流行,研究人員可以快速調(diào)整預(yù)先訓(xùn)練過的網(wǎng)絡(luò),以完成一項新任務(wù),然后發(fā)布結(jié)果。
對于某些任務(wù)領(lǐng)域(包括理解或生成書面文本、識別照片或視頻內(nèi)容以及音頻處理),預(yù)訓(xùn)練隨著基礎(chǔ)模型(如 BERT、GPT、DALL-E、CLIP 等)的出現(xiàn)而不斷發(fā)展。這些模型在大型通用數(shù)據(jù)集(通常是數(shù)十億個訓(xùn)練實例)上進(jìn)行了預(yù)訓(xùn)練,并由資金充足的 AI 實驗室(如谷歌、微軟和 OpenAI)作為開源發(fā)布。
商業(yè)化機器學(xué)習(xí)應(yīng)用的創(chuàng)新速度和這些基礎(chǔ)模型的普及效果是不可低估的。對于那些沒有備用超級計算機的工作人員來說,它們就是萬靈藥。它們允許初創(chuàng)公司、研究人員和其他人快速趕上最新的機器學(xué)習(xí)方法,而不必從頭開始花費時間和資源來訓(xùn)練這些模型。
2. 基礎(chǔ)模型的風(fēng)險:規(guī)模、成本和外包創(chuàng)新
然而,在預(yù)先訓(xùn)練的基礎(chǔ)模型領(lǐng)域,并不是一切都是美好的,隨著其被越來越頻繁地使用,也存在一些風(fēng)險。
與基礎(chǔ)模型相關(guān)的風(fēng)險之一是其不斷擴大的規(guī)模。谷歌的 T5-11b(2019 年開放源碼)等神經(jīng)網(wǎng)絡(luò)已經(jīng)需要一個昂貴的 GPU 集群來加載和進(jìn)行預(yù)測了。對這些系統(tǒng)進(jìn)行微調(diào)需要更多的資源。由谷歌/ Microsoft/ OpenAI 在 2021-2022 年創(chuàng)建的更近期的模型通常非常大,以至于這些公司沒有將其作為開源發(fā)布,畢竟它們現(xiàn)在需要數(shù)千萬美元來創(chuàng)建,這對這些大公司來說,也算是重要的知識產(chǎn)權(quán)投資。
然而,即使這些最新的模型是開源的,簡單地加載這些網(wǎng)絡(luò)來進(jìn)行預(yù)測也需要消耗更多的資源,很多初創(chuàng)公司和學(xué)術(shù)研究人員都無法輕易獲取。例如,OpenAI 的 GPT-3 僅僅是加載就需要大量的 GPU。即使使用 Amazon Web Services 等現(xiàn)代計算云,這也需要將數(shù)十臺 Amazon 最昂貴的 GPU 機器配置到一個高性能計算集群中。
對于那些使用基礎(chǔ)模型的人來說,數(shù)據(jù)集調(diào)整(Dataset alignment)也是一個挑戰(zhàn)。在大型通用數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并不能保證網(wǎng)絡(luò)能夠在專有數(shù)據(jù)上執(zhí)行新任務(wù)。網(wǎng)絡(luò)可能非常缺乏上下文或基于其預(yù)訓(xùn)練的偏向,以至于即使是微調(diào)也不容易解決這個問題。
例如,GPT-2 是自然語言處理領(lǐng)域中一個流行的基礎(chǔ)模型,最初是在 2019 年初宣布的,因此,訓(xùn)練的是在該日期或之前收集的數(shù)據(jù)。想想 2019 年以來發(fā)生的一切,比如疫情。最初的 GPT-2 模型肯定知道什么是疫情,但其缺乏圍繞 COVID-19 及其變種的詳細(xì)背景,而這些背景是近年來出現(xiàn)的。
為了說明這一點,讓我們舉個例子,讓 GPT-2 完成“COVID-19 是……”這句話:
GPT-2(2019):“COVID-19 是一種高容量 LED 發(fā)射器,可以顯示關(guān)于電池的大小和狀態(tài)的信息。”
相比之下,2021 年發(fā)布的開源語言模型 GPT-J 完成了以下句子:
GPT-J(2021):“COVID-19 是一種新型冠狀病毒,主要影響呼吸系統(tǒng),導(dǎo)致具有多種臨床表現(xiàn)的疾病。”
差別非常大,對吧?數(shù)據(jù)集調(diào)整和訓(xùn)練數(shù)據(jù)的近時性非常重要,這取決于具體用例。任何在機器學(xué)習(xí)工作中利用基礎(chǔ)模型的初創(chuàng)公司都應(yīng)該密切關(guān)注這些類型的問題。
3. 云 API 更容易,但外包也是有代價的
OpenAI、微軟和英偉達(dá)等公司已經(jīng)看到了規(guī)模上的挑戰(zhàn),并使用云 API 來應(yīng)對,這些 API 支持在其托管基礎(chǔ)設(shè)施上運行推理和微調(diào)大規(guī)模模型。當(dāng)然,每個主要的云提供商現(xiàn)在都提供了一套機器學(xué)習(xí)服務(wù),在某些情況下,還專門為這些工作負(fù)載設(shè)計了定制處理器。通過將計算和基礎(chǔ)設(shè)施的挑戰(zhàn)轉(zhuǎn)移到更大的公司,這可以為初創(chuàng)公司、研究人員甚至個人愛好者提供一個有限的壓力緩解閥。
然而,這種方法也有其自身的風(fēng)險。不能托管自己的模型意味著在訓(xùn)練和推理方面都要依賴集中的實體。這可能會在構(gòu)建可用于生產(chǎn)的機器學(xué)習(xí)應(yīng)用程序時產(chǎn)生外部性風(fēng)險,比如網(wǎng)絡(luò)中斷、API 的并行量或速率限制,或者僅僅是托管公司的策略更改,都可能導(dǎo)致重大的操作影響。此外,當(dāng)敏感的標(biāo)記數(shù)據(jù)集(其中一些可能被HIPAA等法規(guī)覆蓋)必須被發(fā)送到云提供商進(jìn)行微調(diào)或推斷時,IP 泄露的可能性可能會讓一些人感到不舒服。
調(diào)用這些 API 帶來的 COGS(商品銷售成本)影響,也可能是那些使用云提供商滿足機器學(xué)習(xí)需求的人所關(guān)注的問題。定價模式因供應(yīng)商而異,但不用說,API 調(diào)用、數(shù)據(jù)存儲和云實例的成本會隨著你的使用量而增加。如今,許多使用云 API 進(jìn)行機器學(xué)習(xí)的公司可能最終會嘗試過渡到自托管或自訓(xùn)練的模型,以獲得對其機器學(xué)習(xí)通道的更多控制,并消除外部化風(fēng)險和成本。
圍繞使用托管模型和預(yù)訓(xùn)練模型的機會和風(fēng)險,導(dǎo)致許多公司在“試驗階段”利用云 API 來啟動產(chǎn)品開發(fā)。這時,公司正試圖找到適合其產(chǎn)品的市場。利用云 API 可以讓公司快速啟動產(chǎn)品,并大規(guī)模運行,而不必在昂貴的基礎(chǔ)設(shè)施、模型訓(xùn)練或數(shù)據(jù)收集方面進(jìn)行投資。來自谷歌、IBM、微軟和 OpenAI 等供應(yīng)商的云機器學(xué)習(xí)服務(wù)和托管的預(yù)訓(xùn)練模型,現(xiàn)在為數(shù)千家初創(chuàng)公司和學(xué)術(shù)研究項目提供了動力。
一旦公司確定了產(chǎn)品與市場的契合度,通常會過渡到自我托管或自訓(xùn)練的模型,以獲得對數(shù)據(jù)、過程和知識產(chǎn)權(quán)的更多控制。這種轉(zhuǎn)換可能是困難的,因為公司需要能夠擴展其基礎(chǔ)設(shè)施以匹配模型的需求,以及管理與數(shù)據(jù)收集、注釋和存儲相關(guān)的成本。為了實現(xiàn)這一轉(zhuǎn)變,企業(yè)正在籌集越來越多的投資者資金。
我的創(chuàng)業(yè)公司 Hyperia 最近就進(jìn)行了這樣的轉(zhuǎn)變。早期,我們在努力了解商務(wù)會議和客戶語音對話的內(nèi)容時,嘗試了云 API。但最終我們還是親自進(jìn)行了大規(guī)模的數(shù)據(jù)收集和模型訓(xùn)練工作,以構(gòu)建我們自己專有的語音和語言引擎。對于許多商業(yè)模式來說,如果要實現(xiàn)積極的單位經(jīng)濟(jì)和市場差異化,這樣的進(jìn)化是不可避免的。
4. 要有戰(zhàn)略眼光,密切關(guān)注大型 AI 實驗室
基礎(chǔ)模型是機器學(xué)習(xí)領(lǐng)域最新的顛覆性趨勢之一,但它們不會是最后一個。各大公司在持續(xù)建造越來越大的機器學(xué)習(xí)超級計算機(Facebook最新的一臺包括超過1.6萬個 GPU),研究人員也正忙于開發(fā)新技術(shù),以減少與訓(xùn)練和托管最先進(jìn)的神經(jīng)網(wǎng)絡(luò)相關(guān)的計算成本。谷歌最新的 LaMDA 模型利用了許多創(chuàng)新,能比 GPT-3 更有效地進(jìn)行訓(xùn)練,并且研究界正在迅速開發(fā)諸如 model distillation 和 noisy student training 等技術(shù),以減少模型的大小。
這些創(chuàng)新也意味著創(chuàng)業(yè)公司可以繼續(xù)創(chuàng)新,但重要的是要時刻保持警惕,因為形勢在不斷變化。要記住的事情包括:
云 API 絕對可以加速公司實現(xiàn)產(chǎn)品與市場的契合,但通常也會帶來長期的問題。制定一個戰(zhàn)略性退出計劃非常重要,這樣這些 API 就不會控制你產(chǎn)品的命運。
基礎(chǔ)模型可以極大地加快機器學(xué)習(xí)的速度,降低整體訓(xùn)練和數(shù)據(jù)收集成本,但要意識到這些系統(tǒng)的局限性(例如,訓(xùn)練數(shù)據(jù)的近時性)。
密切關(guān)注大型企業(yè)AI實驗室(谷歌、微軟、IBM、百度、Facebook、OpenAI 等)的成果。機器學(xué)習(xí)正在以極快的速度變化,每個月都有新的技術(shù)、模型和數(shù)據(jù)集發(fā)布。這些發(fā)布往往會在意想不到的時候出現(xiàn),如果你能迅速適應(yīng),會對你公司的機器學(xué)習(xí)工作產(chǎn)生巨大的影響。
最終,機器學(xué)習(xí)的未來及其對初創(chuàng)公司和科技公司的影響是不確定的,但有一件事是明確的:那些了解現(xiàn)有的東西并對其使用做出明智決定的公司,將比那些只想快速解決 AI 問題的公司處于更有利的地位。
譯者:Jane
關(guān)鍵詞: 機器學(xué)習(xí) 初創(chuàng)公司 神經(jīng)網(wǎng)絡(luò)
- 全球觀速訊丨如何在你的創(chuàng)業(yè)公司中使用大量的 AI 模型(如GPT-3)
- 當(dāng)前熱文:炒白酒也需要信仰
- 掃碼前后收費標(biāo)準(zhǔn)不一 共享充電寶為何成了“嫌棄包”?
- 三七互娛:主要產(chǎn)品處成熟回收期,前三季度歸母凈利同比增31.11%至22.57億元
- 每日熱點:科大訊飛江西設(shè)人工智能科技子公司
- 正邦科技前三季度虧損76.44億元 控股股東等重整獲法院裁定受理
- 視訊!讓行道樹與城市一起發(fā)展成長(金臺視線·關(guān)注城市行道樹④)
- 焦點熱門:新華視點|智能制造助推企業(yè)高質(zhì)量發(fā)展
- 天天消息!如雪中送炭 似冬日暖陽——青?,敹喾ㄔ焊删?0多年扎根高原司法為民
- 全球資訊:我國出臺黃河保護(hù)法守護(hù)母親河
- 每日視點!飛天圓夢|靜待夢天,中國空間站在軌建造收官在即
- 四維圖新三季報營收同比增長11.54% 凈虧損5903.12萬元
- 美年健康第三季凈利潤2.78億元同比增長48.69% 精細(xì)化運營迎體檢旺季
- 拉卡拉前三季度營收43.55億元 歸屬上市公司股東凈利潤4.14億元
- “80”后專家?guī)е糯箸R參加川大華西醫(yī)院義診
- 大米成“雙十一”囤貨“新寵”,好大米的標(biāo)準(zhǔn)有哪些?
- 全球快資訊:湖湘自然歷丨林中采藥去⑩怯斑美白,不妨試試“美白仙子”
- 簡訊:前三季度全國規(guī)模以上文化及相關(guān)產(chǎn)業(yè)企業(yè)營業(yè)收入同比增長1.4%
- 天天最資訊丨租借費用高充電慢 歸還難彈窗廣告多 共享充電寶為何成了“嫌棄包”?
- “熬夜水”不修復(fù)疲勞!如何讓“網(wǎng)紅食品”成為放心食品
- 北京石景山開展冬季供暖前特種設(shè)備安全專項檢查
- 陜西延安:開展兒童化妝品專項檢查 規(guī)范化妝品市
- 北京海淀開展商品條碼專項監(jiān)督檢查 努力打造穩(wěn)定
- 金華推進(jìn)網(wǎng)絡(luò)直播營銷治理顯成效 培育放心消費直
- 北京延慶對重點行業(yè)開展格式條款專項檢查 做好市
- 北京海淀開展電動自行車整治夜查行動 全力保障轄
- 江蘇昆山全力規(guī)范大閘蟹市場秩序 營造安全放心消
- 福建寧化開展“兩品一械”網(wǎng)絡(luò)銷售專項檢查 保障
- 北京懷柔:開展市場綜合執(zhí)法監(jiān)督檢查 督導(dǎo)各類經(jīng)
- 天津河?xùn)|:多措并舉推進(jìn)企業(yè)信用修復(fù)工作 助力轄
- 1 全球觀速訊丨如何在你的創(chuàng)業(yè)公司中使用大量的 AI
- 2 當(dāng)前熱文:炒白酒也需要信仰
- 3 掃碼前后收費標(biāo)準(zhǔn)不一 共享充電寶為何成了“嫌棄
- 4 三七互娛:主要產(chǎn)品處成熟回收期,前三季度歸母凈利
- 5 每日熱點:科大訊飛江西設(shè)人工智能科技子公司
- 6 正邦科技前三季度虧損76.44億元 控股股東等重整獲
- 7 視訊!讓行道樹與城市一起發(fā)展成長(金臺視線·關(guān)注
- 8 焦點熱門:新華視點|智能制造助推企業(yè)高質(zhì)量發(fā)展
- 9 天天消息!如雪中送炭 似冬日暖陽——青海瑪多法院
- 10 全球資訊:我國出臺黃河保護(hù)法守護(hù)母親河