首頁(yè)>資訊 >
對(duì)話百圖生科首席AI科學(xué)家宋樂博士:“xTrimo”生命科學(xué)AI大模型,不應(yīng)止于加速藥物研發(fā) 2023-03-15 08:57:07  來(lái)源:36氪

文|沈筱

編輯|王與桐

ChatGPT的推出向世界展示了大型語(yǔ)言模型的魅力。這一魅力正是源于大模型泛化能力的提升,使得模型具備完成對(duì)話、文本生成、翻譯等多種任務(wù)的能力。同時(shí),大模型經(jīng)過(guò)微調(diào)之后即可得到專業(yè)領(lǐng)域模型的能力逐漸顯現(xiàn),AI大模型在各個(gè)領(lǐng)域的應(yīng)用潛力正在被激發(fā)。


(相關(guān)資料圖)

其中,生命科學(xué)是一個(gè)早已被關(guān)注,但似乎不那么“吸睛”的領(lǐng)域。然而,事實(shí)上,其或許是AI大模型最重要的應(yīng)用領(lǐng)域之一,并將有望同時(shí)實(shí)現(xiàn)商業(yè)價(jià)值和社會(huì)價(jià)值創(chuàng)造。

DeepMind早在2018年就推出了能夠預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的AlphaFold模型。在2022年,該系列模型已經(jīng)預(yù)測(cè)了全球幾乎所有的蛋白質(zhì)結(jié)構(gòu)。Meta也于2022年推出了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型ESMFold。

同樣,在百圖生科看來(lái),得益于數(shù)據(jù)、算力以及模型的快速發(fā)展,人工智能已經(jīng)進(jìn)入了大模型的黃金時(shí)代。尤其是生命科學(xué)領(lǐng)域積累了海量的數(shù)據(jù),而這些數(shù)據(jù)需要有特定的超大模型來(lái)加以利用,其價(jià)值才能得到激活。百圖生科認(rèn)為,基于大模型,這些數(shù)據(jù)將在藥物研發(fā)領(lǐng)域有所可為。

也正是在這樣的背景下,百圖生科從2020年創(chuàng)立之初,就開始搭建“xTrimo”生命科學(xué)大模型體系,旨在結(jié)合前沿AI和生物技術(shù),構(gòu)建高通量干濕閉環(huán)的生物計(jì)算引擎,建模蛋白質(zhì)、免疫細(xì)胞、免疫系統(tǒng)的復(fù)雜規(guī)律,從而開發(fā)全新的蛋白質(zhì)藥物,重編程免疫系統(tǒng)、治療數(shù)十種免疫相關(guān)疾病。

具體來(lái)講,“xTrimo”生命科學(xué)大模型體系能創(chuàng)造何種價(jià)值,以及如何實(shí)現(xiàn)價(jià)值創(chuàng)造?為了解答上述問(wèn)題,3月3日下午百圖生科CTO、首席 AI 科學(xué)家宋樂博士與36氪等多家媒體進(jìn)行了交流。

百圖生科CTO、首席 AI 科學(xué)家宋樂博士

據(jù)介紹,百圖生科推出的“xTrimo”(Cross-modal Transformer Representation of Interactome and Multi-Omics)是全球首個(gè)、也是目前最大的生命科學(xué)領(lǐng)域的超大規(guī)模多模態(tài)模型體系。該體系由千億參數(shù)的預(yù)訓(xùn)練模型和多個(gè)下游任務(wù)模型組成。模型采取4層嵌套結(jié)構(gòu)的設(shè)計(jì)邏輯,能夠?qū)蝹€(gè)蛋白質(zhì)、細(xì)胞中蛋白質(zhì)相互作用、細(xì)胞本身,以及細(xì)胞系統(tǒng)建模。

以下是在百圖生科交流會(huì)訪談實(shí)錄基礎(chǔ)上,經(jīng)整理、編輯而成:

01 生命科學(xué)領(lǐng)域AI大模型的用武之地

盡管一款新藥的成功研發(fā)能帶來(lái)高回報(bào),但也意味著其研發(fā)過(guò)程具有高風(fēng)險(xiǎn)的特征。同時(shí),新藥研發(fā)通常面臨周期長(zhǎng)、投入資金成本高、技術(shù)難度大的問(wèn)題,以至于在生物醫(yī)藥領(lǐng)域中一直有著新藥研發(fā)“雙十定律”或“反摩爾定律”的說(shuō)法。也就是說(shuō),一般情況下,需要投入10億美元,花費(fèi)超過(guò)10年時(shí)間,才有可能成功研發(fā)一款新藥。

而靶點(diǎn)發(fā)現(xiàn)、化合物合成和篩選是新藥研發(fā)的關(guān)鍵環(huán)節(jié)。在百圖生科看來(lái),AI大模型的價(jià)值就在于,有望實(shí)現(xiàn)上述過(guò)程效率和效果的雙重提升。

一是基于模型的預(yù)測(cè)能力,研發(fā)人員可以更快速地發(fā)現(xiàn)新的蛋白質(zhì)、新的細(xì)胞形態(tài),探索新的靶點(diǎn)和藥物設(shè)計(jì)方向。

生物進(jìn)化是在多層次上經(jīng)歷自然選擇的結(jié)果,包括蛋白質(zhì)序列層面、蛋白質(zhì)互相作用層面、細(xì)胞里基因表達(dá)層面。這些結(jié)果都不是隨機(jī)的。通過(guò)使用包含上述信息的數(shù)據(jù)進(jìn)行訓(xùn)練,大模型在一定程度上能夠模擬生物進(jìn)化的過(guò)程,進(jìn)而具備預(yù)測(cè)能力。宋樂博士指出:“盡管這些生物學(xué)領(lǐng)域的數(shù)據(jù)在過(guò)去的十年中呈現(xiàn)出爆發(fā)式增長(zhǎng),但小工具難以實(shí)現(xiàn)數(shù)據(jù)的挖掘和應(yīng)用?!?/p>

二是通過(guò)提升化合物合成和篩選的準(zhǔn)確率及可靠性,降低后續(xù)試驗(yàn)迭代次數(shù),減少試錯(cuò)成本,進(jìn)而提高新藥研發(fā)前端進(jìn)程的效率。

在通用的預(yù)訓(xùn)練模型基礎(chǔ)上,僅需更少的數(shù)據(jù)就能得到足夠準(zhǔn)確的下游任務(wù)模型。這些模型預(yù)測(cè)出的結(jié)果再用于實(shí)驗(yàn)中,成功率會(huì)更高,所需的實(shí)驗(yàn)次數(shù)和閉環(huán)迭代的次數(shù)更少。宋樂博士表示,模型預(yù)測(cè)準(zhǔn)確高的時(shí)候,甚至可以省去不必要的實(shí)驗(yàn)環(huán)節(jié),節(jié)省實(shí)驗(yàn)開支。

另外,通過(guò)事先在模型中考慮到藥物設(shè)計(jì)最終需要關(guān)注的因素,比如毒性、代謝等問(wèn)題,基于模型結(jié)果設(shè)計(jì)出來(lái)的藥物在臨床試驗(yàn)階段的通過(guò)率有望得到提升。這樣一來(lái)也間接提高了臨床階段的效率。

據(jù)介紹,百圖生科構(gòu)建“xTrimo”大模型體系,其目的就是探索從蛋白到復(fù)雜生物體的進(jìn)化規(guī)律,并基于此針對(duì)性生成滿足特殊需求的蛋白,以蛋白生成和與生物體對(duì)話的方式,加速人工設(shè)計(jì)蛋白進(jìn)化的速度,從而解決生命科學(xué)行業(yè)的痛點(diǎn)問(wèn)題。

在預(yù)訓(xùn)練階段,百圖生科融合了理解與生成兩大訓(xùn)練模式,從億級(jí)跨模態(tài)生物數(shù)據(jù)訓(xùn)練通用蛋白質(zhì)及細(xì)胞表征預(yù)訓(xùn)練模型,并結(jié)合AutoML加速尋找最優(yōu)應(yīng)用模型架構(gòu),適配多個(gè)生物計(jì)算任務(wù)。在此基礎(chǔ)上,“xTrimo”體系能夠表征單體蛋白質(zhì)、蛋白質(zhì)相互作用、免疫細(xì)胞、免疫系統(tǒng)等多層次生物問(wèn)題,理解生物數(shù)據(jù)之間關(guān)聯(lián)性。

截止目前,“xTrimo”大模型已經(jīng)在蛋白結(jié)構(gòu)預(yù)測(cè)、抗體序列生成、細(xì)胞表征等問(wèn)題上實(shí)現(xiàn)SOTA,并在細(xì)胞功能預(yù)測(cè)、denovo藥物設(shè)計(jì)上取得了進(jìn)展。百圖生科現(xiàn)有多個(gè)AI藥物管線在Lead優(yōu)化階段,同時(shí)已與多個(gè)行業(yè)伙伴圍繞GCPR、ion channel等難成藥靶點(diǎn)的大分子藥物設(shè)計(jì)問(wèn)題展開合作。

02不止燒錢,訓(xùn)練數(shù)據(jù)也是關(guān)鍵

想要在更少數(shù)據(jù)的基礎(chǔ)上構(gòu)建更準(zhǔn)確的下游任務(wù)模型,就意味著需要底層大模型具有很好的表征或通用能力。這就要求使用更多的數(shù)據(jù)對(duì)底層大模型進(jìn)行訓(xùn)練,其背后的算力成本之高可想而知。

百圖生科指出,訓(xùn)練一個(gè)千億級(jí)的大模型,可能需要上千個(gè)GPU,運(yùn)行3到5個(gè)月,所需的數(shù)據(jù)量也是TB Trillion級(jí)別的。為此,百圖生科與百度云聯(lián)合構(gòu)建了異構(gòu)的生物超算平臺(tái),支持動(dòng)態(tài)獲取高達(dá)幾千到幾萬(wàn)個(gè)GPU,以及相應(yīng)的CPU資源。經(jīng)粗略估算,每年對(duì)類似xTrimo這樣級(jí)別的大模型進(jìn)行幾次訓(xùn)練,需要在計(jì)算資源方面花費(fèi)上億元。

而除了算力投入,高質(zhì)量數(shù)據(jù)的挖掘和利用也是百圖生科打磨大模型需要解決的關(guān)鍵問(wèn)題。宋樂博士表示,數(shù)據(jù)的準(zhǔn)確度或質(zhì)量會(huì)對(duì)模型表現(xiàn)造成直接影響,對(duì)下游任務(wù)來(lái)講更是如此。例如,想知道設(shè)計(jì)的抗體和抗原之間親和力的強(qiáng)弱,只有在預(yù)測(cè)相對(duì)準(zhǔn)確的情況下,才能夠挑選到一個(gè)比較好的抗體。

然而,在百圖生科看來(lái),盡管現(xiàn)有生物學(xué)領(lǐng)域的數(shù)據(jù)已經(jīng)相當(dāng)豐富,但由于數(shù)據(jù)來(lái)源于不同的技術(shù)和方法,呈現(xiàn)出跨模態(tài)的特征,在數(shù)據(jù)挖掘和利用方面仍然存在兩個(gè)挑戰(zhàn)。

一是生物數(shù)據(jù)的不一致性和噪聲問(wèn)題。為了確保數(shù)據(jù)的質(zhì)量和一致性,需要采用合適的算法和工具進(jìn)行數(shù)據(jù)預(yù)處理和清洗,來(lái)解決不同技術(shù)和方法造成的數(shù)據(jù)質(zhì)量和信噪比不同的問(wèn)題。

二是跨模態(tài)數(shù)據(jù)的集成和分析的復(fù)雜性。生物數(shù)據(jù)具有多模態(tài)、多尺度和多維度的特點(diǎn),通常需要跨學(xué)科的合作,利用專業(yè)技能和知識(shí)來(lái)處理和分析這些數(shù)據(jù)。

也就是說(shuō),在數(shù)據(jù)收集、整理方面,一方面,需要保障數(shù)據(jù)的準(zhǔn)確度和可靠性;另一方面需要找到數(shù)據(jù)對(duì)應(yīng)關(guān)系,將蛋白質(zhì)相互作用,單細(xì)胞數(shù)據(jù)都集成到統(tǒng)一的數(shù)據(jù)庫(kù)里,才能系統(tǒng)性地利用好關(guān)聯(lián)數(shù)據(jù)。

為此,百圖生科針對(duì)公開數(shù)據(jù)進(jìn)行了精細(xì)的對(duì)齊工作,并以內(nèi)部實(shí)驗(yàn)室數(shù)據(jù)為高質(zhì)量數(shù)據(jù)的補(bǔ)充。

對(duì)來(lái)自于公開領(lǐng)域的數(shù)據(jù),百圖生科的生信工程師會(huì)基于自有實(shí)驗(yàn)體系,重新測(cè)量、評(píng)估數(shù)據(jù),以驗(yàn)證公開數(shù)據(jù)之間的相關(guān)性或準(zhǔn)確率。測(cè)量結(jié)果將影響模型訓(xùn)練時(shí)對(duì)數(shù)據(jù)的使用權(quán)重。同時(shí),為了百圖生科圍繞數(shù)據(jù)對(duì)應(yīng)關(guān)系的建立進(jìn)行了探索,花費(fèi)了一年的時(shí)間實(shí)現(xiàn)了公開數(shù)據(jù)的對(duì)齊。具體來(lái)說(shuō),包括將蛋白質(zhì)與基因配對(duì),將相互作用對(duì)應(yīng)的兩個(gè)基因或蛋白質(zhì)進(jìn)行關(guān)聯(lián)等。

在內(nèi)部數(shù)據(jù)獲取方面,百圖生科規(guī)劃、建立了高通量實(shí)驗(yàn)驗(yàn)證體系,以實(shí)現(xiàn)基于干濕數(shù)據(jù)的AI創(chuàng)新藥研發(fā)端到端閉環(huán)。以組學(xué)實(shí)驗(yàn)室為例,百圖生科針對(duì)10余種不同來(lái)源的組織進(jìn)行樣本處理,每年可采集1000萬(wàn)個(gè)單細(xì)胞測(cè)序數(shù)據(jù)。

目前,來(lái)自實(shí)驗(yàn)室的私域數(shù)據(jù)占比約為10%。而這些私域數(shù)據(jù)的補(bǔ)充也是將通用大模型微調(diào)至專業(yè)領(lǐng)域模型所必需的。宋樂博士指出:“大模型需要真實(shí)的實(shí)驗(yàn)數(shù)據(jù)來(lái)進(jìn)行補(bǔ)充,不斷“喂給”模型研究人員最感興趣的靶點(diǎn)問(wèn)題、疾病問(wèn)題相關(guān)的數(shù)據(jù),進(jìn)而微調(diào)到專業(yè)領(lǐng)域模型,提高模型的預(yù)測(cè)能力,這類似于ChatGPT在模型訓(xùn)練時(shí)的人類強(qiáng)化反饋過(guò)程?!?/p>

而為了實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)的集成和分析,百圖生科組建了跨多個(gè)學(xué)科背景的人才團(tuán)隊(duì),包括AI算法人才、生信工程師、數(shù)據(jù)科學(xué)家、生物學(xué)和醫(yī)學(xué)人才等。百圖生科表示,不同學(xué)科背景人才之間的合作也是整個(gè)模型體系搭建、模型架構(gòu)創(chuàng)新,以及推動(dòng)后續(xù)實(shí)驗(yàn)、落地到制藥過(guò)程的關(guān)鍵。

03 百圖生科的未來(lái)愿景:從制藥到解決更廣泛的社會(huì)問(wèn)題

和DeepMind、David Bake Lab等致力于通過(guò)大模型解決生命科學(xué)領(lǐng)域問(wèn)題的公司和實(shí)驗(yàn)室相比,百圖生科的不同之處在于兩個(gè)層面。

首先,如前文所述,百圖生科關(guān)注的不僅是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這樣的單點(diǎn)技術(shù),還包括蛋白質(zhì)之間的相互作用等。在百圖生科看來(lái),DeepMind主打的是以Diffusion擴(kuò)散模型的方式來(lái)生成蛋白質(zhì),而這些單點(diǎn)技術(shù)本身不足以優(yōu)化藥物。藥物的優(yōu)化實(shí)際上需要有一系列的專業(yè)人才參與其中。

比如,在模型搭建之后需要有生信工程師、生信科學(xué)家來(lái)理解模型的輸出結(jié)果、預(yù)測(cè)結(jié)果是否合理;同時(shí)需要生物、醫(yī)學(xué)方面的人來(lái)進(jìn)行真實(shí)實(shí)驗(yàn),管理高通量的實(shí)驗(yàn)體系,以實(shí)現(xiàn)數(shù)據(jù)反饋,持續(xù)優(yōu)化模型能力。這也是百圖生科為什么選擇在成立之初就建立了基于干濕數(shù)據(jù)的AI創(chuàng)新藥研發(fā)端到端閉環(huán)的原因之一。

而建立該實(shí)驗(yàn)閉環(huán)的另一個(gè)主要原因,也是百圖生科與DeepMind、David Bake Lab、Meta等的第二個(gè)不同之處——在藥物研發(fā)場(chǎng)景中更全面的商業(yè)化布局,即并非以完成某個(gè)單點(diǎn)技術(shù)突破或者純粹的科研為目的,而是希望能快速將大模型能力實(shí)際應(yīng)用到在整個(gè)生物制藥以及生命科學(xué)領(lǐng)域中。為了加速推進(jìn)幾十、上百個(gè)藥物管線的開發(fā),百圖生科在蘇州建立了一套完整的從抗體發(fā)現(xiàn),到蛋白打印,再到抗體工程和優(yōu)化的平臺(tái)。

同時(shí),百圖生科表示,在未來(lái)還將探索除疾病治愈之外的其他與蛋白質(zhì)設(shè)計(jì)相關(guān)的社會(huì)問(wèn)題,包括環(huán)境保護(hù)、能源等。例如,探索能夠高效分解塑料或加速特定能源生產(chǎn)制備的蛋白酶。

為了實(shí)現(xiàn)上述愿景,百圖生科未來(lái)可能需要持續(xù)提升工程能力,并建立更廣泛的合作網(wǎng)絡(luò)以實(shí)現(xiàn)數(shù)據(jù)飛輪效應(yīng),同時(shí)也需注意不能過(guò)早地被商業(yè)利益所裹挾。

正如OpenAI在大型語(yǔ)言模型領(lǐng)域取得的階段性成果所顯示的,大模型通用能力的提升在一定程度上得益于其積累的強(qiáng)大工程能力,而這又益于高密度、多領(lǐng)域的人才團(tuán)隊(duì)。而這也正是百圖生科關(guān)注的重點(diǎn)之一:加強(qiáng)跨學(xué)科背景的人才團(tuán)隊(duì)之間的交流、學(xué)習(xí),并在此過(guò)程中不斷碰撞出新的想法和觀點(diǎn)。

據(jù)介紹,在靶點(diǎn)發(fā)現(xiàn)算法建設(shè)的過(guò)程中,算法任務(wù)是在預(yù)測(cè)擾動(dòng)后的細(xì)胞狀態(tài)的變化。由于該任務(wù)可以直接利用的數(shù)據(jù)較少,而描述狀態(tài)變化的信息是上萬(wàn)維度的基因信息,因此難以直接建模。通過(guò)生物背景的研究人員和AI算法研發(fā)人員之間的合作,百圖生科創(chuàng)新地建立了xTrimoCell免疫細(xì)胞擾動(dòng)后功能變化預(yù)測(cè)模型。

在合作網(wǎng)絡(luò)構(gòu)建方面,百圖生科一方面推出了“卓越開發(fā)者計(jì)劃”,面向前沿生物技術(shù)專家、藥物開發(fā)專家和臨床專業(yè)團(tuán)隊(duì)等,為高質(zhì)量的轉(zhuǎn)化醫(yī)學(xué)研究項(xiàng)目提供科研經(jīng)費(fèi)和引擎能力支持;另一方面,與北京大學(xué)醫(yī)學(xué)部等臨床研究機(jī)構(gòu),以及免疫專委會(huì)等專業(yè)協(xié)會(huì)圍繞具體課題和項(xiàng)目展開相關(guān)合作。此外,百圖生科表示,其近期將開放大模型部分能力的接口。

在商業(yè)化方面,百圖生科表示,正在探索多種與藥企之間的商業(yè)合作形式,并不僅限于License out,也希望能夠一起進(jìn)行藥物開發(fā)。經(jīng)濟(jì)利益的獲取是商業(yè)企業(yè)必須關(guān)注的重點(diǎn),但同時(shí),對(duì)創(chuàng)新難度較大的藥物研發(fā)領(lǐng)域而言,如何在尚未實(shí)現(xiàn)盈利的情況下保持科研的定力也是關(guān)鍵。

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片