文|沈筱
編輯|王與桐
ChatGPT的推出向世界展示了大型語言模型的魅力。這一魅力正是源于大模型泛化能力的提升,使得模型具備完成對話、文本生成、翻譯等多種任務(wù)的能力。同時,大模型經(jīng)過微調(diào)之后即可得到專業(yè)領(lǐng)域模型的能力逐漸顯現(xiàn),AI大模型在各個領(lǐng)域的應(yīng)用潛力正在被激發(fā)。
(相關(guān)資料圖)
其中,生命科學是一個早已被關(guān)注,但似乎不那么“吸睛”的領(lǐng)域。然而,事實上,其或許是AI大模型最重要的應(yīng)用領(lǐng)域之一,并將有望同時實現(xiàn)商業(yè)價值和社會價值創(chuàng)造。
DeepMind早在2018年就推出了能夠預(yù)測蛋白質(zhì)結(jié)構(gòu)的AlphaFold模型。在2022年,該系列模型已經(jīng)預(yù)測了全球幾乎所有的蛋白質(zhì)結(jié)構(gòu)。Meta也于2022年推出了蛋白質(zhì)結(jié)構(gòu)預(yù)測模型ESMFold。
同樣,在百圖生科看來,得益于數(shù)據(jù)、算力以及模型的快速發(fā)展,人工智能已經(jīng)進入了大模型的黃金時代。尤其是生命科學領(lǐng)域積累了海量的數(shù)據(jù),而這些數(shù)據(jù)需要有特定的超大模型來加以利用,其價值才能得到激活。百圖生科認為,基于大模型,這些數(shù)據(jù)將在藥物研發(fā)領(lǐng)域有所可為。
也正是在這樣的背景下,百圖生科從2020年創(chuàng)立之初,就開始搭建“xTrimo”生命科學大模型體系,旨在結(jié)合前沿AI和生物技術(shù),構(gòu)建高通量干濕閉環(huán)的生物計算引擎,建模蛋白質(zhì)、免疫細胞、免疫系統(tǒng)的復雜規(guī)律,從而開發(fā)全新的蛋白質(zhì)藥物,重編程免疫系統(tǒng)、治療數(shù)十種免疫相關(guān)疾病。
具體來講,“xTrimo”生命科學大模型體系能創(chuàng)造何種價值,以及如何實現(xiàn)價值創(chuàng)造?為了解答上述問題,3月3日下午百圖生科CTO、首席 AI 科學家宋樂博士與36氪等多家媒體進行了交流。
百圖生科CTO、首席 AI 科學家宋樂博士
據(jù)介紹,百圖生科推出的“xTrimo”(Cross-modal Transformer Representation of Interactome and Multi-Omics)是全球首個、也是目前最大的生命科學領(lǐng)域的超大規(guī)模多模態(tài)模型體系。該體系由千億參數(shù)的預(yù)訓練模型和多個下游任務(wù)模型組成。模型采取4層嵌套結(jié)構(gòu)的設(shè)計邏輯,能夠?qū)蝹€蛋白質(zhì)、細胞中蛋白質(zhì)相互作用、細胞本身,以及細胞系統(tǒng)建模。
以下是在百圖生科交流會訪談實錄基礎(chǔ)上,經(jīng)整理、編輯而成:
01 生命科學領(lǐng)域AI大模型的用武之地
盡管一款新藥的成功研發(fā)能帶來高回報,但也意味著其研發(fā)過程具有高風險的特征。同時,新藥研發(fā)通常面臨周期長、投入資金成本高、技術(shù)難度大的問題,以至于在生物醫(yī)藥領(lǐng)域中一直有著新藥研發(fā)“雙十定律”或“反摩爾定律”的說法。也就是說,一般情況下,需要投入10億美元,花費超過10年時間,才有可能成功研發(fā)一款新藥。
而靶點發(fā)現(xiàn)、化合物合成和篩選是新藥研發(fā)的關(guān)鍵環(huán)節(jié)。在百圖生科看來,AI大模型的價值就在于,有望實現(xiàn)上述過程效率和效果的雙重提升。
一是基于模型的預(yù)測能力,研發(fā)人員可以更快速地發(fā)現(xiàn)新的蛋白質(zhì)、新的細胞形態(tài),探索新的靶點和藥物設(shè)計方向。
生物進化是在多層次上經(jīng)歷自然選擇的結(jié)果,包括蛋白質(zhì)序列層面、蛋白質(zhì)互相作用層面、細胞里基因表達層面。這些結(jié)果都不是隨機的。通過使用包含上述信息的數(shù)據(jù)進行訓練,大模型在一定程度上能夠模擬生物進化的過程,進而具備預(yù)測能力。宋樂博士指出:“盡管這些生物學領(lǐng)域的數(shù)據(jù)在過去的十年中呈現(xiàn)出爆發(fā)式增長,但小工具難以實現(xiàn)數(shù)據(jù)的挖掘和應(yīng)用?!?/p>
二是通過提升化合物合成和篩選的準確率及可靠性,降低后續(xù)試驗迭代次數(shù),減少試錯成本,進而提高新藥研發(fā)前端進程的效率。
在通用的預(yù)訓練模型基礎(chǔ)上,僅需更少的數(shù)據(jù)就能得到足夠準確的下游任務(wù)模型。這些模型預(yù)測出的結(jié)果再用于實驗中,成功率會更高,所需的實驗次數(shù)和閉環(huán)迭代的次數(shù)更少。宋樂博士表示,模型預(yù)測準確高的時候,甚至可以省去不必要的實驗環(huán)節(jié),節(jié)省實驗開支。
另外,通過事先在模型中考慮到藥物設(shè)計最終需要關(guān)注的因素,比如毒性、代謝等問題,基于模型結(jié)果設(shè)計出來的藥物在臨床試驗階段的通過率有望得到提升。這樣一來也間接提高了臨床階段的效率。
據(jù)介紹,百圖生科構(gòu)建“xTrimo”大模型體系,其目的就是探索從蛋白到復雜生物體的進化規(guī)律,并基于此針對性生成滿足特殊需求的蛋白,以蛋白生成和與生物體對話的方式,加速人工設(shè)計蛋白進化的速度,從而解決生命科學行業(yè)的痛點問題。
在預(yù)訓練階段,百圖生科融合了理解與生成兩大訓練模式,從億級跨模態(tài)生物數(shù)據(jù)訓練通用蛋白質(zhì)及細胞表征預(yù)訓練模型,并結(jié)合AutoML加速尋找最優(yōu)應(yīng)用模型架構(gòu),適配多個生物計算任務(wù)。在此基礎(chǔ)上,“xTrimo”體系能夠表征單體蛋白質(zhì)、蛋白質(zhì)相互作用、免疫細胞、免疫系統(tǒng)等多層次生物問題,理解生物數(shù)據(jù)之間關(guān)聯(lián)性。
截止目前,“xTrimo”大模型已經(jīng)在蛋白結(jié)構(gòu)預(yù)測、抗體序列生成、細胞表征等問題上實現(xiàn)SOTA,并在細胞功能預(yù)測、denovo藥物設(shè)計上取得了進展。百圖生科現(xiàn)有多個AI藥物管線在Lead優(yōu)化階段,同時已與多個行業(yè)伙伴圍繞GCPR、ion channel等難成藥靶點的大分子藥物設(shè)計問題展開合作。
02不止燒錢,訓練數(shù)據(jù)也是關(guān)鍵
想要在更少數(shù)據(jù)的基礎(chǔ)上構(gòu)建更準確的下游任務(wù)模型,就意味著需要底層大模型具有很好的表征或通用能力。這就要求使用更多的數(shù)據(jù)對底層大模型進行訓練,其背后的算力成本之高可想而知。
百圖生科指出,訓練一個千億級的大模型,可能需要上千個GPU,運行3到5個月,所需的數(shù)據(jù)量也是TB Trillion級別的。為此,百圖生科與百度云聯(lián)合構(gòu)建了異構(gòu)的生物超算平臺,支持動態(tài)獲取高達幾千到幾萬個GPU,以及相應(yīng)的CPU資源。經(jīng)粗略估算,每年對類似xTrimo這樣級別的大模型進行幾次訓練,需要在計算資源方面花費上億元。
而除了算力投入,高質(zhì)量數(shù)據(jù)的挖掘和利用也是百圖生科打磨大模型需要解決的關(guān)鍵問題。宋樂博士表示,數(shù)據(jù)的準確度或質(zhì)量會對模型表現(xiàn)造成直接影響,對下游任務(wù)來講更是如此。例如,想知道設(shè)計的抗體和抗原之間親和力的強弱,只有在預(yù)測相對準確的情況下,才能夠挑選到一個比較好的抗體。
然而,在百圖生科看來,盡管現(xiàn)有生物學領(lǐng)域的數(shù)據(jù)已經(jīng)相當豐富,但由于數(shù)據(jù)來源于不同的技術(shù)和方法,呈現(xiàn)出跨模態(tài)的特征,在數(shù)據(jù)挖掘和利用方面仍然存在兩個挑戰(zhàn)。
一是生物數(shù)據(jù)的不一致性和噪聲問題。為了確保數(shù)據(jù)的質(zhì)量和一致性,需要采用合適的算法和工具進行數(shù)據(jù)預(yù)處理和清洗,來解決不同技術(shù)和方法造成的數(shù)據(jù)質(zhì)量和信噪比不同的問題。
二是跨模態(tài)數(shù)據(jù)的集成和分析的復雜性。生物數(shù)據(jù)具有多模態(tài)、多尺度和多維度的特點,通常需要跨學科的合作,利用專業(yè)技能和知識來處理和分析這些數(shù)據(jù)。
也就是說,在數(shù)據(jù)收集、整理方面,一方面,需要保障數(shù)據(jù)的準確度和可靠性;另一方面需要找到數(shù)據(jù)對應(yīng)關(guān)系,將蛋白質(zhì)相互作用,單細胞數(shù)據(jù)都集成到統(tǒng)一的數(shù)據(jù)庫里,才能系統(tǒng)性地利用好關(guān)聯(lián)數(shù)據(jù)。
為此,百圖生科針對公開數(shù)據(jù)進行了精細的對齊工作,并以內(nèi)部實驗室數(shù)據(jù)為高質(zhì)量數(shù)據(jù)的補充。
對來自于公開領(lǐng)域的數(shù)據(jù),百圖生科的生信工程師會基于自有實驗體系,重新測量、評估數(shù)據(jù),以驗證公開數(shù)據(jù)之間的相關(guān)性或準確率。測量結(jié)果將影響模型訓練時對數(shù)據(jù)的使用權(quán)重。同時,為了百圖生科圍繞數(shù)據(jù)對應(yīng)關(guān)系的建立進行了探索,花費了一年的時間實現(xiàn)了公開數(shù)據(jù)的對齊。具體來說,包括將蛋白質(zhì)與基因配對,將相互作用對應(yīng)的兩個基因或蛋白質(zhì)進行關(guān)聯(lián)等。
在內(nèi)部數(shù)據(jù)獲取方面,百圖生科規(guī)劃、建立了高通量實驗驗證體系,以實現(xiàn)基于干濕數(shù)據(jù)的AI創(chuàng)新藥研發(fā)端到端閉環(huán)。以組學實驗室為例,百圖生科針對10余種不同來源的組織進行樣本處理,每年可采集1000萬個單細胞測序數(shù)據(jù)。
目前,來自實驗室的私域數(shù)據(jù)占比約為10%。而這些私域數(shù)據(jù)的補充也是將通用大模型微調(diào)至專業(yè)領(lǐng)域模型所必需的。宋樂博士指出:“大模型需要真實的實驗數(shù)據(jù)來進行補充,不斷“喂給”模型研究人員最感興趣的靶點問題、疾病問題相關(guān)的數(shù)據(jù),進而微調(diào)到專業(yè)領(lǐng)域模型,提高模型的預(yù)測能力,這類似于ChatGPT在模型訓練時的人類強化反饋過程?!?/p>
而為了實現(xiàn)跨模態(tài)數(shù)據(jù)的集成和分析,百圖生科組建了跨多個學科背景的人才團隊,包括AI算法人才、生信工程師、數(shù)據(jù)科學家、生物學和醫(yī)學人才等。百圖生科表示,不同學科背景人才之間的合作也是整個模型體系搭建、模型架構(gòu)創(chuàng)新,以及推動后續(xù)實驗、落地到制藥過程的關(guān)鍵。
03 百圖生科的未來愿景:從制藥到解決更廣泛的社會問題
和DeepMind、David Bake Lab等致力于通過大模型解決生命科學領(lǐng)域問題的公司和實驗室相比,百圖生科的不同之處在于兩個層面。
首先,如前文所述,百圖生科關(guān)注的不僅是蛋白質(zhì)結(jié)構(gòu)預(yù)測這樣的單點技術(shù),還包括蛋白質(zhì)之間的相互作用等。在百圖生科看來,DeepMind主打的是以Diffusion擴散模型的方式來生成蛋白質(zhì),而這些單點技術(shù)本身不足以優(yōu)化藥物。藥物的優(yōu)化實際上需要有一系列的專業(yè)人才參與其中。
比如,在模型搭建之后需要有生信工程師、生信科學家來理解模型的輸出結(jié)果、預(yù)測結(jié)果是否合理;同時需要生物、醫(yī)學方面的人來進行真實實驗,管理高通量的實驗體系,以實現(xiàn)數(shù)據(jù)反饋,持續(xù)優(yōu)化模型能力。這也是百圖生科為什么選擇在成立之初就建立了基于干濕數(shù)據(jù)的AI創(chuàng)新藥研發(fā)端到端閉環(huán)的原因之一。
而建立該實驗閉環(huán)的另一個主要原因,也是百圖生科與DeepMind、David Bake Lab、Meta等的第二個不同之處——在藥物研發(fā)場景中更全面的商業(yè)化布局,即并非以完成某個單點技術(shù)突破或者純粹的科研為目的,而是希望能快速將大模型能力實際應(yīng)用到在整個生物制藥以及生命科學領(lǐng)域中。為了加速推進幾十、上百個藥物管線的開發(fā),百圖生科在蘇州建立了一套完整的從抗體發(fā)現(xiàn),到蛋白打印,再到抗體工程和優(yōu)化的平臺。
同時,百圖生科表示,在未來還將探索除疾病治愈之外的其他與蛋白質(zhì)設(shè)計相關(guān)的社會問題,包括環(huán)境保護、能源等。例如,探索能夠高效分解塑料或加速特定能源生產(chǎn)制備的蛋白酶。
為了實現(xiàn)上述愿景,百圖生科未來可能需要持續(xù)提升工程能力,并建立更廣泛的合作網(wǎng)絡(luò)以實現(xiàn)數(shù)據(jù)飛輪效應(yīng),同時也需注意不能過早地被商業(yè)利益所裹挾。
正如OpenAI在大型語言模型領(lǐng)域取得的階段性成果所顯示的,大模型通用能力的提升在一定程度上得益于其積累的強大工程能力,而這又益于高密度、多領(lǐng)域的人才團隊。而這也正是百圖生科關(guān)注的重點之一:加強跨學科背景的人才團隊之間的交流、學習,并在此過程中不斷碰撞出新的想法和觀點。
據(jù)介紹,在靶點發(fā)現(xiàn)算法建設(shè)的過程中,算法任務(wù)是在預(yù)測擾動后的細胞狀態(tài)的變化。由于該任務(wù)可以直接利用的數(shù)據(jù)較少,而描述狀態(tài)變化的信息是上萬維度的基因信息,因此難以直接建模。通過生物背景的研究人員和AI算法研發(fā)人員之間的合作,百圖生科創(chuàng)新地建立了xTrimoCell免疫細胞擾動后功能變化預(yù)測模型。
在合作網(wǎng)絡(luò)構(gòu)建方面,百圖生科一方面推出了“卓越開發(fā)者計劃”,面向前沿生物技術(shù)專家、藥物開發(fā)專家和臨床專業(yè)團隊等,為高質(zhì)量的轉(zhuǎn)化醫(yī)學研究項目提供科研經(jīng)費和引擎能力支持;另一方面,與北京大學醫(yī)學部等臨床研究機構(gòu),以及免疫專委會等專業(yè)協(xié)會圍繞具體課題和項目展開相關(guān)合作。此外,百圖生科表示,其近期將開放大模型部分能力的接口。
在商業(yè)化方面,百圖生科表示,正在探索多種與藥企之間的商業(yè)合作形式,并不僅限于License out,也希望能夠一起進行藥物開發(fā)。經(jīng)濟利益的獲取是商業(yè)企業(yè)必須關(guān)注的重點,但同時,對創(chuàng)新難度較大的藥物研發(fā)領(lǐng)域而言,如何在尚未實現(xiàn)盈利的情況下保持科研的定力也是關(guān)鍵。
關(guān)鍵詞:
- 對話百圖生科首席AI科學家宋樂博士:“xTrimo”生命科學AI大模型,不應(yīng)止于加速藥物研發(fā)
- 【天天新要聞】千億賽道爆發(fā)在即,夫妻檔“收廢品”,干出一個IPO
- 熱資訊!漸漸寡淡的3·15,日趨炙熱的新能源
- 世界最新:長城汽車筑不起新能源“長城”
- 天天新動態(tài):福島核事故避難者狀告日本政府索賠遭拒 同類訴訟還有30多起
- 全球觀熱點:美國退役老兵批美軍方無人機聲明:言辭瘋狂 很容易拆穿
- 天天熱點評!普京斥“北溪被親烏克蘭團體破壞”說法:敢肯定這是無稽之談
- 【播資訊】15個跌停后 8個漲停 又2個跌停!幾萬名股東傻眼
- 世界即時看!證券時報頭版評論:不必擔憂硅谷銀行事件沖擊中國金融體系
- 波蘭多舉措推動旅游業(yè)復蘇
- 首批提交注冊!滬深兩市11家主板IPO靜候注冊結(jié)果出爐
- 天天亮點!拜登最新表態(tài)!兩大重磅降臨 歐美多頭沸騰!危機一閃而過?穆迪突然“捅刀”
- 全球即時:肯尼亞移動支付發(fā)展迅速
- 環(huán)球新動態(tài):第一次全網(wǎng)測試 就在本周末!全面注冊制交易系統(tǒng)迎“檢查” 券商:已做好準備
- 杜邦分析圖是什么?杜邦分析法的原理和思路
- 力合科創(chuàng):數(shù)云科際團隊是國家BIM數(shù)字化標準體系、深圳建筑信息模型數(shù)據(jù)存儲標準的重要參編單位
- 天潤工業(yè):新能源汽車對空氣懸架的應(yīng)用是一個助力
- 天天簡訊:凱因科技:公司設(shè)立美國子公司及新加坡子公司 目的在于推動醫(yī)藥創(chuàng)新技術(shù)及項目的引進、拓展與合作
- 熱點在線丨西部超導:公司的募投項目進展順利 目前沒有應(yīng)披露事項而未披露事項
- 全球快播:波音2月份交付28架飛機,落后于競爭對手空客

- 低碳菜單引領(lǐng)寧波餐飲消費新風尚 試點將持續(xù)至今
- 深圳坪山打造餐飲服務(wù)食品安全示范高地 嚴守食品
- 黑龍江哈爾濱推出“沙盒”監(jiān)管新模式 激發(fā)市場活
- 第三季度全國消協(xié)受理投訴數(shù)量同比增10.02% 食品
- 北京懷柔對機動車檢測機構(gòu)開展監(jiān)督抽查 規(guī)范機動
- 天津北辰扎實做好價格監(jiān)管工作 維護安全有序市場
- 北京石景山開展冬季供暖前特種設(shè)備安全專項檢查
- 陜西延安:開展兒童化妝品專項檢查 規(guī)范化妝品市
- 北京海淀開展商品條碼專項監(jiān)督檢查 努力打造穩(wěn)定
- 金華推進網(wǎng)絡(luò)直播營銷治理顯成效 培育放心消費直