——百圖生科以蛋白質語言爲核心的千億參數生命科學基礎模型
摘要:本案例描述了在大語言模型引發顛覆性變革的今天,百圖生科如何以蛋白質語言爲核心構建生命科學的基礎模型,來解碼生命“語言”的奧祕,進而爲生命科學領域前沿問題提供創新性的解決方案。基礎模型是一種生命科學領域革命性的人工智能技術,作爲一個超大規模跨模態生物計算大模型,百圖生科“xTrimo”兩年多來不斷迭代升級,如今已成爲生命科學領域首個千億參數規模的以蛋白質爲中心的大語言基礎模型。該基礎模型從跨物種、跨模態的生命信息中學習蛋白質如何構成和實現功能、如何相互作用、如何組合和調控細胞功能的關鍵規律,能夠建模生物演化,解碼生命規律,爲生命科學行業的前沿發現問題帶來生成能力,並有望在創新藥物設計、靶點發現、酶的從頭設計等領域實現系列突破性成果,從而助力人類健康和社會可持續發展。
關鍵詞:生命科學;基礎模型;百圖生科;人工智能;大模型;靶點發現;新藥研發;蛋白質設計
案例正文:
基礎模型(AI Foundation Models),是指在海量數據和計算資源基礎上訓練出來的通用、被廣泛使用的基礎模型。這些基礎模型也被認爲是構建各種人工智能下游具體應用的基礎。在自然語言處理和機器視覺領域,大家已經對 GPT 等預訓練基礎模型和下游應用十分熟悉。而如今,生命科學領域也正在發生着類似的改變,生命科學領域的通用基礎模型正在形成。
衆所周知,組成蛋白質的 20 種氨基酸“字母”,決定了蛋白質的性質、蛋白質之間的相互作用關係,也決定了細胞中蛋白質網絡的複雜調控關係和複雜的生命活動現象。這些氨基酸“字母”以及蛋白質序列,與人類的自然語言十分相似。因此業界認爲,如果能夠將大語言模型所擁有遠超人類想象的複雜理解能力和創新生成能力,應用在更加複雜的生命“自然語言”上,將有望真正改變生命科學的研究範式。
正如全球領先的人工智能企業DeepMind首席執行官兼創始人Demis Hassabis所說:“從其最基本的層面來看,我認爲生物學可以被看作是一個信息處理系統,儘管是一個非常複雜和動態的系統。就像數學被證明是物理學的正確描述語言一樣,生物學可能會成爲人工智能應用的完美領域。”
千億參數基礎模型,解碼生命語言
只有在一定程度上真正解碼了生命“語言”的奧祕,纔有希望爲當今充滿挑戰的複雜生命科學問題,包括癌症、衰老等,提供創新性的解決方案。但是傳統的人工智能方法,需要大量的標記數據才能作出準確的預測。尤其是在生命科學領域,高質量的標記數據往往供不應求。想要在更少數據的基礎上構建更準確的下游任務模型,就意味着底層基礎模型需要具有更好的表徵或通用能力。
百圖生科認爲,基礎模型是生命科學領域徹底革命性的人工智能技術,因爲基礎模型可以在海量的未標記數據上進行訓練,並且只需有限的標記數據,就可以爲多個下游任務模型提供足夠的信息。“從蛋白質的序列和結構到多細胞系統的行爲,我們正在開發人工智能基礎模型,以理解和預測不同複雜程度尺度上的生命行爲。”在百圖生科官網上有這樣一句關於生命科學基礎模型的介紹。
事實上,由李彥宏和劉維於 2020 年創立的百圖生科,從創立之初就高舉生物計算平臺的大旗,投入於構建生命科學大模型的平臺技術。歷經兩年多時間,構建了生命科學領域的基礎模型——xTrimo,這是一個千億參數規模的以蛋白質爲中心的大語言模型,從跨物種、跨模態的生命信息中學習蛋白質如何構成和實現功能、如何相互作用、如何組合和調控細胞功能的關鍵規律。
據介紹,xTrimo模型訓練所使用的專有數據集,包括超過 60 億個蛋白質、1000 億個蛋白質-蛋白質相互作用,以及來自 1 億多個細胞的數萬億個單細胞基因表達測量結果。
目前,“xTrimo”大模型體系中的任務模型,已經在包括抗體結構、抗體功能、藥物研發、疾病治療、細胞學研究等多個方向在內的 40多個生命科學任務取得了行業最佳(SOTA),並且仍在持續迭代和進化中。
百圖生科這種基礎模型+任務模型的技術體系,使科學家能夠更準確地模擬從蛋白質到系統級別的生命,比如可以根據免疫學、神經病學、腫瘤學和罕見疾病等治療領域的有限數據,提取新穎的見解和出色的預測,從而更好地加速相關治療或藥物的開發。
多樣化領域實現商業落地
2023年10月,百圖生科與賽諾菲宣佈達成一項具有突破性意義的戰略合作,雙方將基於百圖生科生命科學大模型(Life Science AI Foundation Model),共同開發用於生物治療藥物發現的領先模型。作爲協議的一部分,百圖生科將獲得 1000 萬美元的預付款,和多項近期的模型開發付款、研發里程碑付款、銷售里程碑付款等回報,總交易金額超過 10 億美元。
與以往跨國藥企與 BioTech 或 AI 公司之間聯合開發某類特定靶點或藥物不同,此次賽諾菲與百圖生科的戰略合作,是生命科學行業首次基於基礎模型的商業合作,並提出以模型開發而不是藥物研發進展作爲里程碑,這也爲 MaaS(Model as a Service)這種大模型時代的獨特商業模式帶來了新的案例。
2023年11月,百圖生科宣佈與博騰生物建立戰略合作伙伴關係,雙方將藉助生命科學大模型的能力,共同加速腺相關病毒載體的設計,並拓展 AI 大模型在基因治療領域的應用。具體而言,百圖生科將基於博騰生物獨有的腺相關病毒(AAV)載體技術平臺及研究數據,開發 AAV 組裝效率模型和組裝分佈模型。
如今,百圖生科基於模型能力,已經獲得了包括全球大藥企、大型生命科學公司在內的30多家客戶支持。這不僅使得百圖生科生命科學基礎模型在多樣化領域實現商業落地,也使得xTrimo獲得更快迭代進化的機會。
硅谷著名投資人查馬斯(Chamath)不久前曾表示,隨着大模型的功能越來越強、成本越來越高,其平臺屬性會更加突出,AI 領域的 MaaS 商業模式將成爲趨勢。
百圖生科 CTO 宋樂博士此前在接受採訪談到計算生物學、AI for Science 的未來時,曾表示“AI 模型的下一步肯定會有一些新東西。一方面,預訓練模型能否訓練得規模更大,更加充分,基於預訓練模型的下游任務模型是否能夠泛化遷移到新的靶點和蛋白質設計問題;另一方面,是如何把單一模態的大模型更好地變成跨模態的大模型。想要解決生命科學問題,下一步需要一個真正能解碼、理解生命的大模型。不再只是一個模型,更像是一個模型體系。這些基礎模型,無論是在病人某種類型細胞中尋找靶點,還是針對某種分子設計蛋白藥物或者小分子藥物,都能起到一定的作用。這種基礎模型將是生物計算的下一個範式,我們將會有更好的方式去應對生命科學裏面各個層次的問題。”
如今,百圖生科正在基於生命科學基礎模型能力,不斷拓展下游任務模型的邊界,解決與蛋白質相關的治療性抗體、工業酶開發以及創新蛋白設計等問題。這一過程不僅推動着生成式人工智能的進一步發展,也正革命性地改變着生命科學領域研究的範式路線。
案例評點:
百圖生科所擁有的大型預訓練基礎模型 xTrimo,能夠快速基於多樣化數據開發各個領域內表現最佳的任務模型。這種以蛋白質語言爲核心的生命科學大規模預訓練模型體系,在一定程度上真正做到了解碼生命“語言”的奧祕,有希望爲當今充滿挑戰的複雜生命科學問題,包括癌症、衰老等,提供創新性的解決方案。