b体育病史、疾病影像、药物反应、生物标志物、基因组学数据……现代医学诊疗和研究正在生产海量的数据。现在,随着大数据、人工智能等技术的发展,科学家们能够在这些数据的基础上建立更为精致的数学模型,揭示人体、疾病和药物之间的复杂关系。
这一领域被称为“计算医学”(Computational Medicine),是一门横跨数学、计算机、生物学、医学等多个领域的交叉学科。
计算医学的出现是为了应对生物系统的复杂性问题。以基因为例,人类23条染色体上约有2.5万基因,它们就像一个个“开关”,决定了人体的生物性状。然而,这些基因“开关”相互联接,互相影响,形成了一个复杂的非线性网络。在这个网络中,“牵一发而动全身”,在认识某些复杂疾病时,人们很难将某个性状完全归因到特定基因上去。
拥有了机器学习等大数据建模技术之后,人们就能建立具备数以亿计参数的复杂数学模型,去模拟同样复杂的生物系统,重现和预测各种各样的生物过程,实现人体的“数字孪生”。
通过这些模型,计算医学可以帮助人们理解疾病与人体的关系,找出潜在的疾病靶点,帮助科学家们开发药物。
除此之外,科学家们还能够在这些模型中预测不同患者对药物的反应,帮助制定更加精准的医疗方案,调整临床试验计划,甚至被人们期待降低传统临床试验的风险,利用模型来预测药物安全性和有效性,减少依靠大规模入组患者人群的高成本试错。
“喂虚拟小人吃电子药。”图灵-达尔文实验室副主任、哲源科技联合创始人赵宇常常如是描述计算医学的工作。赵宇是中国计算医学的发起与倡导者之一,致力于以该技术体系推动创新药物研发。
“虚拟小人”究竟是如何吃“电子药”的?计算医学与AIDD(人工智能辅助药物设计)有何区别?与时下大火的生成式人工智能(AIGC)又有什么关系?为了回答这些问题,2024年5月21日,在上海举办的国际生物技术与医药研讨会上,澎湃科技对赵宇进行了专访。
赵宇(图灵-达尔文实验室副主任b体育、哲源科技联合创始人):每一个药物都有作用靶点(指生物体内能够被药物分子识别和结合的结构,如蛋白质、核酸和离子通道等)。我们所谓“电子药”,不是去模拟化合物本身,而是药物发生效应的机制,这些机制再抽象回来就是靶点信息。
从另一个角度可以这么理解,比如说我们在临床上经常会有一些人对药物无反应,有的人会是积极反应。把这两个人群放在一起,从底层信号通路层面去比对,其中的差异就是药物的实现机制。所以“电子药”实际上是通过(药效-机制)映射关系比对出来的。
澎湃科技:以Alphafold为代表的AIDD技术主要用于药物分子的预测与开发,它与计算医学有何区别?你似乎把计算医学置于比AIDD和CADD(计算机辅助药物设计)更加重要的位置,为什么?
赵宇:广义上来说,AIDD、CADD通过大数据、人工智能等技术对药物分子和作用机制进行建模,帮助发现新的药用化合物,这也属于计算医学的一部分。但更强调的是计算医学作为认知生命的新技术体系,在对于疾病机制方面的发现作用b体育,在计算医学的AI+疾病工作,更加注重疾病和靶点之间的联系,而AIDD、CADD等计算化学工作则关注靶点和分子之间的联系。
我常说我们这个行业其实不需要那么多分子。在之前的“以分子为中心”模式中,我们常常是建立了一大堆分子,它们能干什么我们并不知道,缺乏对于生物学机制的理解,然后依靠临床医学科学家一个个上临床去试。我们应该反过来,在理解疾病的情况下,探索疾病的靶点在哪儿,在细胞内还是细胞膜上,再回答需要大分子还是小分子,再进行药物实验。建立“以疾病为中心”的药物研发逻辑,这才是底层逻辑,是第一性原理,分子发现应当建立其上。
因此,对于研发新药物而言,疾病和靶点之间的联系更为重要。一个可成药的靶点,为它作出一个专利的分子并不是太难的事,目前这一领域在国内发展的非常快。而探索疾病对应的靶点,在全球来讲都是很困难的工作,一个靶点就是一个千亿级的产业。
赵宇:计算医学也是大模型,是专业领域的专有模型。生成式人工智能,现在更多是指语言大模型,远不是人工智能的终极形态,要知道人类超过八成的知识不能被语言描述。语言大模型还处于大模型的初级阶段,如同第三次工业革命开始时的网上聊天软件。未来一定会在各自领域出现垂直类大模型。
语言模型有大量的语言数据用于训练,基于统计学及概率分布而建立。在生物医药领域,我们没有那么多数据b体育,人类疾病数据天生就是“小数据”。有限的数据一经分层,每层数据非常少,很难通过语言大模型那样的方式去“暴力”计算出来。那么计算医学要认知疾病,就要回到第一性原理,基于信息论,寻找每个人的根本性差异。
生成式人工智能模型应该向AI for Science方向上去努力。语言模型已经为我们展现了一个非常好的前景,那么,如果我们能结合数据,例如单细胞数据或真实的患者数据,再利用这些数据,我们就可以用生成式模型来建立全新的“AI for Science”。
澎湃科技:基因组学数据是探索疾病机制的主要基石。我们知道在传统的基因-疾病关系的探索中,科学家们会通过动物或人体模型,对相关的基因变量进行控制和对比。请问计算医学能代替这部分工作吗?
赵宇:中国科学院院士、复旦大学校长金力教授说,基因之外皆为表型。而之前大家的研究一直是“从基因型到表型”,或者是“从表型到表型”,建立了相关性,但无法建立因果,所以不能说取代,但是能用更优化的,或者说更接近生命的本质——穿透到DNA层面去理解这件事b体育。
在临床中,人们都希望将疾病表型与病因建立联系。而在计算医学中,我们希望从底层接触到这些联系,在这个意义上,基因数据就是最稳定的输入。因为它比较稳定,因此在我们的工作中,其它类型的中间层数据并没有全部用到,我们只是构建好了它们与底层基因数据之间的关系。
澎湃科技:你提到计算医学能够帮助对真实世界中的临床试验作出调整,甚至在未来能够取代一部分临床试验。基于已知数据和统计学的疾病数学模型在什么意义上能够预测未知的药效和安全风险?它的优势和局限性在哪里?
赵宇:这个问题比较大。知识模型会出现的“幻觉”问题(含有貌似事实的虚假或误导性资讯)为例,单纯依靠数据建立模型,就可能会产生过拟合,都产生错误的预测。
清华大学人工智能研究院院长、中国科学院院士张钹教授提出,第三代人工智能的发展路径是融合第一代的知识驱动和第二代的数据驱动的人工智能。计算医学采用知识与数据双驱动的人工智能来处理这个问题。幻觉问题,我们用真实世界的数据去修正;数据出现过拟合,我们通过建立的医学生物知识去校准。通过这种方式,我们才在底层数据逻辑上重新建构生命机制。
为此,我们自主开发了专门用来理解生命科学知识的垂直领域模型——“超脑”。现代生物医疗的知识不断细分,都是一个个“山头”,可能在某一个领域研究已经很成熟的东西,在其它领域大家还在孜孜以求。而当我们把它们放到一起,通过知识推理和演绎,就会产生新的知识,这也是李国杰院士所讲的“从知识产生知识”。
最大的优势也是于此,我们不依赖人类已有的认知而产生大量新的发现。如果说有局限的话,就是深度交叉学科下,邻域知识很难理解,出现“颠覆性技术请被颠覆者评价”的现象。
澎湃科技:从上世纪90年代开始,计算医学就在西方开始发展,就近年来的论文数量来看,美国在该领域处于相当领先的地位,在很多大学也专门开设有计算医学专业。能否介绍一下目前国内的教学和研究状况?
赵宇:国内计算化学、计算生物学这些都已经有了,但还没有计算医学这个学科。2020年,我们在国内重新定义计算医学的维度,因为面临一个新的学科设置。
到现在为止,其实国内还没有这方面的教学,甚至对它的定义还是比较窄的。未来各行各业都要拥抱数字化,计算医学是在最正确的趋势(数字化)下最正确的赛道(生命科学),“晚革命不如早革命”,大家还是应当尽早地去理解学习。但我们也发现,这个行业的人才极其稀有,需要既懂ITb体育,又懂BT(Biological Technology,生物技术)。
IT和BT团队的人在一起简直要“打架”。IT的人对没有组织边界的东西非常焦虑,而BT背景的人讲的都是一个逻辑、一个故事,穿起一个想象的东西。因此需要一个“总师”级别的人,能站在多个背景的角度看问题,将问题拆解并分配给各个专业的人。
计算医学到底需要什么样的人才?前不久我们在一篇文章中探讨了这个问题,列出了高性能计算、生物信息学、基因组学、遗传学等廿几个学科。但凡深入其中一个领域,再对其它有所涉猎,我们认为都是人才。我们希望大家能认识到人才培养中跨学科发展的重要性。
访问手机版
微信公众号