AIxplorerBio Insight | 许大强博士:“AI的价值最终要落到产品管线上去。”

来源:索智生物 时间:2021-08-06

华兴资本首届2021AI助力新药研发高峰论坛于近期举办,索智生物共同创始人兼首席执行官许大强博士受邀出席并参与圆桌讨论,与参会嘉宾围绕AI构建的新药研发生态展开交流对话。


许大强博士在会上表示:“作为底层技术,AI在做药的各个环节都可能有所帮助,且伴随多组学大数据的生成,AI在病人分层、新靶点和生物标记物的发现将有所收获。当下AI技术最成功的应用是新化合物的设计和发现部分企业通过计算得到的化合物已经进入临床。此外,除了进一步更新算法,更有价值的将是如何把AI技术整合到新药研发的各个环节。AI技术的价值最终还是要落到产品管线上去。我们看到现在多数的AI公司都在往这个方向走。”


6.jpg

(图右一:索智生物共同创始人兼首席执行官许大强博士)


*以下圆桌讨论采访速记转载自华兴资本公众号:


论坛嘉宾:

许大强丨索智生物共同创始人、董事长兼首席执行官

赖力鹏丨晶泰科技联合创始人、晶泰人工智能研发中心负责人

刘宇宙丨深云智合创始人兼首席执行官

夏   宁丨智化科技创始人兼首席执行官


主持人:

井绪天丨五源资本董事总经理



AI技术未来有望多应用于

药物研发及分子合成


井绪天:在整个新药研发的过程中,从靶点发现、筛选化合物、大分子到临床相关的实验,AI在什么方向最有机会?

 

赖力鹏:AI技术可实际应用在药物研发中的靶点发现、化合物筛选、设计、临床患者招募、临床数据管理等,包括上市后的真实世界研究。目前晶泰专注在临床前,从靶点确认到临床前化合物的设计,既包括小分子,也包括生物药。我们觉得AI在这个阶段潜力会更大。

 

那么在当下为什么会更有潜力?从数据的角度来说,我们认为越往微观的世界走,数据的积累量越大——临床在一期或者二期的数据量是10的一次方、二次方,而越早期的动物器官模型、细胞层面及分子层面都会有更大量数据的涌现,从几千到几千万。

 

我们公司会从大量数据中研究原子层面、化学层面根本的相互作用。在靶点的选择上有四个层次,分子层面数据最多,因此最适合AI应用。希望最后能从药物早期的发现,到体外、体内的实验,再与医院和临床数据建立关系,最终数据能够形成闭环,这是我个人的看法。

 

刘宇宙:我们主要是解决分子合成,特别是药物合成方面的问题,所以AI和分子结合合成点是我们关心的,因为AI能够在缩短分子合成药物时间方面起到一定的帮助。化学合成要做尝试性的工作,但背后的原因、路线,以及怎么去解决这些问题,很多时候是无法从原理上得知的。

 

我们认为AI能从原理上去分析量子化学计算所得到的信息,进而反馈到实验设计和实验指导上去。如果能把一个分子通过AI的方式合成,把准确率、速率提上去,最终会对合成的速度提升有很大的帮助。

 

夏宁:智化科技主要做AI化学合成这一部分。我本人是化学博士背景,化学符合了AI应用几个要素:


首先是有大量的数据,二是数据的质量相对高,因此化学在这个领域走得非常早,数据整理也已经完成了,三是数据和结论之间有一个明确的对应关系,这个数据确实能够看出规律,因为化学家设计合成路线利用的这种思维方式,通过软件查数据,查到数据可以做判断。

 

因此,AI适用于的领域,第一需要有足够的高质量数据,第二是数据与要实现的目标之间有逻辑关系。整个制药链条非常长,AI是能够帮助到化学合成这一阶段的。

    

许大强:作为一个底层技术,AI在做药的各方面都可能有所帮助。制药就像盖房子,需要木匠、泥瓦匠,从早期的靶点发现,到后期的临床设计,其实在各个环节都已经看到AI在其中的布局。


AI在任何场景的应用,都离不开相应的数据,AI技术能够达到的效果也直接和已有数据的质和量直接相关。不是所有的数据都是可以直接拿过来训练模型的, 很多时候要根据应用的需求有针对性地收集数据。比如随着多组学大数据的生成,AI将会在病人分层、新靶点和生物标记物的发现有所收获。


今天AI技术最成功的应用应该是新化合物的设计和发现。有一些公司通过计算得到的化合物已经进入临床了,如果真的走出来,说明AI技术确实有用,我相信其中肯定会有几个走出来的,只是时间问题。


很高兴能看到AI在各领域都有所应用,所以我们索智生物专注AI在新药研发中的应用。



AI技术助力

学术发展仪器预测


井绪天:请问各位,哪些研发成果能够增强你的信心,觉得这个事情在行业中是有真正价值的?目前取得了哪些成果?

 

赖力鹏:研发上的成果分为两个层面:第一,在技术上取得一些关键性的突破,从公司研发来看,这个突破可以产生一定的规模效益。所以对于晶泰来说,在机器预测上,我们在准确度和计算效率、适用范围方面都处于领先位置,也得到了跨国药企的技术认可,这给了我们很大的信心。


不仅仅在机器预测层面,能够做得很准确,在原子和分子层面上也能够把化合物相互之间的作用计算得更准,这能从微观上帮助解决制药中的很多核心问题。

 

第二点,AI是概率的问题。晶泰为什么做平台,而不是就做一个管线或者一个方向?因为AI不能只停留在一个点上面,需要同时对多个目标优化,通过积累不断提高模型精度,才能发挥最大价值。


还有,我们在一定类型的靶点上,如果想把规模做的更大,会在实验上去做AI模型,从而让算法不断得到验证和反馈,这是至关重要的。

 

刘宇宙:学术界的发展到现在,大部分技术,包括AI生物学应用都是需要理论支持的。实验产生的大量的数据,模型根据数据调整相应的参数和结果,AI可以拓展可能的空间。

 

在分子合成,包括药物合成的过程中,我们通过AI分析数据,同人工分析的数据做对比,发现AI对整个效果的提升是非常明显的。

 

我们能够从近似的角度,不妨碍精度和速率的情况下达到我们的目标。如果了解反应的能量是什么,可以改变溶剂和催化剂,这个过程里会得到很多惊喜,得到通过常规的原理,没有办法设计的东西。

 

很多情况下,能够体验到AI的算法,数据驱动的AI算法能够对合成的提升,对于分子合成稍微复杂的合成,可能需要12周到20周,如果我们速度提升到一周或者几天,这对新药研发的速度提升是很可观的。这也是我们努力的目标。

 

夏宁:智化科技所专注的是化学合成领域,合成是所有新药研发企业绕不开的问题,只有合成出设计的分子后实际测试才知道结果到底如何。但是合成到目前为止是效率非常低的一环,为什么?


因为化学合成还是基于人工的模式,没有进入工业自动化,它主要依赖的还是人的经验,效率非常低,这是亟待通过AI技术、数字化技术提升效率的环节。

 

所以说分子合成路线设计和合成出分子,在新药研发环节中是一个限速步骤,同样也是药企的痛点。大家也看到大的CRO都有1万多人,它的需求非常大,但人效比很低。这个领域AI设计路线已经做到了商业可用,可以预见在未来还将不断提升。


我们相信几年内就能够超过人,到了这个点之后,AI真正的威力就会发挥出来,人就不需要做这个事情了,这个行业也会从手工业逐渐实现工业自动化。

 

许大强:AI技术在新药研发领域的应用只是刚刚开始。但我们已经看到了很多非常令人振奋的进展,从靶点和生物标志物的发现,到分子发现和优化,再到临床设计等等。


除了进一步更新算法,更有价值的可能是如何把AI技术整合到新药研发的各个环节。AI技术的价值最终还是要落到产品管线上去。我们看到现在多数的AI公司都在往这个方向走。



自主收集数据结合算法

简历闭环创造核心价值


井绪天:从创业者的角度来看,你们怎么解决数据的问题,以及怎样持续完善自己的算法平台?

 

赖力鹏:从我们的角度来说,主要有四个解决来源:一是我们有专门的数据团队,这不是轻松的事情,因为解决数据的非结构化、非标准化问题,数据的清洗,是不得不做的事情,其中的价值非常大。

 

二是越往分子层面走,数据的精度和一致性质量会更高,我们有专门的计算化学团队,不仅要做计算,而且要做自己智能方法的开发,会用这些高精度的方法做分子层面和量子层面的计算,获得高质量的数据用于模型开发,这和化学合成都有关系。

 

三是我们现在和全球70多家药企有项目合作,有几十个药物研发在进行当中,这些数据在收集和交流过程中,都会按照适合AI处理的方式来进行处理,可以不断对模型进行优化。

 

四是构建自己实验的能力,实验不完全是以研发推进项目为目标,而是要和AI系统打通,通过高通量的实验规划积累数据。未来AI公司的竞争力很大一个层面上取决于,谁能够快速地以比较低的成本收集更高质量的数据,因此很大程度上也需要实验方面资金的投入。

 

刘宇宙:数据是整个算法的核心。我们做的事情相当于从量子力学,电子这个级别去近似地理解物质。但对于我们来说,最大的问题是怎么近似?如果不近似,即使算,可能也没有结果。


快速给出正确的结果,前提是近似的情况是可行的,需要数据告诉我们在哪一种情况下,采取哪种近似是合适的。在目前科技水平和算法水平下,重要的是怎么核实这些数据的准确性。

 

我们前期工作很多集中在材料方面,比如在做环状硅氧烷合成时找到现有的催化剂和算法跑出来的催化剂进行对比,数据促使新的催化剂要比已有的催化剂效果高很多,因此我们对于算法的测试是非常有信心的。

 

未来我们能够看到一个理想的状态,就是把合成的路线在高精度、高速率的情况下,由天缩短到几小时,甚至是几分钟,希望未来能够看到,只需要秒级的时间,就可以知道可行的合成路线。


为了达到这一步,未来我们工作将在两个方面开展,一是积累更多的数据,二是在数据的基础上找到更合适的模型。一个核心点就是快速给出正确的结果,前提是近似的情况是可行的,需要数据告诉我们在哪一种情况下,采取哪种近似是合适的。


在目前科技水平和算法水平下,找到合适的结构要百万级别,这个级别不只是搜索爬虫,更重要的是怎么核实这些数据的准确性。我们必须找到正确合理的数据才能确定,否则给到分析的数据就是错的,模型也不是合理的。

 

这也是做分子合成的一个特点,因为我们基于的是电子,它在分子立场要对原子进行测试,在这个过程中,数据对于我们未来发展来说更重要。有更多的资金,有更多的计算投入也会得到更多的数据,把模型变得越来越准确,从而解决最终的尝试问题,我们要不断投入人力来做这件事,解决这个尝试的过程。

 

在做数据计算的时候,因为前期工作很多集中在材料方面,比如在做环状硅氧烷合成时找到现有的催化剂和算法跑出来的催化剂进行对比,数据促使新的催化剂要比已有的催化剂效果高很多,因此我们对于算法的测试是非常有信心的。

 

未来我们能够看到一个理想的状态,就是把合成的路线在高精度、高速率的情况下,由天缩短到小时,缩短到分钟,以及未来能够看到,只需要平台级的时间,就可以知道真正的合成路线,把中间的过程去掉,找到真正准确的方式。所以未来是两个方面,一是积累更多的数据,二是在数据的基础上找到更合适的模型。

 

夏宁:现在我们有一个数据量大概在1000多万左右的数据集,当前已经达到了不错的效果,但是我们在实际应用中发现缺乏负面数据,即失败的数据,因为公开报道的数据都是成功数据。这会造成设计出一条路线,AI认为大概率会成功,但实际上有可能会失败的一些点无法被预测出来。

 

为了拿到这些数据,我们尝试和一些药企和CRO合作,后来我们发现这几乎是不可能的,对于这些企业来讲,数据都是核心资产,不可能给到外面的公司,只能和企业深度合作才能在内部使用这些数据,这对于我们来说是挺大的挑战。还有一个可行的方案,是可以通过实验批量产生负面的数据。

 

未来真正的价值在于能够把数据的产生和预测形成一个闭环,产生的数据能够帮助更好地预测,从而得到更好的结果。只拿一些公开的数据做会遇到一些天花板,再提升就很困难。

 

许大强:现在很多大药厂有很多数据,其实很多不能用,早期收集数据的方法和管理也不完善。数据需要完整性,要有针对性,要真实。因此自己收集的数据才最可靠。


除了其它方面的合作,数据收集整理也是我们与众多战略合作伙伴的合作重点,从多组学数据到晶体结构数据都在我们合作计划中。


数据和算法是相辅相成的,所以我们希望能在和合作伙伴合作基础之上,广泛地与其它算法平台公司和专家开展合作,探索如何利用有限数据做最优的预测。




关于索智生物 

我们是一家基于结构的、以人工智能为驱动的新药研发公司。我们将最新的人工智能技术与实验创新相结合,专注于研发治疗免疫和神经退行性疾病的创新药物。在硏发新药的过程中,我们致力于搭建—个新的由人工智能及数据驱动的、基于结构的新药硏发范式,以期显著提高药物研发的效率和成功率。


索智生物由一群经验丰富的新药研发专家组建而成,并由BT/T巨头百图生科和领先的药物发现CRO平台维亚生物共同出资成立。除了与百图生物和维亚生物构建战略合作外,索智生物还积极寻求与其他A技术公司以及药物硏发公司的合作机会。