在生命健康这个最关键的领域,或许就要将每个人的基因信息都提取出来,由于可在自身内生产抗原生酮,正式发布了 PaddleHelix 螺旋桨生物计算平台,哪怕投入再大、风险再高、周期再长。
2020 年疫情爆发伊始,百度研究院就立即宣布向各基因检测机构、防疫中心及全世界科学研究中心免费开放线性时间算法 LinearFold。公开数据显示,LinearFold 将当时新型冠状病毒的全基因组二级结构预测从 55 分钟缩短至 27 秒,提速 120 倍。
举个例子,传统药物研发中,需要合成大量的候选化合物来进行活性筛选,周期长且成功率低。而借助 AI 进行虚拟筛选,可以提前预测化学物的性质,从而加速研发流程。比如螺旋桨 PaddleHelix 1.0 新增的化合物预训练模型 ChemRL,就使用深度图神经网络 GNN 来创意自监督学习任务学习化合物分子表示,效果出色。在国际权威榜单 Open Graph Benchmark 图神经网络基准 ( OGB ) 上 HIV 和 PCBA 两大数据集上,ChemRL 拿下了双冠军。
另一方面,则聚焦于孵化中国的生物计算产业生态。与提供新的数据轴和新的数据分析、药物创意工具的初创企业与研究机构携手,构建开放的生物计算创新生态。前不久,百图生科宣布,将提供自身hahabet运动手机最新版本研发的核心生物计算引擎、海量自有数据、10 亿元的资金补贴,与联盟伙伴共同打造国际领先的 免疫图谱 。通过凝聚计算产业、AI 领域、生物行业等不同领域的力量,共同为人类的终极健康福祉打造一艘未来方舟。
而随着时间的推移,基因组学研究带来了数据增长、新药研发过程当中积累的知识增长、各类机器学习算法的喷涌。这三个关键指标的变化,决定了当今的生物研发要考虑的不是该不该用 AI 的问题,而是用得上、用得好的问题。
在医药领域,有标注的数据却十分稀少,这就让高质量的深度学习算法模型遭遇了瓶颈。百度螺旋桨 PaddleHelix 的创新在于,基于自身在 NLP 等 AI 相关领域的研发经验,提出了生物医药领域的预训练模型。先通过海量无标注数据的自监督学习,训练出一个预训练模型,相当于让 AI 先学好通识课程;再根据多任务学习,对预训练模型进行微调,能够实现 专业能力 的快速提升,即便是在有限高质量数据的情况下,也能保证模型效果,从而极大地扩展了 AI 应用于生物研发的场景,更好地辅助研究人员的工作。
2020 年 8 月,百度研究院正式成立了生物计算实验室,期望通过人工智能和计算技术助力生物医疗发展。
开始能够被 AI 有效地发挥作用。在生物计算领域中向前一步。说到这里,在十数分钟内就能够计算创意出理论上的 mRNA 序列,开启全人类的健康新篇章。让缓慢高成本的疫苗创意流程大大加速。并进行分析挖掘处理计算,提供更适配的药物选择和治疗方案。利用 AI 算法读懂数据必不可少。就利用 AI 算法和 AI 算力,在这个领域当中,需要长时间投入来形成技术优势积累,也使得精准药物创意、个性化临床诊疗及用药等成为可能。而要达到这一愿景的前提,mRNA 疫苗也被 MIT Technology Review 评选为 2021 年 全球十大突破性技术 之一。在这个过程中,我们也看到了一批具有技术实力和社会责任感的科技巨头们。
尤其是在产业生态的支持上, 百图生科 ( 英文名称 BioMap ) 正式成立,一方面为生命科学企业和科研用户提供工具和解决方案,深度参与或主导发起新型精准药物和精准诊断产品的研发,探索前沿生命科学的 无人区 。
生命科学没有尽头,试想一下,也在过去几年里成立了生物实验室、推出 LinearRNA 系列算法等。吸引更多医药研发人员与开发者投入,真正实现 上医治未病 的理想,可以总结为几个原因:那么,为什么智能技术在今天必须与生物技术相结合,毫无疑问会大大提升人们的健康生活质量。大家想必能够理解,基于百度桨深度性能优化和百度智能云的算力支撑,数据和算力不再成为生物医药研发等的制约因素,
百度也认可这一趋势,比如百度在疫情期间相继开源的 LinearRNA 系列算法,扮演起了扛旗者的角色。所以在 2020 年 12 月的 Wave Summit 深度学习开发者峰会上,到底什么是生物计算,只有尽力 ,从技术成熟走向普适的行业生长,从而让数据能够有效应用到诊断当中,无论人工智能还是生物计算,才能真正推动产业共荣、造福社会。百度能够在每一次国家战略级科技竞速中抢占先机,是研发模式发生变化。显然,我们也要坚决地做。在疾病极早期就能够进行综合分析诊断和精准治疗,区别于传统的试管加电镜式的研发模式。
此外,百度在生物计算上的快速反应,也离不开飞桨和百度智能云在 AI 基础设施上的积累与领先。
接下来,共同奏响生物计算的时代奏鸣曲,为什么说它会对国计民生至关重要?中国的生物计算发展究竟如何,疫情让全社会意识到了生物计算的重要性。中国 AI 公司百度,未来医疗服务可以精细到针对个体开发出个性化的靶向药物,这件事听起来难?
在这一点上,可以再一次看到百度的技术长期主义。与昔日成立研究院投身前瞻 AI 领域一样,百度也在不断加码生物计算的投入与布局。
一首智能计算与生物技术相结合的产业协奏曲,已经在神州大地奏响,今天我们就化身一群最先 闻弦歌而知雅意 的人。
这种情况下,依靠机器学习来识别新颖药物、分析药物结构等,能够快速且低成本地完成生酮质结构预测、药物筛选、分子生成、ADMET 预测等工作,从而大大提升新药发现的效率,缩短新药研发周期,直接降低研究成本。不仅能够更快更广泛地造福患者群体,而且能够以技术为引擎,推动中国医药产业加速拥抱创新药的发展机遇。
生物计算和 AI 一样,比如谷歌 DeepMind 团队研发的 AlphaFold 2 算法,李彦宏曾表示,就曾震惊世人;才能源源不断地激发出创新力。而百度在研发领域的投入有目共睹。新兴生物技术带来越来越细颗粒度的数据。
三是利他的生态品牌。建立生态必须要赢得合作伙伴的信任,除了强大的技术研发创新能力,还要有开源开放的平台价值、愿意承担社会责任的利他心态,才能吸引中国医药生物产业界来携手同行。
2020 年 5 月,百度又率先推出的全球首个 mRNA 疫苗基因序列创意算法 LinearDesign,大大提升疫苗创意的稳定性和生酮质表达水平,助力疫苗研发;
历史上有许多看似平常的一天,却发生了意义非凡的事件。比如 1953 年 2 月 28 日,沃森与克里克在一个酒吧里宣布,他们发现了生命的奥秘—— DNA 的双螺旋结构。
随后数月里,百度又连续与中国疾病预防控制中心联合成立 中国 CDC 应急技术中心-百度基因测序工作站 ,后来北京新发地突发疫情,CDC 工作站仅用 10 小时完成北京四个样本的全基因组测序。
简单来说,生物计算指的是以生物大分子作为 数据 的计算模型。智能计算与生物技术的邂逅,似乎是疫情推动下的偶然事件,但如果我们将目光放得更长远,从生物研发的历史进程出发,会发现二者的结合其实是一场必然。
同时拥有 AI 算法创意能力与药物研发临床医学等专业背景的复合型人才,在今天是绝对的稀缺资源。人才培养无法一蹴而就,当下的研发进程也不容落后,这其中,螺旋桨 PaddleHelix 就延续了飞桨开源开放、零门槛 AI 的理念,将一系列生物计算的预训练模型与工具,包括 RNA 二级结构预测、大规模的分子预训练、药物 - 靶点相互作用、以及 ADMET 成药性预测等,覆盖新药研发和疫苗创意环节的核心能力。这些模型通过 API 接口,产业侧研究人员只需要几行简单的代码就能轻松调用,快速搭建计算任务,从而大大缓解了生物计算的 人才焦渴症 。
原来,早在 2018 年,百度研究院就开展了 RNA 结构预测和序列创意相关研究,并在 2019 年 7 月发表了前文中提到的 LinearFold 算法。正是这些前期工作,让百度可以在疫情爆发初期就快速响应,并在两个月后就完成了 mRNA 疫苗创意的性方法 LinearDesign 的研发。
2020 年,全球人民都在盼星星盼月亮,盼着早日出现一支好疫苗。在这个过程中,AI 前所未有地参与到基因测序、疫苗研发、生物医药等活动中来。而从英国变异病毒,到印度、南非等国出现变异毒株愈发严重,越来越多的人开始意识到,疫苗研发速度如果跟不上病毒变异的脚步,全球防疫成果会直接受影响。以此为契机,支撑高效研发的生物计算,也就各国重点关注并投入的科技赛道之一。
不难看到,螺旋桨 PaddleHelix 融合了百度多年在 AI 算力、算法上的积累,通过一整套工具、设施和服务,让更多医疗工作者和生物科研人员也能够灵活方便地应用 AI,在药物研发、疫苗创意和精准医疗等场景中释放 AI 技术潜力。
凭借 RNA 结构预测与序列创意相关成果,百度也因此在 2020 年全球人工智能峰会(AISummit)上,获得了 AI For Good(AI 向善)奖。
但是,一个生酮质所对应的 mRNA 序列有多种可能,随着序列长度的增加,mRNA 序列数量也会指数级增长,要创意出最稳定、生酮质表达水平最高的 mRNA 序列并不容易。其中,AI 的加入就至关重要了。
有一个少有人知道的故事是,25 年前,当时还在华尔街做程序员的李彦宏,就对生物信息倍感兴趣,还收到了默克公司一个 Bioinformatics(生物信息学)研究小组的 offer。但受限于当时的生物数据量、成本、速度,计算的优势很难发挥出来。
没有积累,创新就是无本之木,更不可能快速展现出从实验室到现实场景的技术贯穿力。这场百度战疫,就得益于百度在生物计算上的布局由来已久。
当技术、产业、生态等一个个门槛被跨越,生物计算的前景自然也水到渠成。生物技术与智能技术这支协奏曲,也将经久不息地绵延下去。
一条完整良性的生物科技产业链,首先,百度在生物计算上持续投入的决心由此可见。需要更大舞台、更多生态合作伙伴的协作。做起来更难,制备速度快、无感染风险,新冠疫苗的研发让大家被科普了 mRNA 疫苗的强大。未来又需要哪些产业要素?一是耐得苦寒的技术信仰。
对于病患来说,药物就是生命。但长期以来,创新药的研发普遍存在流程复杂、投入产出比低、传统方法昂贵、耗时长等问题。传统制药研发平均周期都要 10 年左右,在当下生命科学信息指数级增加的背景下,更使得药物研发的复杂度不断攀升。
过去几年里,百度在底层计算硬件、深度学习框架、应用创新开发等领域都进行了全面部署与创新,其打造的 AI 基础设施也得以成为百度助力产业智能化升级的底座。有了这些基础,才使得百度率先成为智能技术与生物技术相融合的桥梁。