登录

这家公司将AI技术应用到生物科技领域,测单蛋白结构技术评估排名世界第二!

作者: 车维维 2021-12-28 08:00
天壤
http://www.gzskysoil.com
企业数据由 动脉橙 提供支持
微生物制剂研发、生产和销售商 | 未公开 | 运营中
中国-广东
查看

人类在医学每个阶段的重大发展,都与科学技术的突破息息相关。

 

新药研发是人类发展中极具风险和复杂度、耗时最漫长的技术研究领域之ー,研发费用高、研发周期长、研发成功率低一直是压在制药企业身上的“三座大山”。英国《自然》(Nature)杂志有一组数据显示,新药的研发成本大约是26亿美元,耗时约10年,成功率不到十分之一。

 

典型的新药研发过程通常包括药物作用靶点及最优化合物确认,临床前研究,临床研究I、II、III期阶段,以及食药监局审批。然而据统计,类药化学空间中可探索的分子数高达1023至1060,发现新药可以说如同大海捞针。

 

随着AI技术的发展,AI应用到新药研发的各个环节,在保证分析质量的同时,可以减少大量的试错和返工时间,提高研发效率,使新药开发走上快速高效的道路,同时降低药物研发成本。据统计,部分应用了AI的新药研发减少了35%的成本,研发周期也从5-10年缩短为1-3年。

 

TRFold蛋白质结构预测平台迈入世界领先梯队


蛋白质参与行使几乎所有的细胞功能,为了行使蛋白质的特定功能,蛋白质必须折叠成特定的结构。蛋白质的三维结构直接决定蛋白质的功能,一旦三维结构被破坏,蛋白质功能随之丧失,癌症、阿尔兹海默症等常见疾病都是体内重要的蛋白质结构异常引起的。

 

蛋白质结构预测是结构生物学的重要分支,然而现有的实验手段不足以揭示一些重要的蛋白结构,需要借助更多生物信息技术、计算生物学手段去探索。

 

AI应用于蛋白质结构领域,通过预测的方式破解了之前传统观测方法所不能解析的一些结构,且置信度比较高,十分接近事实,会极大加速生命学科的研究,也将带来医疗保健、食品可持续性、新技术等方面的改善,进一步促进生物科学、药物研发、合成生物学方面的发展。

 

今年7月,谷歌旗下人工智能公司DeepMind公开了其人工智能系统AlphaFold2 的源代码并在《Nature》杂志上发表论文阐述了AlphaFold2的技术细节,该系统能够精确地基于氨基酸序列预测蛋白质的3D结构,在生物科技领域一石激起千层浪。

 

在2020年CASP14(2020年第14届国际蛋白质结构预测竞赛)上,AlphaFold2对蛋白质结构的精准预测被列为2020年度世界十大科技进展,这是人类首次利用人工智能技术快速精准地模拟蛋白质模型,其模拟结果可以与昂贵、复杂且耗时许久的实验室结果相媲美。

 

施一公曾在此前的一次采访中表示:“人类蛋白质组里能够被预测的以单个蛋白为单位的空间三维结构,已经基本都被 AlphaFold 预测了。总体而言,预测结果可信、也比较准确。这是人类在认识自然界的科学探索征程中一个非常了不起的历史性成就。”

 

国内也不乏深入研究生物科技的AI公司。人工智能公司天壤XLab近日宣布,该公司自研的深度学习蛋白质折叠预测平台TRFold,在基于CASP14蛋白质测试集内测中,已获得82.7/100的成绩,仅次于全球第一名AlphaFold2的91.1/100的成绩,排名全球第二。

 

据介绍,在基于400个氨基酸的蛋白链预测时,TRFold最长耗时仅16秒,且采取权重共享的方式以节约算力,相对于AlphaFold2的128张TPU(约等于256张GPU),TRFold仅使用了8张GPU,以更小算力、更高效率取得媲美AlphaFold2的成绩。

 

这是目前国内所有公开蛋白质结构预测模型中取得的最好成绩,标志着我国计算生物学领域的表现已经处于世界第一梯队。

 

排世界第二.png

*RoseTTAFold 结果来自github开源预测,其他数据来自CASP官网

 

CASP比赛每两年举行一次,已成为计算生物学领域中最权威和最富盛名的比赛,每次比赛都吸引了许多来自生物物理学、计算机科学、高能物理学、计算化学和计算数学等不同领域的专家参加,被誉为“蛋白质结构预测领域的奥林匹克竞赛”。

 

传统观测蛋白质结构的方法主要有三种,即核磁共振、X 射线、冷冻电镜,但这些方法往往依赖大量试错和昂贵的设备,每种结构的研究都要花数年时间。而AI应用于蛋白质结构的最新进展,即AlphaFold2,能在几天、甚至以分钟级预测出具有高置信度的蛋白质结构,这在以前甚至要花费数十年时间。

 

在AlphaFold2开源4个月后,天壤蛋白质预测模型的迭代版在基于CASP14测试数据集的内测中取得了国内最好成绩,仅次于AlphaFold2。

 

据天壤公司介绍,AlphaFold2是蛋白质结构预测方向的重大突破,但是围绕蛋白质结构功能问题且能够达到实际落地应用准确度要求的AI算法的开发才刚刚开始。TRFold有自己的模型表达优势和训练经验,可以推进解决更深层次的问题,比如蛋白质与蛋白质之间的相互作用。相比于AlphaFold2,天壤做了许多创新和优化,在模型表达、算力消耗等方面都有比较大的优势,具备显著的后发优势。


深入研究蛋白质相互作用链路,助力药物研发


天壤是专注于通用智能研究的创新企业,致力打造复杂系统下的通用人工智能平台,实现以最小成本、最快速度赋能业务场景,让智能像水电煤一样便捷。目前,已经广泛地服务于城市运行、交通治理、金融保险、商业零售等场景中。

 

公司创始人兼首席执行官薛贵荣博士是人工智能与大数据领域顶级科学家,国家科技部云计算专家组成员。薛贵荣博士于2006年获得上海交通大学计算机博士学位,2006年至2009年在上海交通大学计算机系担任副教授、特别研究员,是国内第一位在全球搜索领域顶级会议ACM SIGIR上发表论文的科学家。

 

2009年,薛贵荣博士加入阿里云,负责研发基于云端的阿里搜索引擎(神马搜索),支撑了阿里搜索框架中亿万网站的搜索和推荐服务。2013年至2016年担任阿里妈妈大数据中心负责人,阿里妈妈首席数据科学家;带领团队搭建数据管理平台达摩盘(DMP), 三年期间,实现了广告业务日收入从1000多万到8000多万的增长。

 

薛贵荣博士曾在世界顶级会议与刊物发表论文70余篇,拥有专利十余项,论文引用达9000+。

 

此次负责TRFold项目的团队叫天壤XLab,成立于2019年,主要聚焦在创新领域,团队核心成员有全球顶级高校的生物计算专业、物理学专业、数学等专业的博士生,创新氛围浓郁。通过两年半的时间,XLab团队已经掌握了蛋白质的折叠的核心技术,能够参与到国际最前沿的生物医学领域中,天壤已经跨越了技术门槛,后续可以根据不同的场景进行针对性的研发和应用。

 

据薛贵荣博士介绍:“传统意义上,分数达到90以上就与实验室的预测结果差别不大,目前TRFold的分数基于更小的数据获得了相对优秀的表现,后续还会继续迭代,争取到90分以上。随着技术的突破,更多的应用场景会随之而来。”

 

在AlphaFold已经获得巨大成功且已经开源之后,为何还要切入蛋白质结构预测,做自己的一套算法,对此,天壤也有自己的想法。薛贵荣博士表示:“AlphaFold2的成功是蛋白质结构预测方向的重大突破,但是围绕蛋白质结构功能问题且能够达到实际落地应用准确度要求的AI算法的开发才刚刚开始,没有训练模型经验,或者没有具备能够训练出AlphaFold2结果的能力是无法把该技术推进解决更深层次问题的。”

 

比如,DeepMind团队10月份公布的预测蛋白质和蛋白质相互作用的AlphaFold-Multimer就是将AlphaFold2进行微小调整后,在蛋白质复合体结构上从头训练,将蛋白质与蛋白质之间关系预测出来。像这种更深入的研究就必须要有自己搭建底层算法的能力,才能真正地应用在生物学领域。

 

“天壤在做TRFold是自主研发的,充分考虑了后续应用,比如说我们的模型平台有不同的版本,就是用于不同情况,end2end版本用于快速生成结构,分段式版本用于大规模测算蛋白质氨基酸之间的距离,并且在开发时也充分考虑了后续的进一步研究与延展性。” 薛贵荣说。

 

天壤蛋白质折叠项目负责人苗洪江博士表示:“实际上AlphaFold2的开源反而让做这个事情的门槛更高了,假如没有曾经的探索过程,就无法对它的方法优势进行量化,也不能学习到最有价值的关于思维方式的创新。此外,AlphaFold2并未公布训练代码,这意味着你即便下载了它的源代码,也只能对单蛋白解构进行预测。比起预测,天壤更关注的是这项技术如何落地,所以我们一定需要从头搭建一套自研算法,才能展开后续的工作。”

 

薛贵荣表示,单蛋白的结构模拟只是个开始,基于目前的TRFold,还有许多方向可以深入,比如模拟蛋白质与其复合物的相互作用(包括小分子、多肽、其他蛋白质等)。目前比较明确的研究方向是继续深入模拟蛋白与蛋白之间的相互作用。基于相互作用,可以构建大规模的相互作用网络图、靶点发现、突变蛋白质结构模拟、post-translation修饰蛋白结构、GPCR、抗体模拟等,都是很有意思的方向。

 

该公司还透露,接下来的工作重点将是利用目前的全蛋白质组协同进化分析,建立起蛋白质与蛋白质之间的相互作用的精准链路,通过研究蛋白质之间的相互作用,寻找精准的疾病治疗新方法。同时,提高蛋白质设计的精度和成功率,并探索研发设计蛋白质的新方法。

 

有了自研的TRFold之后,天壤希望能够帮助人类搭建自己的蛋白质相互关联的网络,真正地对疾病的治疗、药物的研制等方向做出贡献。

注:文中如果涉及企业数据,均由受访者向分析师提供并确认。
声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。转载请联系tg@vcbeat.net。

车维维

分享
动脉橙
以上数据来自动脉橙产业智库

我们以独创的在线数据库方式,为健康产业人士提供全方位和实时的市场资讯、行业数据和分析师见解。现已覆盖数字健康、医疗器械、生物医药等近500+细分赛道,涉及公司名单、招投标、投融资信息、头部企业动态等各类数据并持续更新。

点击 【申请试用】了解动脉橙产业智库更多内容。
精彩内容推荐

顶尖高校已布局,120个医学交叉学科揭示了哪些产业热点?

每逢AI火,AI新药必被追问:哪些已成现实,哪些仍是幻觉?

2022西部智慧医疗产业峰会强势来袭,三大看点值得期待

普惠级癌症早筛:灵敏度≥90%,"染色体开放区间"技术取得泛癌筛查新突破

车维维

共发表文章184篇

最近内容
  • 罗氏再发力,第二款CD3/CD20双抗临床Ⅲ期成功

    2024-04-16

  • ADC产能争夺战!CDMO巨头狂掷32亿美元扩张

    2024-04-15

  • 从家族企业到世界分析仪器龙头,这家百年巨头做对了什么?

    2024-04-06

上一篇

数字化跨步走进新医改,微医入选“中国数字经济产业示范样本50”

2021-12-27
下一篇

专访百济神州欧雷强先生、刘建博士:生物岛创新中心代表我们扶持创新的意愿和能力

2021-12-28