淀粉大家一定都不陌生,大米、面粉、马铃薯等很多粮食作物中的主要成分就是淀粉,同时淀粉也是重要的工业原料,例如用于造纸业、纺织业、服装塑料等领域。
淀粉主要是绿色植物通过光合作用固定二氧化碳来合成,这属于生物学的范畴,这个过程非常复杂,一般花费数月时间,不仅占用土地,还有浇水施肥等工作。
2021年,中国科学院天津工业生物技术研究所国际上首次在实验室不依赖植物光合作用,实现了二氧化碳到淀粉的从头合成。
二氧化碳到淀粉可以称的上是一次原创的颠覆性的技术新突破,这一科研成果让淀粉生产从传统农业种植转向工业车间生产变为可能。
工业生物技术是利用生物体工具进行物质合成制造的技术,作为解决目前全球经济社会发展面临的包括气候变化、环境、能源、资源短缺等问题的一个手段,可有效推动社会经济可持续发展。
生物技术(BT)与信息技术(IT)两者结合的技术体系已成为生物科技领域的重要趋势,并且IT技术变得越来越重要,BT研究涉及的海量复杂数据需求需要IT提供大数据存储和治理,对精度和时效性的需求需要IT提供敏捷、高性能、大规模的算力支撑,大量专属行业软件和工具的开发需要IT提供统一的高可靠底层基础框架。
“我们认识生命的能力还是非常有限的。”中国科学院天津工业生物技术研究所副所长王钦宏说道,认识生命的过程中,需要借助于一些手段,像日常实验室里会产生大量的数据,而且数据的来源不一,就需要强大的平台做标准化。
亚马逊云科技强大的云计算能力、强大的数据处理能力、强大的计算平台,为认识生命、设计生命提供了一个更好的支撑。
转向云原生并不困难
中国科学院天津工业生物技术研究所(以下简称天津工业生物所,TIBCAS)成立于2012年,是由中国科学院和天津市人民政府共建、从事生物技术创新推动工业领域生态发展的科研机构,承担了多项合成生物学、绿色生物制造等重点研发计划任务。
如今,天津工业生物所承担了各类科研项目约700项,在生物医药、化工产业、纺织、发酵等领域为28个省市几百家企业提供服务。
天津工业生物所定位发展生命科学,创新生物技术,以工程生物学为指导,以生物设计为核心,开展工业生物技术战略性、前瞻性的基础研究与应用基础研究,创新生物产业关键核心技术与重大颠覆性技术,构建工业经济发展的生态路线,服务我国绿色生物经济与社会经济可持续发展。
生物计算设计是合成生物学的重要环节,针对生物计算设计天津工业生物所搭建了“六大平台两个中枢”。2019年,天津工业生物所成立了生物设计中心平台实验室,负责打造整个设计平台所需要的底层技术。
天津工业生物所生物设计中心的主要工作是围绕工程菌株的设计、构建、筛选、解析等多个环节,以工业生物大数据为基础,开发核心的数据库、算法和软件工具,发展生物元件设计、途径设计和细胞模型构建分析新方法新技术新理论,设计优良性状的工业酶和细胞工厂。
王钦宏表示,我们的核心是工业生物设计,设计就包括了认识工业生物、理解工业生物、构建工业生物,工业生物是实现串联整个生物技术最关键的核心,所以要设计好工业生物,就非常需要IT技术的支撑。
天津工业生物所生物设计中心一直在探索各种不同的方式来推动研究,由于开发和运维团队规模不大,而且还要兼顾多个应用场景,天津工业生物所生物设计中心开始尝试从基于传统服务器开发,转向云原生开发模式。
同样在2019年天津工业生物所生物设计中心也与亚马逊云科技展开合作,为健康、能源、农业和环境等领域的科学研究提供技术支撑,加速推动合成生物学发展。
整体合作分为三个阶段,2020年之前,主要在学习云计算技术,包括一些初步的尝试,利用一些新的工具,在云上做构建;2021年进入快速发展期,陆续有10多个软件应用实现了云上部署,并尝试构建云原生现代化应用,探索出适合生物设计中心业务模式的最佳实践;2022年到现在,使用托管服务和创新服务进行云原生创新,加大对云计算优势的利用,如按需交付、快速扩展、弹性等,大大提升了开发效率、业务敏捷性、可扩展性和可用性,同时实现成本节约。
从场景中发现创新
云原生的开发方式相较传统方式大幅缩短了开发时间,总体运行成本大幅降低,使得团队可以专注于业务代码和创新,目前天津工业生物所已经部署了20多项生物计算设计工具和软件应用。中国科学院天津工业生物技术研究所生物设计中心主任马红武指出,在亚马逊云科技的云计算技术支持下,生物设计中心通过不断探索,打通了一系列不同的云上应用开发方式,包括算法、工具和网站平台,实现了编辑序列设计、sgRNA设计、代谢途径计算及可视化等功能。
2022年,天津工业生物所生物设计中心团队联合亚马逊云科技团队在计算生物学国际期刊《Nucleic Acids Research》(《核酸研究》)上发表文章,发布了首个基于图数据库Amazon Neptune的大肠杆菌调控代谢关系知识图谱ERMer。
细胞中的代谢调控非常复杂,一个特定的细胞功能往往由一系列不同类型的代谢调控相互作用控制。通常不同类型的调控数据散落在各个不同的数据库,生物学家很难通过仅关注与所研究的代谢物/蛋白质密切相关的一两类相互作用来识别这种复杂级联调控关系。中国科学院天津工业生物技术研究所生物设计中心副主任廖小平表示,如果将这些不同类型的调控相互作用汇集在一起,并提供方便的交互方式,生物学家就可以更方便的挖掘和理解生物体内的复杂调控关系。
大肠杆菌调控代谢关系知识图谱ERMer首次提供了全局的代谢调控图谱,并通过可视化框架实现了丰富的搜索功能,如多步查询、最短路径查询等。ERMer采用专门为高度关联的复杂数据集的高效存储和查询设计图数据库架构,打破了传统的低效数据检索方式,有效增强用户和图谱的人机交互,大大降低了使用门槛。而且这个框架是通用的,能够整合异质数据,并且可以移植到其他物种或者应用。
同样在2022年,面向微生物遗传操作,天津工业生物所生物设计中心团队开发了第一个支持所有序列操作类型、任意基因组位点和跨物种上进行精确、自动化和高通量编辑序列设计的云平台AutoESD。
AutoESD理论上支持所有微生物,并且可以在单次任务中处理针对不同目标序列 (CDS或基因间区)的多种类型的遗传操作(敲除、插入和替换),大幅扩展了工具的适用场景,能够在10分钟内完成上干个编辑序列设计任务。
工业生物场景里,经常需要去构建突变菌株,这个构建过程涉及到多种分子生物学实验操作,传统的实验人员更多是基于经验设计,这种方式难以胜任高通量的突变菌种构建任务,还很容易因人的疏忽导致整个构建过程失败。
“现在用户只需要在网站中提供非常简单的输入,比如需要构建什么样的突变菌种、参数等,之后可以通过可视化模块检查所有设计的结果去做实验。”廖小平说,因为采用了无服务器架构,确保了高可靠性、稳健性和可扩展性,十分钟之内可以完成上千个编辑序列设计任务,并且可以同时服务几百个用户。
大肠杆菌调控代谢关系知识图谱ERMer和高通量编辑序列设计的云平台AutoESD是近几年天津工业生物所生物设计中心积累技术栈之后,开发的比较典型的两个应用,天津工业生物所生物设计中心同时也在和所内多个研究组进行合作。
未来,天津工业生物所会扩展数据湖仓等应用,将关系型数据库、非关系型数据库、图数据库融合,开发工业生物领域知识库;将Amazon SageMaker等机器学习平台,应用于知识推理等任务;希望通过大语言模型推动研发方式的转变,从而撬动研发的新范式。
基于云计算开展更多“BT+IT”的研发工作,进一步助力研究所在合成生物领域的科研探索。通过亚马逊云科技的全球科研领域辐射能力,提升天津工业生物所生物计算设计方面的国际影响力,为世界各国的合成生物学科研工作者提供优质服务。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面