公司CIO Bob McCowan通过数字与数据转换为制药科学家们提供实验与验证性信息支持,进而为药物创新奠定基础。
再生元公司CIO Bob McCowan
在如今这个数字时代下,制药企业实现医学奇迹的巨大压力正逐渐落在CIO和首席科学家的肩头。
现代实验室普遍有着严格的规章要求,借此确保数据准确性、科学公式的合理性以及机器学习算法/数据工具的可靠性。
在Bob McCowan于2018年晋升为再生元公司CIO之前,他已经在这里工作了4年,先后为这家市值815亿平均的企业打理科学、商业和制造业务数据中心设施。
凭借多年来的深入观察,他意识到除了建立起合适的团队和技术构建单元之外,再生元公司的未来命运还将由数据所直接决定。
McCowan表示,“一切都跟数据密不可分,我们所做的一切都由数据驱动。以往,我们已经高度依赖于数据中心,但其中还有不少局限性。传统方案虽然能保持公司的已有成功,却无法进一步扩大成功规模和创新优势。”
为了满足公司未来的发展需求,McCowan意识到再生元必须开展重大转型,建立起更强大的数据管道,从多达1000个数据源处采集“准确就绪、可供分析”的数据。有了这样源源不断的供应,才能给企业和科学家插上数据科学的翅膀。
要做到这一点,云迁移是必不可少的。McCowan表示,“要帮助我们的科学家持续扩展规模、推进成长,唯一可行的方式就是拥抱云服务。我们需要的不只是计算资源和存储容量,还需要把业务部署到不同环境、不同国家。如果不登上云端,我们就会被其他竞争对手抛在身后。”
通过云为科学家赋能
McCowan于2018年底开始,着手将再生元迁移至亚马逊云科技。到2020年,IT部门已经将约60%的企业数据转移至云端。对于这家在2021年内创造了160亿美元收入、坐拥10000多名员工、持有9种FDA和EMA批准药物、另有30种药物处于临床试验阶段的国际大厂而言,这场迁移当然不会是小任务。
在初步完成AWS迁移之后,再生元又凭借多云基础设施将部分业务应用交付至微软Azure和Google Cloud Platform等平台,为科学家们提供更多实验选项。
McCowan解释道,“谷歌提供了不少非常有趣的算法和工具,AWS则有自己的功能和优势。所以,某些任务只能交给谷歌云来运行,于是我们决定同时使用三大主流云平台,但真正的业务核心还是围绕AWS展开。”
考虑到再生元实验和测试的复杂性,该公司需要用到多种标准SaaS工具开展分析。好在再生元拥有基于云的MetaBio数据发现增强平台,能够提供广泛的数据服务、数据管理工具和机器学习工具。McCowan坦言,这套“锦上添花”的平台堪称公司分析业务皇冠上的明珠。
拿下2022年CIO 100 Award大奖的MetaBio,能够以统一格式作为数据集的单一来源,帮助研究人员快速提取关于各类治疗功能的信息,彻底告别繁琐的数据准备或查找流程。
McCowan表示,“科学家们带着白皮书来找我们,其中划定的就是可用于科学实验分析的理论方法。我们的工作就是与这些科学家合作,实际构建计算模型并加以运行,而最终用途可能是亚视觉粒子成像、蛋白质折叠等各种案例。此外,还有一些属于标准计算需求,即要求我们帮助以正确格式提供数据。这些数据随后会被送入SaaS计算工具,但数据本身还是处于再生元公司之内,被严格限定在云解决方案的控制范围当中。”
当然,再生元的大部分数据都需要保密。出于这个理由,再生元的很多数据工具、甚至包括数据湖,都是利用AWS功能在本地设施内构建的。
McCowan表示,“我们在AWS那边也有自己的数据湖仓”。在他的带领下,再生元IT团队拿下了2020年CIO 100 Award大奖,成果就是能够简化、扩展和加速早期发展分析体验的研究计算平台Regeneron Deva Platform。“通过一些小小的调整,我们就能帮助科学家以前所未有的方式接入数据。我们对数据湖的期望就是接入各个群体,从再生元基因中心到制造车间、再到临床安全与早期研究实验室。这个想法很美好,但考虑到再生元已经积累下30年的数据,所以实现难度很高。”
这位CIO强调,再生元的数据平台能够通过数据湖、可扩展云、数据处理和AI服务对所接入且包含上下文的数据进行持续访问。目前,再生元公司的数据湖共管理着约200 TB的数据。
用数据推动创新
McCowan还一直强调,不要限制对外部工具的使用——特别是那些云原生工具,往往能帮助科学家深入发掘洞见。在基础设施方面,再生元的科学家们使用AWS EMR和Cloudera。在数据管道当中,科学家们使用Apigee、Airflow、NiFi和Kafka。在数据仓库层面,科学家们使用Redshift。随着堆栈的不断增长,不同的数据分析技术也开始发挥作用,例如DataIQ。至于编程语言,科学家们使用的则是Python和Jupyter Notebooks。
对McCowan来说,其中的关键是为科学家们提供一切必要工具,帮助他们灵活探索自己的假设、检验学术理论。“再生元公司的强大之处,就在于我们永远受到好奇心的驱策。推动我们的是科学与创新,我们也会努力避免给自己的工作设限,因为这往往会扼杀创新。”
McCowan还强调,尽管AI和机器学习工具能够为再生元的科学家们增添助力,但真正决定一切的仍然是数据。如果运用得当,单凭云和分析的力量就能从十年前的数据中揭示出下一场突破性变革。
McCowan说,“相信很多朋友跟我一样,都看过无数关于AI和机器学习的报道文章。但这些文章基本都没有下文,因为项目最终失败了。失败的原因,就是人们没有对数据的来源进行充分的思考。为了避免这类问题,我们才决定构建数据基础设施,这样我们会在数据进入数据湖之后才使用AI和机器学习,确保它们处理的都是高质量、可信赖的数据。”
作为公司的首席技术专家,McCowan的职责就是将一切都数字化,并帮助科学家们充分利用各种数据及元数据。
McCowan坦言,“我的工作核心,就是利用不同技术提供数据和洞见,借此加快决策速度。”这种基于AI和机器学习模型的方案确实能以更快的速度帮助科学家们推进数学实验,但也永远不可能取代真实的实验室。
在McCowan看来,增强IT与科学的结合将推动再生元公司翻开又一页创新篇章。如今,MetaBio数据平台已经将突破性发现的落地速度推向前所未有的至高水平。
McCowan最后总结道,“我们将一切细节都纳入数字化范畴,我们也应用技术和工具来帮助科学家们建立起以往无法想象的联系。如果从纯数据的角度来看,我们所做的就是想办法让科学家更好、更快地对接数据,从中获取洞见。有了这种能力,科学家们就有望将新药上市周期由以往的10年左右,缩短到5年甚至4年。”
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。