至顶网CIO与应用频道 03月22日 人物访谈(文/王聪彬):2017年,毕业于德国马克思普朗克生态化学研究所,师从美国科学院院士Ian. T. Baldwin教授的凌之浩回国短暂停留,这一次他对国内基因发展环境有了新的感受。
“欧洲虽然生活安稳悠闲,但相对发展空间有限,国内基因科技领域环境成长迅速,充满着想象和无限可能。”在他看来每个地方都有吸引人的地方,最终他选择回到成都,进入成都生命基线科技有限公司(以下简称生命基线)担任COO,迈出了从科研到企业转型的一步。
成都生命基线科技有限公司COO凌之浩
生命基线是一家服务于生命科学行业的高科技企业,自创始之日起即专注于用互联网技术加速生命科学研究。目前主要有两大业务,第一、“简基”,以基因检测和精准体检为前端,提供健康风控服务,主要针对企业员工。第二、“基因帮”,提供试剂耗材和NGS服务的一站式线上平台,主要针对全国范围的高校、科研院所科研人员。
在基因领域,BT(生物技术)与IT(信息技术)融合的力量可以说是无人不知,无人不晓。人类基因组计划期间,一位不按常理出牌的科学狂人克雷格·文特尔(Craig Venter)使用超级计算机以一己之力,两年就追上6国合作的研究进度。
生命基线也不例外,在成立之初就非常重视技术的使用。最开始选择自建数据中心,随着基因帮交易量的逐渐增长,云也成为开展业务的主要动力。简基则因涉及基因数据+健康数据,这些高敏感数据并不会上云,但云可以帮助解析基因数据的算法模型研发。
目前生命基线将整个重心都放在简基上,主要覆盖川渝地区实现快速突破,因为其中涉及到体检等合作方参与实现服务闭环,在形成模式后也可将其复制到其他地域。按凌之浩的话说,未来基因检测最终会回归到本质——信息服务,提供更精准可靠的数据解读,让更多人关注疾病预防。
“简基”让疾病预防提上日程
“人类基因组计划”共6国参与,花费13年38亿美金。而现在一个全基因组测序,只需要数天六百美金就可以完成,这就是基因测序领域常说的超摩尔定律。
2013年,安吉丽娜朱莉通过基因检测到自己有BRCA1基因的突变,同时她有癌症的家族病史(其母亲,祖母,曾祖母都因癌症去世),因此她到80岁患乳腺癌的几率高达87%,因此她决定采取主动预防的方式,进行预防性双侧乳腺切除手术以降低患癌风险,这也让基因检测一夜被大众熟知。
随着国内消费级基因检测的发展,2017年,生命基线也进入这一领域,创立JanGene(简基)品牌。在消费级基因检测领域高同质化的当下,简基希望真正帮助用户制定“落地”的疾病预防方案,以基因检测为前端,配合健康风险问卷系统,确立用户个体化的精准体检方案,并根据多维数据持续提供长期的疾病预防指导。
简基可以说是凌之浩与团队一手一脚培育出来的业务。2018年中旬,经过一年多时间高强度的产品研发以及数个版本的迭代,他终于对自己亲自开发的产品第一次有了认同感,并自讨腰包一口气给自己的家人全都购买了产品。
在简基发展的过程中,凌之浩也遇到过一个非常有借鉴意义的案例。一位有前列腺癌家族病史,但当时自己并无任何症状的用户,通过简基的基因检测结果发现其相关检测位点具有有害突变,提示该用户患前列腺癌的风险要高于正常人群,基于此,简基在为其定制的精准体检方案中特意加入了前列腺特异抗原(PSA)的检测,在随后的三次检测结果中,均发现其PSA的指标明显高于正常值且在持续上升。基于此,简基建议其进行进一步的医学检测,通过影像学检测发现其体内的前列腺结节,并进一步通过穿刺活检确诊为早期前列腺原位癌(并无转移),最后及时做了根治性切除手术,现在预后情况良好,各项指标均为正常。
正是这一案例让凌之浩对基因检测在疾病预防上的意义有了进一步的认识,从基因数据开始,对高风险疾病早关注、早预防。
当然疾病的发生与否其实都可以算作是一个表型,而表型都是由遗传+环境因素共同决定,在基因检测的同时简基还会配合辅助健康问卷调查,为用户制定个体化的精准体检方案,之后由体检合作方进行体检,并最终通过三维数据进行解析并持续提供健康风控服务。
“基因帮”搭建科研服务的桥梁
因为SienceEXChange在线科研服务交易平台的成功,也让生命基线萌生建立在线交易平台的设想,把优秀的资源集中起来,再分发给研究人员和有科研需求的医院医生。
这也是在简基之前,2015年就产生的基因帮,其致力解决科研人员在科研过程中各个环节的需求,提供基因测序及测序数据分析服务。科研人员在平台上提交需求,基因帮进行工程师匹配,双方取得联系,明确收费和交付时间。在这个过程中基因帮作为一个第三方平台,将对项目预付款、项目进度进行把控和监管。
“大部分科研工作者专注于实验研究和探索生物学规律,分析工作通常是与公司合作进行。”凌之浩介绍到,基因帮不仅覆盖了基因组学,还有像蛋白组学、转录组学、代谢组学等数据分析服务,而且华大基因、诺禾致源等公司也入住了平台。
最开始基因帮通过本地数据中心为科研机构提供服务,机房托管了6台服务器,随着交易量的增长,越来越多的分析样本已经很难满足,有时甚至需要同时开启几百甚至上千台服务器来满足计算需求。而且大数据分析场景中的高通量数据传输以及如何将结果已更加高效方式呈现给终端用户也是客户面临的问题,生命基线也开始寻求通过云来继续提供优质服务。
在陆陆续续使用了超算和一些云计算平台后,基因帮最终在半年前正式切换到AWS。对于选择亚马逊AWS的原因,凌之浩开玩笑说,因为公司的对面就是AWS。其实选择AWS出于成本和服务两方面因素考虑。
通过数百台Amazon EC2 Spot实例基因帮获得所需要的计算能力,使用命令行工具,配合EC2,以及启动脚本来进行快速的部署,利用S3来储存样本数据和最终结果。基因帮可以在 Amazon EC2 Spot实例请求中指定出价,从而选择愿意为实例支付的每小时价格,这一模式非常适合测试和开发环境。
现在几分钟就可以部署上百台服务器实现计算分析任务,并在计算完成后自动关闭实例。根据业务需求自动的进行弹性扩展所需要的实例,极大的降低了运维的压力。
目前基因帮已经与众多高等院校和机构合作,包括四川大学华西医院、成都中医药大学、四川农业大学、浙江大学等全国范围的高校与科研院所。同时基因帮还推出了“试剂耗材商城”、“测序商城”、“基因帮生物云”等服务,使得业务日益丰富。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。