扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
是否要花费大量精力去建设一个大数据分析基础架构?这就是芝加哥大学Robert Grossman 和开放科学数据云在寻求建设一个生物医学社区云时所要回答的问题。Grossman是首席研究信息官和生物科学教授,开放科学数据云是为研究人员提供PB级云资源的服务商。
考虑到下面这些数字,你马上就能明白为什么。一个病人的全基因组序列,包括包括肿瘤和匹配的正常组织样本,大约要产生1TB的数据,Grossman在最近的StrataRx报告会上谈到。随着全基因组测序的成本继续大幅下跌,Grossman和其他研究人员正在挑战自己迈过一百万全基因组大关。1TB数据乘以一百万全基因组,癌症基因组数据的大小就被带到了EB级领域。而这仅仅是一个项目;另外一个是癌症基因组图谱(TCGA),它使用诸如测序技术来发现导致癌症的突变。Grossman说,联邦政府资助的TCGA项目有望在接下来几年内数据增长到2.5PB。
对许多研究机构来说,数据量大小正演变成一个问题。移动PB级数据量或者建一个基础架构来管理和分析全部数据,二者都是既难做又不便宜。“这正限制着对更大医疗研究机构和测序中心数据的访问和分析,那些机构拥有处理这种规模问题的资源和经验”Grossman说,“这并不理想”
这就是Grossman帮助启动Bionimbus受保护数据云(PDC)的原因,这是一项在开放科学数据云和芝加哥大学基因组学和系统生物学研究所的研究信息和转化医学中心之间的合作项目,PDC是一个基于云的基础架构,被建成用于管理、分析并提供研究人员更容易访问大型基因组数据集。它使用开放协议栈(OpenStack)和开源软件建造,其中包括Hadoop,也包括一些定制组件。PDC项目在今年早些时候启动,是唯一一个研究人员经过国家医疗卫生研究所授权后可以访问TCGA数据的社区云。
现在Grossman想把这个基础架构扩展成一个服务模型,使其能与其他社会科学云和商业云服务提供商(比如亚马逊)进行互操作,从而创造出一个生物医学社区云公共环境。这意味着要搞清楚什么是正确的治理结构和可持续发展的模式,他说。Grossman和一个来自云联盟的工作组希望能够回答这些问题。
假如通过传感器、社交媒体帖子和手指挥动产生的数据还不够,现在有了制作你自己的数据(MIY)。这是Kaiser Fung提出的一个术语——他是一位统计学家,纽约大学的副教授,《数字敏感度》一书的作者。
他在最近一次大数据与市场营销网络研讨会上说,思考一下熊猫快餐,这家连锁餐厅在账单收据上印有信息,告知客户如果他们填写一份在线调查,他们将有资格获得一份免费的主菜。在调查的最后会生成一个唯一代码,这是兑换优惠所必需的。当这个代码被使用,客户有效的“关闭了循环”,这就让熊猫快餐的市场人员能够洞察这次营销活动的有效性。
Fung说,“如今什么发生了变化,是引擎推进了调查”。象这样一个市场营销活动不再需要有人来输入数据或者甚至不需要有人分析它,相反,便宜、易用的Web工具被用来做这些繁重的工作,比如像SurveyMonkey。正如Fung指出的,因为更丰富的洞察力需要把不同来源的数据整合到一起,你可以把它看作一只脚踏在分析之门。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者