近日,全球首创的开源云原生数据编排软件开发商Alluxio创始人兼 CEO 李浩源博士针对云、人工智能、深度学习和数据分析在即将到来的2022年的发展趋势进行了预测。更多的组织机构将推进数据变革战略,将多样化的工作负载运行在广泛的云和混合云平台上。在2022年,人工智能、机器学习和数据分析的工作负载以及支撑它们的技术和服务将取得更大的进展。
随着技术的不断成熟,工具的不断发展,云迁移过程不断简化,大型企业使用多数据中心和不同公有云厂商的混合云战略已经成为标配。到 2022 年,我们将看到企业进一步提升数字化程度,通过采用混合云和多云部署模式来利用云平台的弹性和敏捷性优势,同时保持对其数据的严格控制。此外,由于企业也不希望被供应商锁定,云厂商需要不断创新,并通过改进网络连接和物理架构来增强其竞争力。
随着人工智能(AI)应用和工具的不断发展,机器学习和深度学习平台已逐渐成为主流,并将达到和专业数据分析一样的市场成熟度。目前,我们已经看到大量基于 Apache Spark 和 Presto 的全托管集成服务,到 2022 年,我们将看到基于 PyTorch 和 Tensorflow等框架的垂直整合。用于工作流自动化和管理的机器学习操作(MLOps)将不可或缺,这会进一步降低AI和机器学习的难度并加速其应用。
操作的复杂性导致了本地 Hadoop 的消亡,而云服务能够轻松实现架构配置的弹性,并且操作成本很低。2022 年,我们将看到托管服务的出现,它不仅会应用于单一云环境,也会应用于混合云和本地部署,可降低数据目录、数据治理、计算框架、可视化和交互式分析(Notebooks)等大量组件集成的复杂性。
2022年,随着云上 SaaS 和托管服务形成更多数据孤岛,更好的数据治理、增强的数据目录,结合跨服务的数据编织将很好地解决这一问题,实现跨租户、跨云服务厂商之间高效、安全地共享数据,数据交换比以往更容易实现。
存储层和计算层中的技术栈都将不断创新。数据湖逐步兴起,结构化数据将向新格式转变。 2022 年,Apache Iceberg 或 Apache Hudi 等开源项目将取代云原生环境中较为传统的 Hive数仓,让Presto 和 Spark 工作负载能够更高效地实现大规模运行。
关于Alluxio
Alluxio系统是全球首个分布式超大规模数据编排系统,孵化于加州大学伯克利分校AMP实验室。自项目开源以来,已有超过来自100多个组织机构的1100多位贡献者参与开发。Alluxio能够在跨集群、跨区域、跨国家的任何云中将数据更紧密地编排接近数据分析和人工智能/机器学习应用程序,从而向上层应用提供内存级别速度的数据访问。目前,Alluxio的智能数据分层和数据管理功能为金融服务、高科技、零售和电信等诸多领域客户提供了长期业务支持,并已在全球Web规模的现代化数据服务的生产环境中得到验证,全球十大互联网公司中有八家在生产环境中部署了Alluxio。
好文章,需要你的鼓励
英特尔第三季度财报超华尔街预期,净收入达41亿美元。公司通过裁员等成本削减措施及软银、英伟达和美国政府的大额投资实现复苏。第三季度资产负债表增加200亿美元,营收增长至137亿美元。尽管财务表现强劲,但代工业务的未来发展策略仍不明朗,该业务一直表现不佳且面临政府投资条件限制。
美国认知科学研究院团队首次成功将进化策略扩展到数十亿参数的大语言模型微调,在多项测试中全面超越传统强化学习方法。该技术仅需20%的训练样本就能达到同等效果,且表现更稳定,为AI训练开辟了全新路径。
微软发布新版Copilot人工智能助手,支持最多32人同时参与聊天会话的Groups功能,并新增连接器可访问OneDrive、Outlook、Gmail等多项服务。助手记忆功能得到增强,可保存用户信息供未来使用。界面新增名为Mico的AI角色,并提供"真实对话"模式生成更机智回应。医疗研究功能也得到改进,可基于哈佛健康等可靠来源提供答案。同时推出内置于Edge浏览器的Copilot Actions功能,可自动执行退订邮件、预订餐厅等任务。
纽约大学等机构联合开发的ThermalGen系统能够将普通彩色照片智能转换为对应的热成像图片,解决了热成像数据稀缺昂贵的难题。该系统采用创新的流匹配生成模型和风格解耦机制,能适应从卫星到地面的多种拍摄场景,在各类测试中表现优异。研究团队还贡献了三个大规模新数据集,并计划开源全部技术资源,为搜救、建筑检测、自动驾驶等领域提供强有力的技术支撑。