至顶网CIO与应用频道 10月13日 北京消息:随着数据在多个系统间更加离散存储,各企业机构不得不应对日益复杂的生态系统与数字化业务需求。全球领先的信息技术研究和顾问公司Gartner发布的数据管理技术成熟度曲线(Hype Cycle for Data Management)将帮助首席信息官(CIO)、首席数据官(CDO)及其它数据与分析高级管理人员了解他们正在评估的数据管理技术的成熟度,以便在企业机构的内部构建内聚性数据管理生态系统。
Gartner副总裁兼杰出分析师Donald Feinberg表示:“在迈向数字化业务的过程中,数据管理仍会处在核心地位。随着组织架构的要求发生变化以及对相关技术的需求逐渐加大,技术成熟度曲线中所强调的多项技术的成熟度与功能将迅猛发展。近些年来,许多新技术不断被纳入技术成熟度曲线(参见图一),其中包括:内存(in-memory)、云计算(cloud)、数据虚拟化(data virtualization)、高级数据分析(advanced analytics)、数据即服务(data as a service)、机器学习(machine learning)、图形(graph)、非关系型数据库(non-relational)和Hadoop。”
2017年数据管理技术成熟度曲线
其中两项技术特别引人关注,它们揭示了云计算(cloud computing)对于数据管理领域所带来的影响力。由于整个Hadoop堆栈的复杂性与可用性导致许多企业重新考虑是否将其纳入基础架构规划中,因此,Hadoop被认为在到达“生产成熟期”之前已经过时。相反,各企业机构正在着眼于日渐具有竞争力且便捷、按需定价的云端选项以及量身定制的数据处理选项。
作为云主导趋势的一部分,面向云的对象存储SQL接口已处于“技术萌芽期”。Feinberg先生认为:“我们预计这些接口代表着云数据库平台即服务(PaaS)的未来,并将在2至5年内达到‘成熟期’,这是因为它们是该领域内大部分云提供商及产品的重心。此类接口可以让各企业机构运用熟悉的SQL语法与云端存储的数据进行互动。对象存储非常适用于存储大量多结构数据,而这正是数据湖(data lake)的典型特征。”
在“2017年数据管理技术成熟度曲线”所列的其它35项技术中,有4项被认为具有变革性。2项技术——事件流处理(ESP)与内存计算数据库管理系统(IMDBMS)预计将在2至5年内达到“生产成熟期”,而区块链(blockchain)与分布式账本(distributed ledgers)达到“生产成熟期”预计仍需要5至10年。
事件流处理(Event Stream Processing)
事件流处理是数字化业务、算法业务(algorithmic business)与智能商业运作(intelligent business operation)的主要支持性技术之一。包括分布式流计算平台(DSCP)与事件处理平台(EPP)在内的事件流处理技术正在快速成熟。通过提供可能被忽略的云信息,事件流处理软件的流分析功能提高了决策质量。
运营性内存计算数据库管理系统(Operational In-Memory DBMS)
虽然支持运营性内存计算数据库管理系统(IMDBMS)技术的基础架构仍然比较昂贵,但该项技术正在变得愈加成熟和普及。限制该技术增长的另一个因素是如何满足联机交易SLA所需要的高可用性。尽管如此,通过将数据交易速度从100倍提升至1000倍,面向交易的运营性内存计算数据库管理系统仍有望对商业价值产生重大影响。
区块链(Blockchain)
虽然各企业机构因为可扩展性、风险及治理问题而对公共(低权限)分布式账本概念的发展前景依然持谨慎态度,但包括区块链在内的公共分布式账本将保持高热度。大部分商业使用案例尚未得到验证,且比特币仍处于极大的价格波动中。有关分布式账本的预想技术与商业挑战将得到克服;短期内,各企业机构极可能通过共享信息及基础架构而利用分布式账本提高运营效率。长期来看,Gartner预计随着可编程经济的发展和账本促进新生态系统的货币化,整个行业与商业活动将发生彻底变革。
分布式账本(Distributed Ledgers)
虽然针对更多标准与企业级功能的需求正经历缓慢演化,但分布式账本仍无法应用于大规模的关键任务情景。相比现有成熟技术,其应用价值也尚不清晰,这对该技术的广泛普及造成了一定影响。由于有望改变行业运营模式并克服困扰公共账本的某些可扩展性、风险管理及治理问题,私有分布式账本概念正得到推动。但是,与区块链一样,许多商业使用案例目前仍未得到验证。
好文章,需要你的鼓励
这篇研究提出了OThink-R1,一种创新的大型推理模型,能够像人类一样在快速直觉思维和慢速深度推理之间自动切换。研究者发现,现有推理模型即使面对简单问题也会生成冗长的推理过程,导致计算资源浪费。通过分析推理轨迹并使用LLM评判员区分冗余和必要推理,OThink-R1能根据问题复杂度动态调整思考深度。实验表明,该方法平均减少了23.4%的生成文本量,同时保持或提高了准确率,代表了向更高效、更人性化AI推理系统迈出的重要一步。
这项研究提出了SHARE,一种新型文本到SQL修正框架,它利用三个小型语言模型(SLM)协同工作,实现高效精准的SQL错误修正。SHARE首先通过基础行动模型将SQL转换为行动轨迹,再经过模式增强模型和逻辑优化模型的层次化精细化修正。研究团队还创新性地提出了层次化自演化训练策略,大大提高了训练数据效率。实验结果表明,SHARE在多个基准测试上显著提升了SQL生成准确率,计算成本仅为传统方法的十分之一,并展现出强大的泛化能力,适用于各种生成器模型和SQL方言。
这项由香港大学和南京大学等机构研究人员联合开发的双专家一致性模型(DCM)解决了高质量视频生成中的效率难题。研究团队发现扩散模型蒸馏过程中存在优化冲突:早期阶段负责语义布局与运动,后期阶段关注细节精修,两者学习动态差异显著。DCM创新性地将这两个任务分配给不同的专家模型,通过参数高效的实现方式,使模型仅需4步即可生成接近50步原始模型质量的视频,大幅提升生成速度,为实用化AI视频创作铺平道路。
这项研究介绍了QARI-OCR,一种基于Qwen2-VL-2B-Instruct模型微调的阿拉伯文字识别系统。研究团队通过三阶段合成数据训练,成功解决了阿拉伯文字识别中的主要挑战:曲线连笔特性、上下文变化的字母形状和发音符号。QARI v0.2模型创下了0.061的字符错误率和0.160的单词错误率,超越了现有开源解决方案,为阿拉伯文化遗产的数字化保存提供了重要工具。