对象存储可以说发扬于公有云,也就是Amazon S3,但现在对象存储的能力正被逐渐推广到私有云中,目前S3协议已经被视为公认的行业标准协议,国内主流的对象存储厂商基本都已经支持S3协议。
XSKY星辰天合从2016年开始就在践行这件事,并且取得了一些成绩。IDC 2021全年及2022年第一季度中国区SDS的市场报告数据显示,XSKY星辰天合的对象存储保持了中国区市场排名第一。
最近XSKY星辰天合又发布了下一代对象存储XEOS V6,其拥有无限扩展、智能流动、多重保护、开放共赢四大特质。XEOS V6引入独立元数据服务,不但获得了单桶千亿的能力,而且在同样硬件配置下小文件性能有了30%的提升,集群支持的用户数和桶数有了超过10倍的提升。
对象存储非常适配中国市场
采用全新架构的XEOS V6被称为是下一代对象存储,将原有架构全面优化重构。XEOS V6的新架构有独立的元数据集群,支持多个数据存储集群,并且可以纳管第三方文件和对象存储做次级存储,具备公有云规模的扩展能力。
在对象存储上,中外一直有着使用上的不同之处,XSKY星辰天合首席技术官王豪迈也做了解释,他是一个典型的技术人,不仅语速快,而且思路清晰。他认为,中国企业在推行使用对象存储更多是用于主存储,而外国企业更多用在容灾备份产品。
XSKY星辰天合首席技术官王豪迈
正是由于这样的差异化,也让XSKY星辰天合可以脱颖而出,率先将对象存储作为主存储来做在线存储,并与一些应用结合,尤其是金融行业得到认可和使用。
驱动对象存储进入传统企业几个驱动力,第一是互联网化,因为企业业务都在互联网化,像金融行业的互联网金融趋势,银行从原来只服务几万个网点,现在要服务这些网店的所有用户;第二是AI的深入应用,AI从一个单纯的技术进入到安防、人脸识别等更多场景后,对于存储的并发量又高了一个台阶。
“存储技术必须要产品化、行业化。”王豪迈说道,想要规模化就需要对行业足够了解,国内市场对象存储做主存储已经有一定的基础,而且也有很多适配的场景。
一桶千亿并不是上限
XEOS V6有一个“一桶千亿”的形象比喻,很多人都会问为什么一定要一桶装千亿?为什么不装在多个桶里。王豪迈认为,这和数据库为什么要做分布式数据库是一个道理,一条记录放在一个表里,为什么不拆表。
因为企业业务是不断变化的,用户在创建桶时,很难预估未来桶要存多少,所以需要提供一个弹性的空间。而且同一桶,用户在里面是一个整体,在一个桶里查找对象会更方便。一桶千亿在必要性上,对于应用特别是大规模的应用提供了非常好的弹性和易用性。
一桶千亿在对象存储领域是很领先的,而且是经过CNAS测试,在24是不间断的灌了一个月数据才把千亿灌满。XSKY星辰天合产品战略副总裁吕磊说道,元数据独立最大的好处就是不再受存储集群、地域、公有云、私有云的限制,而且千亿也并不是上线。
推动从十亿到百亿到千亿的最大需求方还是客户,而且现在应用场景最大的变化就是非结构化数据的增长,未来30年数量生产的90%都是视频跟图片。在过去半年试用XEOS V6的客户都是用于海量视频、图像截帧等,而且结合AI就可以直接对非结构化数据进行深度学习。
对象存储的发展方向就是跟着数据走,哪有数据那就有机会。吕磊指出,XSKY星辰天合未来会注重新兴场景,像无人驾驶等,这些场景有着明确的痛点,而且这些用户也更容易接受新技术。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。