2020年11月17日,企业级开源分布式数据库厂商PingCAP宣布完成 2.7 亿美元的D轮融资,据介绍本轮融资将用于分布式数据库关键核心技术的研发,聚焦解决方案和专业服务支持体系的不断完善,持续加大开源社区生态体系建设。
可以说PingCAP TiDB是真正第一个诞生于中国的分布式开源数据库,而且现在也走向了世界。PingCAP创始人兼CEO刘奇表示,TiDB的产品哲学,第一是低调;第二是通用型数据库。
PingCAP创始人兼CEO刘奇
TiDB因HTAP理念而生
TiDB缘起要从2012年Google发布的论文说起,其描述了Google使用的海量关系型数据库F1/Spanner解决了关系型数据库、弹性扩展以及全球分布的问题,并在生产中大规模使用,现在TiDB已经成为新一代NewSQL数据库的代表。
数据库可以说是企业的一个必需品,在数据暴涨的今天,弹性成为一个迫切需要解决的问题,但IT基础技术栈又相对分裂,对管理和运维造成难题。即保持原有的易用性,又能获取弹性伸缩的能力,就是TiDB的设计目标。
Gartner在2005年提出了HTAP(Hybrid transactional/analytical processing,在线事务处理/在线分析处理数据库)概念,HTAP 数据库需要同时支持OLTP和OLAP场景。基于创新的计算存储框架,在同一份数据上保证事务的同时支持实时分析,省去了费时的ETL过程。
TiDB就是面向HTAP的理念,其可以实现金融级别的高可用性,高速分析能力,无限的弹性伸缩能力,MySQL兼容、极低的业务改造成本。PingCAP联合创始人兼CTO黄东旭表示,我们相信云是未来,并且全面拥抱Kubernetes,不依赖特性硬件并且支持多种计算单元。
在云原生分布式数据库的路上走下去
2020年5月,TiDB推出4.0版本,在提供良好的交易处理能力前提下,创新性地引入了基于Raft算法的HTAP架构解决方案。这套架构设计成功地解决了以往困扰HTAP架构的隔离性,一致性和性能之间的矛盾,以此为基础的论文《TiDB: A Raft-based HTAP Database》被国际顶级数据库会议VLDB 2020收录,标志着该架构得到了全球学术界的认可。
TiDB可以轻松部署在任何公有云、私有云和混合云之上,极大降低用户的总体拥有成本(TCO),提升资源利用率。2020年6月,PingCAP发布TiDB Cloud产品,TiDB Cloud可以通过水平扩展,拥有近乎无限的存储容量和计算能力,使用户可以专注在自身业务的快速增长。
目前PingCAP已经拥有包括开源分布式数据库产品、解决方案与咨询、技术支持与培训认证服务,加速企业的数字化转型。
走向行业,还原数据库的本真
现如今,TiDB已被全球超过1500家企业用于线上生产环境。其中亿联银行在核心系统数据库侧分布式改造上使用TiDB,大幅度降低改造难度与风险,使业务模型和数据模型无需反向适配数据库架构,吞吐量及性能可以随在线横向透明扩展,保障业务灵活性及适配分布式核心应用,降低运维复杂度与成本。
TiDB还有一些海外客户,PayPay是日本软银与日本雅虎出资成立的一家移动支付公司,2019年软银投放大量补贴进行移动支付营销,对PayPay当时的数据库出现了瓶颈。截至2020年3月已经投产支付服务系统作为在线交易查询汇聚和电子钱包支付业务,并依赖高度弹性和扩展能力,平稳的支持了各种大促活动。
刘奇表示,开源产品在获取客户上的特点就是企业在遇到问题时会多方面寻找解决方案,这也是开源技术被发现最多的途径,而且客户现在都有多云的需求,所以在迁移上不希望做太多的改造,希望在不同的云上都有一样的体验。
未来PingCAP还将继续夯实产品、完善生态合作,助力企业及开发者简化开发,加速迭代,进一步推进云数据库服务在全球市场的覆盖,持续赋能企业数字化转型。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。