七年前PingCAP开始创业,做的是传统软件里最难啃的数据库。一般人会认为做数据库,在已有的MySQL或者Postgre上做下二次开发何乐而不为,站在巨人的肩膀上能有一个更高的起点。
但PingCAP的产品TiDB是从第一行代码开始,一行一行自己写出来的。数据库整体正在从单机系统变成分布式系统,PingCAP的三位创始人创业的时候想:如果还用传统意义的设计方式,会让数据库产品的天花板非常低,这正是PingCAP的三位创始人在当年发现数据库正在经历的一个重大变革。
作为创始人之一,PingCAP联合创始人兼CTO黄东旭认为,既然有重新做数据库的机会,我们希望在一开始就把这件事做对,而做对就只能从头开始。回头看来,越是艰难的路,可能最后看来反而是一个近道。
作为新一代的HTAP数据库(混合事务分析处理),现在的PingCAP正将TiDB数据库在云上重塑,成为云原生时代的数据库,不断推动着企业的数字化进程。
PingCAP联合创始人兼CTO黄东旭
用产品迭代解决三个问题
黄东旭最近在美国的三个多月,拜访了很多创业公司,他发现一个很有意思的现象,创业企业一定要找到客户为什么用你的产品,以及同市场上产品有什么区别,也就是Product Market Fit(PMF产品-市场匹配)。
TiDB找到的第一个PMF就是TiDB可以兼容MySQL数据库,解决MySQL分库分表带来的痛点,因为对于当时的用户来说,业务增长飞速的情况下,整个系统要解决业务规模化扩展的问题,最难的部分就在于数据库的扩展,尤其是关系型数据库。
“用户信任、意识和成熟度三个问题,对于一个处于早期的数据库产品是最现实的问题。”黄东旭说道。这三个问题都会连接到一个本质,如何让产品的迭代速度更快,扩张核心指标来解决这三个问题。
TiDB V6能力全面升级
去年TiDB 5.0已经具备完整的HTAP能力,用户只要一套TiDB系统就可以应对数字化转型过程中“海量、实时、在线”的业务需求。
今年PingCAP发布的TiDB V6版本中又新增了数据放置框架(Placement Rules In SQL)、企业级集群管理组件TiUniManager、面向非专家的可观测性TopSQL,并开放了智能诊断服务PingCAP Clinic,大幅增强了TiDB作为企业级数据库产品的可管理性和可观测性,降低了技术选择背后的隐性成本。
PingCAP首席技术布道师马晓宇表示,数据放置框架(Placement Rules In SQL)是V6版本最大的亮点之一,通过该框架可以指导产品主管对数据分布和数据放置进行相关控制。最终结果是提升了用户访问数据的时效性和便利性。
PingCAP首席技术布道师马晓宇
TiDB V6还通过全面强化的容灾核心组件TiCDC,为用户提供更为成熟的容灾能力。针对 HTAP做出了更多成熟性改进,TPC-C性能较5.0版本提升达到76.32%。为向广大用户提供强大的功能与稳定的体验,TiDB面向企业级用户推出LTS版本(Long Term Support),为企业级用户提供了更安全稳定的选择。
去年TiDB经历了金融级的严苛考验,今年V6将会覆盖更加复杂的场景,像MPP(大规模并行处理)下的窗口函数支持、分区表支持、算子支持,以及函数支持等。
HTAP数据库的云上重塑
云的一个特别重要特点在于让产品的迭代速度可以变得更快,现在可以以一个小时级甚至天级的一个速度去改进品。往往昨天提出了一个需求,第二天这个功能就已经上线,随着在云上的用户越来越多,建议反馈也越来越多,产品的进化速度也会越来越快。
TiDB提供的新一代云原生数据库解决方案,采用了领先的 HTAP 架构,支持用户在云上的数据库中同时运行关键业务交易和实时分析任务,充分享受云的弹性优势和业务连续性保障,赋予企业数据敏捷性,以应对外部环境的不确定性给企业带来的诸多挑战。
2021年5月,PingCAP就发布了全托管的数据库即服务(DBaaS)产品TiDB Cloud公测版,依托于公有云提供开箱即用的TiDB服务。同时TiDB还在亚马逊云科技、谷歌云、阿里云全球三朵云上提供服务。
PingCAP的成绩也是有目共睹,PingCAP 是唯一入选2022 Gartner Peer Insights“Voice of the Customer” 报告的中国分布式云数据库服务商,客户总体评分达到4.7分(满分5分),在所有入选企业中位列第一。
释放生态的价值
在中国TiDB有接近40%用在公有云上,公有云厂商与TiDB结合,可以给客户提供更低门槛、更便捷、更稳定的服务。
PingCAP副总裁TiDB刘松表示,TiDB融合了开源和云两个生态的价值,一方面,TiDB生态极具开放性,让开源数据库天然和大数据生态进行集成,并与人工智能算法技术等在内的新一代数据技术有效结合。一方面,TiDB生态具有不同的层次性,即上半层向应用开发生态,下半层是云生态。
PingCAP副总裁TiDB刘松
现在TiDB已经实现了多种形式的部署,包括,本地、私有云、公有云。
银行分析型数据库已经很难满足高速洞察分析的同时,维持上游数据向下游同步数据。使用TiDB之后,前端Oracle向Kafka+Flink的方式进行轻量的数据变换,写入TiDB,不仅实现实时向TiDB汇总事务性数据和查询数据,同时还支持多种金融场景提供数据的实时洞察助力银行业务发展。
除了金融、互利网两个深耕的行业之外,PingCAP还将重点发展数据量较大和对数据高可用和延迟要求较高的行业,像能源、制造、零售等行业。
好文章,需要你的鼓励
OpenAI CEO描绘了AI温和变革人类生活的愿景,但现实可能更复杂。AI发展将带来真正收益,但也会造成社会错位。随着AI系统日益影响知识获取和信念形成,共同认知基础面临分裂风险。个性化算法加剧信息茧房,民主对话变得困难。我们需要学会在认知群岛化的新地形中智慧生存,建立基于共同责任而非意识形态纯洁性的社区。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。