过去十五年来,诞生于“双11”海量交易场景的OceanBase,在蚂蚁集团的金融场景中不断磨砺打磨技术,并曾打破Oracle保持9年之久的世界纪录。2025年5月17日,OceanBase迎来新动态。当天,OceanBase举办了升级AI战略后的首次开发者大会,同时也是OceanBase的第三届开发者大会。
会上,OceanBase CTO杨传辉回忆道:“OceanBase从蚂蚁集团独立出来之后已被用于全球2000多家企业。其中,第一家金融行业客户是南京银行,第一家证券行业客户是招商证券,第一家保险行业客户是中国人保,第一家非金融行业客户是中国移动,第一家教育行业客户是科大讯飞,第一家餐饮行业客户是海底捞,第一家智造行业客户是理想汽车,第一家出行行业客户是T3出行,第一家物流行业客户是德邦物流,第一家海外客户是GCash。”
而在AI发展的时代背景之下,不久之前OceanBase CEO杨冰通过全员信宣布公司全面进入AI时代,为此OceanBase 将努力实现数据与AI的融合,打造“DATA×AI”核心能力,建设AI时代的数据底座。距离上述全员信发布不到一个月,本次会上公布了该公司的更多AI动态——既发布了数款产品,也重申了OceanBase在AI时代背景下的使命和愿景。
发布PowerRAG,提供开箱即用的RAG应用开发能力
会上,OceanBase首次发布面向AI的应用产品PowerRAG,该产品提供开箱即用的RAG应用开发能力,能够提供AI驱动的开箱即用的RAG服务,是OceanBase面向AI时代的探索之一。
杨传辉介绍称,传统RAG应用的常用开发模式包括组件森林开发模式、RAG平台模式等,这些模式存在开发周期长、维护成本高、灰箱调试困难、性能难以优化等问题。OceanBase PowerRAG提供开箱即用的RAG应用开发能力,打通应用开发数据层、平台层、接口层与应用层的全流程,提供Document(文档)和 Chat(对话)两个核心API接口,帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种AI应用场景的快速开发。
杨传辉进一步表示,PowerRAG是OceanBase在应用层面探索的第一步,未来还将在应用层面、平台层面不断突破,并致力于成为AI时代的一体化从,以便应对生成式AI给数据基础设施带来的技术挑战。其中,数据底座指的是通过一体化的产品、一体化的引擎,同时地处理OLTP、OLAP以及AI的混合负载。
向量性能达业内领先水平,并已实现规模化落地
大会现场,基于基准测试工具VectorDBBench,OceanBase采用Performamce768D1M测试数据集,与业内三款领先的开源向量数据库进行性能跑分测试。结果显示,OceanBase的向量性能已经达到开源向量数据库业内的领先水平。“通过这次跑分测试可以看到OceanBase的向量性能已经达到了开源向量数据库业内领先的水平,并且比其他的主流开源向量数据库都要好不少。”杨传辉表示。
面对AI时代的海量数据,OceanBase还引入BQ量化算法(HNSW+BQ),大幅降低向量场景的内存需求;引入针对JSON半结构化数据的压缩能力,降低AI场景中的半结构化数据存储成本。根据测试结果,在同等召回率与性能的情况下,引入BQ量化算法能够实现内存成本较引入前降低 95%,而在TPC-H 10G数据集上,OceanBase的JSON压缩比可达 MongoDB 的3倍。
此外,OceanBase已具备面向多种数据模型的混合检索能力。在最新版本中,OceanBase混合检索性能进一步增强,通过丰富的执行策略、自研的向量算法库、内核级多模混合查询等实现更快、更准、更易用的混合检索。
目前,OceanBase的向量数据库已经得到上百家客户的使用,并已实现规模化的落地。比如,联通软研院基于OceanBase打造了AI助手,in银泰商业则基于OceanBase打造了零售业智能问数平台。
推出“共享存储”,实现TP场景下稳定运行对象存储
为了解决无共享架构在弹性和成本方面的瓶颈问题,OceanBase宣布一体化架构再升级,并在本次会上推出了“共享存储”产品,该产品能将计算与存储解耦,以自研一体化架构实现对对象存储(如Amazon S3、阿里云OSS等)的深度支持。
该产品还能实现对象存储与事务型数据库(TP,Transactional Processing)的深度集成,所构建的存算一体与分离的多云原生架构,不仅大幅提升云上数据存储的弹性扩展能力,更使TP负载的存储成本最高降低50%。
据悉,“共享存储”产品在云上可被应用于多种业务场景,包括典型TP、历史库及备份库,时序类业务、HBase兼容类业务、流水型业务系统、OLAP业务等。
杨传辉进一步介绍称,“共享存储”产品背后蕴含着OceanBase的多项技术突破:一是构建多级缓存架构,有效解决对象存储的访问延迟问题;二是自研基于对象存储的 LSM-Tree引擎并采用深度工程手段,降低对象存储的I/O压力;三是通过独有的持久化缓存弹性伸缩,进一步解决TP场景下热点数据的稳定性问题;此外,优化对象存储的访问全链路,确保TP业务毫秒级响应的稳定性。
通过逐一突破这些技术难点,使得OceanBase的云数据库OB Cloud成为目前业内唯一能够在 TP 场景下稳定运行对象存储的多云原生数据库:在TP负载下,存储成本最高降低50%;在AP负载下,存储成本最高可降低为原来的1/10。
与此同时,OceanBase还宣布,OB Cloud正式上线百度云。截止目前,OB Cloud已支持阿里云、华为云、腾讯云、百度云、AWS、Google Cloud 六大主流公有云平台,全球覆盖超过100个可用区。
承接AI时代使命:从一体化数据库向一体化数据底座演进
IDC软件市场研究经理李凌霄在本次会上表示,预计到2028年全球企业级数据的数据量相比2023年整体增长400%以上,年复合增长率约为30.2%。通过生成式AI技术去让多模态数据产生价值已经具备技术可行性,这意味着多模态数据将能为企业的管理、运营、决策、业务带来价值。未来,人们将会大量地产生、存储和加工多模态数据。
与此同时,AI时代也带来了新的数据难题。于企业而言,数据仓库的容量已实现质的飞跃,结构化数据存储规模“突破PB级迈向EB级”成为新常态,这给数据存储、管理与分析带来严峻挑战。
面对行业需求,OceanBase正在大胆探索。杨传辉表示,OceanBase已经具备了一定的AI时代数据处理能力,如分布式有效应对海量数据的存储计算、多模融合统一处理不同结构数据、TP/AP一体化实现混合事务和实时分析处理。但大模型落地产生价值的核心在于数据与模型的一体化融合,这也是OceanBase提出的构建Data×AI能力的关键。
基于这一能力,OceanBase致力于从一体化数据库向一体化数据底座演进,通过一套引擎同时支持TP/AP/AI混合负载,支持向量数据库,实现SQL与AI的混合检索。
作为一款原生分布式数据库,OceanBase原本就具有的企业级分布式数据库能力,为AI时代的海量数据处理分析打下了基础。对于支持AI应用落地的核心基础设施比如向量性能、混合检索等层面,OceanBase也在持续探索,进一步加强SQL+AI能力。比如,模型上下文协议(MCP,Model Context Protocol)是最近一款非常流行的技术,通过MCP能把每个产品接入大模型生态里,OceanBase的OceanBase service和OceanBase的管控工具OCP目前均已实现MCP支持,未来OceanBase也会全面拥抱MCP的大模型生态。
正如杨冰所言:“面向未来要搭建的不是另外一幢十几层的高楼大厦,而是要搭建一百层甚至好几百层的摩天大楼,这时就需要重新构建底层基础设施,而这也是我们所擅长的,我们也有强烈的被召唤的使命感。”未来的应用一定是基于AI的应用,未来的数据公司也都会是AI公司。”杨冰还说道:“作为一个数据存储软件未来要支撑的不仅仅是存和算,还要去支持知识的学习和获取、支持应用的推理、支持更多的决策。”为了更好地推进这些方向,OceanBase定下了四个大方向:一是成为“知识底座”,二是打破“数据次元壁”, 三是当AI的“靠谱参谋”, 四是做流量的“冲浪高手”。
而作为AI战略“一号位”的杨传辉,针对Data×AI分享了更多细节。他表示OceanBase正致力于构建能力,面向AI时代推动一体化数据库向一体化数据底座的战略演进。
Data x AI从概念上可以分成两层:Bring Data to AI和Bring AI to Data。Bring Data to AI,指的是要把数据融入大模型里,通过数据提升模型准确度,从而提升推理效率并降低推理成本。Bring AI to Data,则分成两个层次:第一个层次是在数据库里通过类似AI function的方式直接集成大模型的能力;第二个层次是把AI融合到整个数据库,以便提升数据库的可应用性,比如开发智能知识库和智能助手等。
此外,在杨传辉描绘的一体化数据底座版图中,OceanBase希望能够实现从算力、基础设施,到平台层、应用层、交付形态的全方位布局。他表示:“未来15年一定是一个AI大爆发的时代,我们也相信随着AI的应用场景以及来自中国乃至世界的AI场景打磨,OceanBase将成为AI时代的一体化数据底座。”
那么,OceanBase的信心从何而来?对此,杨传辉表示:首先,Data x AI一体化数据底座其实是OceanBase一体化数据库的延伸,它的核心在于能否做好数据处理。未来,OceanBase一定会拓展数据处理范畴,但是并不会把自己局限在关系数据库的舒适圈里,而是会让数据处理更好地适应AI时代的工作负载。其次,AI时代的应用大爆发给了OceanBase更大的机会,AI时代的应用一方面需要更多的数据,另一方面需要混合负载。对于开发者来说,他们希望在一套引擎里直接通过一条SQL处理所有的工作负载,而一体化和分布式恰好是OceanBase的优势。“今天我可以告诉大家,OceanBase的研发团队既能做数据库,也能做分布式系统,还能做AI的infra。再加上由蚂蚁集团技术能业务场景支持,OceanBase做这件事情是非常顺理成章的。”杨传辉表示。他还总结称:“学AI用AI,学OB用OB。只要大家学好AI、学好OB,我们都能很好地掌握AI时代的数据和技术。”
如前所述,OceanBase原本是蚂蚁集团的一个子部门,后来独立出来成立单独的公司。在关系上蚂蚁集团就好比是OceanBase的“长辈”,蚂蚁集团CTO何征宇也在本次大会现场表示大力支持OceanBase的AI战略。他说,蚂蚁集团将支持OceanBase在金融、医疗、生活等蚂蚁AI的核心场景的突破,支持OceanBase去实践DataxAI的理念和架构创新,帮助OceanBase进一步攻坚AI关键能力。同时,蚂蚁集团将继续支持OceanBase开源开放,把在Data×AI上的能力逐渐开放给行业,为AGI的梦想添砖加瓦。