十八世纪初,欧洲名城普鲁士的哥尼斯堡边上有一条河,河中有两座小岛,有七座桥把两个岛和两岸连接。一个人怎么样才能不重复地一次走完这七座桥,最后回到起点?
1736年,数学家欧拉提交了一篇名为《哥尼斯堡的七座桥》的论文,详细讨论了七桥问题的解决思路,被认为是关于图论最早的研究。当时的欧拉一定不会想到,289年后的今天,知识图谱、图计算引擎、图智能技术等和“图”相关的概念正在搅动整个科技界。
在无数为此奋斗的身影里,张晨和吴菁是特殊的存在。他们是浙大竺可桢学院首届毕业生,一对令人羡慕的神仙眷侣,海外学成归来后在西子湖畔创办了一家叫“创邻”的图数据库公司,成为图智能领域的技术引领者,其自主研发的Galaxybase图平台精准补齐了我国基础软件中图数据库的短板,产品技术能力已经达到世界前列。
摄影 陈中秋 海报设计 李前芳
广东最好的高中是哪个?
曾经很长一段时间,张晨和吴菁时不时会因为广东第一高中是华师大附中还是深圳中学展开家庭讨论,他俩都认为自己的母校是最好的,谁也说服不了谁。
25年前,张晨和吴菁分别从这两所在全国都有名的高中保送至浙江大学,并且成为2000级浙大第一届竺可桢混合班的同班同学。命运之神用红线将他们的未来紧紧捆绑,开启了一同求学、一同创业的缘分。
直到现在,吴菁依然记得她和张晨在20年前的一场针对计算机未来发展的争论,当时张晨说今后所有的计算都将在远端,由远端的多台机器去协同给机器进行服务,其实就是现在被证明了的“云计算”概念。当时吴菁还不相信:“谁会把那么重要的数据放在远端,数据安全的问题谁来考虑?”
从本科时期起,张晨就对分布式并行计算很有兴趣,认为计算多节点协同是未来的趋势。本硕毕业后在加拿大滑铁卢大学读博期间,张晨也是从事基于Hadoop(分布式系统基础架构)的科研,这和他本科毕业设计分布式并行方向一致,他也成为全球第一批做大数据平台科研的博士之一。
浙大之后,吴菁读了荷兰莱顿大学的硕士,她选择的是一个计算机和商科的交叉学科,后来读麦吉尔大学管理信息系统博士时,主要研究的是社交网络,博士课题是关于企业决策人在社交网络里面的位置对企业的弱信号处理能力(敏捷响应环境变化)的影响研究。
现在看来,两人的求学生涯虽有不同,但最终走向的都是关于“关系”的研究,和目前夫妻俩正在做的图数据库紧密相关。
从加拿大毅然回杭创业
学生生涯结束后,张晨成为美国运通公司的大数据科学家。有一天他接到一通电话:“对方说让我延续梦想,我还以为是骗子。”其实是他的博士论文成果,被硅谷一家名叫Splice Machine的公司进行了产品化,成了他们的核心底层技术。
随后,张晨也进入那家公司研究分布式数据库,并在工作积累中有了创业的契机。“在服务大型企业客户的过程中,我发现业务中开始出现二三十个多表关联的需求,需要做海量的数据大规模关联查询,很难用现有的数据库技术解决。”
2015年,张晨和吴菁经过深思熟虑后决定在加拿大创业。“市场上大客户有了更复杂的数据关联需求;专业上,我擅长的是做分布式并行计算,吴菁擅长的是大规模网络分析,我懂数据存储技术,她懂数据建模分析,非常互补。”就这样,Graph Intelligence正式成立。两人抱着简单的初心,想用一种可以高效联通数据的技术,释放数据资产的价值,赋能各行各业。
创业以来,张晨负责投资、公司战略等,吴菁负责组织管理建设,两人是最默契的搭档,也是最懂彼此的人。
2015年底,张晨回国参加浙江大学竺可桢学院的校友会,意外邂逅了在杭州创业的师兄,两人聊起国内有海量的数据和丰富的数据关联场景,政府的人才项目也鼓励海归回国创业。
当时Graph Intelligence也正面临市场选择,有专家表示未来中国或者印度会成为大数据的重要市场。内外因素促使张晨决定回国创业,吴菁也很高兴:“回杭州我是非常开心的,这里有我们的母校、很多朋友,我特别喜欢这座城市。”
公司起名叫“创邻”,取自英文create link,寓意“创造连接”。张晨认为,数据关联已成为当下大数据时代红利,如何打通数据孤岛、为数据搭桥,是现今企业面临的共同问题,也是图技术存在的本质价值和意义。
怎么找到关于“我”的全部信息?
什么是图?这里的“图”并不是图片的意思,而是将客观世界的人、事、物抽象成“点”,将之间的关系抽象成“边”。任何可以用“关系”定义的客观事物,都可以用图模型有效表达。
张晨有一个更为通俗的解释:“想象一下,如果一个房间里摊满了几百份文件,你想找出和我有关的全部信息,如何用最高效的方式实现?”他假设每一个信息就是一个水晶球,但凡与 “我”相关的信息就用水晶线连接起来。
“当你牵动‘我’这个水晶球就可以一连串地得到各个文件中所有关于我的数据。”张晨说,图数据库就是编织这张水晶球和水晶线组成的信息网络的工具,围绕一个主体,把所有相关的海量信息高效地组织起来,改变了我们存储和处理数据的方式。
大家都知道“蝴蝶效应”,就是在海量的数据和信息中,去捕捉看似毫无关联但实际环环相扣的联系,从数据处理架构的角度来看,如果没有图技术的帮助是极难实现的。
那么,图数据库又是什么?
我们知道,数据存储除了存储本身,更是为了解决复杂查询以及深度计算的数据问题,图数据库就具备了符合人类大脑思维习惯的高维表达能力——所想(见)即所得。
以汽车制造为例,一辆汽车需要上万个零部件组装,背后则是成百上千家供应商,完整的供应链遍布全国甚至全球,如何高效管理和协同就成了一个大问题。
“比如供应链涉及众多关联关系,供应商之间的上下游关系、零部件之间的组装关系、生产流程中的依赖关系、物料在仓库间的流转关系等等,这些关系在被捕捉、组织成为图结构后,就可以形成动态、全局、可视化供应链网络图谱,进而支持企业做出更实时、更智能化的决策。”张晨介绍。
再比如,创邻和银行的合作,为成千上万张信用卡建立“图数据库”,从里面发现盗刷团伙的蛛丝马迹。
也就是说,图数据库具备完善的关联关系挖掘能力,支持海量供应链数据实时入库,毫秒/秒级返回多跳间接关联对象的查询结果,输出数据驱动的实时洞察,并且反馈到生产线上,加速企业进行智能化生产调度和管理。
今年年初横空出世的DeepSeek让很多人养成了有问题就去问一问的习惯,但相同一个问题DeepSeek可能会给出不同的答案,并且它就像一个“黑盒”,这个答案如何被推导得出的具体细节是无从追溯的,这也让对错误答案的即时修改变得不可能,给大模型在追求确定性、准确性的企业中落地造成了很大的困难。
相比之下,图技术更像是一个“白盒”,通过将企业数据组织成知识图谱、资产图谱,用图数据库我们就能查到确定、可追溯推理依据的答案。
成为互联网大厂的竞争对手
经过近十年的发展,创邻科技已拥有多项具备自主知识产权的核心技术,成为我国在图数据存储、处理及应用领域佼佼者,创邻科技的成功,也验证了两位创始人的初心。
张晨笑称:“一路卷过来,竞争对手都成蚂蚁、华为等大厂了。”经过近十年的积累,公司服务的客户也都是如农业银行、民生银行、交行卡中心、公安、国家电网等头部单位。
在吴菁眼里,图数据库技术还是一个青年,正处于一个成长上升期,是未来趋势技术和所有数据库品类中增长最快的一类。“市场的想象空间巨大,因为各行各业都需要做实时智能的商业决策,都需要高效关联的数据,这就是图数据库的未来。”
与此同时,很多人对图、图计算、图数据库等概念并不清楚。“我们总觉得有一种责任感,推进这个技术被更多的人了解和认识,需要一个懂行的人站出来做科普。”
“创业就是创自己,要在时代趋势下选择做困难且正确的事。”张晨说,公司第一款产品的第一版代码是自己一个个敲出来的,而后他又带领团队一个字一个字敲出了一本科普书籍《图数据库:理论与实践》。
这本书深入浅出地介绍了图数据库的底层技术原理、图算法、图编程与金融、政府、制造等行业的应用实操,得到了中国工程院陈纯院士、加拿大工程院刘学院士、香港科技大学陈雷教授、腾讯云数据库总经理王义成等近30位学术领袖与业界大咖的鼎力推荐。
书里还免费提供源代码,以便读者动手实践,一经发售就荣登京东“数据库图书榜”热卖榜第二名,出版不到三个月便二次印刷,近日还再版了繁体中文版,以便台湾、香港、澳门及其他海外华人地区的读者深度了解图技术。
“这样的科普不一定即刻会对公司和业务产生直接的效应,但如果整个行业繁荣了,作为行业里技术和产品的中坚力量,企业一定会间接受益。”从去年9月开始,吴菁开设了个人账号,抱着试试水的态度,分享一些图技术应用和企业管理的心得体会。
最近,夫妻俩的视频账号“吴菁&张晨”上线,第一期讲述了《海归博士夫妻回杭创业》的故事,获得了数万播放,600多个点赞,超1000次的转发,底下很多人评论他俩为图数据领域的神仙眷侣。
乔布斯曾说过:Creativity lies in the ability to connect the dots,意思是说创新源于把零散信息连接整合的能力,张晨和吴菁也坚信图技术是未来数据资产化中不可或缺的模块,是数字化企业创新的新引擎。
文 | 刘永丽
VIEW MORE
@一举包揽全球前三,杭州成了开源大模型之城?>>
@AI智能体“实在人” >>
@我们用吉普力的画风重新演绎“来自东方的力量” >>
@Deep家族再添一员>>