前沿观察 | 为什么我们要关注图数据库?

netcat20000
发布于 2022-7-15 17:55
浏览
0收藏

 

近年来,传统关系数据库内核的突破性工作变得越来越少,随着各种社交网络、系统推荐等业务需求的不断发展,数据间的依赖和复杂度的逐渐增加。面对这些“连接”,关系数据库的不适应性逐步凸显,图数据库作为NoSQL中关注度最高,发展趋势最明显的数据库,在大数据时代开始被广泛关注。


图数据库未来的发展方向是非常不错的,作为数据库从业者,需不断汲取前沿知识,了解行业发展动态,以保持核心竞争力,才能经得起浪潮冲刷。近年来图数据库在各大顶会上被频繁提及,从其优势和趋势上来看前景很好,未来图数据库将成为数据分析的主流,关系数据库很可能维持现有的报表功能,其他复杂一点的分析或将全部转到图数据库上。所以保持对图数据库发展的关注,是非常有必要的。

 

图数据库在顶会上的身影

 

SIGMOD

2018年数据库顶级会议SIGMOD上,对传统数据库事务和索引结构、查询处理和优化、并行数据库、图数据库、空间数据库、近似处理和相似度查询、数据集成与挖掘、安全与隐私,以及最近几年比较热门的云数据库、新型硬件和机器学习的各个议题进行了交流。

 

2018年SIGMOD会议上数据库五大发展趋势,包含图数据库

  • 云数据库:除了Eric Brewer关于Kubernetes的keynote,还有一个关于云数据库的industry session。Amazon Aurora从理论和实践上证明公有云场景可以重构关系数据库底层架构,Vertica这样的老牌OLAP系统也上云了。
  • 新型硬件:存储介质从SSD、大内存到非易失性内存,RDMA、GPU、FPGA这样的硬件技术逐步普及。
  • 自治数据库:自治数据库在学术界和工业界都很热,Oracle数据库最近几年最重要的研发工作就是自治数据库。CMU的Andrew Pavlo团队这几年在学术界特别活跃,2018年最佳论文就是出自这个团队[Query-based Workload Forecasting for Self-Driving DatabaseManagement Systems]。
  • AI+数据库:这几年国内很多高校的数据库团队都转型大数据和AI了,北大数据库实验室在这次SIGMOD会议上也发表了两篇AI方向的论文,AI + System是这两年兴起的一个热门方向,Google Jeff Dean团队提出的Learned Index很好地利用AI统计实际数据的规律来设计更加高效的索引结构。
  • 图数据库:去年SIGMOD的best paper就是关于图计算的“Parallelizing Sequential Graph Computations”,第一作者是WenfeiFan,他们团队最近又发表了多篇关于图数据库的paper。

 
VLDB

VLDB是数据库及相关领域研究者、供应商、参与者、应用开发者所广泛关注的主要国际会议,也是公认的数据库领域三大顶级会议 (SIGMOD、VLDB、ICDE) 之一,在发表论文难度和受关注程度上,与SIGMOD可谓并驾齐驱。

 

2018年的VLDB上,中国高校和企业发表的论文数量超过20篇,主要集中在图数据库、空间和轨迹数据、数据挖掘与机器学习等领域,传统关系数据库 (RDBMS) 的研究工作较少。尽管大会将论文按照主题分成了30个Research Session,但由于每个Session中论文报告个数的限制(4-5个),Session的划分比较简单粗暴,Session间的界限和层级关系并不非常清晰。根据论文所针对的应用和数据类型,对论文进行的分类如下:

前沿观察 | 为什么我们要关注图数据库?-鸿蒙开发者社区

VLDB 2018各领域论文分布图

从上图可以看出,关系数据库 (RDBMS) 的研究仍然是主流,共包含42篇论文,占到论文总数近1/3。图数据相关论文数量也保持稳定(去年VLDB也有20多篇图数据相关论文)。在很多实际的业务中,关系数据和图数据也是最重要的数据类型。据可靠消息,2018VLDB最佳论文也来自图数据领域。而流数据、众包、空间和轨迹数据相关的研究比去年有明显减少,但论文数量的浮动并不完全说明领域的热度。

 

图数据相关领域多年以来都是研究热点。以下是来自图数据领域VLDB的最佳论文

The Ubiquity of Large Graphs and Surprising Challenges of Graph Processing节选,作者是来自滑铁卢大学的Siddhartha Sahu等人。(回复“图数据库”,即可获得VLDB最佳论文原文资料,欢迎分享,共同探讨图数据库~)

 

VLDB-图数据库最佳论文片段节选

 

摘要

图处理在许多应用领域中变得越来越普遍。尽管如此普遍存在,但关于在实践中图表如何实际的使用的研究却很少。2017年4月我们进行了一项调查,旨在了解(i)用户拥有的图类型; (ii)用户运行的图表计算; (iii)用户使用的图软件类型; (iv)用户在处理图表时面临的主要挑战。

 

参与者的回答及我们获得的数据,揭示了实际中图形处理的令人惊讶的事实。真实世界的图表代表了各种各样的实体,并且通常非常大,可扩展性和可视化无疑是参与者面临的最紧迫的挑战。

 

简介

表示连接实体及其关系的图形数据出现在许多应用领域中,最广泛的是在社交网络,语义网,路线图,通信网络,生物学和金融中。研究和实践中的图形处理工作显着增加,用于管理和处理图形的不同商业软件数量的激增就是一个印证。

 

我们对22个不同软件产品的89位用户进行了在线调查,目标是回答4个问题:

(i)用户拥有哪些类型的图表数据?

(ii)用户在他们的图表上运行了哪些计算?

(iii)用户使用哪些软件来执行计算?

(iv)用户在处理时遇到的主要挑战是什么?

 

主要发现如下:

•多样性:实践中的图代表了各种各样的实体,其中许多实体并不完全被认为是顶点和边缘。由产品订单和交易组成的传统企业数据(通常被视为关系系统的完美使用者)是参与者图表中非常常见的数据形式。

•超大图无处不在:实际中许多图非常大,通常包含超过十亿个边。这些大型图表代表了非常广泛的实体,属于各种规模的组织,从非常小的企业到非常大的企业。这也驳斥了部分假设,即大图只是谷歌,Facebook和Twitter等少数大型组织的问题。

•可扩展性的挑战:可扩展性是最紧迫的挑战。有效处理非常大的图形的能力似乎是现有软件的最大限制。

•可视化:可视化是参与者图形处理中非常流行的核心任务。在可扩展性之后,参与者将可视化视为他们面临的第二个最紧迫的挑战,与图形查询语言的挑战并列。

•RDBMSes的流行: 关系数据库在图形的管理和处理中仍然发挥着重要的作用。

 

 图数据库市场的具体数据

从下表中可以看出,在调查人员里图数据库使用者达到233人,其中Neo4j和OrientDB占比最多。

前沿观察 | 为什么我们要关注图数据库?-鸿蒙开发者社区

下表概述了这些参与者所工作的组织及其在组织中的角色。“R”和“P”分别表示研究者和实践者,信息技术和学术研究领域占比最多。除了给出的选项,参与者还选择了其他5个领域:教育、能源市场、游戏和娱乐、调查和审计、草原管理。与会者总共指出了17个不同的领域,说明图数据库被广泛应用于各种各样的领域

前沿观察 | 为什么我们要关注图数据库?-鸿蒙开发者社区

表3显示了参与者所在组织的规模,从雇员少于10人的非常小的组织到雇员超过10,000人的非常大的组织。我们询问参与者他们在组织中的角色,并给他们以下4个选择:(1)研究员;(2)工程师;(3)经理;(四)数据分析员。参与者可以选择多个选项。前4名分别是工程师(54人)、研究人员(48人)、数据分析师(18人)和经理(16人)。参与者指出的其他角色是架构师、devops和student。

前沿观察 | 为什么我们要关注图数据库?-鸿蒙开发者社区

下表显示了图的顶点数,边数和总未压缩大小。如表中所示,每个尺寸的图形,从边缘小于10K的小边到超过1B的大图,在研究人员和从业者中都很普遍。一个有趣的现象-超大图无处不在:大量参与者使用非常大的图。具体来说,20名参与者(8名研究人员和12名从业者)表示使用边缘超过10亿的图表。此外,具有超过10亿边缘的图表的20名参与者来自具有不同规模的组织,范围从非常小到非常大。这反驳了普遍的假设,即只有非常大的组织 - 例如Google、Facebook和Twitter具有网社交网络数据的巨大图形。

 

最后着眼于容量,我们发现42个用户拥有1-1GB边缘图,17个用户使用10B-100B边图,7个用户处理超过100B边的图。两名参与者还通过电子邮件交流他们的图表包含4B和30B边缘。与我们的调查结果一样,这些大型图表代表了广泛的实体,例如产品订单交易数据,或来自农业和金融的实体。这说明图数据库的应用场景及市场潜力都是巨大的。

前沿观察 | 为什么我们要关注图数据库?-鸿蒙开发者社区

最后向参与者询问了他们在处理图表时遇到的挑战:

前沿观察 | 为什么我们要关注图数据库?-鸿蒙开发者社区
 •可扩展性:处理大型图表的能力是参与者面临的最紧迫的挑战。对于研究人员和从业者来说。参与者提到的具体可扩展性挑战包括在大型图上加载,更新和执行计算(例如遍历)的效率低下。

可视化:图形可视化成为前三个图形处理挑战之一,39个参与者表明可视化是他们在图表上执行的最流行的非查询任务。

查询语言和API:查询语言和API提出了另一个常见的图形处理挑战,参与者发现当前的图形查询语言对调试查询的支持不足,另一位参与者表示他们难以找到完全符合SPARQL标准的软件。

 

文章转自公众号:腾讯云数据库

分类
已于2022-7-15 17:55:19修改
收藏
回复
举报
回复
    相关推荐