
图数据库实操:用 Nebula Graph 破解成语版 Wordle 谜底
春节期间如果有小伙伴玩过 Wordle 这个火爆社交媒体的猜词游戏,可能对成语版本的汉兜有所耳闻。在玩汉兜过程中,我发现用 Nebula Graph 的图查询来解 Antfu 的汉兜(中文成语版 Wordle 👉🏻 handle.antfu.me)会是件特别有意思的事情,很适合用来做图数据库查询语言的体操。在本文中,你将了解我是如何用知识图谱“作弊”解汉兜。😁
>>>>什么是汉兜?
汉兜(https://handle.antfu.me )是由 Vue/Vite 核心团队成员的 Antfu 的又一个非常酷的作品,一个非常精致的汉字版的 Wordle,它是一个每日挑战的填字游戏的中文成语版。
每天,汉兜会发起一个猜成语挑战,人们要在十次内猜对对应成语才能获胜,每一步之后都会收到相应的文字、声母、韵母、声调的匹配情况的提示,其中:绿色表示这个因素存在并且位置匹配、橘色表示这个元素存在但是位置不对,详细的规则可见如下的网页截图:
汉兜的乐趣在于在有限的尝试次数中,在大脑中搜寻可能的答案,不断地去逼近真理,任何试图作弊、讨巧去泄漏结果的行为都是很无趣、倒胃口的(比如从开源的汉兜代码里窃取信息),这个过程就像大脑做了个体操。
说到大脑的成语词汇量体操,我突然想到,为什么我们不能在大脑之外造一个汉语成语知识图谱,然后基于这个图谱实操一把图数据库,做个图查询体操呢?
>>>>构造解决汉兜的成语知识图谱
什么是知识图谱?
简单来说,知识图谱是一个连接实体之间关联关系的网络,它最初由 Google 提出并用来满足搜索引擎中基于知识推理才可获得(而不是网页倒排索引)的搜索问题,比如:“姚明妻子的年龄?”、“火箭队得过几次总冠军?”
到 2022 年的现在,知识图谱已经被广泛应用在推荐系统、问答系统、安全风控等更多搜索之外的领域。
为什么需要用知识图谱解决汉兜?
实际上,我们在大脑中解决字谜游戏的过程像极了图谱网络中的信息搜寻的过程,汉兜的解谜提示条件天然适合用图谱的语义来进行表达。在本文后边,你们会发现解谜条件翻译成图语义是非常自然的,这个问题就像是一个天然的为图谱而存在的练习一样,我相信这和知识图谱的结构和人脑中的知识结构接近有很大的关系。
如何构建面向汉兜解谜的知识图谱?
知识图谱是由实体(顶点)和关系(边)组成的,用图数据库管理系统(Graph Database MS)可以很方便地进行知识的入库、更改、查询、甚至可视化探索。
在本文里,我将利用开源的分布式图数据库 Nebula Graph 来实践这个过程,具体图谱系统的搭建我都会放在文末。
在本章,我们只讨论图谱的建模:如何面向汉兜的解谜去设计“实体”与“关系”。
图建模
最初的想法
首先,一定存在的实体是:
- 成语
- 汉字
- 成语-[包含]->汉字,每个汉字-[读作]->读音。
其次,因为解谜过程中涉及到了声母、韵母以及声调的条件,考虑到图谱本身的量级非常小(千级别),而且字的读音是一对多的关系,我把读音和声母(包含声母- initial 和韵母- final)也作为实体,他们之间的关系则是顺理成章了:
最终的版本
然而,我在后边基于图谱进行查询的时候发现最初的建模会使得 (成语)–>(字)–>(读音) 查询过程中丢失了这个字特定的读法的条件,所以我最终的建模是:
这样,纯文字的条件只涉及了 (成语)–>(字) 这一跳,而读音、声母、声调的条件则是另一条关系路径。既没有最初版本条件的冗余,又可以在一个路径模式匹配里带上两种条件(后面的例子里会涉及这样的表达)。
构建成语知识图谱
有了建模,这么简单的图谱的构建就剩下了数据的收集、清洗和入库。
对于所有成语数据和他们的读音,我一方面直接抽取了汉兜代码内部的数据,另一方面利用 PyPinyin(https://github.com/mozillazg/python-pinyin)这个开源的 Python 库将汉兜数据中没有读音的数据获得读音,同时,我也用到了 PyPinyin 里的很多方便的函数,比如:获取一个拼音的声母、韵母。
构建工具的代码在这里:https://github.com/wey-gu/chinese-graph
更多信息我放在了文末的附录之中。
>>>>开始知识图谱查询体操
至此,假设咱们都已经有了我帮大家搭建的成语作弊知识图谱了,那就开始我们的图谱查询体操吧!
首先,打开汉兜 👉🏻 https://handle.antfu.me/
假设我们想从一个成语开始,如果你没有想法的话可以试试这个:
然后我们把它填到汉兜之中,获得第一次尝试的提示条件:
我们运气不错,得到了三个位置上的条件!
- 有一个非第一个位置的字,拼音是 4 声,韵母是 ai,但不是爱(爱)
- 有一个一声的字,不在第二个位置(憎)
- 有一个字韵母是 ing,不在第四个位置(明)
- 第四个字是二声(明)
下面,我们开始图数据库语句体操!
在图数据库之中运行后,得到了 7 个答案:
看起来“惊世骇俗“这个成语比较主流,不妨来试试!
我们很幸运,借助成语作弊知识图谱,居然一次就找到了答案,当然这实际上得益于第一次随机选取的词带来的限制条件的个数,不过在大部分情况下,两次尝试获得最终答案的可能性还是非常大的!
接下来,我给大家详细解释一下这个成语破解的过程。
语句的含义
我们从第一个字的条件开始,这是一个既有声音、又有字形信息的条件。
- 声音信息:存在一个韵母为 ai4 的发音,位置不在第一个字
- 文字信息:这个韵母为 ai4 的字,不是爱字
对于声音信息条件,转换为图模式匹配为:(成语)-一个字发音-(拼音)-包含声母-(韵母) WHERE 拼音韵母为 ai4 AND 位置不是第一个。
因为建模的时候,属性名称我用的是英文(其实中文也是支持的),实际上的语句为:
类似的,表示非第一个位置的字,不是爱的表达是:
而因为这两个条件最终描述的是同一个字,所以它们是可以被写在一个路径下的:
更多的 MATCH 语法和例子细节,请大家参考文档:
- MATCH:https://docs.nebula-graph.com.cn/3.0.0/3.ngql-guide/7.general-query-statements/2.match/
- 图模式:https://docs.nebula-graph.com.cn/3.0.0/3.ngql-guide/1.nGQL-overview/3.graph-patterns/
- nGQL 命令:cheatsheet (https://docs.nebula-graph.com.cn/3.0.0/2.quick-start/6.cheatsheet-for-ngql-command/)
>>>>可视化展示线索
我们把每一个条件的匹配路径作为输出,利用 Nebula Graph 的可视化能力,可以得到:
>>>>What's next
如果大家是从本文第一次了解到 Nebula Graph 图数据库,那么大家可以从 Nebula Graph 项目和 Nebula Graph 社区的官方 Bilibili 站点 👉🏻 https://space.bilibili.com/472621355 了解更多有意思的入门知识。
另外,这里(https://nebula-graph.com.cn/demo/)是 Nebula Graph 的官方线上试玩环境,大家可以照着文档(https://docs.nebula-graph.com.cn/),利用试玩环境尝鲜。
Happy Graphing!
>>>>附录:搭建成语知识图谱
构建所需代码和数据在这里 👉🏻 https://github.com/wey-gu/chinese-graph
收集、生成图谱数据
导入数据到 Nebula Graph 图数据库
部署图数据库
部署成功的话,会看到这样的结果:
图谱入库
大概一两分钟数据就导入成功了,命令也会正常退出。
获得本机第一个网卡的地址,这里是 10.1.1.168
进入 Console 的容器执行下边的命令:
检查一下导入的数据:
>>>>附录:图建模的 Schema nGQL
END
