
Nacos源码系列—订阅机制的前因后果(上)
作者 |牧小农
来源 | 牧小农(ID:java-mxn)
前因我们在了解Nacos订阅机制之前,首先来了解一下前因——Nacos客户端的“服务发现”,我们先通过下面一张图来直观的看一下,有人可能就说这也叫直观,明明很曲折,小农想说的是,这样才能让你们印象更加深刻(手动狗头)。
读者内心:我信你个鬼。
对于Naocs客户端“服务发现” 主要是有NamingService获取服务列表、组装参数,调用服务接口等等,上图中只是一个大致的流程,在其中还有获取服务列表中的通信流程协议(Grpc/http),订阅流程以及后果(故障转移流程),下面我们就来详细讲解一下,客户端服务发现的基本流程。
首先我们先从一个入口类Client项目下的NamingTest开始看起
在前几篇章节中,我们讲解了registerInstance()方法,今天我们需要来看一下getAllInstances()方法的具体逻辑,这个就是我们需要观察的入口
在上面具体方法中,会经过几轮重载方法的调用,在重载方法调用的过程中已经设置了默认值,例如(默认分组(DEFAULT_GROUP),集群列表(空)、是否订阅(是)等等)
如果是订阅模式,直接从本都缓存中获取服务信息,然后从中获取实例列表,订阅机制会自动同步服务器实例信息到本地,如果缓存中没有,说明是首次调用,进行订阅后获取服务信息,具体流程如下:
订阅处理流程在上面的流程中,我们讲到了订阅的逻辑,接下来我们就来看一看订阅里面到底做了哪些事情,首先我们已经知道服务在哪里订阅了,我们只需要点进去找对应的方法。
serviceInfo = clientProxy.subscribe(serviceName, groupName, clusterString);
下面是具体的方法,这里clientProxy类型为NamingClientProxyDelegate,实例化NacosNamingService时该类被实例化
在上述代码中,可以看到我们在获取服务器列表中,进行了订阅逻辑的扩展。
- 在订阅方法中首先开启定时任务,用来定时同步服务端的实例信息,进行本地缓存的更新等操作,如果是首次直接返回,去判断是否有本地缓存
- 如果本地缓存中存在serviceInfo信息,直接返回serviceInfo信息,如果不存在,默认采用Grpc协议进行订阅,然后在返回serviceInfo信息
- 通过grpcClientProxy.subscribe()直接向服务器发送一个订阅请求,并返回结果
- servieInfo本地缓存处理,并且会将获取的最新的serviceInfo和本地的serviceInfo进行比较,进行更新操作。
如下图所示:
订阅
在上面我们讲解了,Nacos是如何进行服务器发现,以及订阅的入口和大体逻辑,接下来我们就来详细讲一讲Nacos的订阅机制的核心,首先Nacos客户端会通过定时任务,进行轮询,每间隔6秒从Nacos注册中心获取服务实例列表,如果检测实例发生变化,发布变更事件,订阅者进行对应的逻辑处理(更新缓存和实例信息),我们先从一张图,来了解一下订阅机制主要的流程。
定时任务
订阅其实本身也是服务发现的一种实现方式,就是在服务发现的时候执行订阅方法,然后通过定时任务定时拉取服务端信息。我们找到 NacosNamingService.subscribe(),会发现里面有好几个···subscribe()```方法,这几个方法在重载的过程中,会帮我们添加一些默认参数(默认分组、空集合列表),最终我们对定位到下面这个方法:
在这里我们先来看 clientProxy.subscribe(),这个方法实际上就是我们上面讲到的NamingClientProxyDelegate.subscribe()方法,在这里主要是对服务列表的信息进行查询,所有我们可以知道不管是查询还是订阅都是用的同一个方法。在这里我们就不做过多的描述。
在这里我们主要关注的是这个方法里面一个定时调度的方法ServiceInfoUpdateService.scheduleUpdateIfAbsent();,这个方法里面构建了serviceKey,通过key来判断是否重复,最后添加到updateTask,而addTask()就是添加任务并且发起一个定时任务
默认定时延迟一秒执行:
在这个定时任务里面封装了订阅机制的核心业务逻辑,位于UpdateTask.run()方法。
通过定时任务执行UpdateTask,默认间隔时间为6秒,当发生异常时会延长,但不会超过1分钟。该方法会比较本地是否存在缓存,以及是否过期,当不存在或者过期的时候,会去查询注册中心,获取最新实例,更新最后获取时间,处理服务信息,在最后会计算任务时间,循环执行流程。业务逻辑在最后会计算下一次定时任务的执行时间,通过delayTime来延迟执行,delayTime默认为1000*6(6秒),在finally 里面发起下一次定时任务,当我们程序出现异常的时候,执行时间和错误次数成正比,最长时间不超过一分钟
到这里我们已经对于Nacos客户端定于的核心流程讲解了一遍,Nacos客户端通过一个定时任务,每间隔6秒从注册中心获取实例列表,当发现实例发生变化的时候,发布变更事件,订阅者进行业务处理,然后更新内存中和本地缓存中的实例。接下来我们就来讲一讲,定时任务获取到最新实例列表之后,整个时间机制是如何处理的。
我们在第一步调用subscribe()方法的时候,会订阅一个EventListener事件,而在定时任务UpdateTask定时获取实例列表之后,会调用ServiceInfoHolder.processServiceInfo方法对ServiceInfo进行本地处理,这其中就包括事件处理。
在subscribe方法中,通过下面的代码我们进行监听事件的注册
在上述代码中,我们主要关注的是changeNotifier.registerListener,这个监听就是进行具体事件注册逻辑,在下述代码中,主要是将EventListener存储在listenerMapmap结构中,key为服务实例信息的拼接,value为监听事件的集合
关于serviceInfo的处理在updateTask获取到最新的实例信息后会进行本地化处理,我们需要看的是ServiceInfoUpdateService.run()下的serviceInfoHolder.processServiceInfo(serviceObj);本地缓存方法。
首先我们判断最新的ServiceInfo数据是否正确,有没有发生变化,如果数据格式正确且发生变化,会发布一个变更事件(InstancesChangeEvent),同时讲serviceinfo写入缓存中。对于服务信息的变更,Nacos是如何做的呢,别急我们往下看,当我们调用InstancesChangeEvent()方法以后,变更事件会由NotifyCenter进行发布,我们来瞅一瞅。
首先事件追踪的核心流程主要分为,根据事件类型获取-》获取事件发布者-》发布事件,详细如下所示:
在这个源码中,其实 INSTANCE是单例实现的,在这里publisherMap键值对是什么时候建立的?其实在是我们NacosNamingService.init()调用初始化方法的时候进行绑定的
当我们从上面方法进去的时候,会发现他默认使用的是DEFAULT_PUBLISHER_FACTORY来进行构建,而在NotifyCenter代码块中,会发现DEFAULT_PUBLISHER_FACTORY默认构建的EventPublisher为DefaultPublisher
由此我们看出在NotifyCenter类中维护了事件名称和事件发布者的关系,而默认的时间发布中为DefaultPublisher。
闲言
到这里,我们Nacos订阅机制的前半章我们就讲完了,因为整体服务订阅的事件机制还是比较复杂,篇幅太长,所以分成了两部分,今天这个章节我们主要讲解了,客户端服务发现的原理以及订阅机制中定时器的运行逻辑和NotifyCenter发布InstancesChangeEvent事件的流程
