#打卡不停更# calico IPIP 跨节点通信 原创

whale_life
发布于 2022-9-24 18:40
浏览
0收藏

当前环境信息

[root@master ~]# calicoctl get ippool
NAME                  CIDR            SELECTOR   
default-ipv4-ippool   10.244.0.0/16   all()      

[root@master ~]# calicoctl get ippool default-ipv4-ippool -o yaml
apiVersion: projectcalico.org/v3
kind: IPPool
metadata:
  creationTimestamp: "2022-05-14T09:21:32Z"
  name: default-ipv4-ippool
  resourceVersion: "10306"
  uid: 89d1b7f3-bacc-4f6b-8409-222fb00a4744
spec:
  allowedUses:
  - Workload
  - Tunnel
  blockSize: 26
  cidr: 10.244.0.0/16
  ipipMode: Always
  natOutgoing: true
  nodeSelector: all()
  vxlanMode: Never

路由聚合

blockSize: 26
虽然,calico 默认限制了每个网段只有 64 的 IP 地址,但是如果一个 node 上超过 64 个地址,还是会继续分配一个 网段。
node 节点的出口采用路由聚合的方式,比如, 将 26 位的掩码聚合成 25位,或者 24位的掩码,这样路由的条目就会大大减少。

Always or CrossSubnet

ipipMode: Always
Always:表示跨节点通信一直使用 IPIP 封装
CrossSubnet:表示在同一个二层,跨节点通信走本地路由,而跨三层的节点互相通信则会通过 IPIP 封装。

BGP

IPIP 模式需要 BGP 来建立节点间的邻接关系,VXLAN 不需要

[root@master ~]# calicoctl node status
Calico process is running.

IPv4 BGP status
+--------------+-------------------+-------+----------+-------------+
| PEER ADDRESS |     PEER TYPE     | STATE |  SINCE   |    INFO     |
+--------------+-------------------+-------+----------+-------------+
| 192.168.0.81 | node-to-node mesh | up    | 01:19:42 | Established |
| 192.168.0.82 | node-to-node mesh | up    | 01:19:25 | Established |
+--------------+-------------------+-------+----------+-------------+

IPv6 BGP status
No IPv6 peers found.

服务器模拟 IPIP 通信

便于理解,我们在服务器上模拟,tunl1 与 tunl2 之间通过 IPIP 的模式进行通信
#打卡不停更# calico IPIP 跨节点通信-鸿蒙开发者社区

1.开启路由模块

echo 1 > /proc/sys/net/ipv4/ip_forward

2.创建两个名称空间

ip netns add ns1
ip netns add ns2

3.创建两对veth-pair

ip link add v1 type veth peer name v1_p
ip link add v2 type veth peer name v2_p
ip link set v1 netns ns1
ip link set v2 netns ns2

4.分别给两对 veth-pair 配置上 IP 地址

# 
ip address add 10.10.10.2/24 dev v1_p
ip address add 10.10.20.2/24 dev v2_p
ip link set v1_p up
ip link set v2_p up

ip netns exec ns1 ip address add 10.10.10.1/24 dev v1
ip netns exec ns1 ip link set v1 up
ip netns exec ns1 ip link set lo up

ip netns exec ns2 ip address add 10.10.20.1/24 dev v2
ip netns exec ns2 ip link set v2 up
ip netns exec ns2 ip link set lo up

查看配置是否生效

[root@70-tem ~]# ifconfig v1_p | grep inet
        inet 10.10.10.2  netmask 255.255.255.0  broadcast 0.0.0.0
[root@70-tem ~]# ifconfig v2_p | grep inet
        inet 10.10.20.2  netmask 255.255.255.0  broadcast 0.0.0.0

[root@70-tem ~]# ip netns exec ns1 ifconfig | grep inet
        inet 127.0.0.1  netmask 255.0.0.0
        inet6 ::1  prefixlen 128  scopeid 0x10<host>
        inet 10.10.10.1  netmask 255.255.255.0  broadcast 0.0.0.0
        inet6 fe80::5c56:70ff:fe77:df39  prefixlen 64  scopeid 0x20<link>
[root@70-tem ~]# ip netns exec ns2 ifconfig | grep inet
        inet 127.0.0.1  netmask 255.0.0.0
        inet6 ::1  prefixlen 128  scopeid 0x10<host>
        inet 10.10.20.1  netmask 255.255.255.0  broadcast 0.0.0.0
        inet6 fe80::4016:75ff:fe64:107b  prefixlen 64  scopeid 0x20<link>

5.命名空间添加路由

默认新添加的 ns 里没有出去的路由,所以需要我们添加一下
新创建的 Pod 就不会存在这种情况,因为 cni 会默认给我们创建出去的路由

[root@70-tem ~]# ip netns exec ns1 route -n
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
10.10.10.0      0.0.0.0         255.255.255.0   U     0      0        0 v1

添加 route

ip netns exec ns1 route add -net 10.10.20.0 netmask 255.255.255.0 gateway 10.10.10.2
ip netns exec ns2 route add -net 10.10.10.0 netmask 255.255.255.0 gateway 10.10.20.2

查看 route

[root@70-tem ~]# ip netns exec ns1 route -n
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
10.10.20.0       10.10.10.2      255.255.255.0   UG    0      0        0 v1
10.10.10.0      0.0.0.0         255.255.255.0   U     0      0        0 v1
[root@70-tem ~]# ip netns exec ns2 route -n
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
10.10.10.0       10.10.20.2      255.255.255.0   UG    0      0        0 v2
10.10.20.0      0.0.0.0         255.255.255.0   U     0      0        0 v2

v1 ping v2 测试连通性

[root@70-tem ~]# ip netns exec ns1 ping -c 1 10.10.20.1
PING 10.10.20.1 (10.10.20.1) 56(84) bytes of data.
64 bytes from 10.10.20.1: icmp_seq=1 ttl=63 time=0.048 ms

--- 10.10.20.1 ping statistics ---
1 packets transmitted, 1 received, 0% packet loss, time 0ms
rtt min/avg/max/mdev = 0.048/0.048/0.048/0.000 ms

6.创建tunl 和 IPIP Mode

在其对应的名称空间创建 tunnel 设备,并设置隧道模式 ipip,然后还需要设置隧道端点,用 remote 和 local 表示,对应的表示隧道外层 IP,用 ip addr xx peer xx 表示

ip netns exec ns1 ip tunnel add tunl1 mode ipip remote 10.10.20.1 local 10.10.10.1
ip netns exec ns1 ip link set tunl1 up 
ip netns exec ns1 ip address add 10.10.100.10 peer 10.10.200.20 dev tunl1

ip netns exec ns2 ip tunnel add tunl2 mode ipip remote 10.10.10.1 local 10.10.20.1
ip netns exec ns2 ip link set tunl2 up 
ip netns exec ns2 ip address add 10.10.200.20 peer 10.10.100.10 dev tunl2

查看配置

[root@70-tem ~]# ip netns exec ns1 ifconfig tunl1
tunl1: flags=209<UP,POINTOPOINT,RUNNING,NOARP>  mtu 1480
        inet 10.10.100.10  netmask 255.255.255.255  destination 10.10.100.10
        inet6 fe80::5efe:a0a:a01  prefixlen 64  scopeid 0x20<link>
        tunnel   txqueuelen 1000  (IPIP Tunnel)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 7  dropped 0 overruns 0  carrier 0  collisions 0

[root@70-tem ~]# ip netns exec ns2 ifconfig tunl2
tunl2: flags=209<UP,POINTOPOINT,RUNNING,NOARP>  mtu 1480
        inet 10.10.200.20  netmask 255.255.255.255  destination 10.10.200.20
        inet6 fe80::5efe:a0a:1401  prefixlen 64  scopeid 0x20<link>
        tunnel   txqueuelen 1000  (IPIP Tunnel)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 4  dropped 0 overruns 0  carrier 0  collisions 0


7.抓包验证

ip netns exec ns1 ping -c 1 10.10.200.20

对tunl设备抓包,查看原始报文

ip netns exec ns1 tcpdump -pne -i tunl1 -w tunl1.cap

#打卡不停更# calico IPIP 跨节点通信-鸿蒙开发者社区
我们对 v1 或者 v1_p 进行抓包,veth pair 网卡对的报文一致
我们可以看到,原始报文和封装以后的报文,是 ip in ip 的模式

tcpdump -pne -i v1_p -w v1_p.cap

#打卡不停更# calico IPIP 跨节点通信-鸿蒙开发者社区

Calico IPIP 跨节点通信数据流向图

#打卡不停更# calico IPIP 跨节点通信-鸿蒙开发者社区

环境信息

背景

pod1 10.244.42.68 node1 192.168.0.81
pod2 10.244.103.67 node2 192.168.0.82

pod1 ping pod2

[root@master ~]# kubectl get node -o wide 
NAME               STATUS   ROLES                  AGE    VERSION   INTERNAL-IP    EXTERNAL-IP   OS-IMAGE                KERNEL-VERSION                CONTAINER-RUNTIME
master.whale.com   Ready    control-plane,master   2d1h   v1.23.5   192.168.0.80   <none>        CentOS Linux 7 (Core)   5.4.193-1.el7.elrepo.x86_64   docker://20.10.16
node1.whale.com    Ready    <none>                 2d1h   v1.23.5   192.168.0.81   <none>        CentOS Linux 7 (Core)   5.4.193-1.el7.elrepo.x86_64   docker://20.10.16
node2.whale.com    Ready    <none>                 2d1h   v1.23.5   192.168.0.82   <none>        CentOS Linux 7 (Core)   5.4.193-1.el7.elrepo.x86_64   docker://20.10.16


[root@master ~]# kubectl get pod -o wide 
NAME                        READY   STATUS    RESTARTS        AGE     IP              NODE              NOMINATED NODE   READINESS GATES
cni-test-777bbd57c8-n9m7c   1/1     Running   1 (3m59s ago)   8m23s   10.244.42.68    node1.whale.com   <none>           <none>
cni-test-777bbd57c8-x7fc4   1/1     Running   1 (3m54s ago)   8m23s   10.244.103.67   node2.whale.com   <none>           <none>

node 路由表

通过路由表,我们可以发现,192.168.0.0 大网段都是通过的 ens33 网卡通信。

# node1
[root@node1 ~]# route -n
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
0.0.0.0         192.168.0.1     0.0.0.0         UG    100    0        0 ens33
10.244.42.64    0.0.0.0         255.255.255.192 U     0      0        0 *
10.244.42.68    0.0.0.0         255.255.255.255 UH    0      0        0 caliba60dafcd06
10.244.103.64   192.168.0.82    255.255.255.192 UG    0      0        0 tunl0
10.244.152.128  192.168.0.80    255.255.255.192 UG    0      0        0 tunl0
172.17.0.0      0.0.0.0         255.255.0.0     U     0      0        0 docker0
192.168.0.0     0.0.0.0         255.255.255.0   U     100    0        0 ens33


# node2
[root@node2 ~]# route -n
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
0.0.0.0         192.168.0.1     0.0.0.0         UG    100    0        0 ens33
10.244.42.64    192.168.0.81    255.255.255.192 UG    0      0        0 tunl0
10.244.103.64   0.0.0.0         255.255.255.192 U     0      0        0 *
10.244.103.67   0.0.0.0         255.255.255.255 UH    0      0        0 cali01f311984f9
10.244.152.128  192.168.0.80    255.255.255.192 UG    0      0        0 tunl0
172.17.0.0      0.0.0.0         255.255.0.0     U     0      0        0 docker0
192.168.0.0     0.0.0.0         255.255.255.0   U     100    0        0 ens33

任一 node 节点的 ens33 抓包即可

我们采用的是 pod1 ping pod2 ,针对 node1 节点 ens33 网卡进行抓包

kubectl exec -it cni-test-777bbd57c8-n9m7c -- ping -c 1 10.244.103.67
tcpdump -pne -i ens33 -w node1.cap

#打卡不停更# calico IPIP 跨节点通信-鸿蒙开发者社区

Raw IP

我们可以发现, IP in IP 类型的报文都忽略了原始数据包文的 MAC 地址,只有 IP 地址,这种格式的报文,我们称之为 RAW Data
对 tun 设备直接抓包就可以直接识别为 Raw Packet data
#打卡不停更# calico IPIP 跨节点通信-鸿蒙开发者社区

#打卡不停更# calico IPIP 跨节点通信-鸿蒙开发者社区
#打卡不停更# calico IPIP 跨节点通信-鸿蒙开发者社区

TUN/TAP/Tunl

TUN 是 Linux 内核提供的特性,一端在内核协议栈,另一端在用户空间,负责对用户空间和内核协议栈进行报文转发,特点是 TUN 是三层通信,只有 IP地址,没有 MAC 地址,比如 Flannel UDP 模式。

TAP 也是 Linux 内核提供的特性,所有的 veth-pair 都是二层设备,特点是二层通信,具有 MAC 地址。

Tunl 特点也是三层通信,只有 IP 地址,没有 MAC 地址,也是 Raw Data,但是它的两端都在内核空间,并没有在用户空间,这个是和 TUN 设备最大的区别。

TUN 和 tunl 设备不是同一个设备,虽然都是 RAW data,都是三层,但是 calico tunl 的一端并没有在用户空间里,两端都在内核空间,不然 Flannel IPIP 和 Flannel UDP 没有区别。

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
分类
收藏
回复
举报
回复
    相关推荐