docker 跨主机网络:overlay 简介

简介

docker 在早前的时候没有考虑跨主机的容器通信,这个特性直到 docker 1.9 才出现。在此之前,如果希望位于不同主机的容器能够通信,一般有几种方法:

  • 使用端口映射:直接把容器的服务端口映射到主机上,主机直接通过映射出来的端口通信
  • 把容器放到主机所在的网段:修改 docker 的 ip 分配网段和主机一致,还要修改主机的网络结构
  • 第三方项目:flannel,weave 或者 pipework 等,这些方案一般都是通过 SDN 搭建 overlay 网络达到容器通信的

随着 docker 1.9 的发布,一个新的网络模型被开发出来(后面会写一篇文章专门介绍 docker 的网络项目 libnetwork)。除了能更方便地按照需求来搭建自己的网络方案,这次发布还让 docker 具备了跨主机通信的功能。

这篇文章介绍 docker swarm,和 docker overlay 网络( docker 自带的跨主机网络模型),看看不同主机是怎么通信的。

使用 overlay 网络需要满足下面的这些条件:

  • 正常工作的 key-value 存储服务,比如 consul、etcd、zookeeper 等
  • 可以访问到 key-value 服务的主机集群
  • 集群中每台机器都安装并运行 docker daemon
  • 集群中每台机器的 hostname 都是唯一的,因为 key-value 服务是通过 hostname 标识每台主机的

安装 docker swarm 环境

注意: docker overlay 网络可以单独使用,不是必须和 swarm 绑定在一起的。这里使用 swarm,是因为它的简单易用,并且更容易说明问题。

先介绍一下 docker swarm, 这是 docker 开发的容器集群管理工具,和 docker API 兼容性很好,但目前功能不是很强大。

废话不多说,我们先来搭建一套 docker swarm 环境。这里的所有操作都是在我的机器上进行的,使用了 docker-machine 在 virtualbox 上面安装主机。docker-machine 提供了方便集成 swarm 的功能,所以安装起来并不复杂。

为了简化这个过程,我写了脚本来一键跑完这个过程(脚本我已经放到 github 上):

#!/bin/bash

set -e

create_kv() {
    echo Creating kvstore machine.
    docker-machine create -d virtualbox \
        --engine-opt="registry-mirror=http://houchaohann.m.alauda.cn" \
        kvstore
    docker $(docker-machine config kvstore) run -d \
        -p "8500:8500" \
        progrium/consul --server -bootstrap-expect 1
}

create_master() {
    echo Creating cluster master
    kvip=$(docker-machine ip kvstore)

    docker-machine create -d virtualbox \
        --swarm --swarm-master \
        --swarm-discovery="consul://${kvip}:8500" \
        --engine-opt="cluster-store=consul://${kvip}:8500" \
        --engine-opt="cluster-advertise=eth1:2376" \
        --engine-opt="registry-mirror=http://houchaohann.m.alauda.cn" \
        swarm-manager
}

create_nodes(){
    kvip=$(docker-machine ip kvstore)
    echo Creating cluster nodes
    for i in 1 2; do
        docker-machine create -d virtualbox \
            --swarm \
            --swarm-discovery="consul://${kvip}:8500" \
            --engine-opt="cluster-store=consul://${kvip}:8500" \
            --engine-opt="cluster-advertise=eth1:2376" \
            --engine-opt="registry-mirror=http://houchaohann.m.alauda.cn" \
            swarm-node${i}
    done
}


teardown(){
    docker-machine rm kvstore -y
    docker-machine rm -y swarm-manager
    for i in 1 2; do
        docker-machine rm -y swarm-node${i}
    done
}

case $1 in
    up)
        create_kv
        create_master
        create_nodes
        ;;
    down)
        teardown
        ;;
    *)
        echo "Unknow command..."
        exit 1
        ;;
esac

运行 ./cluster.sh up 就能自动生成四台机器:

  • 一台 kvstore运行 consul 服务
  • 一台 swarm master 机器,运行 swarm manager 服务
  • 两台 swarm node 机器,都是运行了 swarm node 服务和 docker daemon 服务

注意:上面的脚本设置了某国内厂家的 registry-mirror 来加速镜像的下载,你也可以根据自己的需求进行修改。

怎么验证集群已经正确安装呢?通过 client 和 swarm manager 交互,打印出来集群的状态就搞定了:

➜  eval $(docker-machine env --swarm swarm-manager)
➜  docker info
Containers: 4
 Running: 4
 Paused: 0
 Stopped: 0
Images: 3
Server Version: swarm/1.2.3
Role: primary
Strategy: spread
Filters: health, port, containerslots, dependency, affinity, constraint
Nodes: 3
 swarm-manager: 192.168.99.136:2376
  └ ID: NHHY:6GRG:PVKL:BUIX:Z4TH:626A:BCTR:UFBM:BAP5:H4BJ:DUPO:UMJ2
  └ Status: Healthy
  └ Containers: 2
  └ Reserved CPUs: 0 / 1
  └ Reserved Memory: 0 B / 1.021 GiB
  └ Labels: executiondriver=, kernelversion=4.4.12-boot2docker, operatingsystem=Boot2Docker 1.11.2 (TCL 7.1); HEAD : a6645c3 - Wed Jun  1 22:59:51 UTC 2016, provider=virtualbox, storagedriver=aufs
  └ UpdatedAt: 2016-06-13T04:20:30Z
  └ ServerVersion: 1.11.2
 swarm-node1: 192.168.99.137:2376
  └ ID: O7QX:ZL3Y:WOCG:W4PP:2GDF:RCMM:K5PB:VSZE:GXE5:4M6C:JPHE:BWHM
  └ Status: Healthy
  └ Containers: 1
  └ Reserved CPUs: 0 / 1
  └ Reserved Memory: 0 B / 1.021 GiB
  └ Labels: executiondriver=, kernelversion=4.4.12-boot2docker, operatingsystem=Boot2Docker 1.11.2 (TCL 7.1); HEAD : a6645c3 - Wed Jun  1 22:59:51 UTC 2016, provider=virtualbox, storagedriver=aufs
  └ UpdatedAt: 2016-06-13T04:20:46Z
  └ ServerVersion: 1.11.2
 swarm-node2: 192.168.99.138:2376
  └ ID: RX4S:4UJK:CNCE:IG4V:LP7Y:ZQDL:VGZM:SXUJ:7INW:5PS7:RDLI:AK6A
  └ Status: Healthy
  └ Containers: 1
  └ Reserved CPUs: 0 / 1
  └ Reserved Memory: 0 B / 1.021 GiB
  └ Labels: executiondriver=, kernelversion=4.4.12-boot2docker, operatingsystem=Boot2Docker 1.11.2 (TCL 7.1); HEAD : a6645c3 - Wed Jun  1 22:59:51 UTC 2016, provider=virtualbox, storagedriver=aufs
  └ UpdatedAt: 2016-06-13T04:20:48Z
  └ ServerVersion: 1.11.2
Plugins:
 Volume:
 Network:
Kernel Version: 4.4.12-boot2docker
Operating System: linux
Architecture: amd64
CPUs: 3
Total Memory: 3.063 GiB
Name: 729089ea0dca
Docker Root Dir:
Debug mode (client): false
Debug mode (server): false
WARNING: No kernel memory limit support

可以看到和单机的 docker info 不同的是:这里还打印出了集群的信息,以及集群中每台机器的信息。

注意:使用 eval 命令的时候多了 --swarm 参数,这样环境变量就会设置成和 swarm API 打交道啦。

创建 overlay 网络和容器

好了,环境准备 ok,正式开工吧! 下面创建 overlay network multi,然后创建两个容器放到这个网络,最后测试两个容器的连通性!

先创建 overlay 网络:

➜  docker network create -d overlay net1
b29b16fae0516e5cde7d5a044b19fcbb62033ff1b4c3d4ba7a558e396bf47e5f
➜  docker network ls
NETWORK ID          NAME                   DRIVER
b29b16fae051        net1                   overlay
edc4e05afb08        swarm-manager/bridge   bridge
14298a4c6e37        swarm-manager/host     host
c9ca0f7f09b4        swarm-manager/none     null
95429bdaf5cf        swarm-node1/bridge     bridge
641ede08038e        swarm-node1/host       host
aaf1710f8f1b        swarm-node1/none       null
9a12b0e2b2da        swarm-node2/bridge     bridge
a9eafa21c06d        swarm-node2/host       host
7a6015ebbc99        swarm-node2/none       null

docker network 命令原来管理容器的网络,第一个命令我们创建了一个名字叫 net1 的 overlay,第二个命令查看目前所有的网络。可以发现:

  • 每台机器上已经有了 bridge、host、none 三种网络,对应于我们之前讲过的容器网络模式
  • overlay network 不属于任何一台主机,它属于整个集群

注:更多网络的命令可以参考 docker network --help 帮助文档。为了防止网段冲突,可以使用 --subnet 参数指定创建的网段。

简单起见,我们就创建两个 busybox 容器好了。

➜  docker run -d --net=net1 --name=c1 busybox top
a7de0f1173f62518deb0364ec802133e15605bee5bc20b758cb734f668286b60
➜  docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES
a7de0f1173f6        busybox             "top"               8 seconds ago       Up 6 seconds                            swarm-node2/c1

只要使用 --net 指定网络名字,我们创建的容器就在对应的网络啦!docker ps 可以看到 NAMES 一栏,容器名字之前还有所在主机的名字。

为了保证第二个容器放到另外一台主机上,我们使用 docker swarm 提供的功能做到这一点。

➜  docker run -d --net=net1 --name=c2 -e constraint:node==swarm-node1 busybox top
20b0c909cbf8e83782f8744cb62cbf2dc142098254c92d74ef30dbfaf3e0c677
➜  docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES
20b0c909cbf8        busybox             "top"               4 seconds ago       Up 3 seconds                            swarm-node1/c2
a7de0f1173f6        busybox             "top"               7 minutes ago       Up 7 minutes                            swarm-node2/c1

注:更多关于 swarm 调度的内容可以参考官方教程,这里就不多讲了。

看一下 net1 的详情:

➜  docker network inspect net1
[
    {
        "Name": "net1",
        "Id": "b29b16fae0516e5cde7d5a044b19fcbb62033ff1b4c3d4ba7a558e396bf47e5f",
        "Scope": "global",
        "Driver": "overlay",
        "EnableIPv6": false,
        "IPAM": {
            "Driver": "default",
            "Options": {},
            "Config": [
                {
                    "Subnet": "10.0.0.0/24",
                    "Gateway": "10.0.0.1/24"
                }
            ]
        },
        "Internal": false,
        "Containers": {
            "20b0c909cbf8e83782f8744cb62cbf2dc142098254c92d74ef30dbfaf3e0c677": {
                "Name": "c2",
                "EndpointID": "22bf7a8621f4bc1ccdfd5c46d7514da88ab8f0a541da6e0851b6afe4ed3b49ac",
                "MacAddress": "02:42:0a:00:00:03",
                "IPv4Address": "10.0.0.3/24",
                "IPv6Address": ""
            },
            "a7de0f1173f62518deb0364ec802133e15605bee5bc20b758cb734f668286b60": {
                "Name": "c1",
                "EndpointID": "ccfe9fdb12389c1bada0d4473be16e84d20aff0fef9ae7f86fcfc21e218c4e3e",
                "MacAddress": "02:42:0a:00:00:02",
                "IPv4Address": "10.0.0.2/24",
                "IPv6Address": ""
            }
        },
        "Options": {},
        "Labels": {}
    }
]

可以看到 overlay 的基本信息,还有我们刚刚创建容器的网络信息也在里面。下面就测试一下两个容器能否互相 ping 通:

➜  docker exec c1 ping -c 3 10.0.0.3
PING 10.0.0.3 (10.0.0.3): 56 data bytes
64 bytes from 10.0.0.3: seq=0 ttl=64 time=0.476 ms
64 bytes from 10.0.0.3: seq=1 ttl=64 time=0.484 ms
64 bytes from 10.0.0.3: seq=2 ttl=64 time=0.615 ms

--- 10.0.0.3 ping statistics ---
3 packets transmitted, 3 packets received, 0% packet loss
round-trip min/avg/max = 0.476/0.525/0.615 ms

➜  docker exec c2 ping -c 3 10.0.0.2
PING 10.0.0.2 (10.0.0.2): 56 data bytes
64 bytes from 10.0.0.2: seq=0 ttl=64 time=0.572 ms
64 bytes from 10.0.0.2: seq=1 ttl=64 time=0.745 ms
64 bytes from 10.0.0.2: seq=2 ttl=64 time=0.626 ms

--- 10.0.0.2 ping statistics ---
3 packets transmitted, 3 packets received, 0% packet loss
round-trip min/avg/max = 0.572/0.647/0.745 ms

➜  docker exec c2 ping -c 3 c1
PING c1 (10.0.0.2): 56 data bytes
64 bytes from 10.0.0.2: seq=0 ttl=64 time=1.075 ms
64 bytes from 10.0.0.2: seq=1 ttl=64 time=0.506 ms
64 bytes from 10.0.0.2: seq=2 ttl=64 time=0.502 ms

--- c1 ping statistics ---
3 packets transmitted, 3 packets received, 0% packet loss
round-trip min/avg/max = 0.502/0.694/1.075 ms

注意:在最后一个命令中,直接使用容器的名字也能 ping 通。

实验就此完成,我们已经看到即使在两台不同的主机上,在同一个 overlay 网络中的容器也是联通的。你可以自己多创建几个 overlay 网络,多创建几个更有用的容器试一下。

那么,最后一个部分就讲讲 docker 是怎么实现 overlay 网络的通信的!

overlay 网络模型分析

先进入到容器里看一下网络情况:

➜  docker exec c1 ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host
       valid_lft forever preferred_lft forever
10: eth0@if11: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1450 qdisc noqueue
    link/ether 02:42:0a:00:00:02 brd ff:ff:ff:ff:ff:ff
    inet 10.0.0.2/24 scope global eth0
       valid_lft forever preferred_lft forever
    inet6 fe80::42:aff:fe00:2/64 scope link
       valid_lft forever preferred_lft forever
13: eth1@if14: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue
    link/ether 02:42:ac:12:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.18.0.2/16 scope global eth1
       valid_lft forever preferred_lft forever
    inet6 fe80::42:acff:fe12:2/64 scope link
       valid_lft forever preferred_lft forever

发现容器有两个网口 eth0eth1,其中 eth0 是我们在 docker network inspect 中看到的,它是 veth pair 中的一个,对应着 if11 网络端口;另外一个属于 172.18.0.1/16 网段,并不是 docker0 所在的 172.17.0.1/16,它对应的 veth pair 是 if14。interesting!这个疑问我们先不要管,继续看网络的路由,发现两个网段也都有自己的路由规则:

➜  docker exec c1 ip route
default via 172.18.0.1 dev eth1
10.0.0.0/24 dev eth0  src 10.0.0.2
172.18.0.0/16 dev eth1  src 172.18.0.2

除了多出来一个网段,并没有看到什么奇怪的东西。那么,主机上的情况呢?

docker@swarm-node2:~$ ip addr

3: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
    link/ether 08:00:27:d8:58:ef brd ff:ff:ff:ff:ff:ff
    inet 10.0.2.15/24 brd 10.0.2.255 scope global eth0
       valid_lft forever preferred_lft forever
    inet6 fe80::a00:27ff:fed8:58ef/64 scope link
       valid_lft forever preferred_lft forever
4: eth1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
    link/ether 08:00:27:3f:12:de brd ff:ff:ff:ff:ff:ff
    inet 192.168.99.138/24 brd 192.168.99.255 scope global eth1
       valid_lft forever preferred_lft forever
    inet6 fe80::a00:27ff:fe3f:12de/64 scope link
       valid_lft forever preferred_lft forever
5: docker0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default
    link/ether 02:42:a7:36:e5:66 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.1/16 scope global docker0
       valid_lft forever preferred_lft forever
    inet6 fe80::42:a7ff:fe36:e566/64 scope link
       valid_lft forever preferred_lft forever
7: veth0a68563@if6: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue master docker0 state UP group default
    link/ether 9a:39:cb:60:0f:29 brd ff:ff:ff:ff:ff:ff
    inet6 fe80::9839:cbff:fe60:f29/64 scope link
       valid_lft forever preferred_lft forever
12: docker_gwbridge: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default
    link/ether 02:42:e4:b2:28:24 brd ff:ff:ff:ff:ff:ff
    inet 172.18.0.1/16 scope global docker_gwbridge
       valid_lft forever preferred_lft forever
    inet6 fe80::42:e4ff:feb2:2824/64 scope link
       valid_lft forever preferred_lft forever
14: veth3fcaaef@if13: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue master docker_gwbridge state UP group default
    link/ether be:a1:f9:a3:a4:3e brd ff:ff:ff:ff:ff:ff
    inet6 fe80::bca1:f9ff:fea3:a43e/64 scope link
       valid_lft forever preferred_lft forever

除了 docker0 之外,还多了 docker_gwbridge 这个网口。并且找到了 if14 这个端口,它对应的 if13 就是容器里的 eth1。而且 if13 对应的网段就是 docker_gwbridge 所在的网段, 使用 brctl 命令也发现 veth 网口是绑定到 docker_gwbridge,而不是 docker0 的。

现在搞明白了一件事:容器中 eth1 是连接到新创立的 docker_gwbridge 虚拟网桥上,它的作用和之前 docker0 一样,专门做 overlay 网络中的通主机上容器的通信、容器和外部的通信工作。问题是:容器的 eth0,也就是 overlay 网络为什么看不到信息呢?

自然,我们就想到它们一定是在独立的 network namespace,被隐藏了起来。为了方便,我们先把它们找出来,连接到 ip netns 能管理的地方:

sudo ln -s /var/run/docker/netns /var/run/netns

然后,执行 ip netns ls 就能看到所有在 netns:

root@swarm-node2:/home/docker# ip netns ls
24aba2d4f90a
1-b29b16fae0
8882bdcea169

哎!我们发现了三个 namespace:一个容器 c1,一个属于容器 swarm agent,那么另外一个就属于 overlay 啦!而且很容器猜想那个名称中有 - 符号的很可能是 overlay 网络创建的 namespace:

root@swarm-node2:/home/docker# ip netns exec 1-b29b16fae0 ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host
       valid_lft forever preferred_lft forever
2: br0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1450 qdisc noqueue state UP group default
    link/ether 6e:b8:1f:82:13:63 brd ff:ff:ff:ff:ff:ff
    inet 10.0.0.1/24 scope global br0
       valid_lft forever preferred_lft forever
    inet6 fe80::68e0:f0ff:fe19:e88c/64 scope link
       valid_lft forever preferred_lft forever
9: vxlan1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue master br0 state UNKNOWN group default
    link/ether 6e:b8:1f:82:13:63 brd ff:ff:ff:ff:ff:ff
    inet6 fe80::6cb8:1fff:fe82:1363/64 scope link
       valid_lft forever preferred_lft forever
11: veth2@if10: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1450 qdisc noqueue master br0 state UP group default
    link/ether d2:83:53:55:8c:98 brd ff:ff:ff:ff:ff:ff
    inet6 fe80::d083:53ff:fe55:8c98/64 scope link
       valid_lft forever preferred_lft forever

果然!我们在这里找到了消失的 if11,之外,还有两个重要的发现:br0vxlan1。通过名字和网段,我们猜测 br0 是这里的虚拟网桥,那么 vxlan1 虽然不知道具体做什么的,但应该和 VxLAN 有关。

这个 namespace 的路由规则很简单,都是发送到 br0 的。

root@swarm-node2:/home/docker# ip netns exec 1-b29b16fae0 ip route
10.0.0.0/24 dev br0  proto kernel  scope link  src 10.0.0.1

我们继续看 vxlan1 这个东西,使用 ip -d link 命令查看它的类型:

root@swarm-node2:/home/docker# ip netns exec 1-b29b16fae0 ip -d link
2: br0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1450 qdisc noqueue state UP mode DEFAULT group default
    link/ether 6e:b8:1f:82:13:63 brd ff:ff:ff:ff:ff:ff promiscuity 0
    bridge
9: vxlan1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue master br0 state UNKNOWN mode DEFAULT group default
    link/ether 6e:b8:1f:82:13:63 brd ff:ff:ff:ff:ff:ff promiscuity 1
    vxlan id 256 srcport 0 0 dstport 4789 proxy l2miss l3miss ageing 300
    bridge_slave
11: veth2@if10: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1450 qdisc noqueue master br0 state UP mode DEFAULT group default
    link/ether d2:83:53:55:8c:98 brd ff:ff:ff:ff:ff:ff promiscuity 1
    veth
    bridge_slave

发现它是 vxlan 类型的,并且和 veth2 一样是 bridge 的 salve(也就是连到虚拟网桥的)。这里就需要了解一点 vxlan 的知识了:这里的 vxlan1 是一个 VTEP(全称是 VXLAN Tunnel End-Point),VxLAN 的隧道端点,它是 VxLAN 中重要的部分,所有数据报文的校验、封装和转发都是在这里进行的。

注:VxLAN 是一个复杂的概念,这里只需要理解所有的数据报文都是在这里转发,发送到主机的网络就行了。

下面看看 c1(10.0.0.2) 发送的 ping 报文是怎么发送到 c2(10.0.0.3) 的:

  1. c1 找到路由发现目的 ip 可以直达,于是发送 arp 报文找到目标的 mac 地址,封包,通过 eth0 发送出去
  2. 报文传输到 veth pair 的另外一端 veth2,并发送到其绑定的虚拟交换机 br0
  3. br0 会将报文转交给 vxlan1,这里可以参考 arp 地址来确定这一点:

     root@swarm-node2:/home/docker# ip netns exec 1-b29b16fae0 ip neigh
     10.0.0.3 dev vxlan1 lladdr 02:42:0a:00:00:03 PERMANENT
    
  4. vxlan 会查询 consul 中保存的目的主机地址,完成报文的封装并通过主机地址 eth1 转发出去
  5. 通过中间网络和路由,报文被发送到目的主机
  6. 目的主机介绍到报文,发现是 VxLAN 报文,把它转交给 vxlan 设备,也就是 vxlan1 处理
  7. vxlan1 解包,取出里面被封装的报文,把它转交给 br0
  8. br0 发现本文是发送到连到它上面的某个容器的,将报文交给容器

参考资料

comments powered by Disqus