容器服务Docker&Kubernetes + 关注
手机版

《自己动手写Docker》书摘之三: Linux UnionFS

  1. 云栖社区>
  2. 容器服务Docker&Kubernetes>
  3. 博客>
  4. 正文

《自己动手写Docker》书摘之三: Linux UnionFS

嫀嫀 发布时间:2016-11-28 21:01:58 浏览5760 评论0

摘要: UnionFS unionfs是一种为Linux,FreeBSD和NetBSD操作系统设计的把其他文件系统联合到一个联合挂载点的文件系统服务。它使用branch把不同文件系统的文件和目录“透明地”覆盖,形成一个单一一致的文件系统。

UnionFS

UnionFS是一种为Linux,FreeBSD和NetBSD操作系统设计的把其他文件系统联合到一个联合挂载点的文件系统服务。它使用branch把不同文件系统的文件和目录“透明地”覆盖,形成一个单一一致的文件系统。这些branches或者是read-only或者是read-write的,所以当对这个虚拟后的联合文件系统进行写操作的时候,系统是真正写到了一个新的文件中。看起来这个虚拟后的联合文件系统是可以对任何文件进行操作的,但是其实它并没有改变原来的文件,这是因为unionfs用到了一个重要的资管管理技术叫写时复制。

写时复制(copy-on-write,下文简称CoW),也叫隐式共享,是一种对可修改资源实现高效复制的资源管理技术。它的思想是,如果一个资源是重复的,但没有任何修改,这时候并不需要立即创建一个新的资源;这个资源可以被新旧实例共享。创建新资源发生在第一次写操作,也就是对资源进行修改的时候。通过这种资源共享的方式,可以显著地减少未修改资源复制带来的消耗,但是也会在进行资源修改的时候增减小部分的开销。

用一个经典的例子来解释一下,Knoppix,一个用于Linux演示、光盘教学和商业产品演示的Linux发行版,就是把一个CD-ROM或者DVD和一个存在在可读写设备(eg,U盘)上的叫knoppix.img的文件系统联合起来。这样任何对CD/DVD上文件的改动都会在被应用在U盘上,不改变原来的CD/DVD上的内容。

AUFS

AUFS,英文全称是Advanced multi-layered unification filesystem, 曾经也叫 Acronym multi-layered unification filesystem,Another multi-layered unification filesystem。AUFS完全重写了早期的UnionFS 1.x,其主要目的是为了可靠性和性能,并且引入了一些新的功能,比如可写分支的负载均衡。AUFS的一些实现已经被纳入UnionFS 2.x版本。

Docker是如何使用AUFS的

AUFS是Docker选用的第一种存储驱动。AUFS具有快速启动容器,高效利用存储和内存的优点,直到现在AUFS仍然是Docker支持的一种存储驱动类型。接下来我们要介绍Docker是如何利用AUFS存储images和containers的。

image layer和AUFS

每一个Docker image都是由一系列的read-only layers组成。image layers的内容都存储在Docker hosts filesystem的/var/lib/docker/aufs/diff目录下。而/var/lib/docker/aufs/layers目录则存储着image layer如何堆栈这些layer的metadata。

准备一台安装了Docker 1.11.2的ECS。在没有拉取任何镜像,启动任何容器的情况下,执行ls /var/lib/docker/aufs/diff命令,发现目录没有存储任何内容。拉取Ubuntu:15.04镜像,然后再次执行ls /var/lib/docker/aufs/diff命令。我们可以看到在docker pull的结果显示ubuntu:15.04镜像一共有4个layers,在执行ls /var/lib/docker/aufs/diff命令的结果中也有四个对应的存储文件目录。这里有一点需要说明的是,自从Docker 1.10之后,diff目录下的存储镜像layer文件夹不再与镜像ID相同。最后cat /var/lib/docker/aufs/layers/6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea命令列出来的是堆栈里位于6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea layer下方的layers。

$ docker pull ubuntu:15.04
15.04: Pulling from library/ubuntu
9502adfba7f1: Pull complete
4332ffb06e4b: Pull complete
2f937cc07b5f: Pull complete
a3ed95caeb02: Pull complete
Digest: sha256:2fb27e433b3ecccea2a14e794875b086711f5d49953ef173d8a03e8707f1510f
Status: Downloaded newer image for ubuntu:15.04

$ ls /var/lib/docker/aufs/diff
208319b22189a2c3841bc4a4ef0df9f9238a3e832dc403133fb8ad4a6c22b01b  9c444e426a4a0aa3ad8ff162dd7bcd4dcbb2e55bdec268b24666171904c17573
6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea  f193107618deb441376a54901bc9115f30473c1ec792b7fb3e73a98119e2cf77

$ ls /var/lib/docker/aufs/mnt
208319b22189a2c3841bc4a4ef0df9f9238a3e832dc403133fb8ad4a6c22b01b  9c444e426a4a0aa3ad8ff162dd7bcd4dcbb2e55bdec268b24666171904c17573
6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea  f193107618deb441376a54901bc9115f30473c1ec792b7fb3e73a98119e2cf77

$ cat /var/lib/docker/aufs/layers/6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea
9c444e426a4a0aa3ad8ff162dd7bcd4dcbb2e55bdec268b24666171904c17573
f193107618deb441376a54901bc9115f30473c1ec792b7fb3e73a98119e2cf77
208319b22189a2c3841bc4a4ef0df9f9238a3e832dc403133fb8ad4a6c22b01b

接下来我们要以ubuntu:15.04镜像为基础镜像,创建一个名为changed-ubuntu的镜像。这个镜像只是在镜像的/tmp文件夹中添加一个写了“Hello world”的文件。你可以使用下面的Dockerfile来实现:

 FROM ubuntu:15.04

 RUN echo "Hello world" > /tmp/newfile

在terminal中cd到上面Dockerfile所在位置,执行docker build -t changed-ubuntu .命令来build镜像。

$docker build -t changed-ubuntu .
Sending build context to Docker daemon 10.75 kB
Step 1 : FROM ubuntu:15.04
 ---> d1b55fd07600
Step 2 : RUN echo "Hello world" > /tmp/newfile
 ---> Running in c72100f81dd1
 ---> 9d8602c9aee1
Removing intermediate container c72100f81dd1
Successfully built 9d8602c9aee1

然后执行docker images查看现在的镜像,可以看到新生成的changed-ubuntu。

$docker images
REPOSITORY          TAG                 IMAGE ID            CREATED              SIZE
changed-ubuntu      latest              9d8602c9aee1        About a minute ago   131.3 MB
ubuntu              15.04               d1b55fd07600        10 months ago        131.3 MB

使用docker history changed-ubuntu命令可以清楚地查看到changed-ubuntu镜像使用了哪些image layers。从输出中可以看到9d8602c9aee1 image layer位于最上层,只有12B的大小,就是由/bin/sh -c echo "Hello world" > /tmp/newfile命令创建的。也就是说changed-ubuntu镜像只占用了12Bytes的磁盘空间,这也证明了AUFS是如何高效使用磁盘空间的。而下面的四层image layers则是共享的构成ubuntu:15.04镜像的4个image layers。“missing”标记的layers是自Docker 1.10之后,一个镜像的image layers的image history数据都存储在一个文件中导致,这是一个Docker官方认为的正常行为。

$docker history changed-ubuntu
IMAGE               CREATED             CREATED BY                                      SIZE                COMMENT
9d8602c9aee1        4 minutes ago       /bin/sh -c echo "Hello world" > /tmp/newfile    12 B
d1b55fd07600        10 months ago       /bin/sh -c #(nop) CMD ["/bin/bash"]             0 B
<missing>           10 months ago       /bin/sh -c sed -i 's/^#\s*\(deb.*universe\)$/   1.879 kB
<missing>           10 months ago       /bin/sh -c echo '#!/bin/sh' > /usr/sbin/polic   701 B
<missing>           10 months ago       /bin/sh -c #(nop) ADD file:3f4708cf445dc1b537   131.3 MB

接下来我们继续查看layers的存储信息,从输出中我们可以看到/var/lib/docker/aufs/diff目录和/var/lib/docker/aufs/mnt目录均多了一个文件夹9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e。当使用cat /var/lib/docker/aufs/layers/9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e命令来查看它的metadata时可以看到,它前面的layers就是ubuntu:15.04镜像所使用的4个image layers。进一步的探查/var/lib/docker/aufs/diff/9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e文件夹,发现其中存储了一个/tmp/newfile文件,文件中只有一行“Hello world”。至此,我们完整地分析出了image layer和AUFS是如何通过共享文件和文件夹来实现镜像存储的。

$ ls /var/lib/docker/aufs/diff
208319b22189a2c3841bc4a4ef0df9f9238a3e832dc403133fb8ad4a6c22b01b  9c444e426a4a0aa3ad8ff162dd7bcd4dcbb2e55bdec268b24666171904c17573  f193107618deb441376a54901bc9115f30473c1ec792b7fb3e73a98119e2cf77
6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea  9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e

$ ls /var/lib/docker/aufs/mnt
208319b22189a2c3841bc4a4ef0df9f9238a3e832dc403133fb8ad4a6c22b01b  9c444e426a4a0aa3ad8ff162dd7bcd4dcbb2e55bdec268b24666171904c17573  f193107618deb441376a54901bc9115f30473c1ec792b7fb3e73a98119e2cf77
6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea  9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e

$ cat /var/lib/docker/aufs/layers/9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e
6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea
9c444e426a4a0aa3ad8ff162dd7bcd4dcbb2e55bdec268b24666171904c17573
f193107618deb441376a54901bc9115f30473c1ec792b7fb3e73a98119e2cf77
208319b22189a2c3841bc4a4ef0df9f9238a3e832dc403133fb8ad4a6c22b01b

$ cat /var/lib/docker/aufs/diff/9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e/tmp/newfile
Hello world

container layer和AUFS

Docker使用AUFS的CoW技术来实现image layer共享和减少磁盘空间占用。CoW意味着一旦某个文件只有很小的部分有改动,AUFS也需要复制整个文件。这种设计会对容器性能产生一定的影响,尤其是在待拷贝的文件很大,或者位于很多image layers的下方,或AUFS需要深度搜索目录结构树的时候。不过也不用过度担心,对于一个容器,每一个image layer最多只需要拷贝一次。后续的改动都会在第一次拷贝的container layer上进行。

启动一个Container的时候,Docker会为其创建一个read-only的init layer,用来存储与这个容器内环境相关的内容;Docker还会为其创建一个read-write的layer用来执行所有写操作。

Container layer的mount目录也是/var/lib/docker/aufs/mnt。Container的metadata和配置文件都存放在/var/lib/docker/containers/目录中。Container的read-write layer存储在/var/lib/docker/aufs/diff/目录下。即使容器停止,这个可读写层仍然存在,因而重启容器不会丢失数据,只有当一个容器被删除的时候,这个可读写层才会一起删除。

接下来我们仍然用实验来证明上面的结论。首先查询现有的容器数目为0,而且在/var/lib/docker/containers目录下也没有查到任何数据。最后,查看下系统的aufs mount情况,只有一个config文件。

$ docker ps -a
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES

$ ls /var/lib/docker/containers

$ ls /sys/fs/aufs/

启动一个changed-ubuntu的容器。

$docker run -dit changed-ubuntu bash
fb5939d878bb0521008d63eb06adea75e6af275855f11879dfa3992dfdaa5e3f

$docker ps -a
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES
fb5939d878bb        changed-ubuntu      "bash"              28 seconds ago      Up 27 seconds                           amazing_babbage

查看/var/lib/docker/aufs/diff目录发现,下面多了两个文件夹,f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8就是Docker为容器创建的read-write layer,而f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8-init则是Docker为容器创建的read-only的init layer。

$ ls /var/lib/docker/aufs/diff
208319b22189a2c3841bc4a4ef0df9f9238a3e832dc403133fb8ad4a6c22b01b  9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e  f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8-init
6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea  f193107618deb441376a54901bc9115f30473c1ec792b7fb3e73a98119e2cf77
9c444e426a4a0aa3ad8ff162dd7bcd4dcbb2e55bdec268b24666171904c17573  f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8

/var/lib/docker/aufs/mnt目录的变化和/var/lib/docker/aufs/diff一致。

$ ls /var/lib/docker/aufs/mnt
208319b22189a2c3841bc4a4ef0df9f9238a3e832dc403133fb8ad4a6c22b01b  9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e  f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8-init
6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea  f193107618deb441376a54901bc9115f30473c1ec792b7fb3e73a98119e2cf77
9c444e426a4a0aa3ad8ff162dd7bcd4dcbb2e55bdec268b24666171904c17573  f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8

/var/lib/docker/aufs/layers/目录下多了与上文两个文件目录同名的文件,用cat命令可以清楚地看到其依赖layer的记录。

$ls /var/lib/docker/aufs/layers
208319b22189a2c3841bc4a4ef0df9f9238a3e832dc403133fb8ad4a6c22b01b  9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e  f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8-init
6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea  f193107618deb441376a54901bc9115f30473c1ec792b7fb3e73a98119e2cf77
9c444e426a4a0aa3ad8ff162dd7bcd4dcbb2e55bdec268b24666171904c17573  f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8

$ cat /var/lib/docker/aufs/layers/f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8
f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8-init
9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e
6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea
9c444e426a4a0aa3ad8ff162dd7bcd4dcbb2e55bdec268b24666171904c17573
f193107618deb441376a54901bc9115f30473c1ec792b7fb3e73a98119e2cf77
208319b22189a2c3841bc4a4ef0df9f9238a3e832dc403133fb8ad4a6c22b01b

$ cat /var/lib/docker/aufs/layers/f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8-init
9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e
6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea
9c444e426a4a0aa3ad8ff162dd7bcd4dcbb2e55bdec268b24666171904c17573
f193107618deb441376a54901bc9115f30473c1ec792b7fb3e73a98119e2cf77
208319b22189a2c3841bc4a4ef0df9f9238a3e832dc403133fb8ad4a6c22b01b

在/var/lib/docker/containers/目录下新建一个与containerid相同的文件夹,存放着容器的metadata和config文件。

$ ls /var/lib/docker/containers/
fb5939d878bb0521008d63eb06adea75e6af275855f11879dfa3992dfdaa5e3f

$ ls /var/lib/docker/containers/fb5939d878bb0521008d63eb06adea75e6af275855f11879dfa3992dfdaa5e3f/
config.v2.json  fb5939d878bb0521008d63eb06adea75e6af275855f11879dfa3992dfdaa5e3f-json.log  hostconfig.json  hostname  hosts  resolv.conf  resolv.conf.hash  shm

接下来我们从系统aufs来看mount的情况,在/sys/fs/aufs/目录下多了一个si_fe6d5733e85e4904文件夹。通过cat /sys/fs/aufs/si_fe6d5733e85e4904/*命令我们可以清楚地看到这就是我们刚刚起的容器的layer权限,只有最上面的f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8 layer是read-write权限。

$s /sys/fs/aufs/
config  si_fe6d5733e85e4904

$ cat /sys/fs/aufs/si_fe6d5733e85e4904/*
/var/lib/docker/aufs/diff/f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8=rw
/var/lib/docker/aufs/diff/f9ccf5caa9b7324f0ef112750caa14203b557d276ca08c78c23a42a949e2bfc8-init=ro+wh
/var/lib/docker/aufs/diff/9f122dbaa103338f27bac146326af38a2bcb52f98ebb3530cac828573faa3c4e=ro+wh
/var/lib/docker/aufs/diff/6bb19cb345da470e015ba3f1ca049a1c27d2c57ebc205ec165d2ad8a44e148ea=ro+wh
/var/lib/docker/aufs/diff/9c444e426a4a0aa3ad8ff162dd7bcd4dcbb2e55bdec268b24666171904c17573=ro+wh
/var/lib/docker/aufs/diff/f193107618deb441376a54901bc9115f30473c1ec792b7fb3e73a98119e2cf77=ro+wh
/var/lib/docker/aufs/diff/208319b22189a2c3841bc4a4ef0df9f9238a3e832dc403133fb8ad4a6c22b01b=ro+wh
64
65
66
67
68
69
70
/run/shm/aufs.xino

最后提下AUFS如何为Container删除一个文件。如果要删除file1,AUFS会在container的read-write层生成一个.wh.file1的文件来隐藏所有read-only层的file1文件。至此,我们已清楚地描述和验证了Docker是如何使用AUFS来管理container layers的。

自己动手写AUFS

下面我们自己动手用简单的命令来创建一个AUFS文件系统,感受下如何使用AUFS和CoW实现文件管理。
首先在你的实验目录下创建一个aufs的文件夹,然后在aufs目录下创建一个mnt的文件夹做过挂载点。接着在aufs目录下创建一个叫container-layer的文件夹,里面有一个名为container-layer.txt的文件,文件内容为I am container layer。同样地,继续在aufs目录下创建4个名为image-layer${n}的文件夹(n取值分别为1~4),里面有一个名为image-layer${n}.txt的文件,文件内容为I am image layer${n}。使用如下命令检查文件内容:

$ cd /home/qinyujia/aufs

$ ls
container-layer  image-layer1  image-layer2  image-layer3  image-layer4  mnt

$ cat container-layer.txt
I am container layer

$ cat image-layer1/image-layer1.txt
I am image layer 1

$cat image-layer2/image-layer2.txt
I am image layer 2

$ cat image-layer3/image-layer3.txt
I am image layer 3

$ cat image-layer4/image-layer4.txt
I am image layer 4

要联合的文件目录都已经准备好了,接下来我们把container-layer和4个名为image-layer${n}的文件夹使用aufs的方式来挂载到刚刚创建的mnt目录下。在mount aufs的命令中,我们没有指定待挂载的5个文件夹的权限,默认行为是,dirs指定的左边起第一个目录是read-write权限,后续的都是read-only权限。

$ sudo mount -t aufs -o dirs=./container-layer:./image-layer4:./image-layer3:./image-layer2:./image-layer1 none ./mnt

$ tree mnt
mnt
├── container-layer.txt
├── image-layer1.txt
├── image-layer2.txt
├── image-layer3.txt
└── image-layer4.txt

大家还记得上文中我们曾经在系统aufs目录下去查看文件的读写权限吗?这里我们依然使用cat /sys/fs/aufs/si_fe6d5733e85e5904/* 命令来确认新mount的文件系统中每个目录的权限。(注意si_fe6d5733e85e5904应该是系统为这个mnt挂载点新创建的,而非在介绍Docker和AUFS里面提到的那个文件夹)根据输出我们可以清楚地看到,只有container-layer文件夹是read-write的,其余都是read-only权限。

$ cat /sys/fs/aufs/si_fe6d5733e85e5904/*
/home/qinyujia/aufs/container-layer=rw
/home/qinyujia/aufs/image-layer4=ro
/home/qinyujia/aufs/image-layer3=ro
/home/qinyujia/aufs/image-layer2=ro
/home/qinyujia/aufs/image-layer1=ro
64
65
66
67
68
/home/qinyujia/aufs/container-layer/.aufs.xino

下面我们要执行一个有意思的操作,往mnt/image-layer1.txt文件末尾添加一行文字“write to mnt's image-layer1.txt”。根据上面我们介绍的CoW技术,大家猜想下会产生什么样的行为。

$ echo -e "\nwrite to mnt's image-layer1.txt" >> ./mnt/image-layer4.txt

我们用cat命令去查看mnt/image-layer4.txt文件内容,发现内容确实从“I am image layer 4”变成了
“I am image layer 4

write to mnt's image-layer1.txt”,因为mnt只是一个虚拟挂载点,因为我们继续去寻找文件到底修改在了什么位置。

$ cat ./mnt/image-layer4.txt
I am image layer 4

write to mnt's image-layer1.txt

我们查看image-layer4/image-layer4.txt文件内容,发现其并未改变。

$ cat image-layer4/image-layer4.txt
I am image layer 4

接下来,当我们检查container-layer文件夹的时候,发现多了一个名为image-layer4.txt的文件,文件的内容是
"I am image layer 4

write to mnt's image-layer1.txt"。也就是当我们尝试向mnt/image-layer4.txt文件进行写操作的时候,系统首先在mnt目录下查找名为image-layer4.txt的文件,将其拷贝到read-write层的container-layer目录中,接着对container-layer目录中的image-layer4.txt文件进行写操作。到此,我们成功地完成了一个小小的demo,实现了自己的AUFS文件系统。

$ ls container-layer/
container-layer.txt  image-layer4.txt

$cat container-layer/image-layer4.txt
I am image layer 4

write to mnt's image-layer1.txt

相关图书推荐<<自己动手写docker>>

_Docker_01_

【云栖快讯】云栖专辑 | 阿里开发者们的20个感悟,一通百通  详情请点击

网友评论