一、从inode了解Linux文件系统
硬链接与软链接是Linux文件系统中的一个重要概念,其涉及文件系统中的索引节点 (index node 又称 inode),而索引节点对象是 Linux 虚拟文件系统 (VFS) 的四个基本概念之一。通过剖析硬链接与软链接的联系与区别,我们可更好的了解Linux中VFS这一通用文件模型。并让Linux普通用户和系统管理员正确使用硬链接与软链接,帮助文件系统开发者获取inode的相关知识。
二、Linux的文件与目录
现代操作系统为解决信息能独立于进程之外被长期存储引入了文件,文件作为进程创建信息的逻辑单元可被多个进程并发使用。在 UNIX 系统中,操作系统为磁盘上的文本与图像、鼠标与键盘等输入设备及网络交互等 I/O 操作设计了一组通用 API,使他们被处理时均可统一使用字节流方式。换言之,UNIX 系统中除进程之外的一切皆是文件,而Linux保持了这一特性。为了便于文件的管理,Linux还引入了目录(有时亦被称为文件夹)这一概念。目录使文件可被分类管理,且目录的引入使Linux的文件系统形成一个层级结构的目录树。
Linux与其他类 UNIX 系统一样并不区分文件与目录:目录是记录了其他文件名的文件。使用命令 mkdir 创建目录时,若期望创建的目录的名称与现有的文件名(或目录名)重复,则会创建失败。
1 2 3 4 5 6 |
$ ls -F /usr/bin/zi* /usr/bin/zip* /usr/bin/zipgrep* /usr/bin/zipnote* /usr/bin/zipcloak* /usr/bin/zipinfo* /usr/bin/zipsplit* $ mkdir -p /usr/bin/zip mkdir: cannot create directory `/usr/bin/zip': File exists |
三、硬链接与软链接的联系与区别
我们知道文件都有文件名与数据,这在Linux上被分成两个部分:用户数据 (user data) 与元数据 (metadata)。用户数据,即文件数据块 (data block),数据块是记录文件真实内容的地方;而元数据则是文件的附加属性,如文件大小、创建时间、所有者等信息。在 Linux 中,元数据中的 inode 号(inode 是文件元数据的一部分但其并不包含文件名,inode 号即索引节点号)才是文件的唯一标识而非文件名。文件名仅是为了方便人们的记忆和使用,系统或程序通过 inode 号寻找正确的文件数据块。图 1展示了程序通过文件名获取文件内容的过程。
在Linux系统中查看inode号可使用命令stat 或 ls -i(若是 AIX 系统,则使用命令istat)。使用命令 mv 移动并重命名文件 glibc-2.16.0.tar.xz,其结果不影响文件的用户数据及 inode 号,文件移动前后 inode 号均为:2485677,操作如下:
1 2 3 4 5 6 7 8 9 10 |
$ stat /home/harris/source/glibc-2.16.0.tar.xz File: `/home/harris/source/glibc-2.16.0.tar.xz' Size: 9990512 Blocks: 19520 IO Block: 4096 regular file Device: 807h/2055d Inode: 2485677 Links: 1 Access: (0600/-rw-------) Uid: ( 1000/ harris) Gid: ( 1000/ harris) ... ... $ mv /home/harris/source/glibc-2.16.0.tar.xz /home/harris/Desktop/glibc.tar.xz $ ls -i -F /home/harris/Desktop/glibc.tar.xz 2485677 /home/harris/Desktop/glibc.tar.xz |
为解决文件的共享使用,Linux系统引入了两种链接:硬链接 (hard link) 与软链接(又称符号链接,即soft link或symbolic link)。链接为Linux系统解决了文件的共享使用,还带来了隐藏文件路径、增加权限安全及节省存储等好处。若一个inode号对应多个文件名,则称这些文件为硬链接。换言之,硬链接就是同一个文件使用了多个别名(见图 2.hard link就是file的一个别名,他们有共同的 inode)。
简单来说,就是有多个文件名对应到同一个inode号码,注意,是多个文件名,不是多个文件。一般来说,使用硬连接(hard link)设置连接文件,磁盘的空间与inode的数目是不会变的,它只是在某个目录下的block多写入一个关联数据而已,既不会耗用inode也不会耗用block数量。硬链接可由命令link或ln创建。如下是对文件/etc/crontab创建硬链接。
1 2 3 4 |
$ ln /etc/crontab /root/crontab $ ll -i /etc/crontab /root/crontab 920065 -rw-r--r-- 2 root root 496 5月 7 19:43 /etc/crontab 920065 -rw-r--r-- 2 root root 496 5月 7 19:43 /root/crontab |
可能你会反驳说,不对,建立/root/crontab的那个文件不也需要一个inode和block吗?其实不是这样理解的,因为/root这个目录早已在,而它里面的内容也早已记录在这个block中,即无论你添加还是不添加一个硬连接和它所指向的那个目录的block都已经存在了,你建立的硬连接只是在这个inode1所指向的block中添加一条文件名的记录而已,在这个例子中,就是添加/root/crontab这条记录。所以没有增加inode和block的耗用。
由于硬链接是有着相同inode号仅文件名不同的文件,因此硬链接存在以下几点特性:
- 文件有相同的 inode 及 data block;
- 只能对已存在的文件进行创建;
- 不能交叉文件系统进行硬链接的创建;
- 不能对目录进行创建,只可对文件创建;
- 删除一个硬链接文件并不影响其他有相同 inode 号的文件。
值得一提的是,Linux 系统存在 inode 号被用完但磁盘空间还有剩余的情况。我们创建一个 5M 大小的 ext4 类型的mo.img文件,并将其挂载至目录/mnt。然后我们使用一个 shell 脚本将挂载在 /mnt 下ext4文件系统的indoe耗尽。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 |
$ dd if=/dev/zero of=mo.img bs=5120k count=1 $ ls -lh mo.img -rw-r--r-- 1 root root 5.0M Sep 1 17:54 mo.img $ mkfs -t ext4 -F ./mo.img ... OS type: Linux Block size=1024 (log=0) Fragment size=1024 (log=0) Stride=0 blocks, Stripe width=0 blocks 1280 inodes, 5120 blocks 256 blocks (5.00%) reserved for the super user ... ... Writing superblocks and filesystem accounting information: done $ mount -o loop ./mo.img /mnt $ cat /mnt/inode_test.sh #!/bin/bash for ((i = 1; ; i++)) do if [ $? -eq 0 ]; then echo "This is file_$i" > file_$i else exit 0 fi done $ ./inode_test.sh $ ./inode_test.sh: line 6: file_1269: No space left on device $ df -iT /mnt/; du -sh /mnt/ Filesystem Type Inodes IUsed IFree IUse% Mounted on /dev/loop0 ext4 1280 1280 0 100% /mnt 1.3M /mnt/ |
硬链接不能对目录创建是受限于文件系统的设计。现Linux文件系统中的目录均隐藏了两个个特殊的目录:当前目录(.)与父目录(..)。查看这两个特殊目录的 inode 号可知其实这两目录就是两个硬链接(注意目录 /mnt/lost+found/的inode号)。若系统允许对目录创建硬链接,则会产生目录环。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
$ ls -aliF /mnt/lost+found total 44 11 drwx------ 2 root root 12288 Sep 1 17:54 ./ 2 drwxr-xr-x 3 root root 31744 Sep 1 17:57 ../ $ stat /mnt/lost+found/ File: `/mnt/lost+found/' Size: 12288 Blocks: 24 IO Block: 1024 directory Device: 700h/1792d Inode: 11 Links: 2 Access: (0700/drwx------) Uid: ( 0/ root) Gid: ( 0/ root) Access: 2016-09-01 17:57:17.000000000 +0800 Modify: 2016-09-01 17:54:49.000000000 +0800 Change: 2016-09-01 17:54:49.000000000 +0800 Birth: - |
软链接与硬链接不同,若文件用户数据块中存放的内容是另一文件的路径名的指向,则该文件就是软连接。软链接就是一个普通文件,只是数据块内容有点特殊。软链接有着自己的 inode 号以及用户数据块(见图2)。因此软链接的创建与使用没有类似硬链接的诸多限制:
- 软链接有自己的文件属性及权限等;
- 可对不存在的文件或目录创建软链接;
- 软链接可交叉文件系统;
- 软链接可对文件或目录创建;
- 创建软链接时,链接计数 i_nlink 不会增加;
- 删除软链接并不影响被指向的文件,但若被指向的原文件被删除,则相关软连接被称为死链接(即 dangling link,若被指向路径文件被重新创建,死链接可恢复为正常的软链接)。
测试操作:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
# 可对不存在的文件创建软链接; $ ln -s old.file soft.link $ ls -liF total 0 789467 lrwxrwxrwx 1 root root 8 Sep 1 18:00 soft.link -> old.file # 由于被指向的文件不存在,此时的软链接soft.link就是死链接; $ cat soft.link cat: soft.link: No such file or directory # 创建被指向的文件old.file,soft.link恢复成正常的软链接; $ echo "This is an original file_A" >> old.file $ cat soft.link This is an original file_A # 对不存在的目录创建软链接; $ ln -s old.dir soft.link.dir $ mkdir -p old.dir/test $ tree . -F --inodes . ├── [ 789497] old.dir/ │ └── [ 789498] test/ ├── [ 789495] old.file ├── [ 789495] soft.link -> old.file └── [ 789497] soft.link.dir -> old.dir/ |
当然软链接的用户数据也可以是另一个软链接的路径,其解析过程是递归的。但需注意:软链接创建时原文件的路径指向使用绝对路径较好。使用相对路径创建的软链接被移动后该软链接文件将成为一个死链接(如下所示的软链接a使用了相对路径,因此不宜被移动),因为链接数据块中记录的亦是相对路径指向。
1 2 3 4 5 |
$ ls -li total 2136 656627 lrwxrwxrwx 1 harris harris 8 Sep 1 14:37 a -> data.txt 656662 lrwxrwxrwx 1 harris harris 1 Sep 1 14:37 b -> a 656228 -rw------- 1 harris harris 2186738 Sep 1 14:37 data.txt 6 |
四、链接相关命令
在Linux中查看当前系统已挂着的文件系统类型,除上述使用的命令df,还可使用命令mount或查看文件/proc/mounts。命令 ls 或 stat 可帮助我们区分软链接与其他文件并查看文件 inode 号,但较好的方式还是使用 find 命令,其不仅可查找某文件的软链接,还可以用于查找相同 inode 的所有硬链接。
还可以查看系统的inode值,如查看磁盘分区/dev/sda7上的inode值,如下:
1 2 3 4 5 6 |
$ dumpe2fs -h /dev/sda7 | grep "Inode size" dumpe2fs 1.42 (29-Nov-2011) Inode size: 256 $ tune2fs -l /dev/sda7 | grep "Inode size" Inode size: 256 |
五、利用硬链接原理秒删MySQL大文件
原理:硬链接基础,当多个文件共同指向同一inode、inode链接数N>1、删除任何一个文件都是巨快。因为、此时删除的仅仅是指向inode的指针,而当N=1时、则不一样了、此时删除的文件相关的所有数据块、所以慢。
测试:
1 2 3 4 5 |
$ ln stock.ibd stock.id.hdlk $ ls stock.* -l -rw-rw—- 1 mysql mysql 9196 Apr 14 23:03 stock.frm -rw-r–r– 2 mysql mysql 19096666112 Apr 15 09:55 stock.ibd -rw-r–r– 2 mysql mysql 19096666112 Apr 15 09:55 stock.id.hdlk |
你会发现stock.ibd的INODES属性变成了2;
下面我们继续来删表。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
mysql> show table status like 'stock'\G *************************** 1. row *************************** Name: stock Engine: InnoDB Version: 10 Row_format: Compact Rows: 49916863 Avg_row_length: 356 Data_length: 17799577600 Max_data_length: 0 Index_length: 1025507328 Data_free: 4194304 Auto_increment: NULL Create_time: 2016-05-18 14:55:08 Update_time: NULL Check_time: NULL Collation: utf8_general_ci Checksum: NULL Create_options: Comment: 1 row in set (0.23 sec) mysql> drop table stock ; Query OK, 0 rows affected (0.99 sec) |
1秒不到就删除完成; 也就是DROP TABLE不用再HANG这么久了。但table是删除了,数据文件还在,所以你还需要最后数据文件给删除。
1 2 3 4 5 |
$ ll total 19096666112 -rw-r–r– 2 mysql mysql 19096666112 Apr 15 09:55 stock.id.hdlk $ rm stock.id.hdlk |
最后一步删除原始大文件也可以选择rsync来删除、比rm快多了:rsync秒删大文件。
1 |
$ rsync --delete-before -avH --progress --stats DEST SRC |
解释:当SRC和DEST性质都为文件【f】时,意思是清空文件内容而不是删除文件。当SRC和DEST性质都为目录【d】时,意思是删除该目录下的所有文件,使其变为空目录。
rsync实际上用的就是替换原理,处理速度相当快,处理几个G的文件也就是秒级的事、比rm要快很多倍;缺点就是对磁盘io的占用较高、业务高峰或要暂避。
六、Linux VFS
Linux有着极其丰富的文件系统,大体上可分如下几类:
1)网络文件系统,如 nfs、cifs 等;
2)磁盘文件系统,如 ext4、ext3 等;
3)特殊文件系统,如 proc、sysfs、ramfs、tmpfs等。
实现以上这些文件系统并在 Linux 下共存的基础就是 Linux VFS(Virtual File System 又称 Virtual Filesystem Switch),即虚拟文件系统。VFS 作为一个通用的文件系统,抽象了文件系统的四个基本概念:文件、目录项 (dentry)、索引节点 (inode) 及挂载点,其在内核中为用户空间层的文件系统提供了相关的接口(见 图 3.所示 VFS 在 Linux 系统的架构)。VFS 实现了 open()、read() 等系统调并使得 cp 等用户空间程序可跨文件系统。VFS 真正实现了上述内容中:在 Linux 中除进程之外一切皆是文件。
Linux VFS存在四个基本对象:超级块对象 (superblock object)、索引节点对象 (inode object)、目录项对象 (dentry object) 及文件对象 (file object)。超级块对象代表一个已安装的文件系统;索引节点对象代表一个文件;目录项对象代表一个目录项,如设备文件 event5 在路径 /dev/input/event5 中,其存在四个目录项对象:/ 、dev/ 、input/ 及 event5。文件对象代表由进程打开的文件。这四个对象与进程及磁盘文件间的关系如图 4. 所示,其中 d_inode 即为硬链接。为文件路径的快速解析,Linux VFS 设计了目录项缓存(Directory Entry Cache,即 dcache)。