从顺序随机I/O原理来讨论MySQL MRR NLJ BNL BKA

一、机械磁盘原理

机械盘由动臂，盘片，读写磁头，主轴组成，磁头是固定不能动的，要读取相应的扇区只能通过盘片的旋转。每一个盘片为双面，每一个面上分布有同心圆的磁道，磁道又分为扇区一般为512 BYTES，现代的磁盘一般外边缘磁道的扇区多，内磁道的扇区少，那么一般读写外边缘磁道的速度更快，因为转速为定值。同时各个不同盘片上半径下同的磁道组成了一个柱面。

下图是一个典型的磁盘组织（摘取数据结构（C语言版））

如果我们计ts(seek time)为寻道时间，tl（latency time）为寻道完成后等待盘片旋转到特定扇区的时间tw（transmission time）为传输时间，那么读取一个扇区的时间为：T(I/0) = ts+tl+tw

显然在读取数据一定的情况下，ts和tl的时间成了决定因素，而事实上ts寻道时间相对其他而言占用更长，寻道时间在10毫秒的数量级，7200转的tl时间为1000/7200 约为 100微秒数量级，而传输时间更短。大量的随机I/O会造成频繁的磁道更换导致过长的时间，很可能读完几个扇区马上就要跳到另外的磁道，而顺序I/O则不然一次定位可以读取更多的扇区，从而尽量减少读取时间。

二、随机I/O和顺序I/O模拟

模拟使用C语言调用LINUX API完成，主要方式如下：读取一个大文件程序中限制为900M，而程序顺序和随机读取20000个4096大小的数据，并且复制到其他文件中，复制的文件为81920000字节。为了将写操作的影响降低，而将读操作的影响放大，分别使用O_CREAT | O_WRONLY | O_EXCL打开写文件，启用OS BUFFER，write操作写到OS kernel buffer则结束，同时不能开启O_SYNC，开启O_SYNC每一次wirte会调用fsync()，将写的影响将会放大。O_RDONLY | O_DIRECT打开读取文件，用O_DIRECT打开目的在于禁用OS CACHE当然也禁用了OS的预读，直接读取文件这方面摘取一张图便于理解，实际上我O_DIRECT后读取这个文件是不过内核高速缓存的。

当然这个程序有一点不足，我应该使用排序算法将随机数组中的数据排序后在进行读取，而不是取一个连续的数组。这样更能说明问题，但这也不重要，因为随机读已经慢得离谱了。下面是我程序跑出的结果。

$ ./a.out p10404530_112030_Linux-x86-64_1of7.zip
fisrt sca array: 134709
fisrt sca array: 198155
fisrt sca array: 25305
fisrt sca array: 46515
fisrt sca array: 91550
fisrt sca array: 137262
fisrt sca array: 46134
fisrt sca array: 10208
fisrt sca array: 142115
......
sequential cpy begin Time: Fri Dec  2 01:36:55 2016
begin cpy use sequential read buffer is 4k:
per 25 % ,Time:Fri Dec  2 01:36:56 2016
per 50 % ,Time:Fri Dec  2 01:36:57 2016
per 75 % ,Time:Fri Dec  2 01:36:57 2016
per 100 % ,Time:Fri Dec  2 01:36:58 2016

scattered cpy begin Time: Fri Dec  2 01:36:58 2016
begin cpy use scattered read read buffer is 4k:
per 25 % ,Time:Fri Dec  2 01:37:51 2016
per 50 % ,Time:Fri Dec  2 01:38:40 2016
per 75 % ,Time:Fri Dec  2 01:39:29 2016
per 100 % ,Time:Fri Dec  2 01:40:20 2016

$ ./a.out p10404530_112030_Linux-x86-64_1of7.zip

fisrt sca array: 134709

fisrt sca array: 198155

fisrt sca array: 25305

fisrt sca array: 46515

fisrt sca array: 91550

fisrt sca array: 137262

fisrt sca array: 46134

fisrt sca array: 10208

fisrt sca array: 142115

......

sequential cpy begin Time: Fri Dec 2 01:36:55 2016

begin cpy use sequential read buffer is 4k:

per 25 % ,Time:Fri Dec 2 01:36:56 2016

per 50 % ,Time:Fri Dec 2 01:36:57 2016

per 75 % ,Time:Fri Dec 2 01:36:57 2016

per 100 % ,Time:Fri Dec 2 01:36:58 2016

scattered cpy begin Time: Fri Dec 2 01:36:58 2016

begin cpy use scattered read read buffer is 4k:

per 25 % ,Time:Fri Dec 2 01:37:51 2016

per 50 % ,Time:Fri Dec 2 01:38:40 2016

per 75 % ,Time:Fri Dec 2 01:39:29 2016

per 100 % ,Time:Fri Dec 2 01:40:20 2016

先输出部分数组中的随机值，可以看到读取的位置是随机的。从而模拟随机读取，然后输出顺序读取写入，然后进行随机读取写入。可以看到差别非常大，其实使用iostat vmstat都能看到读取的速度非常慢。下面给出比较：

–顺序

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util
sda               0.00     0.00 4979.38    2.06 19967.01    32.99     8.03     0.76    0.15   0.14  70.21
Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util
sda               0.00     0.00 7204.12    0.00 28816.49     0.00     8.00     0.98    0.14   0.14  98.04
Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util
sda               0.00     9.09 7114.14    9.09 28456.57    96.97     8.02     1.04    0.15   0.13  95.86