《深入理解计算机系统》第5周

作为开发者需要理解存储器层次结构，以及了解系统是如何将数据在存储器层次结构中移动，这样在编写程序时可以利用这些特性来提升性能。其中最主要的就是局部性原理，具有良好局部性的程序会更倾向于从较高层次访问数据，减少CPU访问时间。

将注意力集中在内循环上，大部分计算和内存访问都发生在这里；
通过按照数据对象存储在内存中的顺序，以步长为1的来读取数据，使得程序空间局部性最大；
一旦从存储器中读入了一个数据对象，就尽可能多地使用它，从而使得程序中的时间局部性最大；

这一章我是结合和CMU的课程视频来学习的，相比前几章来说，在看书之前已经了解了哪些重点概念需要关注，个人感觉效果还不错。

首先从基本的存储技术学习：

RAM 随机访问存储器：

SRAM，静态随机访问存储器，常用来做高速缓存，可以在CPU芯片上也可以在片下。将每个位都存储在一个双稳态存储器单元里，每个单元由一个六晶体管电路实现。只要有电就会永远保持它的值，即使有干扰来扰乱电压，消除后也会立即恢复到稳定值。
DRAM，动态随机访问存储器，常用来作为主存以及图形系统的帧缓冲。每个位存储为对一个电容的充电，对干扰非常敏感，当电容的电压被扰乱后就永远不会恢复了。
- 两者相比，只要供电SRAM就会保持不变，与DRAM不同，不需要刷新。SRAM的存取也比DRAM快得多，但是SRAM比DRAM单元使用更多的晶体管，因此密集度低，更贵且功耗更大。
  传统DRAM，二维阵列，读取时先RAS（Row Access Strobe）请求再CAS（Column Access Strobe）请求。
内存模块，DRAM芯片封装在内存模块中，插入主板的扩展槽，以64位为块传送数据到呢欧村控制器和从内存控制器传出数据。
增强的DRAM：
- 快页模式，允许对同一行连续地访问可以直接从行缓冲区得到服务。
- 扩展数据输出DRAM，允许各个CAS信号在时间上靠得更紧密一些。
- 同步DRAM，能够比一部的存储器更快输出单元内容。
- 双倍数据速率同步DRAM，常见的DDR2 DDR4 DDR8等
- 视频RAM，用在图形系统的帧缓冲区中。
  - 1）VRAM输出是通过依次对内部缓冲区的整个内容移位得到；
  - 2）VRAM允许对内存并行读写。
非易失性存储器， 断电后依然能保存数据。 ROM, PROM, EPROM,flash memory等
访问主存，通过总线的共享电子电路在处理器和DRAM主存之间传递数据。

磁盘存储器：从磁盘上读取数据时间为ms级，比DRAM慢10万倍，比SRAM慢100万倍。
磁盘的构造相关内容CMU的课程视频上讲解的比较清晰，所以看书时主要关注在于磁盘的访问。

CPU通过内存映射I/O技术来发送命令，磁盘接受到命令后，将逻辑块号翻译成扇区地址，读取该扇区内容。然后将内容直接传到主存，不需要CPU的干涉，即DMA传送。当传送完成后，磁盘控制器通过给CPU发送一个中断信号来通知。

SSD固态硬盘，由半导体存储器构成，没有移动的部件，因而随意访问时间比旋转磁盘快，能耗更低且结实。不过缺点是反复写后，闪存块会磨损，通过平均磨损逻辑来将擦除平均到所有块上来最大化每块的寿命。

然后是局部性原理：空间局部性和时间局部性。现代计算机系统各个层次都有利用到局部性原理，如高速缓存等（CPU芯片、操作系统、分布式文件系统和万维网中都使用了缓存）。

最后是高速缓存相关，其结构可以用四元组（S,E,B,m）来描述，容量大小C=SEB。其结构使得它能够通过简单地检查地址位，找到请求字（类似哈希表）。1）组选择；2）行匹配；3）字抽取。

按照类型可以分为直接映射高速缓存、组相联高速缓存、全相联高速缓存。

需要注意的是，即使程序具备良好的空间局部性，高速缓存中也有足够的空间存放块，但是还可能因为映射到相同组产生抖动现象，即高速缓存反复地加载和驱逐相同的高速缓存块的组。此时可以通过数据填充将其映射到不同的组来消除抖动冲突不命中。

高速缓存写操作：

命中时，向更低一层写时分为两种：直写和写回。直写简单但是每次写都会引起总线流量；写回尽可能推迟更新，只有当替换算法驱逐该块时才写，由于局部性显著减少总线流量，但增加了复杂性。
不命中时，有写分配和非写分配两种。写分配需要加载相应第一层的块到高速缓存中，然后更新，试图利用局部性原理。非写分配避开高速缓存，直接把这个字写入到下一层。直写高速缓存通常是非写分配的，写回高速缓存是写分配的。

对开发者来说，在设计程序时可以心里默认采用使用写回合写分配的高速缓存模型，在高层次开发程序展示良好的空间和时间局部性。原因：

通常较长的传送时间，存储器层次结构中较低的缓存更可能使用写回；
逻辑电路密度提高，写回的高复杂性也越来越不成阻碍；
写回写分配试图利用局部性，和处理读的方式对称；