使用可计算SSD加速云原生数据库

背景
polardb是阿里云设计的云原生oltp数据库，每个数据库实例由多个数据库节点和存储节点组成，节点间通过高速rdma网络连接在一起。为了保证原子性，每个polardb实例同时仅允许一个数据库节点处理写请求，且通过parallel-raft协议在写入时同时向存储节点写入3个副本。
计算存储设备csd是在具备基本存储功能同时具备数据处理能力的存储设备，相比使用cpu处理的模型，csd采用的异构计算架构可以达到更好的性能和效率。但是csd同时存在硬件成本更高、实际部署适配开发成本更高等问题。
动机
当前的polardb在数据库节点中处理表扫描任务，将扫操作下移到存储节点可以更好提升数据库处理分析型负载的性能、降低网络流量，而列存储需要扫描时更高的数据处理能力。
关键在于如何扩展存储节点使之支持处理额外的扫描任务。第一种方法是扩展存储节点的cpu，然而这会带来过高的成本问题；第二种方法是使用pcie卡模式的fpga扩展，但是这种方式同样存在：扫描作为数据密集型负载带来的数据传输流量过高导致的高功耗、负载间冲突，以及pcie扩展卡带宽瓶颈等问题。最后一种是本文提出方式，即分布式异构架构，将表scan操作分散到每个存储设备中，由此带来的挑战包括：如何修改整个软件存储站以支持扫描操作下移；和如何降低fpga的成本、提高fpga并行性。
方法
本文首先解决了如何实现跨软件栈的扫描下移工作，包括了polardb的存储引擎、下层的分布式文件系统polarfs以及可计算存储器csd。
首先作者讲解了如何扩展polardb存储引擎，使得存储引擎可以将扫描任务传递给下层的poalrfs，并负责回收csd返回的扫描结果，扫描任务的参数包括：被扫描数据的位置、被扫描表的结构以及扫描的条件。由于csd难以支持所有的扫描条件（如like），因此polardb的存储引擎在收到扫描请求时需要首先分析扫描条件，并将csd可以处理的条件子集传递下去，并在收到csd的结果后进行二次检查。
接着作者描述了如何扩展作为存储底层的分布式文件系统polarfs，polarfs负责管理所有存储节点上的数据。为了尽可能让文件的大部分数据块落在同一个csd上，polarfs采用了大粒度(4mb)条带，当出现极少数的一个压缩条带横跨两个csd时，存储节点采用cpu处理对应的scan操作。在传递scan请求时，polardb存储引擎传递给polarfs的是文件偏移表示的被扫描数据位置，而csd仅能定位以lba形式的数据位置，因此，polarfs在收到polardb存储引擎的扫描请求书，会将横跨m个csd的请求分割成m个扫描请求，并将扫描请求中的偏移转换到csd的lba。
之后作者描述了如何扩展csd功能。csd通过内核空间的驱动进行管理，每个csd都暴露为一个块设备。驱动将收到的polarfs转发的扫描请求分割成多个子任务，以解决大扫描任务长期占据nand带宽，影响普通io请求延迟性能的问题。同时，子任务有助于降低硬件资源的使用率，提高nand访问的并行性，同时降低后台gc可能的过高延迟。
为了更好的降低成本，作者修改了polardb存储的数据块格式，以充分利用fpga实现扫描功能。增加了1字节压缩类型，4字节的键值对数量和restarts键数量，这样使得csd不需要polardb存储引擎传递块大小即可直接解压，同时可以高效处理restarts，并探测块结束情况。
由于fpga难以实现多类型比较器，因此作者进一步修改polardb存储引擎，将所有数据都存储成同一的可比较格式，这样csd只需要实现单一类型比较器，有助于降低fpga资源开销。
在实现时，作者采用了终端的fpga同时用作闪存管理和存储计算单元，集成了软ldpc编码器，因此可以使用低成本的3d tlc/qlc以降低成本。作者使用fpga实现了2个数据解压引擎和3个数据扫描引擎，支持支持snappy解压和=, ≠、>、≥、<、≤、null和!null条件。
评估
为了实际可用，csd需要在满足存储计算的同时提供一流的io性能，因此作者使用64层3d-tlc闪存，并支持了pcie gen3x4接口，达到了3.0gb/s和2.2gb/s的顺序读、写带宽，并做到在满盘、gc触发时590k/160k的4k随机读、写iops。在解压性能上，csd的两个解压引擎实现了在60%和30%压缩率下，2.3gb/s和2.8gb/s的总解压吞吐量。
在使用tpc-h基准测试的lineitem表作为测试负载测试下，作者分别对比了下移扫描任务前后整体的扫描延迟和pcie数据流量。对比项共有4个，分别是基于cpu、不进行压缩的扫描下移；基于csd，无压缩的扫描下移；基于cpu有snappy压缩的扫描下移以及基于csd、有snappy压缩的扫描下移。测试结果表明：相对于基于cpu的扫描下移，csd将平均扫描延迟从55s降低到39s，同时cpu占用率从514%降低到140%，收益最低的ts-6测试项中，延迟依然从65s下降到53s，同时cpu利用率从558%降低到374%。测试同时发现，基于csd的负载中，cpu负载与数据选择性正相关，即传输到cpu的数据越少，cpu负载越低，而基于cpu的扫描则与数据选择性无关。这说明基于csd的扫描效率更高，且效率随着csd规模增加可以扩展。
而从pcie流量对比中可以发现，csd的数据移动量更少，因此额外功耗更低。
之后作者进行了系统级评估，在polardb的云实例上运行tpc-h负载进行测试。每个实例运行32个sql引擎容器，分布在7个数据库节点和3个后端存储节点上，每个存储节点包括12个3.7tb的csd。分别考虑3个场景：1. 基准场景，即所有数据由存储节点传输到数据库节点进行处理；2. 基于cpu的下移场景，即扫描任务下移到存储节点的cpu上；3. 基于csd的下移场景，即扫描任务下移到csd上。
测试结果表明，随着请求数量增加，基于csd的下移相比基于cpu的下移带来更多的延迟性能提升，这是由于随着并行请求数量增长，每个存储节点有更多的并行扫描任务，更利于硬件并行化；另外，基于csd的下移在表进行压缩时表现出更高的性能提升，这是由于基于cpu的下移需要更多资源进行解压。
流量测试结果表明，基于csd的扫描下移相比与基于cpu的扫描下移，在7个tpc-h并行查询时可以降低50%的pcie流量，最大pcie传输流量降低了97%，而12个并行tpc-h查询的网络总流量降低了70%。
总结
本文报告了跨软-硬件协同的阿里云关系型数据库polardbda设计优化，以更高效处理分析型负载。其基本思想是将高开销的表扫描操作分发到csd中，核心思想简单且与当前异构计算的工业趋势吻合。测试结果表明本文的设计在查询测试中可以获得超过30%的延迟性能提升，同时减少50%的存储-内存数据移动。作者表示，希望本工作可以激励更多关于如何在云基础设施更好利用csd的探索。
the end
致谢
感谢本次论文解读者，来自华东师范大学的硕士生黄奕阳，主要研究方向为存储压缩、存储计算。

什么是jitter,jitter是什么意思？
闲谈帕斯卡计算机：世界首台受专利保护
CPU用硅不用锗原因有哪些？
比特币所采用的最长链规则的优势与劣势分析
土壤水分测定仪在农业领域的应用
使用可计算SSD加速云原生数据库
Firefly(流萤): 中文对话式大语言模型
zynq 7000系列三个命令的简单介绍
热敏电阻的原理及和阻值的关系_如何利用线性 ADC 以数字形式捕获热敏电阻的非线性行为
如何有效管理高频变压器的散热和温度呢？
仅有大屏还不够！QLED电视靠多项优势占领高端市场
如何用单片机Proteus实现对实时时钟的仿真设计？
关于Maxim MAX15090B/MAX15090C热插拔IC性能分析介绍
谈谈PCB设计与加工误差的那些事
2018年中国IC业“野蛮生长”下的思考
FPGA技术在微型投影仪中设计中的应用分析介绍
一个创业者看到的人工智能（AI）创业真正机会
红外线开关原理图（六款红外线开关原理图介绍）
骁龙665处理器跑分抢先看_性能强悍
介绍一个基于CLIP的zero-shot实例分割方法