SPI总线的原理与Verilog设计实现

一、软件平台与硬件平台
软件平台：
1、操作系统：windows-8.1
2、开发套件：ise14.7
3、仿真工具：modelsim-10.4-se
硬件平台：
1、 fpga型号：xilinx公司的xc6slx45-2csg324
2、 flash型号：winbond公司的w25q128bv qual spi flash存储器
二、原理介绍
spi（serial peripheral interface，串行外围设备接口），是motorola公司提出的一种同步串行接口技术，是一种高速、全双工、同步通信总线，在芯片中只占用四根管脚用来控制及数据传输，广泛用于eeprom、flash、rtc（实时时钟）、adc（数模转换器）、dsp（数字信号处理器）以及数字信号解码器上。spi通信的速度很容易达到好几兆bps，所以可以用spi总线传输一些未压缩的音频以及压缩的视频。
下图是只有2个chip利用spi总线进行通信的结构图
可知spi总线传输只需要4根线就能完成，这四根线的作用分别如下：
sck(serial clock)：sck是串行时钟线，作用是master向slave传输时钟信号，控制数据交换的时机和速率；
mosi(master out slave in)：在spi master上也被称为tx-channel，作用是spi主机给spi从机发送数据；
cs/ss(chip select/slave select)：作用是spi master选择与哪一个spi slave通信，低电平表示从机被选中(低电平有效)；
miso(master in slave out)：在spi master上也被称为rx-channel，作用是spi主机接收spi从机传输过来的数据；
spi总线主要有以下几个特点：
1、采用主从模式（master-slave）的控制方式，支持单master多slave。spi规定了两个spi设备之间通信必须由主设备master来控制从设备slave。也就是说，如果fpga是主机的情况下，不管是fpga给芯片发送数据还是从芯片中接收数据，写verilog逻辑的时候片选信号cs与串行时钟信号sck必须由fpga来产生。同时一个master可以设置多个片选(chip select)来控制多个slave。spi协议还规定slave设备的clock由master通过sck管脚提供给slave，slave本身不能产生或控制clock，没有clock则slave不能正常工作。单master多slave的典型结构如下图所示
2、 spi总线在传输数据的同时也传输了时钟信号，所以spi协议是一种同步（synchronous）传输协议。master会根据将要交换的数据产生相应的时钟脉冲，组成时钟信号，时钟信号通过时钟极性(cpol)和时钟相位(cpha)控制两个spi设备何时交换数据以及何时对接收数据进行采样，保证数据在两个设备之间是同步传输的。
3、 spi总线协议是一种全双工的串行通信协议，数据传输时高位在前，低位在后。spi协议规定一个spi设备不能在数据通信过程中仅仅充当一个发送者（transmitter）或者接受者（receiver）。在片选信号cs为0的情况下，每个clock周期内，spi设备都会发送并接收1 bit数据，相当于有1 bit数据被交换了。数据传输高位在前，低位在后（msb first）。spi主从结构内部数据传输示意图如下图所示
spi总线传输的模式：
spi总线传输一共有4中模式，这4种模式分别由时钟极性(cpol，clock polarity)和时钟相位(cpha，clock phase)来定义，其中cpol参数规定了sck时钟信号空闲状态的电平，cpha规定了数据是在sck时钟的上升沿被采样还是下降沿被采样。这四种模式的时序图如下图所示：
模式0：cpol= 0，cpha=0。sck串行时钟线空闲是为低电平，数据在sck时钟的上升沿被采样，数据在sck时钟的下降沿切换
模式1：cpol= 0，cpha=1。sck串行时钟线空闲是为低电平，数据在sck时钟的下降沿被采样，数据在sck时钟的上升沿切换
模式2：cpol= 1，cpha=0。sck串行时钟线空闲是为高电平，数据在sck时钟的下降沿被采样，数据在sck时钟的上升沿切换
模式3：cpol= 1，cpha=1。sck串行时钟线空闲是为高电平，数据在sck时钟的上升沿被采样，数据在sck时钟的下降沿切换
其中比较常用的模式是模式0和模式3。为了更清晰的描述spi总线的时序，下面展现了模式0下的spi时序图
上图清晰的表明在模式0下，在空闲状态下，sck串行时钟线为低电平，当ss被主机拉低以后，数据传输开始，数据线mosi和miso的数据切换(toggling)发生在时钟的下降沿(上图的黑色虚线)，而数据线mosi和miso的数据的采样(sampling)发生在数据的正中间(上图中的灰色实线)。下图清晰的描述了其他三种模式数据线mosi和miso的数据切换(toggling)位置和数据采样位置的关系图
下面我将以模式0为例用verilog编写spi通信的代码。
三、目标任务
1、编写spi通信的verilog代码并利用modelsim进行时序仿真
2、阅读qual spi的芯片手册，理解操作时序，并利用任务1编写的代码与qual spi进行spi通信，读出qual spi flash的manufacturer/device id
3、用spi总线把存放在rom里面的数据发出去，这在实际项目中用来配置spi外设芯片很有用
四、设计思路与verilog代码编写
4.1、 spi模块的接口定义与整体设计
verilog编写的spi模块除了进行spi通信的四根线以外还要包括一些时钟、复位、使能、并行的输入输出以及完成标志位。其框图如下所示
其中：
i_clk是系统时钟；
i_rst_n是系统复位；
i_tx_en是主机给从机发送数据的使能信号，当i_tx_en为1时主机才能给从机发送数据；
i_rx _en是主机从从机接收数据的使能信号，当i_rx_en为1时主机才能从从机接收数据；
i_data_in是主机要发送的并行数据；
o_data_out是把从机接收回来的串行数据并行化以后的并行数据；
o_tx_done是主机给从机发送数据完成的标志位，发送完成后会产生一个高脉冲；
o_rx_done是主机从从机接收数据完成的标志位，接收完成后会产生一个高脉冲；
i_spi_miso、o_spi_cs、o_spi_sck和o_spi_mosi是标准spi总线协议规定的四根线；
要想实现上文模式0的时序，最简单的办法还是设计一个状态机。为了方便说明，这里把模式0的时序再在下面贴一遍
由于是要用fpga去控制或读写qspi flash，所以fpga是spi主机，qspi是spi从机。
发送：当fpga通过spi总线往qspi flash中发送一个字节(8-bit)的数据时，首先fpga把cs/ss片选信号设置为0，表示准备开始发送数据，整个发送数据过程其实可以分为16个状态：
状态0：sck为0，mosi为要发送的数据的最高位，即i_data_in[7]
状态1：sck为1，mosi保持不变
状态2：sck为0，mosi为要发送的数据的次高位，即i_data_in[6]
状态3：sck为1，mosi保持不变
状态4：sck为0，mosi为要发送的数据的下一位，即i_data_in[5]
状态5：sck为1，mosi保持不变
状态6：sck为0，mosi为要发送的数据的下一位，即i_data_in[4]
状态7：sck为1，mosi保持不变
状态8：sck为0，mosi为要发送的数据的下一位，即i_data_in[3]
状态9：sck为1，mosi保持不变
状态10：sck为0，mosi为要发送的数据的下一位，即i_data_in[2]
状态11：sck为1，mosi保持不变
状态12：sck为0，mosi为要发送的数据的下一位，即i_data_in[1]
状态13：sck为1，mosi保持不变
状态14：sck为0，mosi为要发送的数据的最低位，即i_data_in[0]
状态15：sck为1，mosi保持不变
一个字节数据发送完毕以后，产生一个发送完成标志位o_tx_done并把cs/ss信号拉高完成一次发送。通过观察上面的状态可以发现状态编号为奇数的状态要做的操作实际上是一模一样的，所以写代码的时候为了精简代码，可以把状态号为奇数的状态全部整合到一起。
接收：当fpga通过spi总线从qspi flash中接收一个字节(8-bit)的数据时，首先fpga把cs/ss片选信号设置为0，表示准备开始接收数据，整个接收数据过程其实也可以分为16个状态，但是与发送过程不同的是，为了保证接收到的数据准确，必须在数据的正中间采样，也就是说模式0时序图中灰色实线的地方才是代码中锁存数据的地方，所以接收过程的每个状态执行的操作为：
状态0：sck为0，不锁存miso上的数据
状态1：sck为1，锁存miso上的数据，即把miso上的数据赋值给o_data_out[7]
状态2：sck为0，不锁存miso上的数据
状态3：sck为1，锁存miso上的数据，即把miso上的数据赋值给o_data_out[6]
状态4：sck为0，不锁存miso上的数据
状态5：sck为1，锁存miso上的数据，即把miso上的数据赋值给o_data_out[5]
状态6：sck为0，不锁存miso上的数据
状态7：sck为1，锁存miso上的数据，即把miso上的数据赋值给o_data_out[4]
状态8：sck为0，不锁存miso上的数据
状态9：sck为1，锁存miso上的数据，即把miso上的数据赋值给o_data_out[3]
状态10：sck为0，不锁存miso上的数据
状态11：sck为1，锁存miso上的数据，即把miso上的数据赋值给o_data_out[2]
状态12：sck为0，不锁存miso上的数据
状态13：sck为1，锁存miso上的数据，即把miso上的数据赋值给o_data_out[1]
状态14：sck为0，不锁存miso上的数据
状态15：sck为1，锁存miso上的数据，即把miso上的数据赋值给o_data_out[0]
一个字节数据接收完毕以后，产生一个接收完成标志位o_rx_done并把cs/ss信号拉高完成一次数据的接收。通过观察上面的状态可以发现状态编号为偶数的状态要做的操作实际上是一模一样的，所以写代码的时候为了精简代码，可以把状态号为偶数的状态全部整合到一起。而这一点刚好与发送过程的状态刚好相反。
思路理清楚以后就可以直接编写verilog代码了，spi_module模块的代码如下：
module spi_module( input i_clk , // 全局时钟50mhz input i_rst_n , // 复位信号，低电平有效 input i_rx_en , // 读使能信号 input i_tx_en , // 发送使能信号 input [7:0] i_data_in , // 要发送的数据 output reg [7:0] o_data_out , // 接收到的数据 output reg o_tx_done , // 发送一个字节完毕标志位 output reg o_rx_done , // 接收一个字节完毕标志位 // 四线标准spi信号定义 input i_spi_miso , // spi串行输入，用来接收从机的数据 output reg o_spi_sck , // spi时钟 output reg o_spi_cs , // spi片选信号 output reg o_spi_mosi // spi输出，用来给从机发送数据);reg [3:0] r_tx_state ;reg [3:0] r_rx_state ;always @(posedge i_clk or negedge i_rst_n)begin if(!i_rst_n) begin r_tx_state <= 4'd0 ; r_rx_state <= 4'd0 ; o_spi_cs <= 1'b1 ; o_spi_sck <= 1'b0 ; o_spi_mosi <= 1'b0 ; o_tx_done <= 1'b0 ; o_rx_done <= 1'b0 ; o_data_out <= 8'd0 ; end else if(i_tx_en) // 发送使能信号打开的情况下 begin o_spi_cs <= 1'b0 ; // 把片选cs拉低 case(r_tx_state) 4'd1, 4'd3 , 4'd5 , 4'd7 , 4'd9, 4'd11, 4'd13, 4'd15 : //整合奇数状态 begin o_spi_sck <= 1'b1 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 4'd0: // 发送第7位 begin o_spi_mosi <= i_data_in[7] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 4'd2: // 发送第6位 begin o_spi_mosi <= i_data_in[6] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 4'd4: // 发送第5位 begin o_spi_mosi <= i_data_in[5] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 4'd6: // 发送第4位 begin o_spi_mosi <= i_data_in[4] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 4'd8: // 发送第3位 begin o_spi_mosi <= i_data_in[3] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 4'd10: // 发送第2位 begin o_spi_mosi <= i_data_in[2] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 4'd12: // 发送第1位 begin o_spi_mosi <= i_data_in[1] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 4'd14: // 发送第0位 begin o_spi_mosi <= i_data_in[0] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b1 ; end default:r_tx_state <= 4'd0 ; endcase end else if(i_rx_en) // 接收使能信号打开的情况下 begin o_spi_cs <= 1'b0 ; // 拉低片选信号cs case(r_rx_state) 4'd0, 4'd2 , 4'd4 , 4'd6 , 4'd8, 4'd10, 4'd12, 4'd14 : //整合偶数状态 begin o_spi_sck <= 1'b0 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; end 4'd1: // 接收第7位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[7] <= i_spi_miso ; end 4'd3: // 接收第6位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[6] <= i_spi_miso ; end 4'd5: // 接收第5位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[5] <= i_spi_miso ; end 4'd7: // 接收第4位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[4] <= i_spi_miso ; end 4'd9: // 接收第3位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[3] <= i_spi_miso ; end 4'd11: // 接收第2位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[2] <= i_spi_miso ; end 4'd13: // 接收第1位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[1] <= i_spi_miso ; end 4'd15: // 接收第0位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b1 ; o_data_out[0] <= i_spi_miso ; end default:r_rx_state <= 4'd0 ; endcase end else begin r_tx_state <= 4'd0 ; r_rx_state <= 4'd0 ; o_tx_done <= 1'b0 ; o_rx_done <= 1'b0 ; o_spi_cs <= 1'b1 ; o_spi_sck <= 1'b0 ; o_spi_mosi <= 1'b0 ; o_data_out <= 8'd0 ; end endendmodule
整个代码的流程与之前分析的流程完全一致。接下来就对这个代码用modelsim进行基本的仿真。由于接收部分不再硬件上不太好测，所以这里只对发送部分进行测试，接收部分等把代码下载到板子里面以后用chipscope抓接收部分时序就一清二楚了。
发射部分的测试激励代码如下：
`timescale 1ns / 1psmodule tb_spi_module; // inputs reg i_clk; reg i_rst_n; reg i_rx_en; reg i_tx_en; reg [7:0] i_data_in; reg i_spi_miso; // outputs wire [7:0] o_data_out; wire o_tx_done; wire o_rx_done; wire o_spi_sck; wire o_spi_cs; wire o_spi_mosi; // instantiate the unit under test (uut) spi_module uut ( .i_clk (i_clk ), .i_rst_n (i_rst_n), .i_rx_en　 (i_rx_en), .i_tx_en　 (i_tx_en), .i_data_in (i_data_in ), .o_data_out (o_data_out), .o_tx_done (o_tx_done ), .o_rx_done (o_rx_done ), .i_spi_miso (i_spi_miso ), .o_spi_sck (o_spi_sck ), .o_spi_cs　 (o_spi_cs), .o_spi_mosi (o_spi_mosi ) ); initial begin // initialize inputs i_clk = 0; i_rst_n = 0; i_rx_en = 0; i_tx_en = 1; i_data_in = 8'h00; i_spi_miso = 0; // wait 100 ns for global reset to finish #100; i_rst_n = 1; end always #10 i_clk = ~i_clk ; always @(posedge i_clk or negedge i_rst_n) begin if(!i_rst_n) i_data_in <= 8'h00; else if(i_data_in == 8'hff) begin i_data_in <= 8'hff; i_tx_en <= 0; end else if(o_tx_done) i_data_in <= i_data_in + 1'b1 ; end endmodule
modelsim的仿真图如下图所示：
由图可以看到仿真得到的时序与spi模式0的时序完全一致。
4.2、 w25q128bv qual spi flash存储器时序分析
w25q128bv,支持spi, dual spi和quad spi接口方式。在fast read模式，接口的时钟速率最大可以达到 104mhz。flash 的容量由 65536个256-byte的page组成。w25q128 的擦除方法有三种，一种为 sector 擦除(16 个 page,共 4kb)，一种为 block 擦除(128 个 page,共 32kb), 另一种为 chip 擦除(整个擦除)。为了简单起见，顺便测试一下上面写的代码，这里只使用w25q128bv的标准spi总线操作功能，并且只完成一个读取id的操作，其他更高级的操作请看下一篇文章《qspi flash的原理与qspi时序的verilog实现》（链接：https://www.cnblogs.com/liujinggang/p/9651170.html）。我的开发板上w25q128bv的硬件原理图如下图所示
由于我们的任务是利用标准四线spi总线读取qspi flash的manufacturer/device id，所以先到w25q128bv的芯片手册中找到它的读manufacturer/device id的时序。时序如下图所示：
整个读qspi flash的过程为：fpga先拉低cs片选信号，然后通过spi总线发送命令码90，命令码发完以后，发送24-bit的地址24’h000000，接着在第32个sck的下降沿准备接收manufacturer id，manufacturer id接收完毕以后开始接收device id，最后把cs片选拉高，一次读取过程全部结束。这里既涉及到了spi的写操作，也涉及到了spi的读操作，刚好可以测试一下上面写的代码。
4.3、构思状态机并用chipscope抓读写时序
由时序图可以很轻松的分析出，用一个7个状态的状态机来实现读id的过程，其中状态的跳变可通过发送完成标志o_tx_done与接收完成标志o_rx_done来切换，各个状态的功能如下：
状态0：打开spi_module的发送使能开关，并初始化命令字90，等o_tx_done标志为高后切换到下一状态并设置好下一次要发送的数据；
状态1：打开spi_module的发送使能开关，并设置低8位地址00，等o_tx_done标志为高后切换到下一状态并设置好下一次要发送的数据；
状态2：打开spi_module的发送使能开关，并设置中8位地址00，等o_tx_done标志为高后切换到下一状态并设置好下一次要发送的数据；
状态3：打开spi_module的发送使能开关，并设置高8位地址00，等o_tx_done标志为高后切换到下一状态并设置好下一次要发送的数据；
状态4：关闭spi_module的发送使能开关，打开spi_module的接收使能开关，等o_rx_done标志为高后切换到下一状态；
状态5：关闭spi_module的发送使能开关，打开spi_module的接收使能开关，等o_rx_done标志为高后切换到下一状态，并关闭spi_module所有使能开关；
状态6：结束状态，关闭spi_module所有使能开关；
读id的完整代码如下：
`timescale 1ns / 1psmodule spi_read_id_top( input i_clk , // 全局时钟50mhz input i_rst_n , // 复位信号，低电平有效 output [3:0] o_led_out , // 四线标准spi信号定义 input i_spi_miso , // spi串行输入，用来接收从机的数据 output o_spi_sck , // spi时钟 output o_spi_cs , // spi片选信号 output o_spi_mosi // spi输出，用来给从机发送数据);wire w_rx_en ;wire w_tx_en ;wire [7:0] w_data_in ; // 要发送的数据wire [7:0] w_data_out ; // 接收到的数据wire w_tx_done ; // 发送最后一个bit标志位，在最后一个bit产生一个时钟的高电平wire w_rx_done ; // 接收一个字节完毕(end of receive)reg r_rx_en ;reg r_tx_en ;reg [7:0] r_data_in ; // 要发送的数据reg [2:0] r_state ;reg [7:0] r_spi_pout ;assign w_rx_en = r_rx_en ;assign w_tx_en = r_tx_en ;assign w_data_in = r_data_in ;assign o_led_out = r_spi_pout[3:0] ;always @(posedge i_clk or negedge i_rst_n)begin if(!i_rst_n) begin r_state <= 3'd0 ; r_tx_en <= 1'b0 ; r_rx_en <= 1'b0 ; end else case(r_state) 3'd0: // 发送命令字90 begin if(w_tx_done) begin r_state <= r_state + 1'b1 ; r_data_in <= 8'h00 ; // 提前设定好下一次要发送的数据 end else begin r_tx_en <= 1'b1 ; r_data_in <= 8'h90 ; end end 3'd1,3'd2,3'd3: // 发送24位的地址信号 begin if(w_tx_done) begin r_state <= r_state + 1'b1 ; r_data_in <= 8'h00 ; // 提前设定好下一次要发送的数据 end else begin r_tx_en <= 1'b1 ; r_data_in <= 8'h00 ; end end 3'd4: // 接收id ef begin if(w_rx_done) begin r_state <= r_state + 1'b1 ; r_spi_pout <= w_data_out ; end else begin r_tx_en <= 1'b0 ; r_rx_en <= 1'b1 ; end end 3'd5: // 接收id 17 begin if(w_rx_done) begin r_state <= r_state + 1'b1 ; r_spi_pout <= w_data_out ; r_tx_en <= 1'b0 ; r_rx_en <= 1'b0 ; end else begin r_tx_en <= 1'b0 ; r_rx_en <= 1'b1 ; end end 3'd6: //结束 begin r_state <= r_state ; r_tx_en <= 1'b0 ; r_rx_en <= 1'b0 ; end endcase endspi_module u_spi_module( .i_clk (i_clk), // 全局时钟50mhz .i_rst_n (i_rst_n), // 复位信号，低电平有效 .i_rx_en (w_rx_en), // 读使能信号 .i_tx_en (w_tx_en), // 发送使能信号 .i_data_in (w_data_in), // 要发送的数据 .o_data_out (w_data_out), // 接收到的数据 .o_tx_done (w_tx_done), // 发送最后一个bit标志位，在最后一个bit产生一个时钟的高电平 .o_rx_done (w_rx_done), // 接收一个字节完毕(end of receive) // 四线标准spi信号定义 .i_spi_miso (i_spi_miso), // spi串行输入，用来接收从机的数据 .o_spi_sck (o_spi_sck), // spi时钟 .o_spi_cs (o_spi_cs), // spi片选信号 .o_spi_mosi (o_spi_mosi) // spi输出，用来给从机发送数据);//////// debug //////////////////////////////////////////////////////////////wire [35:0] control0 ;wire [39:0] trig0 ;icon icon ( .control0(control0) // inout bus [35:0]);ila ila ( .control(control0), // inout bus [35:0] .clk(i_clk), // in .trig0(trig0) // in bus [39:0]);assign trig0[0] = w_rx_en ;assign trig0[1] = w_tx_en ;assign trig0[9:2] = w_data_in ;assign trig0[17:10] = w_data_out ;assign trig0[18] = w_tx_done ;assign trig0[19] = w_rx_done ;assign trig0[27:20] = r_spi_pout ;assign trig0[30:28] = r_state ;assign trig0[31] = o_spi_sck ;assign trig0[32] = o_spi_cs ;assign trig0[33] = o_spi_mosi ;assign trig0[34] = i_spi_miso ;assign trig0[35] = i_rst_n ;///////////////////////////////////////////////////////////////////////////////endmodule
用chipscope抓取的时序图如下图所示：
通过对比与芯片手册的时序图可以发现，每个节拍与芯片手册提供的读id的时序完全一致。
4.4、用fpga通过spi总线配置外设芯片
上文的例子已经包括了连续发送4个字节数据和连续接收2个字节数据，实际上在很多应用中只需要fpga通过spi总线给芯片发送相应寄存器的值就可以对芯片的功能进行配置了，而并不需要接收芯片返回的数据，大家可以依着葫芦画瓢把硬件工程师发过来的芯片寄存器表(实际上很多芯片都有配置软件，硬件工程师在配置软件中设定好参数以后可以自动生成寄存器表)通过像上文那样写一个状态机发出去来配置芯片的功能。
在寄存器数目比较少的情况下，比如就30~40个以下的寄存器需要配置的情况下，完全可以按照上面的思路写一个30~40个状态的状态机，每个状态通过spi总线发送一个数据，这样做的好处是以后想要在其他地方移植这套代码或者做版本的维护与升级时只需要复制上一版本的代码就可以了，移植起来非常方便。但是如果需要配置的寄存器有好几百甚至上千个或者需要用spi总线往一些显示设备(比如oled屏，液晶显示屏)里面发送数据的话，如果去写一个上千个状态的状态机显然不是最好的选择，所以对于这种需要用spi传输大量数据的情况，我比较推荐的方式是先把数据存放在rom里面，然后通过上面的spi代码发出去。
在做这件事情之前，在重复理解一下spi发送过程的时序：
状态0：sck为0，mosi为要发送的数据的最高位，即i_data_in[7]，拉低o_tx_done信号
状态1：sck为1，mosi保持不变，拉低o_tx_done信号
状态2：sck为0，mosi为要发送的数据的次高位，即i_data_in[6] ，拉低o_tx_done信号
状态3：sck为1，mosi保持不变，拉低o_tx_done信号
状态4：sck为0，mosi为要发送的数据的下一位，即i_data_in[5] ，拉低o_tx_done信号
状态5：sck为1，mosi保持不变，拉低o_tx_done信号
状态6：sck为0，mosi为要发送的数据的下一位，即i_data_in[4] ，拉低o_tx_done信号
状态7：sck为1，mosi保持不变，拉低o_tx_done信号
状态8：sck为0，mosi为要发送的数据的下一位，即i_data_in[3] ，拉低o_tx_done信号
状态9：sck为1，mosi保持不变，拉低o_tx_done信号
状态10：sck为0，mosi为要发送的数据的下一位，即i_data_in[2] ，拉低o_tx_done信号
状态11：sck为1，mosi保持不变，拉低o_tx_done信号
状态12：sck为0，mosi为要发送的数据的下一位，即i_data_in[1] ，拉低o_tx_done信号
状态13：sck为1，mosi保持不变，拉低o_tx_done信号
状态14：sck为0，mosi为要发送的数据的最低位，即i_data_in[0] ，拉高o_tx_done信号
状态15：sck为1，mosi保持不变，拉低o_tx_done信号
可以看出，每一个bit为实际上是占了2个时钟周期(这里的时钟周期指的是系统时钟i_clk)，发送一个字节完成标志位o_tx_done信号是在第14个状态拉高的，也就是在最后一个bit的前时钟周期产生了一个高电平，我之所以这么做的目的一是为了更好的整合代码，把偶数状态全部归类到一起，二是为了在连续发送数据时，在检测到o_tx_done信号为高以后，可以提前把下一次要发送的数据准备好。大家可以在对照着下面时序图理解一下，下面这张图可以很清晰的看到，o_tx_done信号是在最后一个数据的前一个时钟周期拉高的。
现在我们的目的是想要把rom里面的数据通过spi总线发出来，但是由于rom是更新了地址以后的下一个时钟周期才能读出新数据，也就是说，如果我们在检测到o_tx_done为高时更新rom地址的话，新的数据其实并没有准备好，直接看代码和时序图。
在此之前先把rom配置好，我配置的rom非常简单，read width设置为8，read depth设置为10，
rom的初始化数据.coe文件的内容如下所示：
memory_initialization_radix=16;
memory_initialization_vector=
33,
24,
98,
24,
00,
47,
00,
ff,
a3,
49;
顶层代码如下所示：
`timescale 1ns / 1psmodule spi_reg_cfg( input i_clk , // 全局时钟50mhz input i_rst_n , // 复位信号，低电平有效 // 四线标准spi信号定义 input i_spi_miso , // spi串行输入，用来接收从机的数据 output o_spi_sck , // spi时钟 output o_spi_cs , // spi片选信号 output o_spi_mosi // spi输出，用来给从机发送数据);wire w_rx_en ;wire w_tx_en ;wire [7:0] w_data_out ; // 接收到的数据wire w_tx_done ; // 发送最后一个bit标志位，在最后一个bit产生一个时钟的高电平wire w_rx_done ; // 接收一个字节完毕reg r_rx_en ;reg r_tx_en ;reg [2:0] r_state ;assign w_rx_en = r_rx_en ;assign w_tx_en = r_tx_en ;parameter c_reg_num = 10 ; // 要配置的寄存器个数，也是rom的深度parameter c_idle = 3'd0 , c_send_data = 3'd1 , c_done = 3'd2 ;reg [3:0] r_rom_addr ;wire [7:0] w_rom_out ;always @(posedge i_clk or negedge i_rst_n)begin if(!i_rst_n) begin r_state <= 3'd0 ; r_tx_en <= 1'b0 ; r_rx_en <= 1'b0 ; r_rom_addr <= 4'd0 ; end else case(r_state) c_idle: // 空闲状态 begin r_state <= c_send_data; r_tx_en <= 1'b0 ; r_rx_en <= 1'b0 ; end c_send_data: // 发送数据状态 begin r_tx_en <= 1'b1 ; if(r_rom_addr == c_reg_num) begin r_state <= c_done; r_tx_en <= 1'b0 ; r_rx_en <= 1'b0 ; end else if(w_tx_done) r_rom_addr <= r_rom_addr + 1'b1 ; else r_rom_addr <= r_rom_addr ; end c_done: begin r_state <= c_done ; r_tx_en <= 1'b0 ; r_rx_en <= 1'b0 ; end endcase endrom_cfg rom_cfg_inst ( .clka (i_clk ), // input clka .addra (r_rom_addr ), // input [3 : 0] addra .douta (w_rom_out ) // output [7 : 0] douta);spi_module u_spi_module( .i_clk (i_clk), // 全局时钟50mhz .i_rst_n (i_rst_n), // 复位信号，低电平有效 .i_rx_en (w_rx_en), // 读使能信号 .i_tx_en (w_tx_en), // 发送使能信号 .i_data_in (w_rom_out), // 要发送的数据 .o_data_out (w_data_out), // 接收到的数据 .o_tx_done (w_tx_done), // 发送最后一个bit标志位，在最后一个bit产生一个时钟的高电平 .o_rx_done (w_rx_done), // 接收一个字节完毕(end of receive) // 四线标准spi信号定义 .i_spi_miso (i_spi_miso), // spi串行输入，用来接收从机的数据 .o_spi_sck (o_spi_sck), // spi时钟 .o_spi_cs (o_spi_cs), // spi片选信号 .o_spi_mosi (o_spi_mosi) // spi输出，用来给从机发送数据);//////// debug //////////////////////////////////////////////////////////////wire [35:0] control0 ;wire [39:0] trig0 ;icon icon ( .control0(control0) // inout bus [35:0]);ila ila ( .control(control0), // inout bus [35:0] .clk(i_clk), // in .trig0(trig0) // in bus [39:0]);assign trig0[0] = w_rx_en ;assign trig0[1] = w_tx_en ;assign trig0[9:2] = w_rom_out ;assign trig0[17:10] = w_data_out ;assign trig0[18] = w_tx_done ;assign trig0[19] = w_rx_done ;assign trig0[30:28] = r_state ;assign trig0[31] = o_spi_sck ;assign trig0[32] = o_spi_cs ;assign trig0[33] = o_spi_mosi ;assign trig0[34] = i_spi_miso ;assign trig0[35] = i_rst_n ;assign trig0[39:36] = r_rom_addr ;///////////////////////////////////////////////////////////////////////////////endmodule
时序图如下所示：
从上面的时序图可以很清楚的看出，当rom的地址加1以后，rom的数据是滞后了一个时钟才输出的，而rom数据输出的时刻(这个时候rom的输出数据并没有稳定)刚好是spi_module模块发送下个数据最高位的时刻，那么这就有可能导致数据发送错误，从以上时序图就可以看出8’h33和8’h24两个数据正确发送了，但是8’h98这个数据就发送错误了。
为了解决这个问题，其实只需要把spi_module模块的发送状态机在加一个冗余状态就行了，spi_module模块的发送状态机一共有0~15总共16个状态，那么我在加一个冗余状态，这个状态执行的操作和最后那个状态执行的操作完全相同，这样就预留了一个时钟的时间用来预先设置好要发送的数据，这样的效果是发送数据的最后一个bit实际上占用了3个时钟周期，其中第一个时钟周期把o_tx_done拉高，后两个时钟周期把o_tx_done拉低。修改后的spi_module模块的代码如下：
module spi_module( input i_clk , // 全局时钟50mhz input i_rst_n , // 复位信号，低电平有效 input i_rx_en , // 读使能信号 input i_tx_en , // 发送使能信号 input [7:0] i_data_in , // 要发送的数据 output reg [7:0] o_data_out , // 接收到的数据 output reg o_tx_done , // 发送一个字节完毕标志位 output reg o_rx_done , // 接收一个字节完毕标志位 // 四线标准spi信号定义 input i_spi_miso , // spi串行输入，用来接收从机的数据 output reg o_spi_sck , // spi时钟 output reg o_spi_cs , // spi片选信号 output reg o_spi_mosi // spi输出，用来给从机发送数据);reg [4:0] r_tx_state ;reg [3:0] r_rx_state ;always @(posedge i_clk or negedge i_rst_n)begin if(!i_rst_n) begin r_tx_state <= 5'd0 ; r_rx_state <= 4'd0 ; o_spi_cs <= 1'b1 ; o_spi_sck <= 1'b0 ; o_spi_mosi <= 1'b0 ; o_tx_done <= 1'b0 ; o_rx_done <= 1'b0 ; o_data_out <= 8'd0 ; end else if(i_tx_en) // 发送使能信号打开的情况下 begin o_spi_cs <= 1'b0 ; // 把片选cs拉低 case(r_tx_state) 5'd1, 5'd3 , 5'd5 , 5'd7 , 5'd9, 5'd11, 5'd13, 5'd15 : //整合奇数状态 begin o_spi_sck <= 1'b1 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 5'd0: // 发送第7位 begin o_spi_mosi <= i_data_in[7] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 5'd2: // 发送第6位 begin o_spi_mosi <= i_data_in[6] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 5'd4: // 发送第5位 begin o_spi_mosi <= i_data_in[5] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 5'd6: // 发送第4位 begin o_spi_mosi <= i_data_in[4] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 5'd8: // 发送第3位 begin o_spi_mosi <= i_data_in[3] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 5'd10: // 发送第2位 begin o_spi_mosi <= i_data_in[2] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 5'd12: // 发送第1位 begin o_spi_mosi <= i_data_in[1] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b0 ; end 5'd14: // 发送第0位 begin o_spi_mosi <= i_data_in[0] ; o_spi_sck <= 1'b0 ; r_tx_state <= r_tx_state + 1'b1 ; o_tx_done <= 1'b1 ; end 5'd16: // 增加一个冗余状态 begin o_spi_sck <= 1'b0 ; r_tx_state <= 5'd0 ; o_tx_done <= 1'b0 ; end default:r_tx_state <= 5'd0 ; endcase end else if(i_rx_en) // 接收使能信号打开的情况下 begin o_spi_cs <= 1'b0 ; // 拉低片选信号cs case(r_rx_state) 4'd0, 4'd2 , 4'd4 , 4'd6 , 4'd8, 4'd10, 4'd12, 4'd14 : //整合偶数状态 begin o_spi_sck <= 1'b0 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; end 4'd1: // 接收第7位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[7] <= i_spi_miso ; end 4'd3: // 接收第6位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[6] <= i_spi_miso ; end 4'd5: // 接收第5位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[5] <= i_spi_miso ; end 4'd7: // 接收第4位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[4] <= i_spi_miso ; end 4'd9: // 接收第3位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[3] <= i_spi_miso ; end 4'd11: // 接收第2位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[2] <= i_spi_miso ; end 4'd13: // 接收第1位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b0 ; o_data_out[1] <= i_spi_miso ; end 4'd15: // 接收第0位 begin o_spi_sck <= 1'b1 ; r_rx_state <= r_rx_state + 1'b1 ; o_rx_done <= 1'b1 ; o_data_out[0] <= i_spi_miso ; end default:r_rx_state <= 4'd0 ; endcase end else begin r_tx_state <= 4'd0 ; r_rx_state <= 4'd0 ; o_tx_done <= 1'b0 ; o_rx_done <= 1'b0 ; o_spi_cs <= 1'b1 ; o_spi_sck <= 1'b0 ; o_spi_mosi <= 1'b0 ; o_data_out <= 8'd0 ; end endendmodule
时序图如下所示：
观察上面的时序图可以发现，增加冗余状态以后，rom里面的10个数据全部发送正确了。最后把代码综合生成bit文件，下载到开发板里面用chipscope抓出时序图如下所示
可以看出，时序和用modelsim得到的一模一样。至此，整个用spi总线传输rom里面数据的实验全部结束。
五、进一步思考
5.1、如果外设芯片的数据位宽是16-bit或者32-bit怎么办？
上文已经完成了8-bit数据从rom里面通过spi发送出去的例子，16-bit和32-bit可以照着葫芦画瓢，无非就是多增加几个状态而已。
5.2、发送数据的状态机和接收数据的状态机可以用移位的方式来做
事实上那个状态机的发送8-bit数据和接收8-bit数据的部分只有一行代码是不同的，所以也可以用移位的方法来做，然后把偶数状态也可以整合到一起，这样写的代码会更短更精炼。但出于理解更容易的角度，还是分开写较好。

人工智能行业中引起的无限战争
如何防止芯片技术泄露？韩国政府建立数据库，追踪工程师行程！
电力监控系统网络安全监测装置介绍
全面布局AI产业生态，捷通华声携手清华海峡研究院成立人工智能研究中心专家委员会
基于双DSP的实时图像处理系统
SPI总线的原理与Verilog设计实现
未来传感技术背后的巨人
简单位置控制功能块讲解
可以编程教育的智能机器人已经风靡全球
科陆电子转让上海卡耐股权将进一步发展新能源储能和智能电网业务
西门子触摸屏与S7-1200/1500PLC时间同步功能
苹果iPhone 8 Plus爆炸问题详解
从全息影像简史讲起，手机与AR谁才是全息投影大趋势
通信基础网络对于互联网有多重要
电池使用注意事项，废旧电池的危害及回收利用
展开讲讲？一文读懂天线技术要求！
沃尔沃全新V60配备CitySafety城市安全系统
鸿蒙系统HarmonyOS 2.0正式发布鸿蒙还是算“新贵”
我国5G用户数居全球首位,全球5G终端呈现多元化发展态势
口碑翻车、bug不断《赛博朋克2077》将回炉打磨