Felix

技术源于积累,成功始于执着! 个人邮箱:justlxy@mail.dhu.edu.cn QQ:1576109464

PCIe扫盲——PCIe错误检测机制

1
阅读(17469)

连载目录篇:http://blog.chinaaet.com/justlxy/p/5100057779


PCIe总线错误检测囊括了链路(Link)上的错误以及包传递过程中的错误,如下图所示。用户设计的应用程序层中的错误不属于链路传输中的错误,不应当通过PCIe的错误检测与处理机制处理,一般可借助设备特殊中断(Device Specific Interrupt)等合适的方式进行报告与处理。

image.png

包传递过程的错误主要通过CRC编码来检测。PCIe定义了两种CRC——LCRC和ECRC。其中LCRC(Link CRC)由数据链路层产生和校检,用于检测从一端的数据链路层发送到另一端的数据链路层的TLP是否发生的错误。而ECRC(End-to-end CRC)由事务层产生和校检,且ECRC是可选的。

有人可能会质疑ECRC存在的必要性,因为LCRC已经对TLP进行了CRC校检,在此基础上多加一层ECRC可能是没有必要的。这里来简单地说明一下,一般情况下(尤其是没有Switch的简单PCIe总线系统中),ECRC的确是没有必要存在的。ECRC主要为解决Switch中传输的可能存在的传输错误问题的,换句话说,如果用户的设计中并没有Switch(只是简单的Root与Endpoint的端对端直连),完全可以不使用ECRC。

如下图所示,假设来自Endpoint的TLP被正确地传输到Switch的Downstream输入端口(Ingress Port),Downstream输入端口中的数据链路层也完成了对其的LCRC校检,且未发现错误。然后Switch会将该LCRC移除,并添加新的序列号(Sequence Number),随后重新计算LCRC,再将该TLP发送至Switch的Upstream输出端口(Egress Port)。显然,在此过程中TLP是不受保护的,一旦期间数据传输遇到错误等异常,可能会导致重新计算LCRC前的数据已经受到了破坏,且仅仅使用LCRC是无法发现这样的错误的。

注:关于序列号(Sequence Number),可以参考前面的关于Ack/Nak的相关文章。

image.png

需要注意的是,ECRC是AER中的一部分,要想使用ECRC,该PCIe设备必须是支持AER的。

如果按照错误产生的层(Layer)来分,则可以分为物理层错误,数据链路层错误和事务层错误。

物理层错误(Physical Layer Errors)主要有:

·         8b/10b编解码异常

·         Framing异常(8b/10b编码中是可选的,128b/130b中是必选的)

·         Elastic Buffer错误(可选的)

·         起始字符失锁(Loss of Symbol Lock)或者通道对齐失锁(Lane Deskew)(可选的)

数据链路层错误(Data Link Layer Errors)主要有:

·         LCRC校检失败

·         序列号(Sequence Number)异常

·         DLLP中的16-bit CRC校检失败

·         链路层协议错误(Link Layer Protocol Errors)

事务层错误(Transaction Layer Errors)主要有:

·         ERCR校检失败(可选的)

·         异常的TLP(Malformed TLP)(即TLP的格式异常)

·         流量控制协议异常(Flow Control Protocol Violation)

·         不支持的请求

·         数据损坏(Data Corruption,又称为Poisoned Packet)

·         Completer Abort(可选的)

·         接收端溢出(Receiver Overflow)(可选的)

·         返回包超时(Completion Timeout)

·         不对应的返回包(Unexpected Completion,即Completion与发出的Request不一致)

当接收端的物理层检测到TLP存在错误时,如果再将该TLP继续传送至数据链路层和事务层必然也会发现错误。而过多的错误会让错误分析与处理变得困难。因此,没有必要在向上传递该TLP,而是将其直接扔掉,并报告相应的错误。

然而,即使这样,PCIe总线的错误报告中也有很多错误源自同一个错误源。因此需要对错误进行优先级排序,使得错误源(最底层的错误)的优先级更高,能够最先得到处理。PCIe总线中的错误优先级排序如下(优先级从高到低):

·         不可更正的内部错误(Uncorrectable Internal Error)

·         接收端Buffer溢出

·         流量控制协议错误

·         ECRC校检失败

·         异常的TLP(Malformed TLP)

·         AtomicOp Egress Blocked

·         TLP包头异常(TLP Prefix Blocked)

·         访问控制服务(Access Control Services,ACS)异常

·         MC(Multi-cast) Blocked TLP

·         不支持的请求(Unsupported Request,UR),Completer Abort(CA)或者不对应的返回包(Unexpected Completion)

·         接收到损坏的数据包(Poisoned Packet)