待完成
关于 Barrel Shuffler(以及更广泛的 DWA 硬件实现结构)的演进,确实有一条清晰的脉络:从最早的直接映射(Matrix),到标准化的对数结构(Logarithmic),再到为了应对超高速(GHz)而诞生的“分段/树形”或“预测型”结构。
如果你需要一篇“大而全”的文章来理清各种结构(Matrix, Logarithmic, Tree, Butterfly)的关系,Ian Galton 的文章是必读的。虽然他常以此讲 Tree-Structured DEM,但他的综述 Why Dynamic Element Matching Techniques are Suitable for Wideband Delta-Sigma Modulators 涵盖了所有 DEM 的硬件代价对比。
2010_Why_Dynamic-Element-Matching_DACs_Works.pdf
这两篇论文定义了你所说的“Matrix”和“Logarithmic”两种流派,是硬件设计的根基。
Linearity enhancement of multibit A/D and D/A converters using data weighted averaging, R. T. Baird and T. S. Fie DWA 的鼻祖,它确立了“旋转(Rotation)”的概念。早期实现多基于简单的逻辑映射,对应了最直观的 Matrix 思想
Mismatch shaping for a current-mode multibit delta-sigma DAC, T. Shui, R. Schreier, and F. Hudson, Richard Schreier 在这篇文章中不仅实现了 DWA,还详细讨论了 Butterfly Shuffler (即 Logarithmic Shifter) 的设计。它明确指出了 结构如何节省面积,并分析了其对 Critical Path 的影响。这是现代 Logarithmic Shuffler 的教科书级范例。
下载地址:
随着 ADC 速度进入 GS/s 级别,即使是 Logarithmic Shifter 的延迟(例如 4 级 MUX 堆叠)也常被认为是不可接受的。现代发展主要解决“速度-延迟”瓶颈,主要有三个方向:
方向一:分段与并行化 (Partitioned / Segmented DWA)
为了避免对所有单元进行统一的大旋转(导致 Shuffler 级数太多),将 DAC 分成几个小块(Segment),每块独立或半独立地进行 DWA,大大减小了 Shuffler 的深度。
下载地址:
方向二:预测与环路展开 (Look-ahead / Unrolled Loop)
如果不等量化器输出就提前计算好 Shuffling 路径,或者把 Shuffler 融合进量化器的锁存器里,就能“消灭”延迟。在极高速设计中,采用 Loop-Unrolling 技术。量化器的判决和 DWA 的选通逻辑是并行进行的,甚至融合在一起,使得 DWA 的 Explicit Latency 几乎为零NXP / Broadcom 团队的这篇 JSSC 值得一看
2011_JSSC_NXP_Broadcom_A_4_GHz_Continuous-Time_ADC_With_70_dB_DR_and_74_dBFS_THD_in_125_MHz_BW.pdf
方向三:树形结构 DEM (Tree-Structured DEM)
这虽然严格来说不是 DWA(算法略有不同),但它彻底解决了 Barrel Shifter 的扇出问题。关注 Ian Galton 的 Tree-Structured DEM 相关论文,这是 Barrel Shifter 的主要竞争技术路线,详见 Tree-ESL-Techniques