DDR 内存带宽调优实战:从 AXI 总线到 Cache Miss 的 SoC 性能优化指南
前言 做嵌入式 Linux 或边缘 AI 项目时,很多性能问题最后都会绕回一个朴素但容易被低估的事实:算力不等于吞吐,CPU、NPU、GPU 跑得再快,只要数据喂不上去,整机性能就会被内存系统卡住。 我第一次真正意识到 DDR 带宽的重要性,是在一块多核 ARM SoC 上做 4 路摄像头视频分析。算法同事看 NPU 利用率只有 40% 左右,以为模型还可以继续加大;系统同事看 CPU 使用率也不高,以为瓶颈不在软件。直到我们把 ISP、RGA、NPU、VPU 同时压起来,再去读 DDR 控制器计数器,才发现内存读写已经接近平台可持续带宽的上限。那一刻,所谓“还有很多算力没用上”,其实只是“大家都在等内存”。 这篇文章想把这个问题讲透一点:DDR 带宽不是一个孤立参数,它贯穿了 CPU Cache、AXI/NoC 互联、DMA burst、内存控制器调度、DRAM Bank 冲突、刷新开销以及 Linux 调度策略。很多项目里大家会直接跑一个 memcpy 或 stream,看到数字不错就认为内存没问题;但真实业务往往不是连续大块搬运,而是多个主设备同时访问、读写混合、缓存命中率波动、实时任务和后台任务互相抢总线。 本文会从 SoC 视角出发,拆解一条内存访问路径,并给出一套可以落地的排查和优化方法。示例代码以 Linux 用户态为主,兼顾裸机/RTOS 下的思路。目标不是把每个 DDR 时序参数都背下来,而是建立一个工程上有用的判断框架:什么时候该看 Cache Miss,什么时候该看 AXI outstanding,什么时候该怀疑 DDR controller 的 page policy,什么时候该从数据布局和 DMA burst 入手。 一、先把“带宽”这件事说清楚 DDR 厂商手册里常见的理论带宽计算很简单: 理论带宽 = 数据总线宽度 / 8 × 数据传输速率 例如 32-bit LPDDR4X,数据速率 4266 MT/s,理论峰值约为:...