NPU

前言：为什么同一个模型在不同 NPU 上差距很大？做嵌入式 AI 部署时，很多人第一次拿到 NPU 板卡都会有一个误解：只要芯片宣传页写着 1TOPS、6TOPS 或 10TOPS，模型就应该按照这个数字线性变快。实际项目里经常不是这样。同样一个 YOLO、MobileNet 或语音关键词模型，在 A 芯片上跑得很顺，在 B 芯片上却卡在某几个算子；同样是 INT8 量化，有的模型精度几乎不掉，有的模型会出现明显误检；同样是官方转换工具，有的网络一键通过，有的网络需要反复改 ONNX 图、替换算子、拆分子图。这些问题并不神秘，本质上是 NPU 的计算阵列、片上 SRAM、DMA、数据布局、编译器和运行时之间存在非常强的耦合。CPU 代码慢了，我们通常先看热点函数；GPU 程序慢了，会看 kernel occupancy、显存访问和线程块；NPU 部署慢了，也要有类似的分析框架：先判断瓶颈是算力、带宽、算子支持、量化误差，还是 CPU/NPU 之间的调度开销。本文从工程视角拆解嵌入式 NPU 的典型架构，并围绕一个真实部署流程展开：模型导出、图优化、量化校准、算子映射、内存规划、运行时流水线和性能排查。文章不绑定某一家芯片，但会覆盖 RK、Amlogic、Kendryte、寒武纪边缘模块以及很多 MCU 级 NPU 都会遇到的共性问题。读完后，你应该能判断一个模型为什么没有跑满 NPU，也能知道该从哪里下手优化。一、先把 TOPS 的含义说清楚 TOPS 是每秒万亿次操作数，通常用于描述 INT8 乘加能力。例如一个 2TOPS 的 NPU，理论上每秒可以完成 2 万亿次 8 bit 整数运算。问题在于，这个数字往往是理想条件下的峰值：输入输出都在合适的数据布局中，算子可以完全映射到矩阵乘阵列，片上缓存命中率足够高，DMA 搬运没有拖后腿，调度器没有频繁切换任务。在实际模型里，真正能高效利用 NPU 的通常是卷积、深度卷积、全连接、矩阵乘、部分池化和激活函数。很多看起来不起眼的操作，例如 Reshape、Transpose、Slice、Gather、Resize、NonMaxSuppression，如果不能被 NPU 原生支持，就可能回退到 CPU。一次 CPU 回退不仅带来计算时间，还可能带来缓存同步、数据格式转换和内存拷贝。模型中只要有几个这样的“断点”，端到端延迟就会明显变差。评估 NPU 时，比 TOPS 更有价值的是下面几个指标： ...

前言在 AI 技术快速落地的今天，边缘计算正成为一个不可忽视的重要方向。与云端推理相比，边缘计算具有延迟低、隐私性好、带宽占用少等天然优势。然而，要在嵌入式设备上实现实时 AI 推理，仅仅依靠通用 CPU 的算力是远远不够的。一张 4K 分辨率的图像包含超过 800 万像素，即使是最简单的颜色空间转换操作，如果全部由 CPU 完成，也需要耗费数十毫秒，这对于要求 30fps 以上的实时应用来说是无法接受的。瑞芯微的 RK3588 芯片正是为了解决这一问题而设计的旗舰级边缘计算平台。它不仅集成了 8 核 ARM CPU 和 Mali-G610 GPU，更重要的是内置了专门的 AI 加速单元——6TOPS 算力的 NPU（神经网络处理器）以及 RGA（2D 图形加速引擎）。这两个硬件加速单元是 RK3588 能够实现实时 AI 视频分析的核心所在。然而在实际开发中，许多开发者并没有充分发挥这些硬件加速能力。最常见的问题是用 CPU 做图像预处理然后送 NPU 推理，或者在各硬件单元之间进行了不必要的内存拷贝。这些做法不仅浪费了宝贵的硬件资源，还可能导致整个系统的性能下降 5-10 倍。本文将从底层原理出发，深入解析 RK3588 的 RGA 2D 加速引擎和 NPU 神经网络加速器的工作机制，结合大量可运行的代码示例，带你掌握边缘计算平台的性能优化技巧。我们会详细讲解如何构建零拷贝的数据流水线，实现 VPU-RGA-NPU 的全硬件加速，最终达到 4K 视频下 30fps 以上的 AI 分析能力。一、为什么边缘计算需要硬件加速？在深入讲解 RGA 和 NPU 之前，我们首先需要理解为什么在边缘计算场景下硬件加速是必不可少的。让我们来看一个典型的 AI 视频分析应用的处理流程： ...

嵌入式 NPU 架构与算子优化实战：从内存带宽到 INT8 部署

RK3588 边缘计算平台 AI 加速引擎 RGA 与 NPU 深度实战指南