语音识别 | Tech Snippets - 嵌入式技术笔记

引言：边缘智能体正在从“能跑模型”变成“能做闭环” 过去几年，端侧 AI 的讨论大多停留在模型能不能塞进设备：摄像头能不能跑目标检测，MCU 能不能跑唤醒词，工业网关能不能离线识别异常。到了 2025 和 2026 年，问题已经变了。现在更值得关心的是：设备能否在本地理解环境、调用工具、管理状态，并在网络不稳定甚至完全离线时完成一个业务闭环。这也是边缘硬件和 AI Agent 结合后最有价值的地方。真正落地时，模型只是其中一层，摄像头、麦克风、传感器、NPU、DSP、缓存、队列、OTA、日志和安全策略都会影响最终效果。如果只把注意力放在参数量和 TOPS 上，很容易做出一个演示很好看、现场不稳定的系统。本文关注的主题是把 ESP32-S3 当作常开感知节点，用低功耗语音、低帧率视觉和本地规则 Agent 完成离线闭环。它不是简单地把云端大模型搬到开发板上，而是围绕功耗、内存、实时性、隐私、硬件加速和工程可维护性重新设计一套端侧智能系统。端侧智能体参考架构输入设备Camera / MicSensor / Bus 预处理ISP / DSP滤波 / 特征模型推理NPU / GPUINT8 / Cache Agent 决策状态 / 工具策略 / 记忆设备执行GPIO / UARTMQTT / CAN 云端同步日志 / OTA模型更新从传感输入到动作反馈，端侧 Agent 需要处理的不只是模型推理。一、先把系统边界画清楚边缘 Agent 与普通边缘推理最大的区别，是它要处理“感知—判断—动作—反馈”这条链路。一个只会输出分类结果的模型，通常只需要输入张量和输出张量；一个能工作的端侧智能体，还需要记住最近发生了什么、知道哪些工具可以调用、判断什么时候应该上报云端，以及在失败时如何降级。 ...