嵌入式AI

基于 NCNN 的嵌入式 AI 推理部署完全指南

前言在边缘设备上部署深度学习模型，一直是嵌入式 AI 领域最具挑战性的课题之一。当你训练好了一个准确率令人满意的 PyTorch 模型，满心欢喜地想把它搬到 ARM 开发板上跑一跑，却发现原始模型推理一次需要好几秒，这样的性能在实际产品中根本无法使用。这时你才意识到，训练和部署之间，隔着一道看不见却异常宽阔的鸿沟。这道鸿沟的两边是完全不同的世界：训练端追求的是灵活的算子支持、便捷的调试接口、高效的分布式训练；而部署端追求的却是极致的推理速度、最小的内存占用、最低的功耗开销。大多数框架都是为训练设计的，即使像 PyTorch 这样优秀的框架，其 C++ 前端 LibTorch 在嵌入式设备上的表现也往往差强人意。于是我们需要专门的推理框架。在众多推理框架中，腾讯开源的 NCNN 是一个相当特别的存在。它从诞生之初就是为移动端和嵌入式设备设计的，没有历史包袱，从内存管理到算子实现都围绕 ARM 架构深度优化。更重要的是，NCNN 是纯 C++ 实现，没有任何第三方依赖，这意味着你可以轻松将它集成到各种奇葩的嵌入式环境中。我第一次接触 NCNN 是在一块瑞芯微 RK3399 开发板上部署目标检测模型。当时用 PyTorch 推理一帧 YOLO 需要约 800ms，用 TensorFlow Lite 也需要 400ms 左右，而用 NCNN 优化后，同样的模型在同一硬件上只需要 120ms，这还没开启 Vulkan GPU 加速。那一刻我真切感受到，一个好的推理框架带来的性能提升，往往比换一颗芯片还要显著。这篇文章会带你完整走一遍 NCNN 的部署流程：从模型训练完成后的 ONNX 导出，到 onnx2ncnn 转换，再到模型优化、INT8 量化、最后编写 C++ 推理代码。文中所有命令和代码都经过实际验证，你可以照着一步步操作。一、为什么选择 NCNN？在深入具体操作之前，我们先聊聊为什么在众多推理框架中选择 NCNN，它的核心优势在哪里，又有哪些局限性。 1.1 推理框架的选型维度选择一个推理框架，通常需要考虑以下几个维度：维度说明重要程度性能同样硬件上的推理速度 ⭐⭐⭐⭐⭐ 模型支持能否正常转换你的模型 ⭐⭐⭐⭐⭐ 易用性文档是否完善，社区是否活跃 ⭐⭐⭐⭐ 跨平台支持多少种目标硬件 ⭐⭐⭐⭐ 二进制体积对资源紧张的 MCU 很重要 ⭐⭐⭐ 许可证是否允许商业闭源使用 ⭐⭐⭐⭐ 用这个维度表来评估 NCNN，你会发现它在大多数项上得分都很高：性能在 ARM CPU 上属于第一梯队，模型支持覆盖了绝大多数常见算子，Apache 2.0 许可证非常宽松，二进制最小可以压缩到几百 KB。 ...

YOLOv8 边缘设备部署与性能优化实战指南

前言 2026 年，AI 算力正在经历一场深刻的范式转移。当所有人都在追捧千亿参数大模型的时候，另一股更接地气的力量正在悄然壮大——边缘 AI。根据 IDC 的预测，到 2027 年，超过 50% 的数据处理将在边缘侧完成，而不是集中在云端数据中心。这股趋势在计算机视觉领域表现得尤为明显。安防摄像头、工业检测设备、智能驾驶辅助系统、服务机器人……这些场景对目标检测算法不仅要求**低延迟、高可靠性、隐私安全，而这些恰恰是云端推理无法满足的痛点：延迟问题：云端推理往返延迟通常在 100ms 以上，无法满足实时检测需求带宽成本：4K 视频流每秒 10Mbps，24 小时上传是 100GB 以上隐私安全：敏感场景不允许视频流离开设备断网运行：工业场景必须支持离线工作于是，如何在算力有限的边缘芯片上跑起 YOLO，就成了嵌入式 AI 工程师的核心课题。 YOLOv8 作为 Ultralytics 推出的新一代检测模型，在精度和速度上达到了新的平衡，但默认导出的 PyTorch 模型在边缘设备上根本跑不起来——300+MB 的显存占用、100ms+ 的推理时间，完全无法满足产品级要求。本文将带你从零开始，完整走完 YOLOv8 从训练好的 .pt 模型到边缘设备部署的全过程：ONNX 导出、NCNN 转换、INT8 量化、NEON 优化，最终在树莓派 5 上达到 25 FPS 的实时检测速度。 ![YOLOv8 边缘设备部署流程一、为什么边缘 AI 是未来？ 1.1 云计算的天花板很多初学者常常有一个常见的误区：“既然云端算力这么强，为什么不直接把视频传到云端做检测？我在某智能安防项目踩过这个坑。一开始方案很简单：摄像头 RTSP 流拉流 → FFmpeg 编码 → HTTP 上传 → 云端 GPU 推理 → 结果返回。 ...

实时检测指定颜色和形状的物体：算法方案对比与实现

引言在工业检测、机器人视觉、智能分拣等应用场景中，我们经常需要实时检测特定颜色和形状的物体。例如：冰壶比赛自动计分系统：检测冰面上的圆形冰壶工业零件分拣：检测红色圆形螺丝、蓝色方形螺母自动驾驶交通标志识别：检测圆形红圈禁令标志 AGV 小车导航：识别地面彩色圆形二维码本文将从简单到复杂，介绍几种常见的实现方案，对比它们的性能，并提供完整的开源参考代码，帮助你根据实际场景选择最合适的方案。方案对比总览我们主要对比四种主流方案：方案原理计算量准确率适合场景 MCU 能否运行颜色分割 + 轮廓检测阈值分割 + 形状分析极低对颜色形状变化敏感背景简单、光照稳定 ✅ Cortex-M7 可以颜色空间转换 + Hough 变换 Hough 圆/直线检测低圆形检测较好固定形状检测 ✅ Cortex-M4 可以 Blob 分析 + 特征匹配连通域分析 + 形状分类中中等多目标批量处理 ✅ Cortex-M7 可以深度学习目标检测 YOLO/SSD 直接检测高鲁棒性强复杂背景、光照变化 ❌ 需要 MCU+NPU 或 Linux 下面详细介绍每种方案的实现。方案一：颜色分割 + 轮廓检测 1.1 算法流程原始图像 RGB/BGR 颜色空间转换 RGB → HSV 颜色阈值分割二值掩码形态学处理腐蚀 + 膨胀查找轮廓 cv2.findContours 形状特征计算面积、周长、圆形度输出：符合颜色和形状要求的目标颜色分割 + 轮廓检测流程图 1.2 核心原理颜色空间转换：从 RGB 转到 HSV 颜色空间，更容易按颜色分割阈值分割：对 H/S/V 三个通道设置范围，得到二值掩码形态学处理：腐蚀 + 膨胀去除噪声轮廓查找：找到所有连通区域形状特征计算：计算面积、周长、圆形度、矩形度等特征特征匹配：筛选符合指定形状的目标 1.3 完整 Python 实现 import cv2 import numpy as np def detect_color_shape( image, color_lower=np.array([0, 120, 70]), color_upper=np.array([10, 255, 255]), shape_type="circle", min_area=100, max_area=10000, circularity_threshold=0.8, aspect_ratio_range=(0.9, 1.1) ): """ 检测指定颜色和形状的物体参数: image: 输入 RGB/BGR 图像 color_lower: HSV 颜色下限 color_upper: HSV 颜色上限 shape_type: "circle" / "square" / "rectangle" min_area: 最小面积（像素） max_area: 最大面积（像素） circularity_threshold: 圆形度阈值（0~1，越大越圆） aspect_ratio_range: 宽高比范围（方形接近 1）返回: detections: 检测结果列表 [(x, y, w, h, contour), ...] mask: 颜色分割掩码（用于调试） """ # 1. 颜色空间转换：BGR → HSV hsv = cv2.cvtColor(image, cv2.COLOR_BGR2HSV) # 2. 颜色阈值分割 mask = cv2.inRange(hsv, color_lower, color_upper) # 3. 形态学处理去除噪声 kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (5, 5)) mask = cv2.morphologyEx(mask, cv2.MORPH_OPEN, kernel) mask = cv2.morphologyEx(mask, cv2.MORPH_CLOSE, kernel) # 4. 查找轮廓 contours, hierarchy = cv2.findContours( mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE ) detections = [] for contour in contours: # 计算轮廓面积，过滤太小/太大的 area = cv2.contourArea(contour) if area < min_area or area > max_area: continue # 计算轮廓周长 perimeter = cv2.arcLength(contour, True) # 多边形逼近 approx = cv2.approxPolyDP(contour, 0.04 * perimeter, True) # 获取外接矩形 x, y, w, h = cv2.boundingRect(contour) # 形状判断 matched = False if shape_type == "circle": # 圆形度 = 4π * 面积 / (周长^2) # 完美圆形 = 1，越不规则值越小 circularity = 4 * np.pi * area / (perimeter * perimeter) if circularity >= circularity_threshold: matched = True elif shape_type == "square": # 宽高比接近 1，且顶点数约为 4 aspect_ratio = float(w) / h if (len(approx) == 4 and aspect_ratio >= aspect_ratio_range[0] and aspect_ratio <= aspect_ratio_range[1]): matched = True elif shape_type == "rectangle": # 顶点数约为 4 即可 if len(approx) == 4: matched = True elif shape_type == "triangle": if len(approx) == 3: matched = True if matched: center_x = x + w // 2 center_y = y + h // 2 detections.append((center_x, center_y, w, h, contour)) return detections, mask 1.4 使用示例 # 检测红色圆形物体 # HSV 红色范围（两种分段，因为红色在 H 通道首尾） lower_red1 = np.array([0, 120, 70]) upper_red1 = np.array([10, 255, 255]) lower_red2 = np.array([170, 120, 70]) upper_red2 = np.array([180, 255, 255]) # 读取图像 image = cv2.imread("test_image.jpg") # 第一次检测 detections1, mask1 = detect_color_shape( image, lower_red1, upper_red1, shape_type="circle", min_area=500 ) # 第二次检测（另一红色区间） detections2, mask2 = detect_color_shape( image, lower_red2, upper_red2, shape_type="circle", min_area=500 ) # 合并结果 all_detections = detections1 + detections2 combined_mask = mask1 | mask2 # 在原图上绘制结果 for (x, y, w, h, contour) in all_detections: cv2.drawContours(image, [contour], -1, (0, 255, 0), 2) cv2.circle(image, (x, y), 3, (0, 0, 255), -1) cv2.putText(image, "Red Circle", (x-20, y-h-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2) cv2.imwrite("result.jpg", image) print(f"检测到 {len(all_detections)} 个红色圆形物体") 1.5 常见颜色 HSV 范围参考颜色 H 下限 H 上限 S 下限 S 上限 V 下限 V 上限红色 0/170 10/180 120 255 70 255 橙色 11 25 120 255 70 255 黄色 26 35 120 255 70 255 绿色 36 70 120 255 70 255 青色 71 99 120 255 70 255 蓝色 100 124 120 255 70 255 紫色 125 155 120 255 70 255 粉色 156 169 120 255 70 255 黑色 0 180 0 255 0 46 灰色 0 180 0 43 47 221 白色 0 180 0 30 222 255 注意：不同相机的白平衡和亮度设置不同，实际使用时需要根据你的图像微调范围。建议用 OpenCV 窗口滑动条调参： ...