AArch64

前言如果你是一名嵌入式开发者或者系统程序员，可能会有这样的困惑：「我都用上 C/C++ 甚至 Rust 了，为什么还要学汇编语言？」这个问题我被问过很多次。2018 年我在做一个手机相机 HAL 层的性能优化项目时，算法团队用 NEON intrinsics 写的图像处理函数在骁龙 845 上跑 12ms，离 8ms 的目标还差很远。我花了三天时间，把核心循环改成纯 AArch64 汇编，最终跑到了 6.8ms——这就是汇编的力量：你完全掌控了 CPU 的每一个周期、每一个寄存器。今天，AArch64 已经无处不在：从你的智能手机到树莓派 4/5，从 AWS Graviton 服务器到 NVIDIA Jetson 开发板，甚至苹果 M 系列芯片本质上也是 AArch64 兼容架构。理解 AArch64 架构，不仅能让你写出更快的代码，更能让你真正理解现代 CPU 是如何工作的。这篇文章不会教你「Hello World」级别的汇编入门。我要做的是：从架构设计哲学讲起，深入寄存器模型、指令集、寻址模式、函数调用约定，最后用实战项目教你如何写出高性能的 AArch64 汇编代码。一、ARMv8-A 架构：从 32 位到 64 位的革命 1.1 ARM 架构演进简史在深入 AArch64 之前，我们先快速回顾一下 ARM 架构的演进路线： ARMv4/v5 (1990s): 经典 ARM，32 位 ARM 状态 + 16 位 Thumb 状态 ARMv6 (2001): 引入 SIMD 媒体处理扩展、未对齐内存访问 ARMv7-A (2005): Cortex-A 系列诞生，NEON SIMD、虚拟化扩展 ARMv8-A (2011): 革命性的 64 位架构，AArch64 执行状态 ARMv8.1-A ~ ARMv8.5-A: 持续增强，加入 SVE、指针认证、内存标记等 ARMv9-A (2021): SVE2、机密计算架构 (CCA)、更多安全增强很多人误以为 ARMv8-A 「就是 64 位的 ARMv7」——这是完全错误的。ARMv8-A 不是在 ARMv7 基础上「加了几根地址线」，而是几乎重新设计了整个指令集架构。 ...