Performance

C/C++ 性能优化实战: 内存布局、分支预测与编译器调优

系统级性能优化不是微调指令，而是在编译器、数据布局、并发架构三个层面做出正确选择。本文从编译器内建函数、编译期多态替代虚函数、零堆分配热路径、缓存友好布局、无锁并发、Active Object 去锁化架构、行为树并行启动、实时调度八个方向，结合 newosp 基础设施库的实际代码，给出可落地的嵌入式 C/C++ 优化实践。

C++14 消息总线的工程优化与性能瓶颈分析

基于 C++14 实现一个带超时管理的线程安全消息总线，解决回调内重入死锁、线程安全订阅管理等工程问题。通过压力测试暴露 mutex + std::function + std::map 方案在多线程高频场景下的性能瓶颈，为后续引入 Lock-free MPSC 方案提供数据支撑。

ARM-Linux 网络性能优化实战: 从中断到零拷贝的全链路调优

面向 ARM-Linux 嵌入式系统的网络性能优化系统指南。从数据包接收全链路出发，覆盖 CPU 频率管理、中断亲和性与分流（RSS/RPS/RFS）、NAPI 轮询、Ring Buffer 调优、协议栈 sysctl 参数、硬件卸载（GRO/TSO/Checksum）、DMA 与零拷贝、Busy Polling 低延迟技术、XDP 快速路径、实时调度（SCHED_FIFO/PREEMPT_RT）等十余个维度的工程实践。每项优化均标注适用场景、ARM 特有注意事项和副作用。

C++17 并行矩阵乘法: 从单线程到多进程共享内存的性能实测

以 512x512 矩阵乘法为载体，基于 newosp 基础设施库实测对比单线程、线程池、消息总线、多进程共享内存四种并行方案的性能差异，分析各方案在嵌入式 Linux 平台上的架构取舍与加速比。

C++ 消息总线性能实测: 6 个开源方案的吞吐量与延迟对比

在同一硬件上统一测试 MCCC、eventpp、EnTT、sigslot、ZeroMQ、QP/C++ 六个消息总线方案，从吞吐量、延迟、内存安全、嵌入式适配性四个维度给出选型建议

如何公平地对比消息总线性能: 基准测试方法论与陷阱

性能基准测试远比 ‘跑个循环、算个平均’ 复杂得多。队列溢出会虚高吞吐 30%，时钟调用本身构成 60-160% 的测量开销，功能差异让 ‘apples-to-apples’ 几乎不可能。本文从实际踩坑经验出发，系统梳理消息总线与并发数据结构基准测试中的常见陷阱与应对策略。

Lock-free MPSC 消息总线的设计与实现: 从 Ring Buffer 到零堆分配

在嵌入式系统中，消息总线是组件间通信的核心基础设施。本文剖析 MCCC 消息总线的设计决策与工程权衡：为什么选择 Lock-free MPSC 而非互斥锁？Envelope 内嵌如何消除热路径堆分配？编译期类型索引如何替代 unordered_map？从问题出发，逐层展开一个面向安全关键嵌入式系统的消息总线的诞生过程。

无锁异步日志设计: Per-Thread SPSC 环形缓冲与分级路由

在多核 ARM Linux 嵌入式系统中，同步日志的 I/O 阻塞导致控制回路超时和看门狗复位。本文设计一种基于 Per-Thread SPSC 环形缓冲与分级路由的异步日志架构，实现 wait-free 热路径 (~200-300 ns)、零竞争生产者、崩溃安全的关键日志保障。

eventpp 性能优化实战: 6 个瓶颈定位与 5 倍吞吐提升

通过逐行阅读 eventpp v0.1.3 核心代码，定位到回调遍历加锁、双锁入队、排他锁查 map 等 6 个性能瓶颈。逐一实施优化后，Active Object 吞吐量从 1.5 M/s 提升至 8.5 M/s，改善幅度超过 5 倍。最终通过 processQueueWith 编译期 Visitor 模式绕过全部 5 层间接调用，实现零开销分发 (16.7x 加速)。

嵌入式系统死锁防御: 从有序锁到无锁架构的工程实践

死锁是嵌入式多线程系统中最隐蔽的故障之一。本文从一个典型的双锁死锁场景出发，逐步演示有序锁、lock_guard、try_lock、无锁队列四种防御策略，分析各方案在嵌入式实时系统中的工程权衡。

嵌入式消息总线的回调优化: 从 std::function 到零开销分发

在嵌入式 C++ 消息总线中，std::function 回调看似方便，实则是延迟抖动和代码膨胀的隐性来源。本文分析回调链路的逐层开销，给出三个递进式优化方案：std::visit 编译期分发、CRTP 静态组件、FixedFunction 栈上类型擦除，最终在保留动态订阅能力的同时，为编译期确定的场景实现零开销分发。

C++17 vs C 二进制体积: 嵌入式场景的实测与分析

基于 GCC 13 / x86-64 实测数据，面向 ARM-Linux 工业嵌入式开发者

C++11 线程安全消息总线: 从零实现 Pub/Sub 模型

消息总线（Message Bus）作为一种重要的通信模式，被应用于解耦系统中的组件，实现异步通信和事件驱动架构。本文介绍如何使用 C++11 实现一个基于 mutex 保护的消息总线。

ARMv8 CRC 性能实测: 硬件指令快 8 倍, NEON 反而更慢

对比两组实验: ARMv8 CRC32 硬件指令 (crc32cx) vs 软件查表法，以及 NEON SIMD vs 简单 C 循环的字节累加校验和。结果表明 CRC32 硬件指令比查表快 8 倍以上，而 NEON 手写的字节累加在 -O2 下反而比编译器自动优化的标量代码慢。

ARM-Linux 锁竞争性能实测: Spinlock/Mutex/ConcurrentQueue 对比

本文通过严格的基准测试方法，对比多线程高竞争场景下三种同步策略的性能表现：自旋锁 (atomic_flag)、互斥锁 (std::mutex) 和无锁队列 (moodycamel::ConcurrentQueue)。