TL;DR

您正在主持构建一套基于国产异构算力平台（飞腾 CPU + 天数智芯 GPU）的高性能雷达信号处理系统软件架构。当前处于工程基线确立与详细设计阶段 (Phase 2 - Detailed Design & Baselining)。核心工作聚焦于在受限硬件条件下（如 1GbE 瓶颈、PCIe 降级）通过极致的软件调优（零拷贝、无锁队列、JUMBO Frame）压榨系统性能，并通过发布 ECN（工程变更通知）修正早期的架构缺陷（如 UI/计算资源竞争）。

1. 项目画像与技术底座 (Project Profile & Stack)

维度	规格/状态	关键推论
业务领域	雷达信号处理 (Radar Signal Processing)	涉及高吞吐数据流（I/Q 数据）、硬实时计算（FFT/CFAR）、态势显示。
硬件环境	国产化信创平台 (Localization)	CPU: 飞腾 (Feiteng) S5000C (ARM64, NUMA 架构) GPU: 天数智芯 (Iluvatar) 智铠 MR-V100 (GPGPU) NIC: 网迅 (Wangxun) 1GbE
软件环境	Kylin V10 SP1 (Linux 4.19)	编译器：GCC 7.3 (Host) + Clang 18 (Device) 中间件：Protobuf v3, ZeroMQ, HDF5
当前痛点	物理带宽瓶颈 (P0)	网卡仅千兆，PCIe x16 降级为 x8。软件优化被迫承担硬件补救的角色。

2. 当前核心工作流 (Current Workstreams)

您正在同时推进以下四个维度的标准化与基线确立工作：

2.1 基础设施审计与加固 (Infrastructure Auditing & Hardening)

动作：对软硬件环境进行“地毯式”排查（1.x 章节）。
具体产出：
- 内核调优：禁用 numa_balancing，开启 hugepages，解除 memlock 限制。
- 编译编排：确立 Host(GCC) + Device(Clang) 的混合编译范式，规避 CMake 原生 CUDA 支持的兼容性问题。
- 运行时伪装：验证 CoreX SDK 对 CUDA 10.2 的 API 级兼容性。

2.2 数据面极致性能优化 (Data Plane Optimization)

动作：设计从网卡到显存的零拷贝/低延迟通路（2.1, 2.2 章节）。
具体产出：
- 采集链路：确立 UDP + JUMBO Frame (MTU 9000) 方案，以缓解 1GbE 的中断压力。
- DMA 策略：确立 双流乒乓 (Double Buffering) + 显式 NUMA 绑定 (Node 1)，掩盖 PCIe 传输延迟。
- 显存布局：强制使用 cudaMallocPitch 和 float2 交织存储，适配 cuFFT 性能需求。

2.3 控制面解耦与鲁棒性设计 (Control Plane Decoupling)

动作：构建进程内的高可靠神经中枢（2.3 章节）。
具体产出：
- 事件总线：设计混合双通道（Sync/Async）EventBus，集成 TLS 全链路追踪 (TraceID)。
- 热更新：设计基于 2PC (两阶段提交) + RCU 的无锁配置热更新协议。
- 资源仲裁：发布 ECN-2025-001，移除 UI 对 GPU 的抢占逻辑，回归计算吞吐优先策略，引入四级热节流机制。

2.4 数据治理与契约定义 (Data Governance)

动作：严格界定内部对象与外部协议的边界（2.4, 2.5 章节）。
具体产出：
- 双态模型：发布 ECN-2025-002，强制分离内部高性能 POD 对象（C++ Struct）与外部传输对象（Protobuf），仅在 DisplayController 边界处转换。
- 显控协议：定义 TrackDataBatch 原子批次，支持多站标识与端到端延迟遥测。

3. 架构决策矩阵 (Decision Matrix Snapshot)

您在设计过程中进行了一系列关键权衡（Trade-off），体现了“工程落地优先”的原则：

决策点	放弃方案	采纳方案	核心理由
传输层	TCP / 组播	UDP 单播	去中心化，无状态，适配分布式阵面。
内存管理	动态 `malloc`	预分配锁页内存池	消除系统调用开销，支持 DMA。
时间同步	NTP (软件)	硬件 PTP + TSC 软时钟	实现亚微秒级精度与纳秒级读取速度。
异常处理	无脑重启	依赖感知四步法	Pause->Stop->Restart->Resume，防止数据积压导致 OOM。
UI 交互	抢占式调度	扁平化 + 热节流	移除不确定性，回归计算吞吐优先。

4. 自我反驳与风险提示 (Self-Rebuttal)

尽管架构设计趋于严谨，但基于当前文件仍存在以下局限性或风险：

硬件瓶颈是硬伤：目前的 1GbE 网卡 和 PCIe x8 降级 是物理硬伤。目前的 JUMBO Frame 和 DMA 优化属于“戴着镣铐跳舞”，只能缓解而无法彻底解决带宽上限问题。如果雷达波形升级（如增加通道数或带宽），软件优化将瞬间失效。
ECC 监控缺失：审计发现 ixsmi 无法查询 ECC 错误。对于长时间运行的雷达系统，显存位翻转可能导致静默数据错误，当前架构缺乏应用层的 CRC 校验或冗余计算作为兜底。
国产化环境的稳定性：虽然 SDK 宣称兼容 CUDA 10.2，但 Clang 编译 ivcore 后端在复杂 C++ 模板（如 Thrust）下的边界情况（Corner Cases）尚未经过大规模压力测试，存在编译器 Bug 风险。

结论

您不仅仅是在写代码，而是在制定标准。您正在通过一系列严密的 ECN 和基线文档，将一个可能处于原型阶段的系统，强行规约为符合工业级标准的、可维护、高性能的软件产品。

5.7 KiB Raw Blame History Unescape Escape