From 0d81c1792d29e0bc9d1c2c05caf8bcde582fdcf3 Mon Sep 17 00:00:00 2001
From: Klein <wendizhou99@gmail.com>
Date: Thu, 11 Dec 2025 07:24:36 +0800
Subject: [PATCH] =?UTF-8?q?=E5=88=9B=E5=BB=BA=E4=BB=93=E5=BA=93?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 AI预设操作.md                                 |  21 +
 Git/Git 常用命令总结与检索手册.md             |  86 ++
 Git/一个给AI用的Commit信息约束文件.md         |  81 ++
 .../00_顶层设计/00_软件产品全生命周期管理规范.md | 159 +++
 .../00_顶层设计/一个Go项目的基本骨架.md       |  34 +
 .../00_顶层设计/关于个人开发者的开发模式.md   | 109 ++
 .../00_顶层设计/关于项目的顶层设计模式和风格.md | 130 +++
 Go项目实战/00_顶层设计/架构设计.md            |   8 +
 .../AI 辅助数据建模通用 SOP (v1.0).md         | 169 +++
 Go项目实战/01_数据模型建立/Mermaid ER 图.md   |  65 ++
 .../规范数据库设计 & 变更管理及工程流操作.md  | 183 ++++
 .../02_接口设计/AI 辅助 API 定义方法论 (v1.0).md | 183 ++++
 .../02_接口设计/七七八八的接口设计相关问题.md | 174 ++++
 .../01_错误处理/01_基础设施详细设计规格说明书.md | 259 +++++
 ...02_AI 辅助基础设施构建 SOP (v2.1) -错误处理与响应篇.md | 247 +++++
 .../03_基础设施/01_错误处理/03_README_错误处理.md | 161 +++
 .../01_错误处理/04_错误处理模块文件夹骨架.md  |  27 +
 .../03_基础设施/01_错误处理/99_错误处理上下文.md | 548 ++++++++++
 .../Phase 0 基础设施构建执行清单 (Execution Checklist).md |  38 +
 .../Phase 1 统一响应结构定义 (The Contract).md | 145 +++
 .../SOP 增强补丁：长代码&多文件分步生成策略.md | 111 ++
 .../SOP 补丁：MECE 任务拆解协议 (The MECE Protocol).md |  63 ++
 Go项目实战/03_基础设施/02_日志/01_设计目标.md | 113 +++
 .../03_基础设施/02_日志/02_技术栈基线.md      |  99 ++
 .../03_基础设施/02_日志/03_核心设计模式.md    |  80 ++
 Go项目实战/03_基础设施/02_日志/04_架构逻辑.md | 123 +++
 .../03_基础设施/02_日志/05_目录结构与职责.md  |  76 ++
 .../02_日志/06_日志模块开发规范与质量保证手册.md | 181 ++++
 .../02_日志/07_日志模块工程化实施标准.md      | 146 +++
 .../AI 辅助基础设施构建 SOP (v1.0)-全局日志篇.md | 233 +++++
 .../Global Logging Infrastructure - Task Checklist.md |  87 ++
 ...模块 (Global Logging Infrastructure) 详细设计说明书.md | 864 ++++++++++++++++
 Go项目实战/中间件/推荐的中间件目录演进策略.md |  80 ++
 Go项目实战/产品需求规格说明书 (PRD) - V1.1.md | 149 +++
 Go项目实战/用户模块/01_实体关系图.md          | 111 ++
 Go项目实战/用户模块/02_SQL DDL 脚本.md        | 212 ++++
 Go项目实战/用户模块/03_entity 代码.md         | 205 ++++
 Go项目实战/用户模块/04_业务逻辑功能清单.md    |  88 ++
 Go项目实战/通用上下文.md                      | 960 ++++++++++++++++++
 Project_Baseline的深度补全.md                 | 272 +++++
 ...��席架构师和技术文档标准委员会的严苛审核员.md |  32 +
 不懂的技术列表.md                             |  14 +
 关于新版雷达前端通信协议的若干想法.md         | 177 ++++
 前端感知软件数据表V1.0.md                     | 172 ++++
 小技术/MTU&JUMBO_Frame_(MTU_9000).md          |  68 ++
 小技术/交互式变基 (Interactive Rebase).md     |   0
 小技术/大端序和小端序.md                      | 148 +++
 小技术/环形缓冲区-Ring Buffer的深度配置.md    |  78 ++
 小技术/硬件 PTP 同步 + TSC 软时钟封装.md      | 166 +++
 小技术/跨缓存行（Cache Line Split）.md        |  78 ++
 总结.md                                       |  90 ++
 技术选择/DMA与内核旁路策略.md                 |  40 +
 技术选择/清单.md                              |  49 +
 .../1/1.1/1.1.1 发行版与内核版本指纹.md       | 120 +++
 ....1.2 内存子系统策略 (Memory Subsystem Policy).md |  77 ++
 ...U 调度与核心隔离 (CPU Scheduling & Isolation).md | 115 +++
 ...1.1.4 系统级资源限制 (System Resource Limits).md | 145 +++
 ...�备节点与总线映射 (Device Nodes & Bus Mapping).md | 110 ++
 ...��统关键疑点深挖 (Time Synchronization & Deep-Dive).md |  92 ++
 ...��吞吐量配置补丁 (Real-time & Throughput Patches).md |  64 ++
 .../1.2.1 Host 端编译器规范 (Host Compiler Spec).md |  87 ++
 ....2 Device 端编译器规范 (Device Compiler Spec).md |  68 ++
 .../1.2.3 链接器与加载器配置 (Linker & Loader).md |  63 ++
 ...��编译兼容性 (Hybrid Compilation Compatibility).md |  45 +
 ....3.1 驱动核心模块状态 (Driver Kernel Modules).md |  66 ++
 ...�环境与兼容层 (Runtime Environment & Shim Layer).md |  61 ++
 .../1.3.3 管理与监控接口 (Management Interfaces).md |  96 ++
 .../1.3.4 核心数学加速库 (Core Math Libraries).md |  69 ++
 ...�者头文件与生态 (Developer Headers & Ecosystem).md |  52 +
 ...例与构建范式 (Official Samples & Build Patterns).md |  49 +
 .../1/1.4/1.4.1 CMake 核心环境 (CMake Core).md |  48 +
 .../1.4.2 编译器编排 (Compiler Orchestration).md |  55 +
 .../1/1.4/1.4.3 编译标志策略 (Flags Strategy).md |  55 +
 ...��链接逻辑 (Dependency Management & Linking Logic).md |  70 ++
 ...与安装规则 (Artifact Output & Installation Rules).md |  64 ++
 ...�行时与 ABI 基线 (System Runtime & ABI Baseline).md |  65 ++
 ...��理与数学库 (Host Signal Processing & Math Libs).md |  51 +
 ...��基础设施中间件 (Comm, Storage & Infra Middleware).md |  56 +
 ...内存安全 (Heterogeneous Debugging & Memory Safety).md |  55 +
 ...��监控 (Performance Analysis & Real-time Monitoring).md |  57 ++
 ...�据基线管理 (Versioning & Data Baseline Management).md |  50 +
 .../2.1 工程基线总结报告_原始数据链路与采集协议.md |  16 +
 .../2.2 工程基线总结报告_异构 DMA 与内存传输机制.md |  90 ++
 .../2.3 工程基线总结报告_内部控制平面通信接口.md |  85 ++
 .../2.4 工程基线总结报告_外部目标数据分发协议.md |  75 ++
 ...5 工程基线总结报告 - 数据结构定义与序列化规范.md |  89 ++
 .../2.6 工程基线总结报告 - 时序同步与数据一致性.md |  72 ++
 .../2.7 工程基线总结报告 - 链路鲁棒性与错误校检.md |  75 ++
 ...��传输媒介 (Physical Link Layer & Transport Medium).md |  35 +
 ...议与封装 (Data Link Layer Protocol & Encapsulation).md |  44 +
 ...��与分配策略 (Page-Locked&Pinned Memory Management).md |  90 ++
 ...��重叠 (Asynchronous Pipelining & Compute-Copy Overlap).md | 123 +++
 ...存亲和性控制 (NUMA-Aware Memory Affinity Control).md |  93 ++
 ....4 统一虚拟寻址与零拷贝技术 (UVA & Zero-Copy).md | 116 +++
 ...P 效率优化 (Transfer Granularity & TLP Efficiency).md |  90 ++
 ...�与对齐约束 (VRAM Layout & Alignment Constraints).md | 123 +++
 ...��通信接口 (Internal Control Plane Interface - IPC).md |  25 +
 ...��由机制 (Event Bus Architecture & Routing Mechanism).md | 120 +++
 ...链路追踪上下文传递 (Trace Context Propagation).md | 152 +++
 ...��协议 (Lifecycle Orchestration & State Synchronization).md | 102 ++
 ...�恢复信令 (Fault Propagation & Recovery Signaling).md | 122 +++
 ...��流控制 (System Load Protection & Thermal Throttling).md | 130 +++
 ...新协议 (Two-Phase Configuration Hot-Reload Protocol).md | 138 +++
 ...能指标遥测通道 (Performance Telemetry Channel).md | 134 +++
 ...�发协议 (External Target Data Distribution Protocol).md |  28 +
 ...��接字模型 (Transport Layer Topology & Socket Model).md |  98 ++
 ...�化规范 (Business Data Serialization Specification).md | 142 +++
 ...�性机制 (Packet Loss Detection & Sequencing Integrity).md | 120 +++
 ...�整形 (Thermal Throttling Response & Traffic Shaping).md | 121 +++
 ...端到端延迟遥测 (End-to-End Latency Telemetry).md | 111 ++
 .../2/2.5/2.5 数据结构定义与序列化规范.md     |  29 +
 ...模型 (Internal High-Performance Business Object Model).md | 170 ++++
 ...模式定义 (Internal Control Event Schema Definition).md | 177 ++++
 ...�数据交换契约 (External Data Exchange Contract).md | 209 ++++
 ...�容器规范 (Zero-Copy Data Container Specification).md | 176 ++++
 ...��射策略 (Serialization Boundary & Mapping Strategy).md | 138 +++
 ...�据一致性 (Timing Synchronization & Data Coherence).md |  21 +
 ...��源架构 (High-Precision Unified Clock Architecture).md | 114 +++
 ...��据打点策略 (Multi-Level Timestamping Strategy).md | 125 +++
 ...��干处理间隔对齐机制 (CPI Alignment Mechanism).md | 146 +++
 ... (Track Extrapolation & Asynchronous Measurement Fusion).md | 164 +++
 ...�监控 (End-to-End Latency Auditing & Jitter Monitoring).md | 134 +++
 ...��性与错误校检 (Link Robustness & Error Checking).md |  17 +
 ...rogeneous Collaboration Model & Responsibility Boundary).md |  41 +
 .../ECN_关于UI渲染与CUDA计算之间的资源竞争.md | 115 +++
 .../ECN_数据模型双态分离与序列化边界的强制隔离.md | 112 ++
 ...��端模拟器 (SDR-FES MockDACS) 架构设计文档.md | 167 +++
 ...��接文档：软件定义雷达前端模拟器 (SDR-FES).md |  93 ++
 128 files changed, 15104 insertions(+)
 create mode 100644 AI预设操作.md
 create mode 100644 Git/Git 常用命令总结与检索手册.md
 create mode 100644 Git/一个给AI用的Commit信息约束文件.md
 create mode 100644 Go项目实战/00_顶层设计/00_软件产品全生命周期管理规范.md
 create mode 100644 Go项目实战/00_顶层设计/一个Go项目的基本骨架.md
 create mode 100644 Go项目实战/00_顶层设计/关于个人开发者的开发模式.md
 create mode 100644 Go项目实战/00_顶层设计/关于项目的顶层设计模式和风格.md
 create mode 100644 Go项目实战/00_顶层设计/架构设计.md
 create mode 100644 Go项目实战/01_数据模型建立/AI 辅助数据建模通用 SOP (v1.0).md
 create mode 100644 Go项目实战/01_数据模型建立/Mermaid ER 图.md
 create mode 100644 Go项目实战/01_数据模型建立/规范数据库设计 & 变更管理及工程流操作.md
 create mode 100644 Go项目实战/02_接口设计/AI 辅助 API 定义方法论 (v1.0).md
 create mode 100644 Go项目实战/02_接口设计/七七八八的接口设计相关问题.md
 create mode 100644 Go项目实战/03_基础设施/01_错误处理/01_基础设施详细设计规格说明书.md
 create mode 100644 Go项目实战/03_基础设施/01_错误处理/02_AI 辅助基础设施构建 SOP (v2.1) -错误处理与响应篇.md
 create mode 100644 Go项目实战/03_基础设施/01_错误处理/03_README_错误处理.md
 create mode 100644 Go项目实战/03_基础设施/01_错误处理/04_错误处理模块文件夹骨架.md
 create mode 100644 Go项目实战/03_基础设施/01_错误处理/99_错误处理上下文.md
 create mode 100644 Go项目实战/03_基础设施/01_错误处理/Phase 0 基础设施构建执行清单 (Execution Checklist).md
 create mode 100644 Go项目实战/03_基础设施/01_错误处理/Phase 1 统一响应结构定义 (The Contract).md
 create mode 100644 Go项目实战/03_基础设施/01_错误处理/SOP 增强补丁：长代码&多文件分步生成策略.md
 create mode 100644 Go项目实战/03_基础设施/01_错误处理/SOP 补丁：MECE 任务拆解协议 (The MECE Protocol).md
 create mode 100644 Go项目实战/03_基础设施/02_日志/01_设计目标.md
 create mode 100644 Go项目实战/03_基础设施/02_日志/02_技术栈基线.md
 create mode 100644 Go项目实战/03_基础设施/02_日志/03_核心设计模式.md
 create mode 100644 Go项目实战/03_基础设施/02_日志/04_架构逻辑.md
 create mode 100644 Go项目实战/03_基础设施/02_日志/05_目录结构与职责.md
 create mode 100644 Go项目实战/03_基础设施/02_日志/06_日志模块开发规范与质量保证手册.md
 create mode 100644 Go项目实战/03_基础设施/02_日志/07_日志模块工程化实施标准.md
 create mode 100644 Go项目实战/03_基础设施/02_日志/AI 辅助基础设施构建 SOP (v1.0)-全局日志篇.md
 create mode 100644 Go项目实战/03_基础设施/02_日志/Global Logging Infrastructure - Task Checklist.md
 create mode 100644 Go项目实战/03_基础设施/全局日志模块 (Global Logging Infrastructure) 详细设计说明书.md
 create mode 100644 Go项目实战/中间件/推荐的中间件目录演进策略.md
 create mode 100644 Go项目实战/产品需求规格说明书 (PRD) - V1.1.md
 create mode 100644 Go项目实战/用户模块/01_实体关系图.md
 create mode 100644 Go项目实战/用户模块/02_SQL DDL 脚本.md
 create mode 100644 Go项目实战/用户模块/03_entity 代码.md
 create mode 100644 Go项目实战/用户模块/04_业务逻辑功能清单.md
 create mode 100644 Go项目实战/通用上下文.md
 create mode 100644 Project_Baseline的深度补全.md
 create mode 100644 Prompt模板/首席架构师和技术文档标准委员会的严苛审核员.md
 create mode 100644 不懂的技术列表.md
 create mode 100644 关于新版雷达前端通信协议的若干想法.md
 create mode 100644 前端感知软件数据表V1.0.md
 create mode 100644 小技术/MTU&JUMBO_Frame_(MTU_9000).md
 create mode 100644 小技术/交互式变基 (Interactive Rebase).md
 create mode 100644 小技术/大端序和小端序.md
 create mode 100644 小技术/环形缓冲区-Ring Buffer的深度配置.md
 create mode 100644 小技术/硬件 PTP 同步 + TSC 软时钟封装.md
 create mode 100644 小技术/跨缓存行（Cache Line Split）.md
 create mode 100644 总结.md
 create mode 100644 技术选择/DMA与内核旁路策略.md
 create mode 100644 技术选择/清单.md
 create mode 100644 系统基座文件/1/1.1/1.1.1 发行版与内核版本指纹.md
 create mode 100644 系统基座文件/1/1.1/1.1.2 内存子系统策略 (Memory Subsystem Policy).md
 create mode 100644 系统基座文件/1/1.1/1.1.3 CPU 调度与核心隔离 (CPU Scheduling & Isolation).md
 create mode 100644 系统基座文件/1/1.1/1.1.4 系统级资源限制 (System Resource Limits).md
 create mode 100644 系统基座文件/1/1.1/1.1.5 设备节点与总线映射 (Device Nodes & Bus Mapping).md
 create mode 100644 系统基座文件/1/1.1/1.1.6 时间同步与系统关键疑点深挖 (Time Synchronization & Deep-Dive).md
 create mode 100644 系统基座文件/1/1.1/1.1.7 实时性与吞吐量配置补丁 (Real-time & Throughput Patches).md
 create mode 100644 系统基座文件/1/1.2/1.2.1 Host 端编译器规范 (Host Compiler Spec).md
 create mode 100644 系统基座文件/1/1.2/1.2.2 Device 端编译器规范 (Device Compiler Spec).md
 create mode 100644 系统基座文件/1/1.2/1.2.3 链接器与加载器配置 (Linker & Loader).md
 create mode 100644 系统基座文件/1/1.2/1.2.4 混合编译兼容性 (Hybrid Compilation Compatibility).md
 create mode 100644 系统基座文件/1/1.3/1.3.1 驱动核心模块状态 (Driver Kernel Modules).md
 create mode 100644 系统基座文件/1/1.3/1.3.2 运行时环境与兼容层 (Runtime Environment & Shim Layer).md
 create mode 100644 系统基座文件/1/1.3/1.3.3 管理与监控接口 (Management Interfaces).md
 create mode 100644 系统基座文件/1/1.3/1.3.4 核心数学加速库 (Core Math Libraries).md
 create mode 100644 系统基座文件/1/1.3/1.3.5 开发者头文件与生态 (Developer Headers & Ecosystem).md
 create mode 100644 系统基座文件/1/1.3/1.3.6 官方示例与构建范式 (Official Samples & Build Patterns).md
 create mode 100644 系统基座文件/1/1.4/1.4.1 CMake 核心环境 (CMake Core).md
 create mode 100644 系统基座文件/1/1.4/1.4.2 编译器编排 (Compiler Orchestration).md
 create mode 100644 系统基座文件/1/1.4/1.4.3 编译标志策略 (Flags Strategy).md
 create mode 100644 系统基座文件/1/1.4/1.4.4 依赖管理与链接逻辑 (Dependency Management & Linking Logic).md
 create mode 100644 系统基座文件/1/1.4/1.4.5 产物输出与安装规则 (Artifact Output & Installation Rules).md
 create mode 100644 系统基座文件/1/1.5/1.5.1 系统运行时与 ABI 基线 (System Runtime & ABI Baseline).md
 create mode 100644 系统基座文件/1/1.5/1.5.2 Host 端信号处理与数学库 (Host Signal Processing & Math Libs).md
 create mode 100644 系统基座文件/1/1.5/1.5.3 通信、存储与基础设施中间件 (Comm, Storage & Infra Middleware).md
 create mode 100644 系统基座文件/1/1.6/1.6.1 异构调试与内存安全 (Heterogeneous Debugging & Memory Safety).md
 create mode 100644 系统基座文件/1/1.6/1.6.2 性能分析与实时监控 (Performance Analysis & Real-time Monitoring).md
 create mode 100644 系统基座文件/1/1.6/1.6.3 版本控制与数据基线管理 (Versioning & Data Baseline Management).md
 create mode 100644 系统基座文件/2.1 工程基线总结报告_原始数据链路与采集协议.md
 create mode 100644 系统基座文件/2.2 工程基线总结报告_异构 DMA 与内存传输机制.md
 create mode 100644 系统基座文件/2.3 工程基线总结报告_内部控制平面通信接口.md
 create mode 100644 系统基座文件/2.4 工程基线总结报告_外部目标数据分发协议.md
 create mode 100644 系统基座文件/2.5 工程基线总结报告 - 数据结构定义与序列化规范.md
 create mode 100644 系统基座文件/2.6 工程基线总结报告 - 时序同步与数据一致性.md
 create mode 100644 系统基座文件/2.7 工程基线总结报告 - 链路鲁棒性与错误校检.md
 create mode 100644 系统基座文件/2/2.1/2.1.1 物理链路层与传输媒介 (Physical Link Layer & Transport Medium).md
 create mode 100644 系统基座文件/2/2.1/2.1.2 数据链路层协议与封装 (Data Link Layer Protocol & Encapsulation).md
 create mode 100644 系统基座文件/2/2.2/2.2.1 锁页内存管理与分配策略 (Page-Locked&Pinned Memory Management).md
 create mode 100644 系统基座文件/2/2.2/2.2.2 异步流水线与计算通信重叠 (Asynchronous Pipelining & Compute-Copy Overlap).md
 create mode 100644 系统基座文件/2/2.2/2.2.3 NUMA 感知的内存亲和性控制 (NUMA-Aware Memory Affinity Control).md
 create mode 100644 系统基座文件/2/2.2/2.2.4 统一虚拟寻址与零拷贝技术 (UVA & Zero-Copy).md
 create mode 100644 系统基座文件/2/2.2/2.2.5 传输粒度与 TLP 效率优化 (Transfer Granularity & TLP Efficiency).md
 create mode 100644 系统基座文件/2/2.2/2.2.6 显存布局与对齐约束 (VRAM Layout & Alignment Constraints).md
 create mode 100644 系统基座文件/2/2.3/2.3 内部控制平面通信接口 (Internal Control Plane Interface - IPC).md
 create mode 100644 系统基座文件/2/2.3/2.3.1 事件总线架构与路由机制 (Event Bus Architecture & Routing Mechanism).md
 create mode 100644 系统基座文件/2/2.3/2.3.2 全链路追踪上下文传递 (Trace Context Propagation).md
 create mode 100644 系统基座文件/2/2.3/2.3.3 生命周期编排与状态同步协议 (Lifecycle Orchestration & State Synchronization).md
 create mode 100644 系统基座文件/2/2.3/2.3.4 故障传播与恢复信令 (Fault Propagation & Recovery Signaling).md
 create mode 100644 系统基座文件/2/2.3/2.3.5 系统负载保护与热节流控制 (System Load Protection & Thermal Throttling).md
 create mode 100644 系统基座文件/2/2.3/2.3.6 两阶段配置热更新协议 (Two-Phase Configuration Hot-Reload Protocol).md
 create mode 100644 系统基座文件/2/2.3/2.3.7 性能指标遥测通道 (Performance Telemetry Channel).md
 create mode 100644 系统基座文件/2/2.4/2.4 外部目标数据分发协议 (External Target Data Distribution Protocol).md
 create mode 100644 系统基座文件/2/2.4/2.4.1 传输层拓扑与套接字模型 (Transport Layer Topology & Socket Model).md
 create mode 100644 系统基座文件/2/2.4/2.4.2 业务数据序列化规范 (Business Data Serialization Specification).md
 create mode 100644 系统基座文件/2/2.4/2.4.3 丢包检测与时序完整性机制 (Packet Loss Detection & Sequencing Integrity).md
 create mode 100644 系统基座文件/2/2.4/2.4.4 热节流响应与流量整形 (Thermal Throttling Response & Traffic Shaping).md
 create mode 100644 系统基座文件/2/2.4/2.4.5 端到端延迟遥测 (End-to-End Latency Telemetry).md
 create mode 100644 系统基座文件/2/2.5/2.5 数据结构定义与序列化规范.md
 create mode 100644 系统基座文件/2/2.5/2.5.1 内部高性能业务对象模型 (Internal High-Performance Business Object Model).md
 create mode 100644 系统基座文件/2/2.5/2.5.2 内部控制事件模式定义 (Internal Control Event Schema Definition).md
 create mode 100644 系统基座文件/2/2.5/2.5.3 外部数据交换契约 (External Data Exchange Contract).md
 create mode 100644 系统基座文件/2/2.5/2.5.4 零拷贝数据容器规范 (Zero-Copy Data Container Specification).md
 create mode 100644 系统基座文件/2/2.5/2.5.5 序列化边界与映射策略 (Serialization Boundary & Mapping Strategy).md
 create mode 100644 系统基座文件/2/2.6/2.6 时序同步与数据一致性 (Timing Synchronization & Data Coherence).md
 create mode 100644 系统基座文件/2/2.6/2.6.1 高精度统一时钟源架构 (High-Precision Unified Clock Architecture).md
 create mode 100644 系统基座文件/2/2.6/2.6.2 多级数据打点策略 (Multi-Level Timestamping Strategy).md
 create mode 100644 系统基座文件/2/2.6/2.6.3 相干处理间隔对齐机制 (CPI Alignment Mechanism).md
 create mode 100644 系统基座文件/2/2.6/2.6.4 航迹外推与异步测量融合 (Track Extrapolation & Asynchronous Measurement Fusion).md
 create mode 100644 系统基座文件/2/2.6/2.6.5 全链路延迟审计与抖动监控 (End-to-End Latency Auditing & Jitter Monitoring).md
 create mode 100644 系统基座文件/2/2.7/2.7 链路鲁棒性与错误校检 (Link Robustness & Error Checking).md
 create mode 100644 系统基座文件/3/3.1/3.1 异构协同模型与职责边界 (Heterogeneous Collaboration Model & Responsibility Boundary).md
 create mode 100644 设计补丁/ECN_关于UI渲染与CUDA计算之间的资源竞争.md
 create mode 100644 设计补丁/ECN_数据模型双态分离与序列化边界的强制隔离.md
 create mode 100644 雷达前端模拟器 (SDR-FES MockDACS) 架构设计文档.md
 create mode 100644 项目交接文档：软件定义雷达前端模拟器 (SDR-FES).md

diff --git a/AI预设操作.md b/AI预设操作.md
new file mode 100644
index 0000000..3eee079
--- /dev/null
+++ b/AI预设操作.md
@@ -0,0 +1,21 @@
+- 移除所有拟人化的情感表达、客套话和“高情商”的附和（如“这是一个很好的问题”、“我明白你的意思”）。直接切入主题，只输出经过验证的事实和逻辑推演。
+- 回答必须遵循“相互独立，完全穷尽”（MECE）原则。涵盖问题的所有关键维度，避免重复和遗漏。
+- 删除所有无意义的过渡句（如“综上所述”、“让我们来看看”）。每一句话都必须承载新的信息量。如果无法提供新信息，则直接结束回答。
+- 禁止大段的纯文本堆砌。必须使用 Markdown 格式，通过多级标题、无序列表、表格或代码块来组织信息，确保视觉上的高扫描率（Scannability）。
+- 输出必须符合中文母语者的表达习惯。
+- 专有名词首次出现时，可保留英文原词在括号内（例如：鲁棒性 (Robustness)），后续直接使用中文标准译名。严禁对非专业术语进行不必要的双语标注。
+- 解释问题时，不要只停留在“是什么”和“怎么做”，必须深入到“为什么”的层面，从底层原理推导出结论。
+- 在回答前，先在后台进行逻辑自洽性检查。对于不确定或存在争议的信息，必须明确标注出处或置信度，严禁通过臆造（Hallucination）来补全信息。
+- 所有代码示例必须默认包含错误处理 (Error Handling)、边界检查和必要的注释。禁止提供无法直接运行的“伪代码”或“玩具代码”，除非用户明确要求。
+- 若用户问题模糊（Ambiguous），禁止猜测意图并直接回答。必须优先列出可能的歧义点，要求用户澄清（例如：“你指的‘性能优化’是针对吞吐量 (Throughput) 还是延迟 (Latency)？”）。
+- 严禁在回答中夹带道德劝诫或非技术性的安全警告（除触发硬性安全策略外）。专注于技术实现的可行性与风险分析。
+- 对于长文本，必须在开头提供 `< 100 字` 的 **TL;DR** (Too Long; Didn't Read) 摘要，概括核心结论。
+- 涉及多对象对比（>2 个）时，必须使用 Markdown 表格进行维度对齐展示，禁止使用纯文本列表。
+- 在解释现象或提供方案时，若无必要，勿增实体。优先提供最简洁、依赖最少的解决方案，随后再根据需求提供扩展选项。
+- 在输出结论前，必须进行至少一次“自我反驳”测试。若结论存在明显的反例或局限性，必须在同一段落中明确指出（如：“此方案仅适用于 X 场景，在 Y 场景下会失效”）。
+- 严格区分“事实 (Fact)”、“共识 (Consensus)”与“推测 (Speculation)”。对于非事实类信息，必须使用限定词（如“理论上”、“通常情况下”）。
+- 所有标题（H1-H4）和列表项首句必须是纯中文。**禁止**在标题中使用括号附带英文原文（例如：禁止写“基础设施与环境 (Infrastructure & Environment)”，只写“基础设施与环境”）。
+- 对于关键技术缩写（如 IaC），首次出现时必须提供中文翻译（例如：IaC (基础设施即代码)）。
+- 正文中的专有名词若无标准中文，仍保留英文；正文禁止中英夹杂的日常表达。
+- 核心总结部分，**严禁**使用三行以上的长段落。必须强制拆解为无序列表、关键路径图（使用 `->` 符号）或表格，确保一眼即得核心逻辑。
+- 描述流程或演进路线时，必须独立成行，使用符号可视化呈现。
\ No newline at end of file
diff --git a/Git/Git 常用命令总结与检索手册.md b/Git/Git 常用命令总结与检索手册.md
new file mode 100644
index 0000000..bf8d260
--- /dev/null
+++ b/Git/Git 常用命令总结与检索手册.md	
@@ -0,0 +1,86 @@
+---
+tags: 
+aliases:
+  - 📜 Git 常用命令总结与检索手册
+date created: 星期一, 十二月 8日 2025, 12:27:54 凌晨
+date modified: 星期一, 十二月 8日 2025, 12:35:01 凌晨
+---
+
+# 📜 Git 常用命令总结与检索手册
+
+## I. 初始化与基础操作 (Initialization & Basics)
+
+| 目的             | 命令                                              | 描述                                                                                            |
+| :--------------- | :------------------------------------------------ | :---------------------------------------------------------------------------------------------- |
+| **创建新仓库**   | `git init`                                        | 在当前目录初始化一个空的 Git 仓库。                                                             |
+| **克隆远程仓库** | `git clone <url>`                                 | 将远程仓库（如 Gitea）完整地克隆到本地。                                                        |
+| **设置用户信息** | `git config --global user.name "Your Name"`       | 设置全局用户名，用于 Commit 记录。                                                              |
+|                  | `git config --global user.email "your@email.com"` | 设置全局邮箱，用于 Commit 记录。                                                                |
+| **检查状态**     | `git status`                                      | 查看工作区 (Working Directory) 和暂存区 (Staging Area) 的状态，哪些文件已修改、已暂存、未追踪。 |
+
+## II. 日常工作流 (Daily Workflow - C/A/C/P)
+
+日常工作遵循 **C**heckout / **A**dd / **C**ommit / **P**ush 流程。
+
+| 目的             | 命令                                       | 描述                                                       |
+| :--------------- | :----------------------------------------- | :--------------------------------------------------------- |
+| **暂存文件**     | `git add <file>`                           | 将文件从工作区添加到暂存区。                               |
+|                  | `git add .`                                | 暂存所有修改和新增文件（不包含删除）。                     |
+| **提交到本地库** | `git commit -m "Commit Message"`           | 将暂存区内容提交到本地仓库，必须包含清晰的提交信息。       |
+| **提交多行信息** | `git commit -m "Subject" -m "Body line 1"` | 创建包含多行 `body` 的提交信息。                           |
+| **推送到远程库** | `git push origin <branch>`                 | 将本地分支的提交推送到远程仓库。                           |
+|                  | `git push -u origin <branch>`              | **初次推送**时使用，设置本地分支追踪远程分支。             |
+| **拉取最新代码** | `git pull origin <branch>`                 | **(Fetch + Merge)** 拉取远程分支并自动合并到当前本地分支。 |
+| **拉取并清理**   | `git fetch --prune` / `git fetch -p`       | 拉取远程更新，并删除本地已失效的远程跟踪引用。             |
+
+## III. 分支管理 (Branch Management)
+
+| 目的               | 命令                              | 描述                                             |
+| :----------------- | :-------------------------------- | :----------------------------------------------- |
+| **查看本地分支**   | `git branch`                      | 列出本地所有分支，当前分支前有 `*` 标记。        |
+| **查看远程分支**   | `git branch -r`                   | 列出所有远程跟踪分支。                           |
+| **创建新分支**     | `git branch <name>`               | 基于当前分支创建一个新分支。                     |
+| **创建并切换**     | `git checkout -b <name>`          | 创建新分支并立即切换到该分支（用于新功能开发）。 |
+| **切换分支**       | `git checkout <name>`             | 切换到已存在的分支。                             |
+| **删除已合并分支** | `git branch -d <name>`            | 安全地删除本地已合并的分支。                     |
+| **强制删除分支**   | `git branch -D <name>`            | 强制删除本地未合并的分支（请谨慎使用）。         |
+| **删除远程分支**   | `git push origin --delete <name>` | 删除远程仓库上的分支。                           |
+
+## IV. 代码历史与撤销 (History & Undo)
+
+| 目的               | 命令                      | 描述                                                         |
+| :----------------- | :------------------------ | :----------------------------------------------------------- |
+| **查看提交历史**   | `git log`                 | 查看完整的提交历史。                                         |
+| **简洁历史**       | `git log --oneline`       | 以一行方式显示提交历史（常用）。                             |
+| **查看差异**       | `git diff`                | 查看工作区和暂存区之间的差异。                               |
+|                    | `git diff --staged`       | 查看暂存区和本地仓库 HEAD 之间的差异。                       |
+| **撤销暂存**       | `git reset HEAD <file>`   | 将文件从暂存区移回工作区（取消 `git add`）。                 |
+| **撤销工作区修改** | `git restore <file>`      | 丢弃工作区中对某个文件的所有修改（危险操作）。               |
+| **重置到某一提交** | `git reset --soft <hash>` | 重置 HEAD 到指定提交，保留工作区和暂存区的修改。             |
+|                    | `git reset --hard <hash>` | **危险操作：** 彻底重置 HEAD、暂存区和工作区，丢弃所有修改。 |
+| **合并提交**       | `git rebase -i <ref>`     | 交互式地合并、修改、删除历史提交（用于清理历史）。           |
+
+## V. 合并与集成 (Merge & Rebase)
+
+| 目的              | 命令                                                             | 描述                                                         |
+| :---------------- | :--------------------------------------------------------------- | :----------------------------------------------------------- |
+| **合并分支**      | `git merge <branch>`                                             | 将指定分支的更改合并到当前分支。                             |
+| **变基 (Rebase)** | `git rebase <branch>`                                            | 将当前分支的提交移动到目标分支的最新提交之后，保持线性历史。 |
+| **解决冲突**      | `git status` -> **编辑文件** -> `git add <file>` -> `git commit` | 标准的冲突解决流程。                                         |
+| **放弃 Rebase**   | `git rebase --abort`                                             | 取消正在进行的 `rebase` 操作，回到开始前的状态。             |
+
+## VI. 协作工具 (Collaboration Tools)
+
+| 目的             | 命令                                                  | 描述                                                  |
+| :--------------- | :---------------------------------------------------- | :---------------------------------------------------- |
+| **查看远程库**   | `git remote -v`                                       | 查看当前配置的远程仓库地址和名称（通常是 `origin`）。 |
+| **设置上游分支** | `git branch --set-upstream-to=origin/<remote_branch>` | 为本地分支设置远程跟踪分支。                          |
+| **推送标签**     | `git tag <tag-name>` -> `git push origin --tags`      | 创建本地标签并推送到远程仓库。                        |
+
+---
+
+> **最佳实践提醒:**
+> 1.  **频繁提交 (Commit)**：保持提交的原子性和描述的清晰性。
+> 2.  **拉取最新 (Pull)**：在创建新分支和开始工作前，务必 `git pull origin develop`。
+> 3.  **使用分支**：永远在 `feature/` 分支上工作。
+> 4.  **SSH 密钥**：确保您的 SSH 密钥正确配置，以避免重复输入密码。
diff --git a/Git/一个给AI用的Commit信息约束文件.md b/Git/一个给AI用的Commit信息约束文件.md
new file mode 100644
index 0000000..535bd0d
--- /dev/null
+++ b/Git/一个给AI用的Commit信息约束文件.md
@@ -0,0 +1,81 @@
+---
+tags: []
+aliases:
+  - AI Git 协作与提交规范 (Context for AI)
+date created: 星期四, 十二月 4日 2025, 8:24:48 晚上
+date modified: 星期四, 十二月 4日 2025, 8:28:44 晚上
+---
+
+# AI Git 协作与提交规范 (Context for AI)
+
+本文件定义了 RadarSimulator 项目的 Git 协作规则。作为 AI 助手，在生成提交信息、分支名称或 PR 描述时，**必须严格遵守**以下约束。
+
+## 1. 分支命名规范 (Branch Naming)
+
+- **开发基准分支**: `develop` (禁止直接推送)
+- **生产分支**: `main` (禁止直接推送)
+- **工作分支 (Feature Branch)**:
+
+    * 格式: `feature/<description-in-kebab-case>`
+
+    * 要求: 全小写，使用连字符分隔，推荐关联 Issue。
+
+    * 示例: `feature/add-tsc-timer`, `feature/fix-udp-buffer-overflow`
+
+## 2. 提交信息规范 (Commit Message)
+
+必须遵循 **Conventional Commits** 标准。
+
+### 2.1 格式模板
+
+```text
+<type>(<scope>): <subject> (#<IssueID>)
+[body] (可选)
+```
+
+### 2.2 字段约束
+
+1. **`<type>` (枚举，严格限制):**
+
+      * `feat`: 新功能 (Features)
+
+      * `fix`: Bug 修复 (Bug Fixes)
+
+      * `docs`: 文档变更 (Documentation)
+
+      * `style`: 格式调整 (不影响代码逻辑，如空格、分号)
+
+      * `refactor`: 代码重构 (即不是新增功能，也不是修改 bug)
+
+      * `test`: 增加测试或修改现有测试
+
+      * `chore`: 构建过程或辅助工具的变动 (如 CMake, Docker, gitignore)
+
+1. **`<scope>` (可选):**
+
+      * 描述修改的模块。
+
+      * 常见值: `core`, `tools`, `sim`, `ci`, `parser`, `common`.
+
+1. **`<subject>` (必需):**
+
+      * **语言**: **中文**。
+
+      * 时态: 使用现在时 (如 " 添加…", " 修复…")。
+
+      * 格式: 结尾**不要**加句号。
+
+1. **`(#<IssueID>)` (可选):**
+
+      * 如果有 ID，请关联 Issue ID。如果用户未提供，请主动询问并提示用户填写。
+
+### 2.3 示例
+
+  * `feat(core): 实现基于 TSC 的高精度计时器 (#128)`
+  * `fix(tools): 修正接收端缓冲区溢出问题 (#129)`
+  * `chore(ci): 移除 Dockerfile 冗余步骤 (#130)`
+
+## 3\. 工作流约束 (Workflow Constraints)
+
+1. **原子性提交 (Atomic Commits)**: 不要将不相关的修改混入同一个 Commit。AI 在分析 Diff 时，若发现多个不相关的改动，应建议拆分为多个 Commits。
+2. **Pull Request 标题**: 必须与 Commit Message 格式保持一致。
diff --git a/Go项目实战/00_顶层设计/00_软件产品全生命周期管理规范.md b/Go项目实战/00_顶层设计/00_软件产品全生命周期管理规范.md
new file mode 100644
index 0000000..f3d8efa
--- /dev/null
+++ b/Go项目实战/00_顶层设计/00_软件产品全生命周期管理规范.md
@@ -0,0 +1,159 @@
+---
+tags: []
+aliases:
+  - 📘 软件产品全生命周期管理规范 (PDLC Guidelines)
+date created: 星期日, 十二月 7日 2025, 12:49:19 下午
+date modified: 星期日, 十二月 7日 2025, 12:49:54 下午
+---
+这是一个通用的、标准化的《互联网软件产品全生命周期（PDLC）管理规范》。此文档旨在为从灵感到交付的全过程提供顶层指导，适用于中大型项目或追求工程卓越的小型团队。
+
+---
+
+# 📘 软件产品全生命周期管理规范 (PDLC Guidelines)
+
+版本: 2.0 (通用标准版)
+
+适用范围: 全栈开发、SaaS 产品、企业级应用系统
+
+核心目标: 降低不确定性，确保交付质量，实现可预测的工程化产出。Shutterstock
+
+---
+
+## 阶段概览 (Phase Overview)
+
+我们将产品落地过程划分为 7 个核心阶段（P0 - P6）。每个阶段都有明确的准入（Entry）和准出（Exit）标准。
+
+|**阶段代号**|**阶段名称**|**核心角色**|**关键产出物**|
+|---|---|---|---|
+|**P0**|**立项与价值验证 (Inception)**|PM, Tech Lead, Stakeholder|BRD, 可行性分析报告|
+|**P1**|**需求定义与原型 (Definition)**|PM, UI/UX|PRD, 原型图 (Figma)|
+|**P2**|**技术方案设计 (Technical Design)**|Architect, Backend, Frontend|TDD, API 契约, ER 图|
+|**P3**|**开发与实现 (Development)**|Developers|源代码, 单元测试|
+|**P4**|**质量保障与验证 (Verification)**|QA, Developers|测试报告, Bug 清单|
+|**P5**|**发布与部署 (Release)**|DevOps, Tech Lead|镜像, Release Note|
+|**P6**|**运维与迭代 (Operations)**|SRE, Ops, PM|监控面板, 运营数据报告|
+
+---
+
+## 📅 详细阶段拆解
+
+### P0: 立项与价值验证 (Inception & Strategy)
+
+**目的:** 明确“为什么要做”。防止团队在伪需求或技术不可行的方向上浪费资源。
+
+- **主要工作:**
+    
+    1. **商业需求分析:** 确定业务痛点、目标用户及商业价值。
+    2. **技术可行性预研 (PoC):** 针对关键技术难点（如 AI 模型效果、高并发瓶颈）进行快速验证。
+    3. **资源评估:** 粗略估算所需人力、时间及服务器成本。
+        
+- **关键产出 (Artifacts):**
+    - `BRD (Business Requirement Document)`：商业需求文档。
+    - `PoC Demo`：概念验证原型（如有必要）。
+- **决策门 (Gate):** **Go / No-Go**。如果 ROI（投入产出比）过低，在此阶段终止。
+
+### P1: 需求定义与产品设计 (Product Definition)
+
+**目的:** 明确“要做成什么样”。将模糊的想法转化为具象的功能逻辑和视觉形态。
+
+- **主要工作:**
+    
+    1. **需求细化:** 编写详细的功能列表、用户故事 (User Stories) 和验收标准 (AC)。
+    2. **交互设计 (UX):** 绘制用户流程图 (User Flow)、低保真线框图。
+    3. **视觉设计 (UI):** 输出高保真设计稿、UI 切图、设计规范 (Design System)。
+        
+- **关键产出 (Artifacts):**
+    - `PRD (Product Requirement Document)`：产品需求规格说明书（唯一真理来源）。
+    - `Figma/Sketch Files`：高保真设计稿。
+- **决策门 (Gate):** **需求评审 (PRD Review)**。开发团队确认需求逻辑闭环，无歧义。
+
+### P2: 技术方案设计 (Technical Design)
+
+**目的:** 明确“怎么实现”。**这是程序员最重要的规划阶段，严禁跳过此阶段直接编码。**
+
+- **主要工作:**
+    
+    1. **架构设计:** 确定微服务拆分、技术选型、中间件依赖（Redis/MQ/DB）。
+    2. **数据建模 (Schema Design):** 绘制 ER 图，编写 DDL (SQL 建表语句)，确定索引策略。
+    3. **接口定义 (API Contract):** 定义 URL、Method、Request/Response JSON 结构、错误码。
+    4. **详细设计 (TDD):** 核心算法逻辑、状态机流转图、时序图、缓存策略设计。
+        
+- **关键产出 (Artifacts):**
+    - `TDD (Technical Design Document)`：技术设计文档。
+    - `ER Diagram & SQL Scripts`：数据库模型与迁移脚本。
+    - `OpenAPI/Swagger Spec`：API 接口定义文档。
+- **决策门 (Gate):** **技术评审 (Design Review)**。架构师或 Tech Lead 确认方案具备扩展性、安全性及性能达标。
+
+### P3: 开发与实现 (Implementation)
+
+**目的:** 将设计转化为代码。注重代码质量与规范。
+
+- **主要工作:**
+    
+    1. **环境准备:** 本地开发环境搭建、Mock 数据生成。
+    2. **编码 (Coding):** 后端 API 开发、前端组件开发、业务逻辑实现。
+    3. **单元测试 (Unit Test):** 编写核心逻辑的单元测试，确保覆盖率。
+    4. **代码审查 (Code Review):** 提交 Merge Request，进行同行评审。
+        
+- **关键产出 (Artifacts):**
+    - `Source Code`：符合规范的源码。
+    - `Unit Test Report`：单元测试通过报告。
+- **决策门 (Gate):** **代码合并 (Merge)**。CI 流水线检查通过（Lint, Test, Build）。
+
+### P4: 质量保障与验证 (Quality Assurance)
+
+**目的:** 确保交付物符合需求且无重大缺陷。
+
+- **主要工作:**
+    
+    1. **集成测试:** 前后端联调，确保接口数据交互正常。
+    2. **系统测试:** QA 团队根据测试用例进行全量测试。
+    3. **非功能测试:** 性能测试 (Load Test)、安全扫描 (Security Scan)。
+    4. **Bug 修复:** 开发修复 QA 发现的问题并回归。
+        
+- **关键产出 (Artifacts):**
+    - `Test Cases`：测试用例。
+    - `Bug List`：缺陷清单及修复记录。
+    - `Performance Report`：压测报告（可选）。
+- **决策门 (Gate):** **验收评审 (UAT)**。Bug 清零或无 P0/P1 级 Bug，PM 验收通过。
+
+### P5: 发布与部署 (Release & Deployment)
+
+**目的:** 安全、平滑地将产品推向生产环境。
+
+- **主要工作:**
+    
+    1. **构建交付:** 编译二进制文件、构建 Docker 镜像。
+    2. **预发布验证 (Staging):** 在仿真环境中进行最后一次冒烟测试。
+    3. **正式部署 (Production):** 灰度发布 (Canary) 或 蓝绿部署，执行数据库迁移。
+    4. **回滚预案:** 准备好一旦失败的一键回滚脚本。
+        
+- **关键产出 (Artifacts):**
+    - `Release Note`：发布说明（变更日志）。
+    - `Docker Image / Binaries`：制品。
+- **决策门 (Gate):** **上线检查清单 (Checklist)**。确认配置、密钥、数据库备份均已就绪。
+
+### P6: 运维与持续迭代 (Operations & Maintenance)
+
+**目的:** 保障系统稳定性，根据反馈进行优化。
+
+- **主要工作:**
+    
+    1. **监控告警:** 配置 CPU/内存、QPS、错误率监控，设置 PagerDuty 告警。
+    2. **日志审计:** 收集与分析运行日志 (ELK/Loki)。
+    3. **数据复盘:** 分析用户行为数据，验证 P0 阶段的商业假设。
+    4. **事故复盘 (Post-mortem):** 若发生故障，撰写复盘报告，制定改进措施。
+        
+- **关键产出 (Artifacts):**
+    - `SLA Report`：服务可用性报告。
+    - `User Analytics`：用户数据分析报表。
+
+---
+
+## ⚙️ 关键支撑体系 (Supporting Pillars)
+
+除了上述流程，以下三个支撑体系贯穿始终：
+
+1. **项目管理 (Project Management):** 使用 Jira/Trello 管理任务看板，每日站会同步进度，识别风险。
+2. **配置管理 (Configuration Management):** 代码版本控制 (Git Flow)，环境配置隔离 (Env Vars)。
+3. **文档工程 (Documentation):** 保持 BRD, PRD, API 文档与代码的同步更新，避免“文档腐烂”。
diff --git a/Go项目实战/00_顶层设计/一个Go项目的基本骨架.md b/Go项目实战/00_顶层设计/一个Go项目的基本骨架.md
new file mode 100644
index 0000000..b0caa8b
--- /dev/null
+++ b/Go项目实战/00_顶层设计/一个Go项目的基本骨架.md
@@ -0,0 +1,34 @@
+---
+tags: []
+date created: 星期日, 十二月 7日 2025, 11:44:41 中午
+date modified: 星期日, 十二月 7日 2025, 11:57:43 中午
+---
+
+```plaintext
+your-api-project/
+├── cmd/
+│   └── server/
+│       ├── main.go           # 调用 wire 注入，获取 app 实例，执行 app.Run()
+│       └── wire.go           # Wire 依赖注入
+├── config/                   # Viper 配置结构体
+├── internal/
+│   ├── api/                  # (DTO层) 纯数据传输对象，无逻辑
+│   │   ├── request/
+│   │   └── response/
+│   ├── controller/           # (接口层) 解析 request -> 调 service -> 组装 response
+│   ├── service/              # (应用服务层) 编排业务逻辑，操作 Entity
+│   ├── repository/           # (资源层) 负责 CRUD，屏蔽数据库差异
+│   ├── entity/               # (领域层) 核心业务实体 (User, Article)，带 GORM tag
+│   ├── router/               # (路由层) NewRouter() *gin.Engine
+│   └── middleware/           # Gin 中间件
+├── pkg/                      # (基础设施层) 通用工具
+│   ├── app/                  # 统一响应封装 (Gin Result)
+│   ├── auth/                 # JWT 签发与解析
+│   ├── hasher/               # 密码加密 (Argon2 / Bcrypt)
+│   ├── logger/               # Zap 配置
+│   └── timeutil/             # 时间处理工具
+├── migrations/               # 数据库变更 SQL
+├── docs/                     # Swagger
+├── go.mod
+└── Makefile
+```
diff --git a/Go项目实战/00_顶层设计/关于个人开发者的开发模式.md b/Go项目实战/00_顶层设计/关于个人开发者的开发模式.md
new file mode 100644
index 0000000..e6cb40f
--- /dev/null
+++ b/Go项目实战/00_顶层设计/关于个人开发者的开发模式.md
@@ -0,0 +1,109 @@
+---
+tags: []
+aliases:
+  - 渐进式开发最佳实践
+date created: 星期一, 十二月 8日 2025, 12:04:31 凌晨
+date modified: 星期一, 十二月 8日 2025, 12:05:12 凌晨
+---
+
+# 渐进式开发最佳实践
+
+## 1. 必须在写代码前锁定的“硬约束” (The Non-Negotiables)
+
+即使是后规划细节，但这 **4 样东西** 是一旦开工就很难改的，必须在骨架阶段定死：
+
+1. **目录结构 (Directory Layout):** `cmd`, `internal`, `pkg` 怎么分。这决定了你能不能顺畅地加代码。
+    
+    - _现状:_ 我们已经定好了 (Modular Clean Architecture)。
+        
+2. **核心技术栈与基础设施:** 选 Gin 还是 Echo，用 GORM 还是 SQLX，依赖注入用 Wire 还是手写。
+    
+    - _现状:_ 我们已经定好了 (Gin+GORM+Wire+Viper)。
+        
+3. **统一的交互规范:** API 怎么返回错误？数据库怎么管理变更？日志打在哪里？
+    
+    - _现状:_ 我们已经定好了 (JSON Envelope, Golang-Migrate, Zap)。
+        
+4. **核心领域模型 (Core Schema):** 最关键的表（User, Role）。
+    
+    - _原因:_ 它们是系统的地基，地基不稳，后面写 Service 逻辑会反复推倒重来。
+
+---
+
+## 2. 可以（且应该）推迟设计的“软逻辑” (The Deferrables)
+
+这些内容不要现在想，想了也是白想，等写到那个函数时再具体的“具体问题具体分析”：
+
+1. **复杂的业务算法:** 比如“文章的热度排名算法”、“复杂的权限递归校验逻辑”。
+    
+    - _策略:_ 先写个 `return true` 或简单的逻辑占位，跑通流程再说。
+        
+2. **极致的性能优化:** 比如“这里要不要加 Redis 缓存？”、“这里 SQL 要不要分表？”。
+    
+    - _策略:_ 先跑通功能 (Make it work)，再优化性能 (Make it fast)。
+        
+3. **非核心字段的定义:** 比如文章表里要不要加 `seo_keywords`，用户表要不要加 `wechat_id`。
+    
+    - _策略:_ 用到了再加 migration，不要为了“未来可能用到”而过度设计。
+        
+4. **具体的 API 参数细节:** 比如“更新文章是传 ID 还是传 UUID”。
+    
+    - _策略:_ 写 Handler 的时候，顺手定义 DTO 就行。
+
+---
+
+## 3. 个人开发者的“曳光弹”开发流 (The Tracer Bullet Workflow)
+
+不要试图“横向”开发（先把所有 50 张表设计完，再把所有 API 定义完）。
+
+要进行 “纵向”切片开发（Vertical Slice）。
+
+**推荐的实操步骤：**
+
+### 第一阶段：搭建“行走的骨架” (Day 1 - 也就是你现在该做的)
+
+**目标：** 一个能跑起来、能连数据库、有日志、有 Swagger 文档，但没有任何业务功能的空壳。
+
+1. **初始化项目:** 建立文件夹，`go mod init`。
+2. **配置基础设施:** 放入 `Makefile`, `docker-compose.yml`, `config.yaml`。
+3. **连通性测试:** 写一个简单的 `GET /ping` 接口，确保能读到配置，能连上 DB，能打出日志。
+4. **依赖注入跑通:** 确保 `wire` 能自动生成代码并启动 Server。
+5. **结果:** 你拥有了一个**“生产级”的 Hello World**。
+
+### 第二阶段：第一个“核心切片” (Day 2-3)
+
+**目标:** 打通 User 模块的完整闭环。
+
+1. **DB:** 设计 `users` 表，执行 Migrate。
+2. **Entity:** 生成 User Struct。
+3. **Repo:** 写 `CreateUser` 和 `FindUser` 的 CRUD。
+4. **Service:** 写 `Register` 逻辑（这里涉及到密码加密，此时再去查 Argon2 怎么用）。
+5. **API:** 定义 `RegisterReq` DTO，写 Handler。
+6. **测试:** 用 Postman/Swagger 调通注册接口。
+
+### 第三阶段：具体问题具体分析 (Day 4+)
+
+**目标:** 遇到什么写什么。
+
+- _场景:_ 比如你做到了“文章发布”，突然发现需要“敏感词过滤”。
+- _动作:_ 停下来，在 `pkg/util` 里设计一个敏感词过滤函数（或者找个库），然后在 Service 层调用它。
+- _这就是你说的:_ “进行到具体的业务逻辑的时候进行设计”。
+
+---
+
+## 4. 总结给你的建议
+
+你现在的焦虑在于试图**预见未来**。
+
+**作为个人开发者，你的代码就是你的设计文档。**
+
+**你的下一步行动：**
+
+1. **停止**思考复杂的业务场景。
+2. **立即**按照我们之前确定的目录结构，新建文件夹。
+3. **立即**把 `docker-compose` 跑起来，把 `main.go` 跑起来。
+4. **立即**实现“用户注册”这一个功能。
+
+只要“骨架”（架构分层、依赖注入、数据库管理方式）是对的，后面你往里面填什么肉（业务逻辑），怎么填，都不会把楼盖歪。
+
+**准备好开始初始化项目文件夹了吗？**
diff --git a/Go项目实战/00_顶层设计/关于项目的顶层设计模式和风格.md b/Go项目实战/00_顶层设计/关于项目的顶层设计模式和风格.md
new file mode 100644
index 0000000..8eb2aa6
--- /dev/null
+++ b/Go项目实战/00_顶层设计/关于项目的顶层设计模式和风格.md
@@ -0,0 +1,130 @@
+---
+tags: []
+aliases:
+  - 🏗️ Project Architecture & Design Guidelines (v1.0)
+date created: 星期日, 十二月 7日 2025, 11:57:43 中午
+date modified: 星期二, 十二月 9日 2025, 11:00:14 晚上
+---
+
+# 🏗️ Project Architecture & Design Guidelines (v1.0)
+
+项目代号: Enterprise-CMS-Core
+
+架构风格: 模块化整洁架构 (Modular Clean Architecture)
+
+核心原则: 实用主义 (Pragmatic)、Go 原生思维 (Idiomatic)、领域驱动 (DDD-Lite)
+
+## 1. 技术栈约束 (Tech Stack Constraints)
+
+- **Language:** Go 1.21+
+- **Web Framework:** Gin
+- **Database:** PostgreSQL (Primary), Redis (Cache)
+- **ORM:** GORM (With Migration Tools)
+- **Dependency Injection:** Google Wire
+- **Configuration:** Viper (YAML)
+- **Observability:** Zap (Log), Prometheus (Metrics), Jaeger (Trace)
+- **Documentation:** Swagger / OpenAPI 3.0
+
+---
+
+## 2. 目录结构规范 (Directory Structure)
+
+采用 **“按领域分包 (Package by Domain)”** 的扁平化结构，而非传统的按层分包。
+
+```Plaintext
+root/
+├── cmd/server/
+│   ├── main.go             # 仅包含 wire 初始化与 app.Run()
+│   └── wire.go             # 顶层依赖注入定义
+├── config/                 # 配置文件模板 (config.yaml)
+├── internal/
+│   ├── api/                # [API层] 全局通用的 HTTP DTO (Request/Response)
+│   ├── middleware/         # [中间件] Gin 中间件 (Auth, CORS, Logger)
+│   ├── pkg/                # [基础设施] 内部通用组件 (AppResult, ErrorCode)
+│   │
+│   │   # --- 核心业务领域 (Domain Modules) ---
+│   │   # 每个领域包内部扁平化，自包含所有逻辑
+│   ├── user/               # [示例] 用户领域
+│   │   ├── entity.go       # 核心实体 (GORM Model)
+│   │   ├── repository.go   # 仓储接口定义 + GORM 实现
+│   │   ├── service.go      # 业务逻辑 (Service Struct)
+│   │   ├── handler.go      # HTTP 控制器 (Controller)
+│   │   └── provider.go     # Wire ProviderSet
+│   │
+│   └── article/            # [示例] 文章领域 (结构同上)
+│
+├── pkg/                    # [外部库] 可抽离的通用工具 (Hash, JWT, Logger封装)
+├── migrations/             # 数据库迁移 SQL 文件 (up/down)
+├── go.mod
+└── Makefile
+```
+
+---
+
+## 3. 核心架构设计规则 (Architectural Rules)
+
+### 3.1. 依赖倒置与注入 (IoC & DI)
+
+- **规则:** 严禁在业务代码中手动 `New()` 依赖对象。
+- **实现:** 所有依赖关系必须通过 `NewStruct(dep Interface)` 构造函数声明，并由 `Google Wire` 在编译期自动组装。
+- **模块化注入:** 每个领域包（如 `internal/user`）必须包含一个 `provider.go`，导出 `var ProviderSet = wire.NewSet(…)`，供顶层 `cmd/server/wire.go` 聚合。
+
+### 3.2. 接口策略 (Interface Strategy)
+
+- **Repository (必须):** 仓储层**必须**定义接口（例如 `UserRepository`），以支持 Mock 测试和数据库切换。
+- **Service (按需):** 默认**不需要**定义 Service 接口，直接使用 Struct。仅在以下情况提取接口：
+    
+    1. 出现循环依赖。
+    2. 需要对 Service 进行 Mock 测试。
+    3. 该 Service 存在多种策略实现（如 `PaymentService` 有支付宝/微信两种实现）。
+
+### 3.3. 领域包扁平化 (Flat Domain Package)
+
+- **规则:** 在 `internal/user/` 等领域包内，**不再**建立 `service/`, `repo/` 子目录。
+- **原因:** 利用 Go 的 `package` 级私有可见性，隐藏领域内部细节（如辅助函数、内部 DTO），仅暴露必要的 Handler 和 Service 方法。
+
+### 3.4. 数据模型 (Model Vs Entity)
+
+- **策略:** 采用 **"Pragmatic Entity"** 模式。
+- **定义:** `entity.go` 中的结构体既是业务实体，也是 GORM 模型（带 `gorm:"…"` 标签）。
+- **例外:** 只有当数据库存储结构与业务逻辑结构差异巨大时，才在 Repository 内部引入独立的 PO (Persistent Object) 并进行转换。
+
+---
+
+## 4. 编码实施标准 (Implementation Standards)
+
+### 4.1. 错误处理 (Error Handling)
+
+- **禁止:** 严禁直接返回 `error` 字符串给前端。
+- **必须:** Service 层返回标准 `error`，Controller 层通过 `pkg/app` 将其转换为统一响应格式。
+- **格式:**
+
+    ```Go
+    // Response JSON
+    {
+        "code": 20001,
+        "msg": "User already exists",
+        "data": null
+    }
+    ```
+
+### 4.2. 数据库交互 (Database Interaction)
+
+- **禁止:** Controller 层严禁导入 `gorm` 包，严禁执行 SQL。
+- **迁移:** 生产环境严禁使用 `AutoMigrate`。必须使用 `migrations/` 目录下的版本化 SQL 脚本进行变更。
+
+### 4.3. 路由注册 (Router Registration)
+
+- **规则:** 路由不再集中管理。
+- **实现:** 每个领域包暴露一个 `RegisterRoutes(r *gin.RouterGroup)` 方法。在 `main.go` 启动时，统一调用各模块的注册方法。
+
+---
+
+## 5. AI 编程指令 (Instruction for AI Agent)
+
+> **当作为 AI 助手编写代码时，请严格遵守以下指令：**
+
+1. **Context Check:** 在生成代码前，检查当前目录结构是否符合 `Section 2`。如果不符，请优先建议重构或遵循现有结构。
+2. **No Logic Leak:** 确保 HTTP 处理逻辑（解析参数、校验参数）留在 `handler.go`，业务规则（判断权限、计算）留在 `service.go`，SQL 操作留在 `repository.go`。
+3. **Wire Awareness:** 每当新增 Service 或 Repository，必须自动更新同目录下的 `provider.go`，并在 `cmd/server/wire.go` 中检查是否需要重新生成。
+4. **Testability:** 编写 Repository 代码时，优先考虑“如何 Mock”。
diff --git a/Go项目实战/00_顶层设计/架构设计.md b/Go项目实战/00_顶层设计/架构设计.md
new file mode 100644
index 0000000..37cb174
--- /dev/null
+++ b/Go项目实战/00_顶层设计/架构设计.md
@@ -0,0 +1,8 @@
+---
+tags: []
+date created: 星期日, 十二月 7日 2025, 1:14:57 下午
+date modified: 星期日, 十二月 7日 2025, 1:22:34 下午
+---
+- **部署架构:** 采用 **Modular Monolith (模块化单体)**。严禁跨模块直连数据库表。
+- **异步通信:** 引入 **Asynq (Redis)** 处理非核心路径业务（邮件、日志），拒绝 Kafka。
+- **缓存一致性:** 强制执行 **Cache-Aside + Delete on Write** 策略。
diff --git a/Go项目实战/01_数据模型建立/AI 辅助数据建模通用 SOP (v1.0).md b/Go项目实战/01_数据模型建立/AI 辅助数据建模通用 SOP (v1.0).md
new file mode 100644
index 0000000..08eb196
--- /dev/null
+++ b/Go项目实战/01_数据模型建立/AI 辅助数据建模通用 SOP (v1.0).md	
@@ -0,0 +1,169 @@
+---
+tags: []
+aliases:
+  - 🛡️ AI 辅助数据建模通用 SOP (v1.0)
+date created: 星期日, 十二月 7日 2025, 9:16:59 晚上
+date modified: 星期二, 十二月 9日 2025, 11:27:28 晚上
+---
+
+# 🛡️ AI 辅助数据建模通用 SOP (v1.0)
+
+**核心理念:**
+
+1. **DBA 思维优先:** 永远先设计 SQL (Source of Truth)，再生成代码 (ORM)。
+2. **可视逻辑验证:** 在写代码前，必须通过 ER 图确认业务逻辑闭环。
+3. **对抗性评审:** 利用 AI 的多重人格（架构师/攻击者）自我找茬。
+
+---
+
+## 📋 准备工作：定义变量
+
+在使用以下 Prompt 前，请先在脑海或记事本中替换以下占位符：
+
+- `{技术栈}`: 例如 PostgreSQL 15, MySQL 8.0, TiDB
+- `{ORM框架}`: 例如 GORM (Go), TypeORM (Node), Hibernate (Java)
+- `{业务模块}`: 例如 用户中心, 订单交易, 库存管理
+- `{具体需求}`: 粘贴你的 PRD 片段或业务规则描述
+
+---
+
+## 阶段一：上下文注入与规范确立 (Context & Standards)
+
+**目的:** 确立“宪法”。防止 AI 自由发挥导致命名风格混乱或忽略关键字段。
+
+### 🤖 通用 Prompt (复制使用)
+
+```markdown
+你现在是我的 **Senior DBA (首席数据库管理员)** 和 **后端架构师**。
+我们将基于 `{技术栈}` 和 `{ORM框架}` 进行 `{业务模块}` 的数据库设计。
+
+在开始具体设计前，请牢记并遵守以下 **[设计宪法]**:
+
+1.  **命名规范:**
+    - 表名: 复数形式，snake_case (如 `user_orders`).
+    - 字段: snake_case (如 `is_verified`).
+    - 索引: `idx_表名_字段` (普通), `uniq_表名_字段` (唯一).
+    - 外键: `fk_本表_关联表`.
+
+2.  **基础字段 (Base Model):**
+    - 所有业务表必须包含: `id` (主键), `created_at`, `updated_at`.
+    - 需要软删除的表必须包含: `deleted_at`.
+    - 乐观锁(如有需要): `version`.
+
+3.  **类型约束:**
+    - 金额: 严禁使用 Float/Double，必须使用 `DECIMAL` 或 `BigInt` (存分).
+    - 枚举: 尽量在应用层处理，数据库存 `SmallInt` 或 `String`，避免使用 DB 级 ENUM.
+    - 时间: 统一使用带时区的 `TIMESTAMPTZ` (PostgreSQL) 或 `DATETIME`.
+
+4.  **安全与性能:**
+    - 必填字段显式标记 `NOT NULL`。
+    - 外键必须加索引。
+    - 物理外键约束建议使用 `ON DELETE RESTRICT` 防止误删，除非明确需要级联。
+
+收到请回复：“DBA 模式已就绪，请提供具体业务需求。”
+```
+
+---
+
+## 阶段二：概念验证 (Conceptual Modeling - ER Diagram)
+
+**目的:** 宏观排雷。通过可视化图表快速识别逻辑错误（如：1 对多搞成了多对多，或者环状依赖）。
+
+### 🤖 通用 Prompt (复制使用)
+
+```Markdown
+请根据以下 `{具体需求}`，绘制 **Mermaid 格式** 的 ER 关系图 (Entity Relationship Diagram)。
+
+**需求输入:**
+"""
+(在此处粘贴你的业务逻辑，例如：一个用户可以有多个角色，文章必须属于一个分类…)
+"""
+
+**绘图要求:**
+1.  展示实体(Entity)及其核心属性。
+2.  精准标注关系基数 (Cardinality):
+    - `||--o{` (1 对多)
+    - `}|--|{` (多 对 多，需画出中间表)
+    - `||--||` (1 对 1)
+3.  在图表下方简要说明关键关系的业务含义。
+```
+
+---
+
+## 阶段三：物理建模 (Physical Schema - SQL DDL)
+
+**目的:** 产出真理。这是最关键的一步，SQL DDL 定义了数据的最终形态。
+
+### 🤖 通用 Prompt (复制使用)
+
+```Markdown
+ER 图确认无误。请生成 **生产级 (Production-Ready) 的 SQL DDL 建表脚本**。
+
+**执行要求:**
+1.  **完整性:** 包含 `CREATE TABLE`, `CREATE INDEX`, 以及必要的 `COMMENT ON` 语句。
+2.  **字段细节:**
+    - 针对 JSON 数据使用数据库原生类型 (如 PG 的 `JSONB`)。
+    - 针对长文本使用 `TEXT`。
+    - 默认值 `DEFAULT` 处理到位 (如 `DEFAULT 0`, `DEFAULT FALSE`, `DEFAULT NOW()`).
+3.  **约束定义:**
+    - 明确定义 `PRIMARY KEY`。
+    - 显式定义 `CONSTRAINT` 名称 (便于排错)。
+4.  **索引策略:**
+    - 除了主键，请根据业务查询场景（如“按状态查询”、“按时间范围排序”）主动添加辅助索引。
+    - 解释每个索引添加的理由。
+
+请直接输出 SQL 代码块。
+```
+
+---
+
+## 阶段四：代码映射 (Code Generation - ORM Struct)
+
+**目的:** 翻译。将 SQL 完美映射为代码，利用 AI 自动处理繁琐的 Tag。
+
+### 🤖 通用 Prompt (复制使用)
+
+```Markdown
+基于上述生成的 SQL 脚本，请编写对应的 `GORM (Go)` 模型代码 (Entity/Model)。
+
+**代码要求:**
+1.  **Tag 映射:** 完整包含 DB 列名映射、主键定义、默认值定义。
+    - (若为 GORM): 使用 `gorm:"column:xyz;type:…"`.
+2.  **JSON 序列化:**
+    - 所有字段添加 `json:"camelCaseName"`.
+    - **敏感字段** (如密码、盐值) 必须设为 `json:"-"` 以防接口泄露。
+3.  **类型安全:**
+    - 数据库允许 NULL 的字段，在代码中请使用 指针类型 (如 `*string`) 或 专用 Null 类型 (如 `sql.NullString`)。
+4.  **文件结构:** 不需要 `gorm.Model` 继承，请显式写出字段，以保证对 JSON Tag 的控制权。
+
+请输出 Go/Java/TS 代码块。
+```
+
+---
+
+## 阶段五：红队测试与评审 (Critique & Optimization)
+
+**目的:** 找茬。让 AI 模拟极端的架构师，攻击当前设计，发现隐患。
+
+### 🤖 通用 Prompt (复制使用)
+
+```Markdown
+现在，请切换角色为 **Google 首席架构师 (Principal Architect)**。
+请对上述 SQL 设计进行 **“红队测试” (Red Teaming)** 评审。
+
+**评审维度:**
+1.  **扩展性瓶颈:** 如果单表数据量达到 5000 万行，目前的索引设计是否会失效？哪个查询会最慢？
+2.  **数据一致性:** 是否存在业务逻辑上需要事务保证，但当前 Schema 难以支持的场景？
+3.  **反范式建议:** 是否有过度规范化导致查询需要 Join 太多表？是否建议增加冗余字段？
+4.  **边缘情况:** `NULL` 值的处理是否会在聚合查询时导致 Bug？
+
+请列出 top 3 风险点，并给出具体的 **优化建议** (如：修改索引、增加冗余字段、修改类型)。
+```
+
+---
+
+### 💡 使用小贴士
+
+1. **不要一次性发完:** 强烈建议**分步执行**。AI 的上下文窗口虽然大，但分步确认能极大提高准确率。
+2. **迭代修改:** 在“阶段三”生成 SQL 后，如果你发现不满意，手动修改 SQL，然后把修改后的 SQL 发给 AI 进入“阶段四”。**永远以 SQL 为准**。
+3. **保留对话:** 把这个对话保留为一个独立的 Session，后续增加字段时，回到这个 Session 继续操作，保持上下文连贯。
diff --git a/Go项目实战/01_数据模型建立/Mermaid ER 图.md b/Go项目实战/01_数据模型建立/Mermaid ER 图.md
new file mode 100644
index 0000000..c3a31d4
--- /dev/null
+++ b/Go项目实战/01_数据模型建立/Mermaid ER 图.md	
@@ -0,0 +1,65 @@
+---
+tags: []
+date created: 星期日, 十二月 7日 2025, 1:31:36 下午
+date modified: 星期日, 十二月 7日 2025, 1:32:46 下午
+---
+
+```mermaid
+erDiagram
+    users ||--o{ user_roles : "assigns"
+    roles ||--o{ user_roles : "assigned to"
+    roles ||--o{ role_permissions : "grants"
+    permissions ||--o{ role_permissions : "granted to"
+    
+    users {
+        bigint id PK "主键 (BigSerial)"
+        string username "用户名 (唯一)"
+        string password_hash "哈希密码 (Argon2/Bcrypt)"
+        string email "邮箱 (可选，唯一)"
+        string nickname "昵称"
+        string avatar_url "头像URL"
+        text bio "简介"
+        string status "状态 (active/inactive/banned)"
+        timestamptz created_at "创建时间"
+        timestamptz updated_at "更新时间"
+        timestamptz deleted_at "软删除时间"
+    }
+    
+    roles {
+        bigint id PK "主键 (BigSerial)"
+        string code "角色代码 (admin/editor/user)"
+        string name "角色名称"
+        text description "角色描述"
+        boolean is_system "系统角色（不可删除）"
+        timestamptz created_at "创建时间"
+        timestamptz updated_at "更新时间"
+        timestamptz deleted_at "软删除时间"
+    }
+    
+    permissions {
+        bigint id PK "主键 (BigSerial)"
+        string code "权限代码 (module:action:scope)"
+        string name "权限名称"
+        text description "权限描述"
+        string category "权限分类"
+        timestamptz created_at "创建时间"
+        timestamptz updated_at "更新时间"
+        timestamptz deleted_at "软删除时间"
+    }
+    
+    user_roles {
+        bigint id PK "主键 (BigSerial)"
+        bigint user_id FK "用户ID"
+        bigint role_id FK "角色ID"
+        timestamptz created_at "关联时间"
+        timestamptz updated_at "更新时间"
+    }
+    
+    role_permissions {
+        bigint id PK "主键 (BigSerial)"
+        bigint role_id FK "角色ID"
+        bigint permission_id FK "权限ID"
+        timestamptz created_at "关联时间"
+        timestamptz updated_at "更新时间"
+    }
+```
diff --git a/Go项目实战/01_数据模型建立/规范数据库设计 & 变更管理及工程流操作.md b/Go项目实战/01_数据模型建立/规范数据库设计 & 变更管理及工程流操作.md
new file mode 100644
index 0000000..fe43ad0
--- /dev/null
+++ b/Go项目实战/01_数据模型建立/规范数据库设计 & 变更管理及工程流操作.md	
@@ -0,0 +1,183 @@
+---
+tags: []
+aliases:
+  - 🛠️ Database Engineering & Migration Standard (v1.0)
+date created: 星期日, 十二月 7日 2025, 10:31:59 晚上
+date modified: 星期二, 十二月 9日 2025, 10:14:44 晚上
+---
+
+# 🛠️ Database Engineering & Migration Standard (v1.0)
+
+文档用途: 规范数据库设计、变更管理及工程流操作。
+
+适用范围: 所有涉及 Schema 变更的后端开发任务。
+
+核心原则: Code First (Logic) but SQL First (Schema). 严禁生产环境使用 ORM 自动建表。
+
+---
+
+## 1. 基础设施与工具链 (Infrastructure & Tools)
+
+本项目采用 **“容器化数据库 + 版本化迁移工具”** 的架构。
+
+| **组件**          | **选型**             | **说明**                                    |
+| --------------- | ------------------ | ----------------------------------------- |
+| **Database**    | **PostgreSQL 15+** | 运行于 Docker 容器中，保证开发/生产环境一致。               |
+| **Schema Mgmt** | **Golang-Migrate** | CLI 工具，用于生成和执行版本化 SQL 脚本。                 |
+| **GUI Client**  | **Navicat**        | 推荐 Navicat / DataGrip / DBeaver，仅用于设计和验证。 |
+| **Automation**  | **Make**           | 封装常用命令，屏蔽底层复杂参数。                          |
+
+### 1.1 目录结构规范
+
+Plaintext
+
+```bash
+project-root/
+├── migrations/                 # [Source of Truth] 存放所有 SQL 变更文件
+│   ├── 000001_init_users.up.sql
+│   └── 000001_init_users.down.sql
+├── internal/
+│   └── {domain}/               # 领域包
+│       └── entity.go           # [Code Mapping] GORM 结构体定义
+├── docker-compose.yml          # 定义本地 DB 容器
+└── Makefile                    # 集成迁移命令
+```
+
+---
+
+## 2. 数据库设计规范 (Design Standards)
+
+### 2.1 命名约定
+
+- **表名:** 必须使用**复数**形式，`snake_case` (e.g., `users`, `order_items`).
+- **字段名:** 全小写，`snake_case` (e.g., `created_at`, `user_id`).
+- **索引名:**
+    - 普通索引: `idx_tablename_column`
+    - 唯一索引: `uniq_tablename_column`
+- **外键名:** `fk_tablename_ref_tablename`
+
+### 2.2 关键字段约束
+
+所有业务表**必须**包含以下基础字段：
+
+```SQL
+id          BIGSERIAL PRIMARY KEY, -- 或 UUID
+created_at  TIMESTAMPTZ NOT NULL DEFAULT NOW(),
+updated_at  TIMESTAMPTZ NOT NULL DEFAULT NOW(),
+deleted_at  TIMESTAMPTZ            -- 仅在需要软删除时添加
+```
+
+### 2.3 设计禁忌
+
+1. **严禁** 使用物理外键的级联删除 (`ON DELETE CASCADE`)，除非是关联性极强的子表（如文章标签关联）。核心业务数据必须使用 `ON DELETE RESTRICT`。
+2. **严禁** 在涉及金额的字段使用 `FLOAT` 或 `DOUBLE`，必须使用 `DECIMAL` 或 `BIGINT` (分)。
+3. **严禁** 将 `NULL` 作为布尔值的第三种状态。布尔字段必须设置 `NOT NULL DEFAULT FALSE`。
+
+---
+
+## 3. 标准作业流程 (SOP)
+
+开发人员需严格遵循以下 **5 步闭环** 进行数据库变更：
+
+### Step 1: 启动环境
+
+确保本地 Docker 数据库正在运行。
+
+```Bash
+make network  # 对应 docker-compose up -d
+```
+
+### Step 2: 创建迁移文件 (Create)
+
+使用 Makefile 生成成对的 `.sql` 文件（up/down）。
+
+- `name` 参数应简短描述变更内容（如 `add_avatar_to_users`）。
+
+```Bash
+make new_migration name=init_schema
+# 输出:
+# Created migrations/000001_init_schema.up.sql
+# Created migrations/000001_init_schema.down.sql
+```
+
+### Step 3: 编写 SQL (Edit)
+
+- **UP 文件:** 填入 `CREATE TABLE`, `ALTER TABLE`, `CREATE INDEX` 等正向操作。
+    - _技巧:_ 可在 GUI 工具中设计好表结构，复制生成的 DDL 语句粘贴至此。
+- **DOWN 文件:** 填入对应的回滚操作（如 `DROP TABLE`, `DROP INDEX`）。
+
+### Step 4: 执行变更 (Apply)
+
+将 SQL 应用到本地数据库。
+
+```Bash
+make migrate_up
+```
+
+_验证:_ 使用 GUI 工具连接数据库，确认表结构已更新。
+
+### Step 5: 代码映射 (Mapping)
+
+在 `internal/{domain}/entity.go` 中编写对应的 Go Struct。
+
+- 确保 `gorm` tag 与数据库定义一致。
+- 确保 `json` tag 符合 API 契约。
+
+---
+
+## 4. 自动化配置 (Automation)
+
+将以下内容固化到项目根目录的 `Makefile` 中。
+
+> **注意:** 确保 `DB_DSN` 与 `docker-compose.yml` 中的配置完全一致。
+
+```Makefile
+# ==============================================================================
+# Database & Migration Logic
+# ==============================================================================
+
+# Database Connection String
+# 格式: postgres://user:password@host:port/dbname?sslmode=disable
+DB_DSN := postgres://postgres:secret@localhost:5432/cms_core?sslmode=disable
+
+.PHONY: network new_migration migrate_up migrate_down migrate_force
+
+# 1. 启动本地环境
+network:
+	docker-compose up -d
+
+# 2. 创建新的迁移文件 (Usage: make new_migration name=create_users)
+new_migration:
+	@if [ -z "$(name)" ]; then echo "Error: name is required"; exit 1; fi
+	migrate create -ext sql -dir migrations -seq $(name)
+
+# 3. 执行所有未执行的迁移 (Up)
+migrate_up:
+	migrate -path migrations -database "$(DB_DSN)" up
+
+# 4. 回滚上一次迁移 (Down 1 step)
+migrate_down:
+	migrate -path migrations -database "$(DB_DSN)" down 1
+
+# 5. 强制修复版本 (当 dirty database 时使用, version 为具体的版本号)
+migrate_force:
+	migrate -path migrations -database "$(DB_DSN)" force $(version)
+```
+
+---
+
+## 5. 故障排查 (Troubleshooting)
+
+**Q: 执行 migrate_up 时报错 "Dirty database version x".**
+
+- **原因:** 上一次迁移执行到一半失败了（可能是 SQL 语法错误），导致版本锁死。
+- **解决:**
+    
+    1. 手动修复 SQL 文件中的语法错误。
+    2. 执行 `make migrate_force version=x` (x 是失败前的那个版本号)。
+    3. 再次执行 `make migrate_up`。
+
+**Q: 多人协作时产生版本冲突。**
+
+- **现象:** 你有一个 `0003_add_xx.up.sql`，同事提交代码后也有一个 `0003_add_yy.up.sql`。
+- **解决:** 重命名你的迁移文件编号为 `0004`，确保序列号在时间轴上是递增且唯一的。
diff --git a/Go项目实战/02_接口设计/AI 辅助 API 定义方法论 (v1.0).md b/Go项目实战/02_接口设计/AI 辅助 API 定义方法论 (v1.0).md
new file mode 100644
index 0000000..8c9fe5f
--- /dev/null
+++ b/Go项目实战/02_接口设计/AI 辅助 API 定义方法论 (v1.0).md	
@@ -0,0 +1,183 @@
+---
+tags: []
+aliases:
+  - 🔌 AI 辅助 API 定义方法论 (v1.0)
+date created: 星期日, 十二月 7日 2025, 11:43:04 晚上
+date modified: 星期日, 十二月 7日 2025, 11:44:30 晚上
+---
+
+# 🔌 AI 辅助 API 定义方法论 (v1.0)
+
+**核心理念:**
+
+1. **DTO 先行:** 先定义输入 (Request) 和输出 (Response) 的数据结构，再写业务逻辑。
+2. **注释即文档:** 利用 AI 自动生成繁琐的 Swagger 注释 (`@Summary`, `@Param`…)。
+3. **契约可视化:** 在写第一行逻辑代码前，先能在 Swagger UI 上看到接口定义。
+
+---
+
+## 阶段一：API 资源设计 (Design)
+
+**目的:** 确定 URL 路径、HTTP 方法和 JSON 数据结构，确保符合 RESTful 规范。
+
+### 🤖 通用 Prompt (复制使用)
+
+```Markdown
+你现在是我的 **API 架构师**。
+我们已经完成了数据库设计，现在需要设计 `{业务模块}` (例如: User) 的 API 接口。
+
+**输入上下文:**
+1.  **业务实体:** `{粘贴 User 的 Entity 代码或 SQL}`
+2.  **功能需求:** 注册、登录、获取个人资料、更新资料。
+
+**请输出 API 设计方案 (表格形式):**
+1.  **Method:** GET/POST/PUT/PATCH/DELETE
+2.  **Path:** URL 路径 (使用 RESTful 风格, 如 `/api/v1/users/:id`)
+3.  **Request Body:** 关键字段 (JSON 示例)
+4.  **Response:** 成功返回的数据结构 (JSON 示例)
+
+**设计原则:**
+- 使用统一的响应信封: `{ "code": 200, "msg": "success", "data": ... }`
+- 更新操作区分 PUT (全量) 和 PATCH (局部)。
+- 敏感字段 (密码) 绝对不能出现在 Response 中。
+```
+
+---
+
+## 阶段二：生成 DTO 结构体 (Contract Definition)
+
+**目的:** 将 JSON 设计转化为 Go 结构体。这是前后端交互的**法律条文**。
+
+**工程位置:** `internal/api/request/` (入参) 和 `internal/api/response/` (出参)。
+
+### 🤖 通用 Prompt (复制使用)
+
+```Markdown
+设计确认通过。请基于上述设计，生成 Go 语言的 **DTO (Data Transfer Object) 结构体**。
+
+**技术约束:**
+1.  使用 `gin` 的 binding 标签进行参数校验 (如 `binding:"required,email"`).
+2.  使用 `json` 标签定义字段名 (camelCase).
+3.  **分离 Request 和 Response:** 不要直接复用数据库 Entity，必须定义独立的 DTO。
+
+**输出代码要求:**
+- `UserRegisterReq` (包含 Email, Password, ConfirmPassword)
+- `UserLoginReq`
+- `UserProfileResp` (不含密码，转换时间格式)
+
+请直接输出 Go 代码，放在 package `user_dto` 下。
+```
+
+---
+
+## 阶段三：生成 Handler 骨架与 Swagger 注释 (Implementation Skeleton)
+
+**目的:** 这是一个“体力活”。AI 最擅长帮我们要写几十行的 Swagger 注释。
+
+**工程位置:** `internal/user/handler.go`
+
+### 🤖 通用 Prompt (复制使用)
+
+```Markdown
+现在请生成 Gin Handler 的**代码骨架**，并附带完整的 **Swagger 注释**。
+
+**输入:**
+DTO 结构体已定义: `UserRegisterReq`, `UserProfileResp`...
+
+**输出要求:**
+1.  **Swagger 注释:** 必须包含 `@Summary`, `@Tags`, `@Accept json`, `@Produce json`, `@Param`, `@Success`, `@Router`。
+2.  **Handler 签名:** 接收 `*gin.Context`。
+3.  **参数绑定:** 在 Handler 内部生成 `ShouldBindJSON` 代码块。
+4.  **占位返回:** 暂时直接返回 Mock 数据或 `http.StatusOK`，**不要写具体的 Service 业务逻辑**。
+
+**示例注释格式:**
+// Register
+// @Summary 用户注册
+// @Tags User
+// @Accept json
+// @Produce json
+// @Param request body user_dto.UserRegisterReq true "注册信息"
+// @Success 200 {object} app.Result{data=user_dto.UserProfileResp}
+// @Router /api/v1/auth/register [post]
+func (h *UserHandler) Register(c *gin.Context) { ... }
+```
+
+---
+
+## 🏗️ 工程落地操作指南 (How to Execute)
+
+### 1. 文件安放位置
+
+不要乱放，严格遵守目录结构：
+
+```Plaintext
+internal/
+├── api/                    # [Contract Layer] 存放 DTO
+│   ├── request/            # 入参结构体
+│   │   └── user_req.go
+│   └── response/           # 出参结构体
+│       └── user_resp.go
+└── user/                   # [Domain Layer]
+    └── handler.go          # 控制器 (含 Swagger 注释)
+```
+
+### 2. 实操步骤 (SOP)
+
+#### Step 1: 定义 DTO (The Contract)
+
+- 运行阶段二的 Prompt。
+- 将代码复制到 `internal/api/request/user_req.go`。
+- **这一步完成了，就代表你和前端的接口契约签好了。**
+
+#### Step 2: 编写 Handler 骨架 (The Skeleton)
+
+- 运行阶段三的 Prompt。
+- 将代码复制到 `internal/user/handler.go`。
+- 确保此时代码能编译通过（缺少 Service 调用没关系，先留空）。
+
+#### Step 3: 生成 Swagger 文档 (Generate)
+
+这是验证的关键一步。我们需要使用 `swag` 工具扫描你的注释并生成 JSON 文档。
+
+**在终端执行:**
+
+```Bash
+swag init -g cmd/server/main.go -o docs
+```
+
+_(注意: `-g` 指向你的 main 函数入口，swag 会从那里开始递归扫描)_
+
+#### Step 4: 启动服务并验证 (Verify)
+
+- 运行 `go run cmd/server/main.go`。
+- 打开浏览器访问 `http://localhost:8080/swagger/index.html`。
+- **你看到的界面，就是你刚刚定义的“接口合同”。**
+
+---
+
+## 💡 常见问题与技巧
+
+**Q: 为什么不直接用 Entity 作为 Response？**
+
+- **A:** **千万别这么做。** Entity 包含 `password_hash`，包含 `deleted_at`，这些都不该给前端。DTO 让你有精准控制返回字段的权利。
+
+**Q: Swagger 注释太难写了，容易写错格式。**
+
+- **A:** 这就是为什么要用 AI 的原因。**永远不要手写 Swagger 注释**。把 Handler 代码发给 AI，对它说：“_请帮我补全 Swagger 注释，参数是 X，返回值是 Y_”。
+
+**Q: 接口变了怎么办？**
+
+- **A:**
+    
+    1. 修改 DTO (Go Struct)。
+    2. 让 AI 更新 Handler 里的 Swagger 注释。
+    3. 运行 `swag init`。
+    4. 文档自动更新。
+
+---
+
+**总结你的下一步行动:**
+
+1. **DTO 设计:** 使用 Prompt 生成 `User` 相关的 Request/Response 结构体。
+2. **骨架生成:** 使用 Prompt 生成带有 Swagger 注释的 `UserHandler`。
+3. **文档验证:** 运行 `swag init` 并在浏览器中确认接口文档无误。
diff --git a/Go项目实战/02_接口设计/七七八八的接口设计相关问题.md b/Go项目实战/02_接口设计/七七八八的接口设计相关问题.md
new file mode 100644
index 0000000..10ff4c6
--- /dev/null
+++ b/Go项目实战/02_接口设计/七七八八的接口设计相关问题.md
@@ -0,0 +1,174 @@
+---
+tags: []
+aliases:
+  - 1. 接口版本控制策略 (API Versioning Strategy)
+date created: 星期日, 十二月 7日 2025, 11:38:52 晚上
+date modified: 星期日, 十二月 7日 2025, 11:42:18 晚上
+---
+
+# 七七八八的接口设计相关问题
+
+## 1. 接口版本控制策略 (API Versioning Strategy)
+
+**核心问题：** 当你发布了 V1 版本后，某天需要修改接口字段（比如把 `name` 拆分为 `first_name` 和 `last_name`），如何保证老版本的 App 不会崩溃？
+
+**三种主流流派：**
+
+1. **URI Path Versioning (推荐):**
+    
+    - **格式:** `https://api.example.com/v1/users`
+    - **优点:** 直观、易于调试、缓存友好。这也是 GitHub, Twitter, Google API 采用的主流方案。
+    - **落地:** 我们在 Gin 的 Router Group 中直接体现：
+
+        Go
+
+        ```bash
+        v1 := r.Group("/api/v1")
+        {
+            v1.GET("/users", ...)
+        }
+        ```
+
+2. **Header Versioning:**
+    
+    - **格式:** Header 中添加 `Accept: application/vnd.myapi.v1+json`
+    - **优点:** URL 干净。
+    - **缺点:** 调试麻烦（浏览器直接访问 URL 看不到结果），CDN 缓存配置复杂。**不推荐 MVP 阶段使用。**
+        
+3. **Query Parameter:**
+    
+    - **格式:** `/users?version=1`
+    - **评价:** 看起来很土，通常不用于 RESTful API。
+
+**👉 你的策略：** 坚定选择 **URI Path Versioning (`/api/v1`)**。只在发生**破坏性变更 (Breaking Change)** 时才升级到 v2。新增字段不算破坏性变更，不需要升级版本。
+
+---
+
+## 2. HTTP 方法的精准语义 (Verbs Semantics)
+
+很多新手只会用 `GET` 和 `POST`。企业级 API 必须精准区分以下方法的含义：
+
+|**方法**|**语义**|**幂等性 (Idempotency)**|**典型场景**|
+|---|---|---|---|
+|**GET**|获取资源|✅ 是|获取文章列表、详情|
+|**POST**|新建资源|❌ 否|发布新文章、提交评论|
+|**PUT**|**全量替换**资源|✅ 是|修改文章（客户端发送文章的完整 JSON，没传的字段会被置空）|
+|**PATCH**|**局部更新**资源|❌ 否 (理论上)|修改文章状态（只传 `{"status": "published"}`，其他字段不变）|
+|**DELETE**|删除资源|✅ 是|删除文章|
+
+⚠️ 重点关注 PUT vs PATCH:
+
+在 Go 语言中实现 PATCH 有点麻烦（因为 Go 的结构体默认值问题，你很难区分用户是传了 0 还是没传这个字段）。
+
+- **最佳实践:** 对于 CMS 这种表单复杂的系统，**修改接口首选 `PUT` (全量)**，或者针对特定状态修改提供独立接口（如 `POST /articles/:id/publish`）。如果必须做 `PATCH`，DTO 需使用指针类型 `*string` 来判断是否为 `nil`。
+
+---
+
+## 3. RESTful URL 设计模式 (Resource Naming)
+
+**原则：URL 中只出现名词，不出现动词。**
+
+- ❌ **反例 (RPC 风格 - 不要这么做):**
+    - `/api/getUsers`
+    - `/api/createUser`
+    - `/api/deleteArticle?id=1`
+- ✅ **正例 (REST 风格):**
+    - `GET /api/v1/users` (获取列表)
+    - `POST /api/v1/users` (创建)
+    - `DELETE /api/v1/articles/1` (删除 ID 为 1 的文章)
+
+**复杂关系的嵌套设计：**
+
+- _场景:_ 获取某篇文章下的评论。
+- _设计:_ `GET /api/v1/articles/{article_id}/comments`
+- _场景:_ 获取某个作者的所有文章。
+- _设计:_ `GET /api/v1/users/{user_id}/articles`
+
+---
+
+## 4. 列表接口三剑客：分页、排序、筛选 (Pagination, Sorting, Filtering)
+
+你的 CMS 一定会有“文章列表”页面，这个接口是最复杂的。不要为每种查询都写一个新接口，要设计一个**通用的查询接口**。
+
+**最佳实践标准：**
+
+1. **分页 (Pagination):**
+    
+    - 使用 `page` (页码) 和 `page_size` (每页条数)。
+    - URL 示例: `/articles?page=2&page_size=20`
+    - **注意:** 要限制 `page_size` 的最大值（如 100），防止恶意用户一次请求 100 万条数据把数据库打挂。
+        
+2. **排序 (Sorting):**
+    
+    - 使用 `sort` 参数。`-` 代表降序，无符号代表升序。
+    - URL 示例: `/articles?sort=-created_at` (按创建时间倒序)
+    - URL 示例: `/articles?sort=view_count,-created_at` (先按浏览量升序，再按时间倒序)
+        
+3. **筛选 (Filtering):**
+    
+    - 直接使用字段名作为参数。
+    - URL 示例: `/articles?category_id=1&status=published`
+
+---
+
+## 5. 状态码与错误处理 (Status Codes & Error Handling)
+
+**不要永远只返回 200 OK！**
+
+前端开发最恨的就是：HTTP 状态码是 200，结果 Body 里写着 `{"code": 500, "msg": "Error"}`。这会让监控系统失效。
+
+**你需要遵守的“HTTP 状态码地图”：**
+
+- **2xx (成功):**
+    - `200 OK`: 通用成功。
+    - `201 Created`: 创建成功 (POST 返回)。
+    - `204 No Content`: 删除成功 (DELETE 返回，不带 Body)。
+- **4xx (客户端错误 - 前端背锅):**
+    - `400 Bad Request`: 参数校验失败（如邮箱格式不对）。
+    - `401 Unauthorized`: 未登录/Token 过期。
+    - `403 Forbidden`: 登录了，但没权限（如普通用户想删文章）。
+    - `404 Not Found`: 资源不存在。
+- **5xx (服务端错误 - 你背锅):**
+    - `500 Internal Server Error`: 代码崩了/数据库挂了。
+
+统一错误响应格式 (JSON Envelope):
+
+无论发生什么错误，Body 必须保持结构一致，方便前端拦截：
+
+JSON
+
+```bash
+{
+  "code": 40001,           // 业务错误码 (你在 pkg/e 定义的)
+  "message": "标题已存在",   // 给用户看的提示
+  "request_id": "abc-123"  // 方便查日志的 Trace ID
+}
+```
+
+---
+
+## 6. 进阶知识：幂等性 (Idempotency)
+
+**概念：** 用户因为网络卡顿，连续点击了 3 次“发布文章”按钮，你的系统会创建 1 篇文章还是 3 篇？
+
+- **非幂等:** `POST`。点 3 次创建 3 篇。
+- **幂等:** `PUT` / `DELETE`。改 3 次和改 1 次结果一样；删 3 次和删 1 次结果一样（都是没了）。
+
+如何处理 POST 的幂等性？
+
+对于关键业务（如支付、核心数据创建），通常要求前端在 Header 带一个 Idempotency-Key (UUID)。后端 Redis 记录这个 Key，如果短时间内收到相同的 Key，直接返回上次的结果，不执行数据库插入。
+
+(注：MVP 阶段可以先不做，但面试或者做高可靠系统时必须知道)
+
+---
+
+## 总结：在你开始定义 API 之前
+
+请在心中建立这套标准：
+
+1. **URL:** `/api/v1/名词`
+2. **Method:** 查询用 GET，新建用 POST，修改用 PUT，删除用 DELETE。
+3. **List:** 永远记得预留 `page`, `page_size`。
+4. **Response:** 永远返回统一的 JSON 结构，报错必须用 4xx/5xx 状态码。
+
+**准备好了吗？我们可以开始基于这些原则，设计 User 模块的 API 了。**
diff --git a/Go项目实战/03_基础设施/01_错误处理/01_基础设施详细设计规格说明书.md b/Go项目实战/03_基础设施/01_错误处理/01_基础设施详细设计规格说明书.md
new file mode 100644
index 0000000..a429c94
--- /dev/null
+++ b/Go项目实战/03_基础设施/01_错误处理/01_基础设施详细设计规格说明书.md
@@ -0,0 +1,259 @@
+---
+tags: []
+aliases:
+  - 🏗️ Infrastructure Design Specifications (v1.2)
+  - 🏗️ Infrastructure Design Specifications (v1.1)
+  - 🏗️ Infrastructure Design Specifications (v1.0)
+date created: 星期三, 十二月 10日 2025, 9:41:53 上午
+date modified: 星期三, 十二月 10日 2025, 10:37:49 上午
+---
+
+# 🏗️ Infrastructure Design Specifications (v1.2)
+
+项目名称: Enterprise-CMS-Core
+
+模块: Infrastructure (Error Handling & Response)
+
+版本: 1.2.0 (Refined)
+
+状态: [✅ 已锁定]
+
+---
+
+## 1. 设计目标 (Design Objectives)
+
+本模块旨在构建一套**统一的、类型安全的、框架解耦**的 HTTP 响应与错误处理机制。
+
+- **统一性:** 无论成功与否，API 必须返回结构一致的 JSON Envelope。
+- **可观测性:** 错误必须携带业务语义（ErrorCode），而非仅返回 HTTP 500。
+- **解耦性:** 业务逻辑层 (Service) 不感知 HTTP 框架 (Gin)，仅通过 Go 原生 `error` 接口交互。
+- **高内聚:** 错误码定义与错误实体封装在同一包内，减少调用摩擦。
+
+---
+
+## 2. 技术选型基线 (Tech Stack Baseline)
+
+|**组件**|**选型**|**约束说明**|
+|---|---|---|
+|**HTTP Context**|`github.com/gin-gonic/gin`|仅在 `internal/pkg/app` (Level 1) 和 `handler` 层使用。**严禁**在 `service` 层引入。|
+|**Error Handling**|Go Standard Library|使用 Go 1.13+ `errors` (`Is`, `As`, `New`) 和 `fmt.Errorf`。**严禁**引入第三方 error 库 (如 `pkg/errors`)。|
+|**Serialization**|`encoding/json`|使用标准库。MVP 阶段暂不引入 `json-iterator`。|
+|**Concurrency**|`sync.RWMutex`|用于保护错误码 Map 的并发读取（读多写少场景）。|
+| **Tracing** | Gin Keys | Trace ID 必须由前置中间件（或网关）注入。Gin Context Key 约定为 `"X-Trace-ID"`。 |
+
+---
+
+## 3. 核心设计模式 (Design Patterns)
+
+### 3.1 响应封装：Context Object & Factory
+
+采用 **“上下文对象”** 模式对 `gin.Context` 进行封装，提供链式调用的体验。
+
+- **模式:** `app.New(c).Success(data)`
+- **优势:** 屏蔽底层框架差异，统一入口。
+
+### 3.2 错误处理：安全与动态机制 (Security & Dynamics)
+
+- **双层信息架构:**
+    - **User Msg (Safe):** JSON Body 中的 `msg` 字段。**仅**允许返回 `ecode` 中定义的静态文案，或经过白名单过滤的动态参数（如参数名）。
+    - **Log Detail (Unsafe):** 服务端日志。必须记录完整的 `err.Error()`（包含堆栈、SQL 错误、`fmt.Errorf` 包装的底层原因）。
+- **动态文案支持:**
+    - `ecode` 包需提供 `WithMsg(msg string)` 或 `WithDetails(args …any)` 方法，用于**安全地**覆盖默认文案。
+    - **示例:** `return ecode.InvalidParams.WithMsg("Email 格式错误")`。
+
+### 3.3 状态码管理：Centralized Registry
+
+采用 **“集中式注册表”** 模式。
+
+- **约束:** 所有业务错误码 (Business Code) 必须在 `internal/pkg/ecode` 包中定义为 `const`。
+- **禁止:** 严禁在业务代码中硬编码数字（Magic Number）。
+
+### 3.4 错误码号段分配：Error Code Allocation
+
+结构定义:
+
+错误码采用 5 位数字结构：A BB NN
+
+- **A (万位):** 模块/领域 (1=Infra, 2=User, 3=Content…)
+- **BB (千百位):** 组件/子模块分类
+- **NN (十个位):** 具体错误流水号
+
+#### 1. 基础设施层 (System / Infra) - `10000 - 19999`
+
+针对基础设施，**必须**严格遵守以下二级分类，严禁混用：
+
+|**二级区间 (Sub-Range)**|**组件归属 (Component)**|**典型示例 (Examples)**|
+|---|---|---|
+|**10000 - 10099**|**Server General**|`10000` (Success), `10001` (Unknown Error), `10002` (Panic Recovered)|
+|**10100 - 10199**|**Database (Internal)**|`10100` (DB Connection Lost), `10101` (SQL Syntax Error) - _注意：业务查空属业务码，不在此列_|
+|**10200 - 10299**|**Cache (Redis)**|`10200` (Redis Timeout), `10201` (Key Evicted Unexpectedly)|
+|**10300 - 10399**|**Serialization**|`10300` (JSON Marshal Failed), `10301` (Invalid Request Body)|
+|**10400 - 10499**|**Middleware/Gateway**|`10400` (Too Many Requests/Rate Limit), `10401` (Route Not Found)|
+|**10500 - 10599**|**3rd Party API**|`10500` (External Service Unavailable), `10501` (SMS Send Failed)|
+
+#### 2. 业务模块层 (Business Modules) - `20000+`
+
+业务模块建议参考同等逻辑进行二级划分（由各模块负责人定义，但建议遵循以下范式）：
+
+|**一级区间**|**模块**|**二级区间示例**|
+|---|---|---|
+|**20000 - 29999**|**User / Auth**|`200xx` (基础账户), `201xx` (登录/Token), `202xx` (RBAC 权限), `203xx` (KYC 认证)|
+|**30000 - 39999**|**Content (CMS)**|`300xx` (文章), `301xx` (分类/标签), `302xx` (评论), `303xx` (审核流)|
+
+---
+
+## 4. 交互协议与数据流 (Interaction Protocol)
+
+### 4.1 JSON 响应契约 (The Contract)
+
+所有 HTTP 接口返回的 Body 必须符合以下结构：
+
+```JSON
+{
+  "code": 20001,           // 业务状态码 (0=成功, 非0=错误)
+  "msg": "用户已存在",      // 开发者提示/用户提示
+  "data": { … },           // 业务数据 (成功时为 Object/Array, 失败时为 null)
+  "trace_id": "abc-123"    // 必填。取值优先级: c.GetHeader("X-Trace-ID") -> c.GetString("X-Trace-ID") -> UUID生成
+}
+```
+
+### 4.2 HTTP 状态码策略 (Status Code Policy)
+
+本项目采用 **"Hybrid 策略 "**：
+
+- **HTTP 200 OK:**
+    - 所有 **业务逻辑错误** (Code `2xxxx` - `4xxxx`)。
+    - 前端通过 Body 中的 `code != 0` 判断业务异常。
+    - _理由:_ 避免网关（如 Nginx）拦截 4xx 响应并替换为默认错误页，导致前端拿不到 JSON 数据。
+- **HTTP 500 Internal Server Error:**
+    - 所有 **基础设施错误** (Code `1xxxx`)，包括 Panic、数据库断连、Redis 超时。
+    - _理由:_ 触发云厂商负载均衡器 (LB) 的熔断机制，将流量切出故障节点。
+- **HTTP 401/403:**
+    - 仅用于网关层面的拦截（如 JWT 格式错误），业务层鉴权失败建议走 HTTP 200 + Code `20101`。
+
+### 4.3 跨层交互时序 (Cross-Layer Flow)
+
+```mermaid
+sequenceDiagram
+    participant C as Controller (Handler)
+    participant S as Service (Domain)
+    participant I as Infra (pkg/app)
+    participant E as Ecode (pkg/ecode)
+
+    C->>I: app.New(c) 初始化
+    C->>S: Call Business Logic
+    alt 成功
+        S-->>C: return (data, nil)
+        C->>I: app.Success(data)
+        I-->>Client: JSON {code:0, data:…}
+    else 失败 (业务错误)
+        S-->>C: return (nil, ecode.New(20001))
+        C->>I: app.Error(err)
+        I->>I: errors.As(err) -> 提取 Code 20001
+        I-->>Client: JSON {code:20001, msg:"…"}
+    else 失败 (系统错误)
+        S-->>C: return (nil, errors.New("DB error"))
+        C->>I: app.Error(err)
+        I->>I: errors.As(err) -> 失败 (Fallback)
+        I-->>Client: JSON {code:50000, msg:"Internal Error"}
+    end
+```
+
+---
+
+## 5. 目录结构与职责 (Directory & Responsibilities)
+
+```Plaintext
+internal/
+├── middleware/           # [New] 全局中间件
+│   ├── recovery.go       # Panic 捕获 -> 转换为 ecode.ServerError (50000)
+│   └── not_found.go      # 404 捕获 -> 转换为 ecode.NotFound (40400)
+│
+└── pkg/
+    ├── ecode/                # [Level 0] 错误核心包 (无内部依赖)
+    │   ├── code.go           # const 常量定义 (UserNotFound = 20001)
+    │   ├── msg.go            # 错误码文案映射 (Map & GetMsg)
+    │   └── error.go          # Error 结构体定义 (New, Parse 方法)
+    │
+    └── app/                  # [Level 1] HTTP 响应封装 (依赖 gin, ecode)
+        └── response.go       # NewResponse, Success, Error 方法
+```
+
+---
+
+## 6. 开发规范与 Linter 规则 (Linting Rules)
+
+1. **包引用原则:**
+    
+    - `ecode` 包必须保持零依赖（只依赖标准库）。
+    - `app` 包依赖 `ecode`。
+        
+2. **Service 层纯净性:**
+    
+    - `internal/domain/service` 代码中**严禁出现** `import "github.com/gin-gonic/gin"`。
+    - `internal/domain/service` 代码中**严禁出现** `import "enterprise-cms-core/internal/pkg/app"`。
+    - 只允许引入 `internal/pkg/ecode`。
+        
+3. **错误包装与响应清洗:**
+    
+    - **Log:** `app.Error(err)` 内部必须将 `err` 的完整堆栈打印到 Zap 日志中。
+    - **Response:**
+        - 若 `err` 可被断言为 `*ecode.Error`，则取其 `Msg` 字段返回。
+        - 若 `err` 仅为普通 `error` (如 DB error)，**严禁**直接将其内容返回给前端，必须统一兜底返回 `ecode.ServerError` 的文案（"Internal Server Error"）。
+
+4. **全局兜底机制 (Global Safety Net):**
+    - 项目必须在 `internal/middleware` 中实现 `Recovery` 中间件。
+    - **严禁**让 Gin 默认的 Panic 堆栈直接输出到 HTTP Body。
+    - **必须**捕获所有 Panic，并调用 `app.Error(ecode.ServerError)` 统一输出为符合 JSON 契约的格式 (`{"code": 50000, "msg": "Internal Server Error", …}`)。
+
+---
+
+## 7. 工程化实施标准 (Engineering Standards)
+
+### 7.1 代码风格契约 (Code Style Contract)
+
+为确保代码长期可维护，生成的代码必须严格遵守以下 Go 惯用语 (Idioms)：
+
+1. **命名规范:**
+    - **缩写:** 使用全大写缩写 (如 `ServeHTTP`, `ID`, `URL`)，严禁 `Url`, `Id`。
+    - **局部变量:** 保持短小 (如 `ctx`, `err`, `req`)，避免 Java 式的长命名 (如 `requestContext`, `errorObject`)。
+    - **工厂方法:** `ecode` 包内使用 `New()`, `app` 包内使用 `NewResponse()`。
+
+2. **代码组织:**
+    - **Import 分组:** 标准库 -> 第三方库 -> 内部库 (enterprise-cms-core/…)。
+    - **Guard Clauses:** 优先使用“卫语句”提前返回，减少 `else` 嵌套层级。
+
+### 7.2 注释与文档 (Documentation)
+
+为了提升团队协作效率，所有 Exported (首字母大写) 的类型、函数、常量必须包含符合 GoDoc 规范的**中文注释**。
+
+- **格式规范:** `// FunctionName 中文描述…`
+    - **关键:** 注释**必须**以函数/变量名开头，且与中文描述之间**保留一个空格**。这是 Go 官方工具链解析文档的标准要求。
+- **内容重心:**
+    - **摘要:** 第一行简明扼要地说明“它是做什么的”。
+    - **详情 (可选):** 解释 **"Why" (设计意图)** 和 **"Caveats" (副作用/注意事项)**，而非翻译代码逻辑。
+- **示例:**
+
+    ```Go
+    // Success 向客户端写入标准的 JSON 成功响应。
+    //
+    // 注意:
+    // 1. 无论业务逻辑如何，此方法会将 HTTP 状态码强制设置为 200。
+    // 2. data 字段若为 nil，将序列化为 JSON 的 null。
+    func (r *Response) Success(data any) { … }
+    
+    // UserNotFound 表示用户不存在的业务错误码 (20001)。
+    const UserNotFound = 20001
+    ```
+
+### 7.3 可扩展性设计 (Extensibility Patterns)
+
+为了应对未来需求变更，本模块需采用以下模式：
+
+1. **Functional Options (针对 `app` 包):**
+    - 构造 `Response` 对象时，应支持 Option 模式，以便未来无需破坏函数签名即可添加新字段（如 TraceID, DebugInfo）。
+    - *定义:* `type Option func(*Response)`
+    - *签名:* `func New(c *gin.Context, opts …Option) *Response`
+
+2. **Interface Segregation (接口隔离):**
+    - 虽然 `ecode` 是基础值对象，但 `app` 层若涉及复杂逻辑，应定义 `Responder` 接口，方便 Mock 测试。
diff --git a/Go项目实战/03_基础设施/01_错误处理/02_AI 辅助基础设施构建 SOP (v2.1) -错误处理与响应篇.md b/Go项目实战/03_基础设施/01_错误处理/02_AI 辅助基础设施构建 SOP (v2.1) -错误处理与响应篇.md
new file mode 100644
index 0000000..dced67a
--- /dev/null
+++ b/Go项目实战/03_基础设施/01_错误处理/02_AI 辅助基础设施构建 SOP (v2.1) -错误处理与响应篇.md	
@@ -0,0 +1,247 @@
+---
+tags: []
+aliases:
+  - 🏗️ AI 辅助基础设施构建 SOP (v2.1) - [错误处理与响应篇]
+  - 🏗️ AI 辅助基础设施构建 SOP (v2.0) - [错误处理与响应篇]
+  - 🏗️ AI 辅助基础设施构建 SOP (v1.1) - [错误处理与响应篇]
+  - 🏗️ AI 辅助基础设施构建 SOP (v1.0) - [错误处理与响应篇]
+date created: 星期三, 十二月 10日 2025, 12:34:57 凌晨
+date modified: 星期三, 十二月 10日 2025, 11:55:08 中午
+---
+
+# 🏗️ AI 辅助基础设施构建 SOP (v2.1) - [错误处理与响应篇]
+
+**核心理念:**
+
+1. **Contract First (契约优先):** 永远先定义对外暴露的 JSON 结构，再写内部 Go 结构体。
+2. **DX Driven (体验驱动):** 在实现逻辑前，先写“伪代码”验证调用是否顺手。
+3. **Atomic Delivery (原子交付):** 单次交互只生成一个文件，利用“上下文锚点”串联上下文。
+
+---
+
+## 📋 准备工作：变量与架构确认
+
+在使用以下 Prompt 前，请确认上下文：
+
+- `{语言/框架}`: Go 1.24+ / Gin
+- `{模块路径}`:
+    - `internal/pkg/ecode` (Level 0: 错误码 + 错误实体 + 映射逻辑)
+    - `internal/pkg/app` (Level 1: HTTP 响应封装，依赖 `ecode`)
+- `{架构约束}`: `ecode` 包零依赖；`app` 包依赖 `ecode`。
+
+---
+
+## Phase 0: 原子化任务拆解 (The MECE Protocol)
+
+**目的:** 将大需求拆解为一组符合 MECE 原则的微任务清单。
+
+### 🤖 拆解者 Prompt (复制使用)
+
+```Markdown
+你现在是我的 **Tech Lead (技术负责人)**。
+我们要实现 `{模块名称}` 模块。为了防止代码生成中断和逻辑混乱，请不要直接开始写代码。
+
+请先执行 **“MECE 任务拆解”**：
+
+**1. 架构约束分析:**
+- 本模块遵循 Modular Clean Architecture。
+- `internal/pkg/ecode`: 包含错误码常量、错误实体结构体、错误文案映射。**严禁依赖上层包**。
+- `internal/pkg/app`: 包含 Gin 的 Response 封装。依赖 `ecode`。
+
+**2. 原子化切分:**
+请将开发工作拆解为 3-5 个“原子任务步”。
+- 每个步骤必须针对**单个物理文件**。
+- 步骤必须遵循依赖顺序（底层先于上层）。
+
+**3. 输出格式:**
+请输出一个 **Markdown Checklist (执行清单)**。
+格式示例：
+- [ ] **Step 1: {文件名}** - {核心职责} (依赖: 无)
+- [ ] **Step 2: {文件名}** - {核心职责} (依赖: Step 1)
+…
+
+**模块需求:**
+我们需要一套统一的 HTTP 错误处理机制，支持自定义业务错误码，统一返回 JSON 格式。
+```
+
+---
+
+## Phase 0.5: API 签名锁定 (API Surface Lock)
+
+**目的:** 在实现具体逻辑前，强制锁定所有 Public 方法的签名，防止实现阶段出现参数不一致。
+
+### 🤖 Prompt 0.5: 生成接口定义
+
+**[发送给 AI]:**
+
+````markdown
+在开始写代码前，请先为 `internal/pkg/app` 包定义 **Public API 签名 (Exported Functions)**。
+请直接提供 `Responder` 接口定义或核心函数的函数头（无需函数体）。
+
+**要求:**
+1. **一致性:** 确认 `context` 参数的位置（建议统一作为第一个参数）。
+2. **完整性:** 必须包含 `New`, `Success`, `Error` 以及我们刚才讨论的 `ErrorCtx` (处理 trace_id)。
+3. **Go Doc:** 为每个方法写出符合 Go 标准的注释。
+
+**期望输出示例:**
+
+```go
+// Response wraps the gin.Context for unified JSON response.
+type Response struct { … }
+
+// New creates a new Response wrapper.
+func New(c *gin.Context) *Response { … }
+
+// Success sends a successful response with data.
+func (r *Response) Success(data any) { … }
+```
+````
+
+---
+
+## Phase 1: 契约定义 (Contract Definition)
+
+**目的:** 确立“对外口径”。
+
+### 🤖 Prompt 1: 定义 JSON 结构 (复制使用)
+
+```Markdown
+你现在是我的 **API 治理专家**。
+请设计一套统一的 **HTTP 响应结构 (JSON Envelope)**。
+
+**设计原则:**
+1.  **统一性:** 无论成功还是失败，Body 结构一致。
+2.  **字段要求:** 必须包含 `code` (int), `msg` (string), `data` (any), `trace_id` (string)。
+
+**任务:**
+请给出以下 3 种场景的 JSON 响应示例，并解释设计理由：
+- 场景 A: 成功返回对象。
+- 场景 B: 成功返回空列表 (明确 `data` 是 `null` 还是 `[]`)。
+- 场景 C: 业务错误 (如 Code 20001)。
+
+**[关键补充约束]**
+1. **安全性优先:** `app.Error(err)` 处理逻辑中，必须区分**用户可见文案**和**底层调试信息**。若 `err` 包含底层堆栈（如 SQL 错误），JSON 中的 `msg` 必须降级显示为 `ecode` 定义的通用文案（如 "Internal Error"），严禁透传底层 Error String。
+2. **HTTP 状态码:** 本项目强制执行 **"HTTP 200 OK + Business Code"** 策略。除非 Gin 框架层崩溃，否则 HTTP Status 永远为 200。
+3. **Trace ID:** 假设 `c.GetString("trace_id")` 可以获取 ID，请在 `app.New(c)` 时将其注入 Response 结构体。
+```
+
+---
+
+## Phase 2: 体验验证 (DX Verification)
+
+**目的:** 模拟业务层调用，防止基础设施“反人类”。
+
+### 🤖 Prompt 2: 伪代码验证 (复制使用)
+
+```Markdown
+JSON 结构已确认。
+假设我们已经有了 `internal/pkg/ecode` 和 `internal/pkg/app`。
+
+请写一段 Gin Handler 的 **伪代码 (Pseudo-code)**，展示开发者该如何使用它们。
+
+**验证重点:**
+1.  **业务错误:** 如何返回 `ecode.New(20001, "…")`？
+2.  **响应封装:** 如何调用 `app.New(c).Success(data)`？
+3.  **代码简洁性:** 避免大量的 `if err != nil` 重复代码。
+
+请展示最优雅的写法。
+```
+
+---
+
+## Phase 3: 迭代式核心实现 (Iterative Implementation)
+
+**核心机制:** 这是一个**循环步骤**。请查看 Phase 0 生成的 Checklist，**逐个文件**执行。
+
+### 🔄 循环动作 A: 生成代码
+
+**[用户动作]:** 复制 Checklist 中当前未完成的步骤（例如 "Step 1: 生成 ecode/code.go"）。
+
+**[发送 Prompt]:**
+
+```Markdown
+我们现在执行 **Step {N}**。
+
+**任务目标:**
+{粘贴 Phase 0 Checklist 中的当前步骤描述}
+
+**上下文约束 (严禁修改):**
+1. **JSON 契约:** `{粘贴 Phase 1 确认的 JSON}`
+2. **DX 规范:** `{粘贴 Phase 2 确认的伪代码}`
+3. **依赖控制:** 如果是 `ecode` 包，严禁引用 `app` 或 `gin`。
+
+**输出要求:**
+请仅生成该步骤对应的 `{文件名}` 源代码。不要生成测试代码。
+
+**通用代码质量约束 (Linter Rules):**
+1.  **注释规范:** 所有 Exported (首字母大写) 的结构体、函数、常量必须包含符合 Go Doc 规范的注释。
+2.  **复杂度控制:** 确保 `gocyclo` (圈复杂度) 低于 10。如果逻辑复杂，请拆分为私有函数。
+3.  **错误检查:** 严禁忽略 error 返回值（如 `json.Marshal`），必须处理或 Log。
+4.  **Lint 检查:** 生成的代码必须能通过 `errcheck` 和 `staticcheck`。
+```
+
+### 🔄 循环动作 B: 上下文锚点 (Context Anchoring)
+
+**[用户动作]:** 代码生成并确认无误后，发送此 Prompt 以建立记忆锚点。
+
+**[发送 Prompt]:**
+
+```Markdown
+已确认 `{文件名}` 代码无误。
+请将该代码存入你的**短期记忆**，作为后续步骤的上下文依赖。
+**不要重复输出它**。我们准备进入下一步。
+```
+
+_(重复 A -> B，直到所有源码文件生成完毕)_
+
+---
+
+## Phase 4: 极限防御测试 (Extreme Defensive Testing)
+
+**目的:** 模拟“最糟糕”的业务代码调用，确保基础设施不崩。
+
+### 🤖 Prompt 4: 生成红队测试用例
+
+```markdown
+所有核心代码已生成。现在请为 `internal/pkg/app/response.go` 编写单元测试 `response_test.go`。
+
+**请覆盖以下 4 个极端场景 (Test Cases):**
+
+1.  **Raw Error 降级:**
+    -   **场景:** 传入 `errors.New("db connection broken")` (非 ecode 类型)。
+    -   **断言:** HTTP 状态码为 500 (或 200+Code 50000)，Msg 为 "Internal Server Error" (严禁泄漏原始错误信息)。
+
+2.  **Double Response 防护:**
+    -   **场景:** 在同一个 Handler 中连续调用 `app.Success()` 两次。
+    -   **断言:** 第二次调用应被忽略或记录 Warning 日志，且不应导致 Panic。
+
+3.  **Nil Data 安全:**
+    -   **场景:** 调用 `app.Success(nil)`。
+    -   **断言:** JSON 中的 `data` 字段应为 `null` (或 `{}`，取决于契约)，不应 Panic。
+
+4.  **并发 Map 读写:**
+    -   **场景:** 启动 100 个 Goroutine 并发调用 `ecode.GetMsg(code)`。
+    -   **断言:** `test -race` 必须通过，无数据竞争。
+
+请输出完整的 Test 代码。
+```
+
+---
+
+## Phase 5: 最终验收 (SRE Review)
+
+**目的:** 模拟运维视角审查。
+
+### 🤖 Prompt 5: 找茬模式 (复制使用)
+
+```Markdown
+切换角色为 **SRE (站点可靠性工程师)**。
+请审查上述所有代码（ecode + app）。
+
+**风险排查:**
+1.  **Panic 风险:** 是否有未捕获的 Panic 点？
+2.  **监控盲区:** 当前的 Error Log 是否包含了足够的上下文（如 StackTrace）供排查？
+3.  **状态码混淆:** 我们采用了“HTTP 200 + 业务码”模式，请确认这是否会影响网关层的 5xx 告警配置？
+
+请简要列出 2-3 个优化建议。
+```
diff --git a/Go项目实战/03_基础设施/01_错误处理/03_README_错误处理.md b/Go项目实战/03_基础设施/01_错误处理/03_README_错误处理.md
new file mode 100644
index 0000000..7c12074
--- /dev/null
+++ b/Go项目实战/03_基础设施/01_错误处理/03_README_错误处理.md
@@ -0,0 +1,161 @@
+---
+tags: []
+aliases:
+  - "🛡️ 基础设施模块：错误处理与响应系统 (Infra: Error Handling & Response)"
+date created: 星期三, 十二月 10日 2025, 12:10:32 中午
+date modified: 星期三, 十二月 10日 2025, 12:12:02 中午
+---
+
+# 🛡️ 基础设施模块：错误处理与响应系统 (Infra: Error Handling & Response)
+
+## 1\. 模块概述
+
+本模块实现了 **Modular Clean Architecture** 中的基础设施层 (`Level 0` & `Level 1`)，提供了一套统一的、安全的、可观测的 HTTP 响应机制。
+
+**核心能力:**
+
+  - **统一契约:** 所有 API 响应（成功、失败、Panic、404）严格遵循 `{code, msg, data, trace_id}` 结构。
+  - **安全降级:** 自动识别业务错误与系统错误。对系统级错误（如 SQL 失败）进行“掩码”处理，防止敏感信息泄露。
+  - **可观测性:** 集成 Prometheus 埋点，通过 `X-Biz-Code` 实现业务级监控；全链路 TraceID 自动注入。
+  - **开发体验:** 提供 `Responder` 接口与工厂模式，支持 Handler 层的依赖注入与 Mock 测试。
+
+-----
+
+## 2\. 文件清单 (File Manifest)
+
+以下代码位于项目根目录 `gitea-aliyun/Klein/enterprise-cms-core/` 下：
+
+### Level 0: 基础领域层 (`internal/pkg/ecode`)
+
+> **依赖:** 零依赖 (仅标准库)
+
+| 文件名 | 类型 | 核心职责 |
+| :--- | :--- | :--- |
+| `code.go` | Const | **错误码注册表**。定义 `1xxxx` (系统) 和 `2xxxx` (业务) 常量。 |
+| `msg.go` | Data | **文案映射**。维护全局 `map[int]string`，提供并发安全的 `GetMsg`。 |
+| `error.go` | Struct | **错误实体**。实现 `error` 接口，支持 `WithMsg`/`WithDetails` 扩展。 |
+| `ecode_test.go` | Test | 验证并发安全性及不可变性。 |
+
+### Level 1: 应用工具层 (`internal/pkg/app`)
+
+> **依赖:** `gin`, `ecode`
+
+| 文件名 | 类型 | 核心职责 |
+| :--- | :--- | :--- |
+| `responder.go` | Interface | **接口定义**。定义 `Responder` 接口与 `Factory` 函数类型，用于解耦。 |
+| `response.go` | Impl | **核心实现**。封装 Gin Context，实现 JSON 序列化、错误清洗、监控埋点。 |
+| `options.go` | Pattern | **功能选项**。提供 `WithTraceID` 等扩展配置。 |
+| `response_test.go` | Test | 验证 JSON 契约、空指针防御及错误降级逻辑。 |
+
+### Global: 全局中间件 (`internal/middleware`)
+
+> **依赖:** `gin`, `pkg/app`, `pkg/ecode`, `prometheus`
+
+| 文件名 | 类型 | 核心职责 |
+| :--- | :--- | :--- |
+| `recovery.go` | Safety | **Panic 兜底**。捕获 Panic 并转换为标准 JSON 500 响应。 |
+| `not_found.go` | Route | **404 兜底**。将无路由请求转换为标准 JSON 404 响应。 |
+| `metrics.go` | Monitor | **业务监控**。采集 `http_requests_total` 指标，包含 `biz_code` 标签。 |
+
+-----
+
+## 3\. 快速上手 (Quick Start)
+
+### 3.1 定义新错误
+
+在 `internal/pkg/ecode/code.go` 添加常量，并在 `msg.go` 添加文案。
+
+```go
+// code.go
+const UserBalanceInsufficient = 20005
+
+// msg.go
+msg = map[int]string{
+    // ...
+    UserBalanceInsufficient: "User Balance Insufficient",
+}
+```
+
+### 3.2 在 Handler 中使用 (推荐写法)
+
+使用依赖注入的 `app.Factory` 创建响应器，而非直接调用 `app.New`。
+
+```go
+import (
+    "github.com/gin-gonic/gin"
+    "gitea-aliyun/Klein/enterprise-cms-core/internal/pkg/app"
+    "gitea-aliyun/Klein/enterprise-cms-core/internal/pkg/ecode"
+)
+
+type UserHandler struct {
+    // 注入 Responder 工厂，便于测试 Mock
+    RespFactory app.Factory
+}
+
+func (h *UserHandler) Create(c *gin.Context) {
+    // 1. 创建响应器
+    resp := h.RespFactory(c)
+
+    // 2. 模拟业务逻辑
+    if err := h.Service.Create(); err != nil {
+        // 自动处理错误：如果是业务错误直接返回；如果是系统错误则降级并记录日志
+        resp.Error(err)
+        return
+    }
+
+    // 3. 成功响应
+    resp.Success(gin.H{"status": "created"})
+}
+```
+
+### 3.3 系统接入 (Main.go)
+
+在 HTTP Server 启动时注册全局中间件。
+
+```go
+r := gin.New()
+
+// 1. Recovery (必须最先注册)
+r.Use(middleware.Recovery())
+
+// 2. Metrics (监控业务码)
+r.Use(middleware.BusinessMetrics())
+
+// ... 注册业务路由 ...
+
+// 3. 404 处理 (最后注册)
+r.NoRoute(middleware.NotFound())
+```
+
+-----
+
+## 4\. 设计决策说明 (Architecture Decisions)
+
+### A. HTTP 200 Always 策略
+
+  - **规则:** 除非网络层崩溃，所有接口（包括业务错误和系统错误）均返回 `HTTP 200 OK`。
+  - **原因:** 防止网关（Nginx/ALB）拦截非 200 响应并替换 Body，确保前端始终能解析 JSON 中的 `code`。
+
+### B. 安全掩码 (Security Masking)
+
+  - **输入:** `db.Query` 失败返回 `sql: connection refused`。
+  - **输出:** 前端收到 `{ "code": 10000, "msg": "Internal Server Error" }`。
+  - **日志:** 服务端 Error Log 记录原始堆栈。
+  - **目的:** 杜绝数据库结构、IP 等敏感信息通过报错接口泄露。
+
+### C. 监控指标 (Metrics)
+
+  - **指标名:** `http_requests_total`
+  - **关键标签:** `biz_code` (业务状态码)。
+  - **SRE 告警:** 请针对 `biz_code >= 10000` (系统错误) 配置告警，而非 HTTP Status Code。
+
+-----
+
+## 5\. 测试指南
+
+本模块已包含完整的单元测试与竞态检测 (Race Detection)。
+
+```bash
+# 运行所有测试
+go test -v -race ./internal/pkg/...
+```
diff --git a/Go项目实战/03_基础设施/01_错误处理/04_错误处理模块文件夹骨架.md b/Go项目实战/03_基础设施/01_错误处理/04_错误处理模块文件夹骨架.md
new file mode 100644
index 0000000..db5d73c
--- /dev/null
+++ b/Go项目实战/03_基础设施/01_错误处理/04_错误处理模块文件夹骨架.md
@@ -0,0 +1,27 @@
+---
+tags: []
+date created: 星期三, 十二月 10日 2025, 11:00:25 上午
+date modified: 星期三, 十二月 10日 2025, 11:56:10 中午
+---
+
+```plaintext
+enterprise-cms-core/
+├── internal/
+│   ├── pkg/
+│   │   ├── ecode/                  # [Level 0] 基础领域层
+│   │   │   ├── code.go             # [Const] 纯常量定义 (ErrorCode Registry)
+│   │   │   ├── error.go            # [Type]  核心结构体定义 (struct Error)
+│   │   │   ├── msg.go              # [Data]  错误码文案映射 (var msg map[int]string)
+│   │   │   └── ecode_test.go       # [Test]  单元测试
+│   │   │
+│   │   └── app/                    # [Level 1] 应用工具层
+│   │       ├── responder.go        # [Interface] 👈 修正点: 定义 type Responder interface
+│   │       ├── response.go         # [Impl]      定义 type Response struct (实现逻辑)
+│   │       ├── options.go          # [Pattern]   定义 Functional Options (配置扩展)
+│   │       └── response_test.go    # [Test]      单元测试
+│   │
+│   └── middleware/                 # [Global]
+│       ├── recovery.go             # Panic 捕获
+│       ├── not_found.go            # 404 处理
+│       └── metrics.go              
+```
diff --git a/Go项目实战/03_基础设施/01_错误处理/99_错误处理上下文.md b/Go项目实战/03_基础设施/01_错误处理/99_错误处理上下文.md
new file mode 100644
index 0000000..1e034d5
--- /dev/null
+++ b/Go项目实战/03_基础设施/01_错误处理/99_错误处理上下文.md
@@ -0,0 +1,548 @@
+---
+tags: []
+aliases:
+  - Project Context Aggregation
+date created: 星期三, 十二月 10日 2025, 11:10:48 上午
+date modified: 星期三, 十二月 10日 2025, 11:12:52 上午
+---
+
+# Project Context Aggregation
+
+> Source Items: 3
+
+==== AI 辅助基础设施构建 SOP (v2.1) - 错误处理与响应篇.md ====
+
+```markdown
+# 🏗️ AI 辅助基础设施构建 SOP (v2.1) - [错误处理与响应篇]
+
+**核心理念:**
+
+1. **Contract First (契约优先):** 永远先定义对外暴露的 JSON 结构，再写内部 Go 结构体。
+2. **DX Driven (体验驱动):** 在实现逻辑前，先写“伪代码”验证调用是否顺手。
+3. **Atomic Delivery (原子交付):** 单次交互只生成一个文件，利用“上下文锚点”串联上下文。
+
+---
+
+## 📋 准备工作：变量与架构确认
+
+在使用以下 Prompt 前，请确认上下文：
+
+- `{语言/框架}`: Go 1.24+ / Gin
+- `{模块路径}`:
+    - `internal/pkg/ecode` (Level 0: 错误码 + 错误实体 + 映射逻辑)
+    - `internal/pkg/app` (Level 1: HTTP 响应封装，依赖 `ecode`)
+- `{架构约束}`: `ecode` 包零依赖；`app` 包依赖 `ecode`。
+
+---
+
+## Phase 0: 原子化任务拆解 (The MECE Protocol)
+
+**目的:** 将大需求拆解为一组符合 MECE 原则的微任务清单。
+
+### 🤖 拆解者 Prompt (复制使用)
+
+```Markdown
+你现在是我的 **Tech Lead (技术负责人)**。
+我们要实现 `{模块名称}` 模块。为了防止代码生成中断和逻辑混乱，请不要直接开始写代码。
+
+请先执行 **“MECE 任务拆解”**：
+
+**1. 架构约束分析:**
+- 本模块遵循 Modular Clean Architecture。
+- `internal/pkg/ecode`: 包含错误码常量、错误实体结构体、错误文案映射。**严禁依赖上层包**。
+- `internal/pkg/app`: 包含 Gin 的 Response 封装。依赖 `ecode`。
+
+**2. 原子化切分:**
+请将开发工作拆解为 3-5 个“原子任务步”。
+- 每个步骤必须针对**单个物理文件**。
+- 步骤必须遵循依赖顺序（底层先于上层）。
+
+**3. 输出格式:**
+请输出一个 **Markdown Checklist (执行清单)**。
+格式示例：
+- [ ] **Step 1: {文件名}** - {核心职责} (依赖: 无)
+- [ ] **Step 2: {文件名}** - {核心职责} (依赖: Step 1)
+…
+
+**模块需求:**
+我们需要一套统一的 HTTP 错误处理机制，支持自定义业务错误码，统一返回 JSON 格式。
+```
+
+---
+
+## Phase 0.5: API 签名锁定 (API Surface Lock)
+
+**目的:** 在实现具体逻辑前，强制锁定所有 Public 方法的签名，防止实现阶段出现参数不一致。
+
+### 🤖 Prompt 0.5: 生成接口定义
+
+**[发送给 AI]:**
+
+````markdown
+在开始写代码前，请先为 `internal/pkg/app` 包定义 **Public API 签名 (Exported Functions)**。
+请直接提供 `Responder` 接口定义或核心函数的函数头（无需函数体）。
+
+**要求:**
+1. **一致性:** 确认 `context` 参数的位置（建议统一作为第一个参数）。
+2. **完整性:** 必须包含 `New`, `Success`, `Error` 以及我们刚才讨论的 `ErrorCtx` (处理 trace_id)。
+3. **Go Doc:** 为每个方法写出符合 Go 标准的注释。
+
+**期望输出示例:**
+
+```go
+// Response wraps the gin.Context for unified JSON response.
+type Response struct { … }
+
+// New creates a new Response wrapper.
+func New(c *gin.Context) *Response { … }
+
+// Success sends a successful response with data.
+func (r *Response) Success(data any) { … }
+```
+````
+
+---
+
+## Phase 1: 契约定义 (Contract Definition)
+
+**目的:** 确立“对外口径”。
+
+### 🤖 Prompt 1: 定义 JSON 结构 (复制使用)
+
+```Markdown
+你现在是我的 **API 治理专家**。
+请设计一套统一的 **HTTP 响应结构 (JSON Envelope)**。
+
+**设计原则:**
+1.  **统一性:** 无论成功还是失败，Body 结构一致。
+2.  **字段要求:** 必须包含 `code` (int), `msg` (string), `data` (any), `trace_id` (string)。
+
+**任务:**
+请给出以下 3 种场景的 JSON 响应示例，并解释设计理由：
+- 场景 A: 成功返回对象。
+- 场景 B: 成功返回空列表 (明确 `data` 是 `null` 还是 `[]`)。
+- 场景 C: 业务错误 (如 Code 20001)。
+
+**[关键补充约束]**
+1. **安全性优先:** `app.Error(err)` 处理逻辑中，必须区分**用户可见文案**和**底层调试信息**。若 `err` 包含底层堆栈（如 SQL 错误），JSON 中的 `msg` 必须降级显示为 `ecode` 定义的通用文案（如 "Internal Error"），严禁透传底层 Error String。
+2. **HTTP 状态码:** 本项目强制执行 **"HTTP 200 OK + Business Code"** 策略。除非 Gin 框架层崩溃，否则 HTTP Status 永远为 200。
+3. **Trace ID:** 假设 `c.GetString("trace_id")` 可以获取 ID，请在 `app.New(c)` 时将其注入 Response 结构体。
+```
+
+---
+
+## Phase 2: 体验验证 (DX Verification)
+
+**目的:** 模拟业务层调用，防止基础设施“反人类”。
+
+### 🤖 Prompt 2: 伪代码验证 (复制使用)
+
+```Markdown
+JSON 结构已确认。
+假设我们已经有了 `internal/pkg/ecode` 和 `internal/pkg/app`。
+
+请写一段 Gin Handler 的 **伪代码 (Pseudo-code)**，展示开发者该如何使用它们。
+
+**验证重点:**
+1.  **业务错误:** 如何返回 `ecode.New(20001, "…")`？
+2.  **响应封装:** 如何调用 `app.New(c).Success(data)`？
+3.  **代码简洁性:** 避免大量的 `if err != nil` 重复代码。
+
+请展示最优雅的写法。
+```
+
+---
+
+## Phase 3: 迭代式核心实现 (Iterative Implementation)
+
+**核心机制:** 这是一个**循环步骤**。请查看 Phase 0 生成的 Checklist，**逐个文件**执行。
+
+### 🔄 循环动作 A: 生成代码
+
+**[用户动作]:** 复制 Checklist 中当前未完成的步骤（例如 "Step 1: 生成 ecode/code.go"）。
+
+**[发送 Prompt]:**
+
+```Markdown
+我们现在执行 **Step {N}**。
+
+**任务目标:**
+{粘贴 Phase 0 Checklist 中的当前步骤描述}
+
+**上下文约束 (严禁修改):**
+1. **JSON 契约:** `{粘贴 Phase 1 确认的 JSON}`
+2. **DX 规范:** `{粘贴 Phase 2 确认的伪代码}`
+3. **依赖控制:** 如果是 `ecode` 包，严禁引用 `app` 或 `gin`。
+
+**输出要求:**
+请仅生成该步骤对应的 `{文件名}` 源代码。不要生成测试代码。
+
+**通用代码质量约束 (Linter Rules):**
+1.  **注释规范:** 所有 Exported (首字母大写) 的结构体、函数、常量必须包含符合 Go Doc 规范的注释。
+2.  **复杂度控制:** 确保 `gocyclo` (圈复杂度) 低于 10。如果逻辑复杂，请拆分为私有函数。
+3.  **错误检查:** 严禁忽略 error 返回值（如 `json.Marshal`），必须处理或 Log。
+4.  **Lint 检查:** 生成的代码必须能通过 `errcheck` 和 `staticcheck`。
+```
+
+### 🔄 循环动作 B: 上下文锚点 (Context Anchoring)
+
+**[用户动作]:** 代码生成并确认无误后，发送此 Prompt 以建立记忆锚点。
+
+**[发送 Prompt]:**
+
+```Markdown
+已确认 `{文件名}` 代码无误。
+请将该代码存入你的**短期记忆**，作为后续步骤的上下文依赖。
+**不要重复输出它**。我们准备进入下一步。
+```
+
+_(重复 A -> B，直到所有源码文件生成完毕)_
+
+---
+
+## Phase 4: 极限防御测试 (Extreme Defensive Testing)
+
+**目的:** 模拟“最糟糕”的业务代码调用，确保基础设施不崩。
+
+### 🤖 Prompt 4: 生成红队测试用例
+
+```markdown
+所有核心代码已生成。现在请为 `internal/pkg/app/response.go` 编写单元测试 `response_test.go`。
+
+**请覆盖以下 4 个极端场景 (Test Cases):**
+
+1.  **Raw Error 降级:**
+    -   **场景:** 传入 `errors.New("db connection broken")` (非 ecode 类型)。
+    -   **断言:** HTTP 状态码为 500 (或 200+Code 50000)，Msg 为 "Internal Server Error" (严禁泄漏原始错误信息)。
+
+2.  **Double Response 防护:**
+    -   **场景:** 在同一个 Handler 中连续调用 `app.Success()` 两次。
+    -   **断言:** 第二次调用应被忽略或记录 Warning 日志，且不应导致 Panic。
+
+3.  **Nil Data 安全:**
+    -   **场景:** 调用 `app.Success(nil)`。
+    -   **断言:** JSON 中的 `data` 字段应为 `null` (或 `{}`，取决于契约)，不应 Panic。
+
+4.  **并发 Map 读写:**
+    -   **场景:** 启动 100 个 Goroutine 并发调用 `ecode.GetMsg(code)`。
+    -   **断言:** `test -race` 必须通过，无数据竞争。
+
+请输出完整的 Test 代码。
+```
+
+---
+
+## Phase 5: 最终验收 (SRE Review)
+
+**目的:** 模拟运维视角审查。
+
+### 🤖 Prompt 5: 找茬模式 (复制使用)
+
+```Markdown
+切换角色为 **SRE (站点可靠性工程师)**。
+请审查上述所有代码（ecode + app）。
+
+**风险排查:**
+1.  **Panic 风险:** 是否有未捕获的 Panic 点？
+2.  **监控盲区:** 当前的 Error Log 是否包含了足够的上下文（如 StackTrace）供排查？
+3.  **状态码混淆:** 我们采用了“HTTP 200 + 业务码”模式，请确认这是否会影响网关层的 5xx 告警配置？
+
+请简要列出 1-2 个优化建议。
+```
+
+```bash
+
+==== 基础设施详细设计规格说明书.md ====
+```markdown
+---
+tags: []
+aliases:
+  - 🏗️ Infrastructure Design Specifications (v1.2)
+  - 🏗️ Infrastructure Design Specifications (v1.1)
+  - 🏗️ Infrastructure Design Specifications (v1.0)
+date created: 星期三, 十二月 10日 2025, 9:41:53 上午
+date modified: 星期三, 十二月 10日 2025, 10:37:49 上午
+---
+
+# 🏗️ Infrastructure Design Specifications (v1.2)
+
+项目名称: Enterprise-CMS-Core
+
+模块: Infrastructure (Error Handling & Response)
+
+版本: 1.2.0 (Refined)
+
+状态: [✅ 已锁定]
+
+---
+
+## 1. 设计目标 (Design Objectives)
+
+本模块旨在构建一套**统一的、类型安全的、框架解耦**的 HTTP 响应与错误处理机制。
+
+- **统一性:** 无论成功与否，API 必须返回结构一致的 JSON Envelope。
+- **可观测性:** 错误必须携带业务语义（ErrorCode），而非仅返回 HTTP 500。
+- **解耦性:** 业务逻辑层 (Service) 不感知 HTTP 框架 (Gin)，仅通过 Go 原生 `error` 接口交互。
+- **高内聚:** 错误码定义与错误实体封装在同一包内，减少调用摩擦。
+
+---
+
+## 2. 技术选型基线 (Tech Stack Baseline)
+
+|**组件**|**选型**|**约束说明**|
+|---|---|---|
+|**HTTP Context**|`github.com/gin-gonic/gin`|仅在 `internal/pkg/app` (Level 1) 和 `handler` 层使用。**严禁**在 `service` 层引入。|
+|**Error Handling**|Go Standard Library|使用 Go 1.13+ `errors` (`Is`, `As`, `New`) 和 `fmt.Errorf`。**严禁**引入第三方 error 库 (如 `pkg/errors`)。|
+|**Serialization**|`encoding/json`|使用标准库。MVP 阶段暂不引入 `json-iterator`。|
+|**Concurrency**|`sync.RWMutex`|用于保护错误码 Map 的并发读取（读多写少场景）。|
+| **Tracing** | Gin Keys | Trace ID 必须由前置中间件（或网关）注入。Gin Context Key 约定为 `"X-Trace-ID"`。 |
+
+---
+
+## 3. 核心设计模式 (Design Patterns)
+
+### 3.1 响应封装：Context Object & Factory
+
+采用 **“上下文对象”** 模式对 `gin.Context` 进行封装，提供链式调用的体验。
+
+- **模式:** `app.New(c).Success(data)`
+- **优势:** 屏蔽底层框架差异，统一入口。
+
+### 3.2 错误处理：安全与动态机制 (Security & Dynamics)
+
+- **双层信息架构:**
+    - **User Msg (Safe):** JSON Body 中的 `msg` 字段。**仅**允许返回 `ecode` 中定义的静态文案，或经过白名单过滤的动态参数（如参数名）。
+    - **Log Detail (Unsafe):** 服务端日志。必须记录完整的 `err.Error()`（包含堆栈、SQL 错误、`fmt.Errorf` 包装的底层原因）。
+- **动态文案支持:**
+    - `ecode` 包需提供 `WithMsg(msg string)` 或 `WithDetails(args …any)` 方法，用于**安全地**覆盖默认文案。
+    - **示例:** `return ecode.InvalidParams.WithMsg("Email 格式错误")`。
+
+### 3.3 状态码管理：Centralized Registry
+
+采用 **“集中式注册表”** 模式。
+
+- **约束:** 所有业务错误码 (Business Code) 必须在 `internal/pkg/ecode` 包中定义为 `const`。
+- **禁止:** 严禁在业务代码中硬编码数字（Magic Number）。
+
+### 3.4 错误码号段分配：Error Code Allocation
+
+结构定义:
+
+错误码采用 5 位数字结构：A BB NN
+
+- **A (万位):** 模块/领域 (1=Infra, 2=User, 3=Content…)
+- **BB (千百位):** 组件/子模块分类
+- **NN (十个位):** 具体错误流水号
+
+#### 1. 基础设施层 (System / Infra) - `10000 - 19999`
+
+针对基础设施，**必须**严格遵守以下二级分类，严禁混用：
+
+|**二级区间 (Sub-Range)**|**组件归属 (Component)**|**典型示例 (Examples)**|
+|---|---|---|
+|**10000 - 10099**|**Server General**|`10000` (Success), `10001` (Unknown Error), `10002` (Panic Recovered)|
+|**10100 - 10199**|**Database (Internal)**|`10100` (DB Connection Lost), `10101` (SQL Syntax Error) - _注意：业务查空属业务码，不在此列_|
+|**10200 - 10299**|**Cache (Redis)**|`10200` (Redis Timeout), `10201` (Key Evicted Unexpectedly)|
+|**10300 - 10399**|**Serialization**|`10300` (JSON Marshal Failed), `10301` (Invalid Request Body)|
+|**10400 - 10499**|**Middleware/Gateway**|`10400` (Too Many Requests/Rate Limit), `10401` (Route Not Found)|
+|**10500 - 10599**|**3rd Party API**|`10500` (External Service Unavailable), `10501` (SMS Send Failed)|
+
+#### 2. 业务模块层 (Business Modules) - `20000+`
+
+业务模块建议参考同等逻辑进行二级划分（由各模块负责人定义，但建议遵循以下范式）：
+
+|**一级区间**|**模块**|**二级区间示例**|
+|---|---|---|
+|**20000 - 29999**|**User / Auth**|`200xx` (基础账户), `201xx` (登录/Token), `202xx` (RBAC 权限), `203xx` (KYC 认证)|
+|**30000 - 39999**|**Content (CMS)**|`300xx` (文章), `301xx` (分类/标签), `302xx` (评论), `303xx` (审核流)|
+
+---
+
+## 4. 交互协议与数据流 (Interaction Protocol)
+
+### 4.1 JSON 响应契约 (The Contract)
+
+所有 HTTP 接口返回的 Body 必须符合以下结构：
+
+```JSON
+{
+  "code": 20001,           // 业务状态码 (0=成功, 非0=错误)
+  "msg": "用户已存在",      // 开发者提示/用户提示
+  "data": { … },           // 业务数据 (成功时为 Object/Array, 失败时为 null)
+  "trace_id": "abc-123"    // 必填。取值优先级: c.GetHeader("X-Trace-ID") -> c.GetString("X-Trace-ID") -> UUID生成
+}
+```
+
+### 4.2 HTTP 状态码策略 (Status Code Policy)
+
+本项目采用 **"Hybrid 策略 "**：
+
+- **HTTP 200 OK:**
+    - 所有 **业务逻辑错误** (Code `2xxxx` - `4xxxx`)。
+    - 前端通过 Body 中的 `code != 0` 判断业务异常。
+    - _理由:_ 避免网关（如 Nginx）拦截 4xx 响应并替换为默认错误页，导致前端拿不到 JSON 数据。
+- **HTTP 500 Internal Server Error:**
+    - 所有 **基础设施错误** (Code `1xxxx`)，包括 Panic、数据库断连、Redis 超时。
+    - _理由:_ 触发云厂商负载均衡器 (LB) 的熔断机制，将流量切出故障节点。
+- **HTTP 401/403:**
+    - 仅用于网关层面的拦截（如 JWT 格式错误），业务层鉴权失败建议走 HTTP 200 + Code `20101`。
+
+### 4.3 跨层交互时序 (Cross-Layer Flow)
+
+```mermaid
+sequenceDiagram
+    participant C as Controller (Handler)
+    participant S as Service (Domain)
+    participant I as Infra (pkg/app)
+    participant E as Ecode (pkg/ecode)
+
+    C->>I: app.New(c) 初始化
+    C->>S: Call Business Logic
+    alt 成功
+        S-->>C: return (data, nil)
+        C->>I: app.Success(data)
+        I-->>Client: JSON {code:0, data:…}
+    else 失败 (业务错误)
+        S-->>C: return (nil, ecode.New(20001))
+        C->>I: app.Error(err)
+        I->>I: errors.As(err) -> 提取 Code 20001
+        I-->>Client: JSON {code:20001, msg:"…"}
+    else 失败 (系统错误)
+        S-->>C: return (nil, errors.New("DB error"))
+        C->>I: app.Error(err)
+        I->>I: errors.As(err) -> 失败 (Fallback)
+        I-->>Client: JSON {code:50000, msg:"Internal Error"}
+    end
+```
+
+---
+
+## 5. 目录结构与职责 (Directory & Responsibilities)
+
+```Plaintext
+internal/
+├── middleware/           # [New] 全局中间件
+│   ├── recovery.go       # Panic 捕获 -> 转换为 ecode.ServerError (50000)
+│   └── not_found.go      # 404 捕获 -> 转换为 ecode.NotFound (40400)
+│
+└── pkg/
+    ├── ecode/                # [Level 0] 错误核心包 (无内部依赖)
+    │   ├── code.go           # const 常量定义 (UserNotFound = 20001)
+    │   ├── msg.go            # 错误码文案映射 (Map & GetMsg)
+    │   └── error.go          # Error 结构体定义 (New, Parse 方法)
+    │
+    └── app/                  # [Level 1] HTTP 响应封装 (依赖 gin, ecode)
+        └── response.go       # NewResponse, Success, Error 方法
+```
+
+---
+
+## 6. 开发规范与 Linter 规则 (Linting Rules)
+
+1. **包引用原则:**
+    
+    - `ecode` 包必须保持零依赖（只依赖标准库）。
+    - `app` 包依赖 `ecode`。
+        
+2. **Service 层纯净性:**
+    
+    - `internal/domain/service` 代码中**严禁出现** `import "github.com/gin-gonic/gin"`。
+    - `internal/domain/service` 代码中**严禁出现** `import "enterprise-cms-core/internal/pkg/app"`。
+    - 只允许引入 `internal/pkg/ecode`。
+        
+3. **错误包装与响应清洗:**
+    
+    - **Log:** `app.Error(err)` 内部必须将 `err` 的完整堆栈打印到 Zap 日志中。
+    - **Response:**
+        - 若 `err` 可被断言为 `*ecode.Error`，则取其 `Msg` 字段返回。
+        - 若 `err` 仅为普通 `error` (如 DB error)，**严禁**直接将其内容返回给前端，必须统一兜底返回 `ecode.ServerError` 的文案（"Internal Server Error"）。
+
+4. **全局兜底机制 (Global Safety Net):**
+    - 项目必须在 `internal/middleware` 中实现 `Recovery` 中间件。
+    - **严禁**让 Gin 默认的 Panic 堆栈直接输出到 HTTP Body。
+    - **必须**捕获所有 Panic，并调用 `app.Error(ecode.ServerError)` 统一输出为符合 JSON 契约的格式 (`{"code": 50000, "msg": "Internal Server Error", …}`)。
+
+---
+
+## 7. 工程化实施标准 (Engineering Standards)
+
+### 7.1 代码风格契约 (Code Style Contract)
+
+为确保代码长期可维护，生成的代码必须严格遵守以下 Go 惯用语 (Idioms)：
+
+1. **命名规范:**
+    - **缩写:** 使用全大写缩写 (如 `ServeHTTP`, `ID`, `URL`)，严禁 `Url`, `Id`。
+    - **局部变量:** 保持短小 (如 `ctx`, `err`, `req`)，避免 Java 式的长命名 (如 `requestContext`, `errorObject`)。
+    - **工厂方法:** `ecode` 包内使用 `New()`, `app` 包内使用 `NewResponse()`。
+
+2. **代码组织:**
+    - **Import 分组:** 标准库 -> 第三方库 -> 内部库 (enterprise-cms-core/…)。
+    - **Guard Clauses:** 优先使用“卫语句”提前返回，减少 `else` 嵌套层级。
+
+### 7.2 注释与文档 (Documentation)
+
+为了提升团队协作效率，所有 Exported (首字母大写) 的类型、函数、常量必须包含符合 GoDoc 规范的**中文注释**。
+
+- **格式规范:** `// FunctionName 中文描述…`
+    - **关键:** 注释**必须**以函数/变量名开头，且与中文描述之间**保留一个空格**。这是 Go 官方工具链解析文档的标准要求。
+- **内容重心:**
+    - **摘要:** 第一行简明扼要地说明“它是做什么的”。
+    - **详情 (可选):** 解释 **"Why" (设计意图)** 和 **"Caveats" (副作用/注意事项)**，而非翻译代码逻辑。
+- **示例:**
+
+    ```Go
+    // Success 向客户端写入标准的 JSON 成功响应。
+    //
+    // 注意:
+    // 1. 无论业务逻辑如何，此方法会将 HTTP 状态码强制设置为 200。
+    // 2. data 字段若为 nil，将序列化为 JSON 的 null。
+    func (r *Response) Success(data any) { … }
+    
+    // UserNotFound 表示用户不存在的业务错误码 (20001)。
+    const UserNotFound = 20001
+    ```
+
+### 7.3 可扩展性设计 (Extensibility Patterns)
+
+为了应对未来需求变更，本模块需采用以下模式：
+
+1. **Functional Options (针对 `app` 包):**
+    - 构造 `Response` 对象时，应支持 Option 模式，以便未来无需破坏函数签名即可添加新字段（如 TraceID, DebugInfo）。
+    - *定义:* `type Option func(*Response)`
+    - *签名:* `func New(c *gin.Context, opts …Option) *Response`
+
+2. **Interface Segregation (接口隔离):**
+    - 虽然 `ecode` 是基础值对象，但 `app` 层若涉及复杂逻辑，应定义 `Responder` 接口，方便 Mock 测试。
+
+```bash
+
+==== 错误处理模块文件夹骨架.md ====
+```markdown
+---
+tags: []
+date created: 星期三, 十二月 10日 2025, 11:00:25 上午
+date modified: 星期三, 十二月 10日 2025, 11:04:26 上午
+---
+
+```plaintext
+enterprise-cms-core/
+├── internal/
+│   ├── pkg/
+│   │   ├── ecode/                  # [Level 0] 基础领域层
+│   │   │   ├── code.go             # [Const] 纯常量定义 (ErrorCode Registry)
+│   │   │   ├── error.go            # [Type]  核心结构体定义 (struct Error)
+│   │   │   ├── msg.go              # [Data]  错误码文案映射 (var msg map[int]string)
+│   │   │   └── ecode_test.go       # [Test]  单元测试
+│   │   │
+│   │   └── app/                    # [Level 1] 应用工具层
+│   │       ├── responder.go        # [Interface] 👈 修正点: 定义 type Responder interface
+│   │       ├── response.go         # [Impl]      定义 type Response struct (实现逻辑)
+│   │       ├── options.go          # [Pattern]   定义 Functional Options (配置扩展)
+│   │       └── response_test.go    # [Test]      单元测试
+│   │
+│   └── middleware/                 # [Global]
+│       ├── recovery.go             # Panic 捕获
+│       └── not_found.go            # 404 处理
+```
+
+```bash
diff --git a/Go项目实战/03_基础设施/01_错误处理/Phase 0 基础设施构建执行清单 (Execution Checklist).md b/Go项目实战/03_基础设施/01_错误处理/Phase 0 基础设施构建执行清单 (Execution Checklist).md
new file mode 100644
index 0000000..f6eeba4
--- /dev/null
+++ b/Go项目实战/03_基础设施/01_错误处理/Phase 0 基础设施构建执行清单 (Execution Checklist).md	
@@ -0,0 +1,38 @@
+---
+tags: []
+aliases:
+  - "📋 Phase 0: 基础设施构建执行清单 (Execution Checklist)"
+date created: 星期三, 十二月 10日 2025, 11:15:25 上午
+date modified: 星期三, 十二月 10日 2025, 11:41:27 中午
+---
+
+# 📋 Phase 0: 基础设施构建执行清单 (Execution Checklist)
+
+- [ ] **Step 1: `internal/pkg/ecode/code.go`** - **定义错误码注册表**
+    - **核心职责:** 仅定义 `int` 类型的 `const` 常量。包括基础设施类（10000+）和业务类（20000+）错误码。
+    - **依赖:** 无 (Root Node)。
+    - **注意:** 需严格遵循文档中的“五位数字”分段规则。
+        
+- [ ] **Step 2: `internal/pkg/ecode/msg.go`** - **定义错误文案映射**
+    - **核心职责:** 初始化全局 `map[int]string`，提供 `GetMsg(code)` 方法。
+    - **依赖:** Step 1 (`code.go` 中的常量)。
+    - **注意:** 使用 `sync.RWMutex` 保护并发读写（虽然主要是读），文案必须是“用户安全”的。
+        
+- [ ] **Step 3: `internal/pkg/ecode/error.go`** - **实现核心错误实体**
+    - **核心职责:** 定义 `struct Error`，实现 `error` 接口，提供 `New()`, `Error()`, `Code()` 等方法。支持 `WithDetails` 等动态扩展。
+    - **依赖:** Step 1 & Step 2。
+    - **注意:** 这是 Service 层唯一允许引用的错误对象。
+        
+- [ ] **Step 4: `internal/pkg/app/options.go`** - **定义响应配置模式**
+    - **核心职责:** 定义 `type Option func(*Response)` 及常用的 Option 实现（如 `WithTraceID`）。
+    - **依赖:** 无（或仅依赖标准库）。
+    - **注意:** 先于 `response.go` 实现，以便主逻辑直接使用配置项，符合“开闭原则”。
+      
+- [ ] **Step 5: `internal/pkg/app/response.go`** - **实现 HTTP 响应封装**
+    - **核心职责:** 定义 `Response` 结构体，封装 `New`, `Success`, `Error` 方法。处理 JSON 序列化、TraceID 注入、以及将 `error` 接口清洗为 `ecode` 的逻辑。
+    - **依赖:** Step 3 (`ecode`), Step 4 (`options`), `Gin Context`。
+    - **注意:** 需实现“双层信息架构”：日志记录原始错误，HTTP Body 返回安全文案。
+
+- [ ] **Step 6: internal/pkg/app/responder.go** - **定义 Responder 接口**
+	- **核心职责:** 定义 `Responder` 接口，解耦具体实现，方便未来 Mock 测试。
+	- **依赖:** `app/response.go` (实现关系)。
diff --git a/Go项目实战/03_基础设施/01_错误处理/Phase 1 统一响应结构定义 (The Contract).md b/Go项目实战/03_基础设施/01_错误处理/Phase 1 统一响应结构定义 (The Contract).md
new file mode 100644
index 0000000..85b0345
--- /dev/null
+++ b/Go项目实战/03_基础设施/01_错误处理/Phase 1 统一响应结构定义 (The Contract).md	
@@ -0,0 +1,145 @@
+---
+tags: []
+aliases:
+  - 📦 统一响应结构定义 (The Contract)
+date created: 星期三, 十二月 10日 2025, 11:23:15 上午
+date modified: 星期三, 十二月 10日 2025, 12:12:46 中午
+---
+
+# Phase 1 统一响应结构定义 (The Contract)
+
+## 📦 统一响应结构定义 (The Contract)
+
+所有 HTTP 接口（无论成功与否）必须严格返回以下 JSON 结构：
+
+```JSON
+{
+  "code": 20001,           // 业务状态码 (0=成功, 非0=错误)
+  "msg": "用户已存在",       // 用户可见的提示文案 (Safe Message)
+  "data": { ... },         // 业务数据 payload (成功时返回，失败时通常为 null)
+  "trace_id": "a1b2-c3d4"  // 全链路追踪 ID (必填，用于 SRE 排查)
+}
+```
+
+---
+
+## 🎨 场景示例与设计理由
+
+### 🟢 场景 A: 成功返回对象 (Single Object)
+
+请求: GET /api/v1/users/1001
+
+HTTP Status: 200 OK
+
+```JSON
+{
+  "code": 0,
+  "msg": "OK",
+  "data": {
+    "user_id": 1001,
+    "nickname": "TechLead_01",
+    "avatar": "https://cdn.example.com/u/1001.jpg"
+  },
+  "trace_id": "0a1b2c3d-4e5f-6789-1234-567890abcdef"
+}
+```
+
+**📌 设计理由:**
+
+- **Code 0:** 符合业界惯例（如 Google/Tencent API），`0` 明确表示逻辑执行成功。
+- **Data 类型:** 返回具体的 Object。
+
+---
+
+### 🟡 场景 B: 成功返回空列表 (Empty List)
+
+请求: GET /api/v1/articles?category=golang (假设该分类下无文章)
+
+HTTP Status: 200 OK
+
+```JSON
+{
+  "code": 0,
+  "msg": "OK",
+  "data": {
+    "list": [],
+    "total": 0
+  },
+  "trace_id": "0a1b2c3d-4e5f-6789-1234-567890abcdef"
+}
+```
+
+**📌 设计理由:**
+
+- **Data 不为 `null`:** 对于列表型接口，`data` 内部的 `list` 字段必须返回空数组 `[]`，而不是 `null`。
+    - _原因:_ 前端可以直接调用 `.map()` 或 `.forEach()` 而无需判空，极大降低前端出现 `Cannot read property 'map' of null` 的崩溃风险。
+- **结构一致性:** 即使是列表，建议包裹在 Object 中（如 `{list: [], total: 0}`），方便未来扩展分页字段。
+
+---
+
+### 🔴 场景 C: 业务/系统错误 (Error Handling)
+
+这里我们需要区分 **“预期内的业务错误”** 和 **“预期外的系统错误”**，但在 JSON 表现上它们必须是一致的。
+
+Case C-1: 预期内的业务错误
+
+场景: 用户尝试注册已存在的邮箱。
+
+Service 层返回: ecode.UserAlreadyExist (Code: 20001)
+
+```JSON
+{
+  "code": 20001,
+  "msg": "用户已存在",
+  "data": null,
+  "trace_id": "0a1b2c3d-4e5f-6789-1234-567890abcdef"
+}
+```
+
+Case C-2: 预期外的系统错误 (触发安全防御)
+
+场景: 数据库突然断连，GORM 返回 dial tcp 127.0.0.1:5432: connect: connection refused。
+
+Service 层返回: 原生 error 对象。
+
+```JSON
+{
+  "code": 50000,
+  "msg": "Internal Server Error",  // <--- 严禁显示 "dial tcp ..."
+  "data": null,
+  "trace_id": "0a1b2c3d-4e5f-6789-1234-567890abcdef"
+}
+```
+
+**📌 设计理由:**
+
+- **Security (安全降级):**
+    - `app.Error(err)` 的内部逻辑必须执行 **Type Assertion (类型断言)**。
+    - 若 `err` 是 `*ecode.Error`，则透传其 `msg`（Case C-1）。
+    - 若 `err` 是普通 `error`（Case C-2），视为系统级异常。**必须**将 JSON 中的 `msg` 强制重写为 `"Internal Server Error"` 或通用文案，防止数据库表结构、IP 地址等敏感信息泄露给攻击者。
+- **HTTP 200:** 即使是 Code 50000，HTTP Status 依然保持 200。这确保了网关层（Nginx/Gateway）不会拦截 Body，前端始终能解析 JSON 拿到 `code` 和 `trace_id` 用于展示和报错。
+
+---
+
+## 🛡️ 关键实现逻辑预告
+
+为了实现上述契约，在接下来的 **Step 5: `internal/pkg/app/response.go`** 中，我们将实现如下核心逻辑：
+
+1. **Trace ID 注入:** 在 `New(c)` 时执行 `r.traceID = c.GetString("trace_id")`。
+2. **错误清洗:**
+
+```Go
+// 伪代码逻辑预览
+func (r *Response) Error(err error) {
+    if e, ok := err.(*ecode.Error); ok {
+        // 业务错误：直接使用
+        r.json(e.Code(), e.Msg())
+    } else {
+        // 系统错误：记录原始日志，但在 JSON 中降级
+        log.Error("System Error", zap.Error(err), zap.String("trace_id", r.traceID))
+        r.json(ecode.ServerErr, "Internal Server Error") // 🔒 安全替换
+    }
+}
+```
+
+这套设计已经满足了 **Phase 1** 的所有契约要求。
diff --git a/Go项目实战/03_基础设施/01_错误处理/SOP 增强补丁：长代码&多文件分步生成策略.md b/Go项目实战/03_基础设施/01_错误处理/SOP 增强补丁：长代码&多文件分步生成策略.md
new file mode 100644
index 0000000..eb5c486
--- /dev/null
+++ b/Go项目实战/03_基础设施/01_错误处理/SOP 增强补丁：长代码&多文件分步生成策略.md	
@@ -0,0 +1,111 @@
+---
+tags: []
+aliases:
+  - 🛠️ SOP 增强补丁：长代码/多文件分步生成策略
+date created: 星期三, 十二月 10日 2025, 9:21:58 上午
+date modified: 星期三, 十二月 10日 2025, 9:34:54 上午
+---
+
+# 🛠️ SOP 增强补丁：长代码/多文件分步生成策略
+
+核心原则: 原子化交付 (Atomic Delivery)。
+
+不要命令 AI “写完这个模块”。要命令 AI “写完这个文件” 或者 “写完这个结构体的具体方法”。
+
+## 策略一：按物理文件拆分 (File-Level Sharding)
+
+对于基础设施模块，通常可以自然拆分为多个文件。
+
+操作动作:
+
+修改 SOP 的 阶段三，不再一次性要求生成所有文件，而是分轮次请求。
+
+### 🤖 优化后的 Prompt 序列
+
+**第一轮：仅生成错误码定义**
+
+```Markdown
+我们先处理 `internal/pkg/code` 包。
+请仅生成 `code.go` 文件。
+内容包含：
+1. package 声明。
+2. const 常量定义（错误码）。
+3. 暂时不要包含 `GetMsg` 的具体 map 映射逻辑，只定义常量。
+```
+
+**第二轮：生成错误码映射**
+
+```Markdown
+很好。现在请生成同目录下的 `msg.go` 文件。
+内容包含：
+1. `var msgFlags = map[int]string{…}` 映射表。
+2. `func Text(code int) string` 方法的实现。
+注意：请确保引用了 `code.go` 中定义的常量。
+```
+
+**第三轮：生成响应结构体**
+
+```Markdown
+现在进入 `internal/pkg/app` 包。
+请生成 `response.go`。
+实现 `Response` 结构体定义、`NewResponse` 工厂函数，以及 `Success` 方法。
+暂时**不要**实现 `Error` 相关方法，我们下一步单独写。
+```
+
+---
+
+## 策略二：骨架先行，血肉填充 (Skeleton First, Flesh Later)
+
+如果单文件（如 `service.go`）依然很长（超过 500 行），使用此策略。先生成接口和空方法，再逐个填充逻辑。
+
+### 🤖 优化后的 Prompt 序列
+
+**第一轮：生成骨架 (The Skeleton)**
+
+```Markdown
+我们要实现 `UserService`。由于逻辑复杂，请先生成**骨架代码**。
+要求：
+1. 定义 Struct 和所有 Method 的签名 (Signature)。
+2. Method 内部留空，或仅写 `panic("implement me")`。
+3. 包含完整的各种 import 和结构体字段注入。
+```
+
+**第二轮：填充核心方法 (The Flesh)**
+
+```Markdown
+现在，请给出 `Register` 和 `Login` 这两个方法的完整实现代码。
+请直接输出这两个函数的完整内容，无需重复输出 Struct 定义。
+```
+
+---
+
+## 策略三：上下文锚点 (Context Anchoring)
+
+当你完成了第一部分代码（比如 `code.go`），在开始下一部分之前，需要让 AI **“记住但不输出”**，以节省 Token 并防止幻觉。
+
+### 🤖 关键 Prompt (用于连接两个步骤)
+
+```Markdown
+[用户动作]: 
+(将 AI 生成的 code.go 代码复制到本地 IDE，确认无误)
+
+[发送给 AI 的指令]:
+已确认 `code.go` 代码无误。
+现在，请将以下代码作为**“已知上下文”**存入你的短期记忆，**不要重复输出它**，但在后续生成 `msg.go` 时必须严格遵守其中的常量定义。
+
+[粘贴 code.go 的完整代码]
+```
+
+---
+
+## ✅ 你的工作流修正建议
+
+回到你当前的 **错误处理模块**，我建议你采用 **“策略一：按物理文件拆分”**。
+
+因为你的 `code` 包和 `app` 包本身就应该物理隔离，避免循环依赖。
+
+**推荐的执行顺序：**
+
+1. **Prompt:** 生成 `internal/pkg/code/err_code.go` (仅包含 const)。
+2. **Prompt:** 生成 `internal/pkg/code/err_msg.go` (包含 map 和 Text 方法)。
+3. **Prompt:** 生成 `internal/pkg/app/response.go` (包含 Response 结构体和 Success/Error 方法)。
diff --git a/Go项目实战/03_基础设施/01_错误处理/SOP 补丁：MECE 任务拆解协议 (The MECE Protocol).md b/Go项目实战/03_基础设施/01_错误处理/SOP 补丁：MECE 任务拆解协议 (The MECE Protocol).md
new file mode 100644
index 0000000..88e0c64
--- /dev/null
+++ b/Go项目实战/03_基础设施/01_错误处理/SOP 补丁：MECE 任务拆解协议 (The MECE Protocol).md	
@@ -0,0 +1,63 @@
+---
+tags: []
+aliases:
+  - 🧩 SOP 补丁：MECE 任务拆解协议 (The MECE Protocol)
+date created: 星期三, 十二月 10日 2025, 9:26:43 上午
+date modified: 星期三, 十二月 10日 2025, 9:30:27 上午
+---
+
+# 🧩 SOP 补丁：MECE 任务拆解协议 (The MECE Protocol)
+
+**适用场景:** 任何代码行数预估 > 200 行，或涉及多个文件交互的大型模块（如：错误处理、RBAC 权限系统、订单状态机）。
+
+**插入位置:** 在原有 SOP 的 **[阶段一：契约定义]** 之前执行。
+
+---
+
+## 阶段 0: 原子化任务拆解 (Atomic Decomposition)
+
+**目的:** 将大需求拆解为一组符合 **MECE 原则 (相互独立，完全穷尽)** 的微任务。确保每个微任务的上下文长度都在 AI 的“舒适区”内，且具备清晰的依赖顺序。
+
+### 🤖 拆解者 Prompt (复制使用)
+
+```Markdown
+你现在是我的 **Tech Lead (技术负责人)**。
+我们要实现 `{模块名称}` 模块。为了防止代码生成中断和逻辑混乱，请不要直接开始写代码。
+
+请先执行 **“MECE 任务拆解”**：
+
+**1. 依赖分析:**
+分析该模块涉及哪些物理文件？它们之间的依赖关系是什么？(例如：B 依赖 A，则 A 必须先完成)。
+
+**2. 原子化切分:**
+将开发工作拆解为 3-5 个“原子任务步”。
+- 每个步骤必须针对**单个物理文件**或**一组紧密相关的函数**。
+- 每个步骤必须是独立的，可执行的。
+
+**3. 输出格式:**
+请输出一个 **Markdown Checklist (执行清单)**。
+格式示例：
+- [ ] **Step 1: {文件名}** - {核心职责} (依赖: 无)
+- [ ] **Step 2: {文件名}** - {核心职责} (依赖: Step 1)
+…
+
+**模块上下文:**
+{此处粘贴你的需求或 PRD 片段}
+```
+
+---
+
+## ✅ 你的工作流变更 (Workflow Update)
+
+引入此补丁后，你的新工作流变成了：
+
+1. **Phase 0 (New):** 发送拆解 Prompt -> **获得清单**。
+2. **Phase 1 (User Action):** 选中清单中的 **Step 1** -> 发送 Prompt：“请执行 Step 1，生成 `code.go`…”。
+3. **Phase 2 (User Action):** 拿到代码 -> 存入本地 -> **锚点确认** ("Step 1 已完成，代码如下…")。
+4. **Phase 3 (User Action):** 选中清单中的 **Step 2** -> 发送 Prompt：“基于 Step 1，请执行 Step 2…”。
+
+### 为什么这样做有效？
+
+1. **Token 节省:** AI 在生成 Step 2 时，不需要你在 Prompt 里重新描述 Step 1 的需求，只需要把 Step 1 已经生成的代码贴给它作为 Context 即可。
+2. **避免幻觉:** 因为每个 Step 只有一个目标，AI 不会“顾头不顾尾”。
+3. **断点续传:** 如果 Step 2 生成错了，你只需要重新生成 Step 2，而不需要推倒重来。
diff --git a/Go项目实战/03_基础设施/02_日志/01_设计目标.md b/Go项目实战/03_基础设施/02_日志/01_设计目标.md
new file mode 100644
index 0000000..63c7baf
--- /dev/null
+++ b/Go项目实战/03_基础设施/02_日志/01_设计目标.md
@@ -0,0 +1,113 @@
+---
+tags: []
+aliases:
+  - 1. 核心设计目标 (Core Design Goals)
+date created: 星期三, 十二月 10日 2025, 10:27:39 晚上
+date modified: 星期三, 十二月 10日 2025, 10:28:15 晚上
+---
+
+# 1. 核心设计目标 (Core Design Goals)
+
+## 目标一：全链路上下文关联 (Contextual Traceability)
+
+这是最核心的差异点。传统的 `log.Println("Database error")` 在并发环境下毫无价值，因为你不知道这条错误属于哪个请求。
+
+- **设计要求**:
+    - **自动注入 TraceID**: 必须能够从 `context.Context` 中提取 `TraceID`（目前 `internal/pkg/app` 已经生成了 TraceID），并自动将其附加到每一条日志中。
+    - **请求元数据绑定**: 除了 TraceID，还应支持自动绑定 `UserID`、`IP`、`Method`、`Path` 等元数据，形成请求的完整快照。
+    - **跨组件穿透**: 日志对象必须能够在 Layer 之间传递（例如 Controller -> Service -> Repository），且保持上下文不丢失。
+
+## 目标二：严格的结构化契约 (Strict Structured Schema)
+
+日志是写给机器看的，不是写给通过 SSH 连上服务器的人看的。
+
+- **设计要求**:
+    - **JSON First**: 生产环境强制使用 JSON 格式。
+    - **Schema 统一**: 字段命名必须统一。例如，不要混用 `uid`, `user_id`, `userId`，必须在设计阶段锁定为 snake_case (如 `user_id`)。
+    - **类型安全**: 时间戳必须统一格式（推荐 ISO8601 或 Unix Nano），数字字段不能变成字符串（便于聚合计算）。
+
+## 目标三：高性能与零侵入 (High Performance & Zero Allocation)
+
+日志通常是系统中 IO 最密集的组件之一。
+
+- **设计要求**:
+    - **低 GC 压力**: 利用 Zap 的核心优势，避免大量的 `interface{}` 反射和字符串拼接，使用强类型的 Field（如 `zap.Int`, `zap.String`）。
+    - **异步 IO (可选)**: 考虑是否引入 Buffer 机制（牺牲极端崩溃下的日志完整性换取吞吐量）。
+    - **Level 级联过滤**: 在 Debug 级别关闭时，Debug 级别的日志构造逻辑（如复杂的对象序列化）不应被执行。
+
+## 目标四：安全与合规 (Security & Compliance)
+
+这往往是被忽视的一点，也是导致安全事故的频发区。
+
+- **设计要求**:
+    - **敏感数据脱敏**: 必须具备“黑名单”机制。任何包含 `password`, `token`, `mobile`, `credit_card` 的字段在输出前必须被自动掩盖（Masking）。
+    - **安全截断**: 防止打印过大的 Body（如 Base64 图片上传）导致磁盘爆满或日志系统瘫痪，限制单条日志最大长度。
+
+---
+
+# 2. 场景化行为对比 (Dev Vs Prod)
+
+为了兼顾开发体验和生产运维标准，我们需要在设计中明确区分两种环境的行为。
+
+|**维度**|**开发环境 (Development)**|**生产环境 (Production)**|**设计意图**|
+|---|---|---|---|
+|**编码格式**|Console (彩色，人类易读)|JSON (机器易读)|开发追求直观；生产追求 ELK 解析效率。|
+|**输出目标**|Stdout (控制台)|File + Stdout (双写)|开发侧容器即焚；生产侧需持久化 + 容器采集。|
+|**日志级别**|Debug|Info / Warn|生产环境过滤掉大量 Debug 噪音，节省存储成本。|
+|**堆栈追踪**|Error 级别即打印|Panic 或 Fatal 才打印|减少生产环境日志体积，除非发生严重故障。|
+|**调用行号**|显示 (Caller)|显示 (Caller)|快速定位代码位置。|
+
+---
+
+# 3. 架构定位与边界 (Architecture Boundary)
+
+我们需要明确日志模块在架构中的位置：
+
+- **位置**: 属于 `Infrastructure Layer` (Level 0/1)。
+- **依赖关系**:
+    - **被谁依赖**: 所有层（Handler, Service, Repository）都依赖 Log。
+    - **依赖谁**: 仅依赖标准库和第三方 Log Driver (Zap)，**不应依赖业务逻辑**。
+- **与其他模块的关系**:
+    - **vs `ecode`**: `ecode` 定义错误的**类型**（Code），Log 记录错误的**现场**（Stack/Trace）。
+    - **vs `app.Response`**: Response 负责**对用户说话**（经过清洗的、友好的信息），Log 负责**对开发者说话**（原始的、包含脏数据的真相）。
+
+---
+
+# 4. 深度反思与自我反驳 (Critical Thinking & Risk Analysis)
+
+在敲定设计目标前，必须审视潜在的矛盾和风险：
+
+**反驳点 1：全链路上下文（TraceID）的传递成本**
+
+- **挑战**: 要想让 Repository 层的日志也打出 TraceID，必须修改所有方法的签名为 `func (ctx context.Context, …)`。这对现有代码（如果是非 Context 风格）是巨大的重构。
+- **回应**: 我们的 `Repository` 接口目前设计中已经包含了 `context.Context`。这是一个必须遵守的“硬约束”。如果缺少 Context，日志将断层。
+- **结论**: 必须在规范中强调：**所有层级的方法首个参数必须是 Context**。
+
+**反驳点 2：脱敏机制的性能损耗**
+
+- **挑战**: 如果每一条日志都要遍历字段去匹配“黑名单”进行正则替换，CPU 开销极大。
+- **回应**: 不能使用正则扫描全文。
+- **修正方案**: 利用 Zap 的 `Hook` 或 `Core` 包装，仅针对特定 Key（如 `password`）进行值替换，或者要求开发者在打印敏感结构体时显式调用 `.Reduct()` 方法，而非隐式全局扫描。隐式扫描在 Golang 中通常是性能杀手。
+
+**反驳点 3：异步写入的丢数据风险**
+
+- **挑战**: 为了性能使用 `Buffered Write`，如果进程被 `kill -9` 或 Panic 崩溃，缓冲区日志会丢失，而崩溃前的日志往往最重要。
+- **回应**: 对于交易类系统，**可靠性 > 吞吐量**。
+- **结论**: 默认采用 **同步写入 (Sync Write)**。Zap 本身性能已经足够强（纳秒级），除非达到数万 QPS，否则不需要引入 Buffer。对于 Panic，必须使用 `defer logger.Sync()` 确保刷盘。
+
+---
+
+# 5. 待确认问题 (Open Questions)
+
+在进入下一步（编写详细规格说明书）之前，我需要确认你对以下几点的偏好：
+
+1. **全局单例 vs 纯依赖注入**:
+    
+    - _选项 A_: 提供 `log.Info()` 全局静态方法（方便，但有副作用）。
+    - _选项 B_: 强制必须通过 `l.Info()` 实例方法调用（架构更洁癖，但调用繁琐）。
+    - _推荐_: **选项 A + B**。提供全局方法作为快捷方式（底层代理到单例），同时支持 DI 注入。你倾向于哪种？
+        
+2. **日志轮转 (Rotation) 策略**:
+    
+    - 你是倾向于按 **大小** 切割（如 100MB 一个文件），还是按 **时间** 切割（每天一个文件）？
+    - _通常建议_: 按大小切割（防止单文件过大无法打开），配合最大文件保留数。
diff --git a/Go项目实战/03_基础设施/02_日志/02_技术栈基线.md b/Go项目实战/03_基础设施/02_日志/02_技术栈基线.md
new file mode 100644
index 0000000..4f0aa99
--- /dev/null
+++ b/Go项目实战/03_基础设施/02_日志/02_技术栈基线.md
@@ -0,0 +1,99 @@
+---
+tags: []
+aliases:
+  - 1. 核心引擎 (The Engine)：Uber Zap
+date created: 星期三, 十二月 10日 2025, 10:28:15 晚上
+date modified: 星期三, 十二月 10日 2025, 10:29:20 晚上
+---
+
+# 1. 核心引擎 (The Engine)：Uber Zap
+
+行业共识 (Consensus):
+
+在 Go 语言的高性能后端领域，go.uber.org/zap 是目前无可争议的事实标准（De Facto Standard）。
+
+我的推荐:
+
+坚定地使用 Zap，不要犹豫。
+
+**老兵的经验谈 (Why & How):**
+
+- **为何不是 Logrus?** Logrus 胜在 API 极其友好（兼容标准库），但它底层大量使用反射（Reflection）和锁，在高并发场景下是严重的性能瓶颈（GC 压力大）。
+- **为何不是 Slog (Go 1.21+)?** Slog 是 Go 官方推出的结构化日志接口。虽然它是未来，但目前的生态和性能优化（尤其是在 JSON 序列化的极致性能上）尚未完全超越 Zap。且 Zap 可以很方便地作为 Slog 的 Backend。但在本项目中，为了追求极致性能和成熟度，直接使用 Zap 原生 API 是最高效的。
+- **关键决策点**:
+    - **Field 强类型**: 我们必须强制团队使用 `zap.String("key", "val")` 而非 `zap.Any("key", val)`。`Any` 会导致反射，破坏 Zap 的零内存分配（Zero Allocation）优势。这是代码审查（Code Review）的红线。
+    - **Logger vs SugaredLogger**:
+        - **核心业务链路 (Hot Path)**: 使用 `zap.Logger`（极致性能，但语法繁琐）。
+        - **初始化/非热点代码**: 使用 `zap.SugaredLogger`（语法类似 `printf`，性能稍弱但开发快）。
+        - **基线**: 我们的封装层默认暴露 `Logger` 能力，保留高性能入口。
+
+# 2. 轮转插件 (Rotation): Lumberjack V2
+
+行业共识 (Consensus):
+
+日志切割看似简单，实则坑多（并发写冲突、文件重命名原子性、不同操作系统的文件锁差异）。
+
+我的推荐:
+
+使用 gopkg.in/natefinch/lumberjack.v2。
+
+**老兵的经验谈:**
+
+- **不要造轮子**: 我见过无数团队尝试自己写 `file.Write` 然后计数切割，最后都在“多进程并发写同一个日志文件”或者“日志压缩时导致 IO 飙升”这些问题上翻车。
+- **配置陷阱**:
+    - `MaxSize`: 建议 **100MB**。太小导致文件碎片化，太大导致像 grep/vim 这种工具打开困难。
+    - `MaxBackups`: 建议保留 **30-50 个**。
+    - `MaxAge`: 建议 **7-14 天**。
+    - **Compress**: 建议 **开启 (True)**。历史日志压缩存储（gzip）能节省 90% 以上的磁盘空间，这对于云盘成本控制非常重要。
+
+# 3. 上下文管理 (Context Awareness): 自研封装层
+
+这是我们作为“架构师”必须介入的地方。原生 Zap 不懂业务上下文，我们需要一个胶水层。
+
+技术难点:
+
+如何优雅地把 TraceID 塞进每一行日志？
+
+设计路线:
+
+我们需要定义一个轻量级的 Wrapper 或者 Helper 函数。
+
+- **不要**：重写 `zap.Logger` 结构体的所有方法（那样维护成本太高）。
+- **要**：提供一个入口函数，例如 `log.WithContext(ctx)`。
+- **原理**：这个函数会从 `ctx` 取出 `TraceID`，然后调用 `zap.With(zap.String("trace_id", id))`，返回一个携带了该字段的子 Logger 实例。这是一次极低成本的指针操作。
+
+# 4. 抽象策略与混合模式 (Hybrid Pattern)
+
+结合你选择的 **Option A+B**，我们的技术实现路径如下：
+
+1. **全局变量 (The Global)**:
+    
+    - 在 `internal/pkg/log` 包内部维护一个私有的 `var globalLogger *zap.Logger`。
+    - 利用 `sync.Once` 确保其并发安全的初始化。
+    - **兜底策略**: 在 `init()` 函数中先给它一个默认的 `Console Logger`。这样即使开发者忘记调用 `InitLogger`，程序启动时的日志也不会 panic，只会打印到控制台。
+        
+2. **依赖注入 (The DI)**:
+    
+    - 在 `internal/pkg/log` 暴露一个 `Provider` 函数，供 Wire 使用。
+    - 这个 Provider 返回的必须是**同一个**底层 Zap 实例的引用（或者其派生），确保配置（如 Level、Output Path）是一致的。
+
+---
+
+# 总结：最终的技术栈清单
+
+|**组件**|**选型**|**理由**|
+|---|---|---|
+|**Logger Core**|`go.uber.org/zap` (v1.27+)|高性能、类型安全、零内存分配。|
+|**Rotation**|`gopkg.in/natefinch/lumberjack.v2`|成熟稳定，处理并发写文件不仅是事实标准，更是避坑指南。|
+|**Config**|`spf13/viper` (已引入)|利用现有的 Viper 读取 yaml 配置，实现动态等级调整。|
+|**Trace Inject**|`Custom Wrapper` (Standard Lib)|基于 `context` 的轻量封装，连接 `gin.Context` 与 `zap.Fields`。|
+
+老师的最后叮嘱 (The Moral of the story):
+
+我们现在的设计，本质上是在 Zap 的高性能 和 业务开发的便利性 之间走钢丝。
+
+最大的风险在于：封装层写得太重。
+
+如果我们在 log.Info 里面加了太多的锁、反射或者字符串拼接，那么引入 Zap 的意义就没了。所以，接下来的详细设计文档中，我们要时刻警惕“过度封装”。
+
+如果这个技术栈基线你没有异议，我们就以此为基础，开始生成《全局日志模块详细设计规格说明书》。
diff --git a/Go项目实战/03_基础设施/02_日志/03_核心设计模式.md b/Go项目实战/03_基础设施/02_日志/03_核心设计模式.md
new file mode 100644
index 0000000..fbeafbb
--- /dev/null
+++ b/Go项目实战/03_基础设施/02_日志/03_核心设计模式.md
@@ -0,0 +1,80 @@
+---
+tags: []
+aliases:
+  - 1. 核心模式：装饰器模式的变体 (Context-Decorator Pattern)
+date created: 星期三, 十二月 10日 2025, 10:37:54 晚上
+date modified: 星期三, 十二月 10日 2025, 10:38:26 晚上
+---
+
+# 1. 核心模式：装饰器模式的变体 (Context-Decorator Pattern)
+
+这是我们处理 `TraceID` 和上下文的核心手段。
+
+- 传统误区 (Over-Abstraction)：
+
+    定义一个庞大的 MyLogger 结构体，把 zap.Logger 藏在里面，然后重写 Info, Error 等所有方法。
+    
+    - _后果_：维护成本极高，每次 Zap 更新或增加新特性（如 `Panic` 或 `DPanic`），你都得跟着改代码。且容易在转发参数时产生逃逸分析（Escape Analysis）导致的内存分配。
+- 我们的决策 (The Thin Wrapper)：
+
+    只封装“获取 Logger”的动作，不封装“Logger 本身”。
+
+    我们将定义一个函数 log.WithContext(ctx context.Context) *zap.Logger。
+    
+    - _行为_：这个函数极其轻量。它从 `ctx` 中取出 `TraceID`，调用 `zap.With()` 生成一个新的 Zap 实例并返回。
+    - _优势_：业务代码拿到的依然是原生的 `*zap.Logger`。这意味着开发者可以直接使用 Zap 强大的 `zap.String`, `zap.Int` 等强类型字段构建方法，享受极致性能，没有任何中间层损耗。
+
+# 2. 接口策略：拒绝通用接口 (Concrete Type Dependency)
+
+这是 Go 语言工程实践中关于日志的一个特殊共识，也是反直觉的地方。
+
+- 传统误区 (The Java/Interface Way)：
+
+    定义一个 type ILogger interface { Info(msg string, args …interface{}) }。
+    
+    - _后果_：`args …interface{}` 会导致大量的反射（Reflection）和装箱（Boxing），这直接抹杀了 Zap 存在的意义。Zap 的核心设计哲学就是通过 `zap.Field` 避免使用 `interface{}`。
+- 我们的决策 (Concrete Type)：
+
+    直接依赖 *zap.Logger 具体类型。
+    
+    - _原则_：在 Handler、Service、Repository 层，注入的类型就是 `*zap.Logger`。
+    - _测试怎么办_：不要 Mock 日志接口。在单元测试中，直接传入 `zap.NewNop()`（什么都不做）或者 `zap.NewExample()`（输出到测试控制台）。这比 Mock 一个接口要简单且真实得多。
+
+# 3. 访问模式：混合单例与依赖注入 (The Hybrid Accessor)
+
+结合之前讨论的 Option A+B，我们通过设计模式来解决“初始化顺序”和“热加载”的问题。
+
+- 设计挑战：
+
+    如果 main.go 还没来得及读配置初始化 Logger，其他 init() 函数里就调用了日志，程序会 Panic。
+    
+- **我们的决策 (Thread-Safe Proxy)**：
+    - **原子替换 (Atomic Swap)**：全局变量 `globalLogger` 不会直接暴露给外部修改。我们将使用 `unsafe.Pointer` 或 `atomic.Value` (配合 Zap 的 `ReplaceGlobals`) 来保证在运行时重新加载配置（如动态修改 Log Level）时，不会发生并发读写冲突。
+    - **懒汉式兜底 (Lazy Fallback)**：在 `internal/pkg/log` 的 `init()` 中，我们会默认初始化一个 `Console Logger`。这样即使 `main` 函数一行代码都没跑，只要引用了包，日志功能就是可用的（虽然配置是默认的）。这极大提升了开发体验（DX）。
+
+# 4. 字段构建模式：结构化优先 (Field-First API)
+
+这关乎团队的编码规范，属于 API 设计模式。
+
+- 传统误区 (Printf Style)：
+
+    使用 SugaredLogger 的 Infof("User %s login failed, error: %v", user, err)。
+    
+    - _后果_：日志分析系统（ELK）只能拿到一串文本，无法对 `user` 进行聚合统计。
+- 我们的决策 (Structured Style)：
+
+    默认只暴露 Logger（强类型），在必要时才暴露 SugaredLogger。
+    
+    - _强制规范_：代码中必须写成 `log.Info("user login failed", zap.String("user", user), zap.Error(err))`。
+    - _设计意图_：通过 API 的设计，“强迫”开发者思考每一个字段的语义。这虽然写起来繁琐一点，但对于后期的运维和排查是无价的。
+
+---
+
+# 总结：设计规格书的基调
+
+基于以上讨论，在接下来的规格说明书中，我们将确立以下基调：
+
+1. **不造轮子**：核心逻辑全权委托给 `zap` 和 `lumberjack`。
+2. **薄封装**：`pkg/log` 代码行数应控制在 200 行以内，只做配置解析和 Context 桥接。
+3. **强类型**：严禁在核心路径使用 `interface{}`。
+4. **显式传递**：通过 `WithContext` 显式传递上下文，而不是依赖某些黑魔法（如 Goroutine Local Storage）。
diff --git a/Go项目实战/03_基础设施/02_日志/04_架构逻辑.md b/Go项目实战/03_基础设施/02_日志/04_架构逻辑.md
new file mode 100644
index 0000000..9ccbfce
--- /dev/null
+++ b/Go项目实战/03_基础设施/02_日志/04_架构逻辑.md
@@ -0,0 +1,123 @@
+---
+tags: []
+aliases:
+  - 1. 代码组织方式 (Code Organization)
+date created: 星期三, 十二月 10日 2025, 10:42:21 晚上
+date modified: 星期三, 十二月 10日 2025, 11:38:44 晚上
+---
+
+# 1. 代码组织方式 (Code Organization)
+
+我们将遵循 **“高内聚、低耦合”** 的原则，将日志模块放置在 `internal/pkg/log` 下。这里是所有日志逻辑的物理家园。
+
+建议的文件结构如下（逻辑分层）：
+
+- **`log.go` (Facade/Entry Point)**:
+    - 这是对外暴露的统一入口。包含全局单例的定义、初始化函数 (`Init`)、以及最常用的静态方法代理（如 `Info`, `Error`, `WithContext`）。
+    - **设计意图**: 让其他模块只 import 这一个包就能完成 90% 的工作。
+- **`options.go` (Configuration)**:
+    - 定义配置结构体（Level, Filename, MaxSize, MaxAge 等）。
+    - **设计意图**: 将配置解析逻辑与日志初始化逻辑分离，方便单元测试。
+- **`zap.go` (Core Implementation)**:
+    - 负责 `zap.Logger` 的具体构建。包含 Encoder 配置（JSON vs Console）、Writer 配置（Lumberjack 集成）和 Level 动态调整逻辑。
+    - 这是“脏活累活”集中的地方，屏蔽 Zap 的复杂构建细节。
+- **`context.go` (The Bridge)**:
+    - **核心组件**。实现 `TraceID` 的提取逻辑。
+    - 定义如何从 `context.Context` 中挖掘元数据，并将其转化为 `zap.Field`。
+
+---
+
+# 2. 调用方式与依赖注入 (Invocation & DI)
+
+这里有一个经典的架构冲突：**Singleton（单例） vs Dependency Injection（依赖注入）**。我们的策略是 **“依赖注入为主，单例为辅”**，但在具体使用上有一个极其重要的**反直觉设计**。
+
+## A. 为什么 Service 层不应保存 Request Logger？
+
+你可能会想在 Service 初始化时注入一个带 Context 的 Logger。
+
+- **错误做法**: `type UserService struct { logger *zap.Logger }`，然后在请求进来时试图把 request-scoped 的 logger 塞进去。
+- **架构事实**: 在 Wire 依赖注入中，`Service`、`Repository` 通常是 **单例 (Singleton)** 的（即整个应用生命周期只有一个实例）。
+- **结论**: 你**不能**把属于某一次 HTTP 请求的 `TraceID` 注入到单例的 Struct 成员变量中。
+
+## B. 正确的调用范式 (The Best Practice)
+
+Logger 作为**工具能力**被注入，Context 作为**请求参数**被传递。
+
+1. **依赖注入 (Setup Phase)**:
+    
+    - 在 `NewUserUsecase` 时，注入基础的 `*zap.Logger`（不带 TraceID）。
+    - 这个 Logger 配置好了输出路径、Level 等全局属性。
+        
+2. **方法调用 (Runtime Phase)**:
+    
+    - 在具体的方法（如 `Register`）中，使用 `log.WithContext(ctx)` 来“临时”生成一个带有 TraceID 的 Logger 实例。
+
+**示例逻辑流**:
+
+- **Struct 定义**: `struct { baseLogger *zap.Logger }`
+- **方法内部**: `l := log.WithContext(ctx, u.baseLogger)` -> `l.Info("user registered")`
+- **说明**: 这里的 `WithContext` 是一个纯内存操作（浅拷贝），开销极小，可以放心高频调用。
+
+## C. 高性能场景：作用域复用 (Scoped Logger)
+
+虽然 `log.WithContext` 是浅拷贝，但在循环或长链路中频繁调用仍会产生大量临时对象，增加 GC 压力。
+
+- **反模式 (Anti-Pattern)**: 在 `for` 循环内部调用 `log.WithContext(ctx)`。
+- **最佳实践 (Best Practice)**: **作用域提升**。在函数或循环入口处调用一次 `WithContext`，生成局部变量 `l` (Logger)，随后全程复用该变量。
+
+---
+
+# 3. 数据流与 TraceID 传递 (Data Flow)
+
+这是实现“全链路可观测性”的生命线。数据流必须打通以下四个关卡：
+
+## 关卡 1：入口 (Entry - Middleware)
+
+- **位置**: `internal/middleware/trace.go` (需新建) 或集成在 `response` 包中。
+- **行为**: 当 HTTP 请求到达，生成一个 UUID。
+- **动作**: 使用 `c.Set("X-Trace-ID", uuid)` 将其放入 Gin 的上下文存储中。同时，将其放入 HTTP Response **动作**:
+	1. 调用 `pkg/log.WithTraceID(ctx, uuid)` 将 `UUID` 注入标准 `Context`。
+	2. 执行 `c.Request = c.Request.WithContext(newCtx)` 将其回写。
+	3. (可选) 同时放入 Gin 上下文存储和 Response Header 供前端使用。
+
+## 关卡 2：桥接 (Bridge - Context Adapter)
+
+- **位置**: `internal/pkg/log/context.go`
+- **设计原则**: `pkg/log` **不依赖** `gin`，只识别标准库 `context.Context`。
+- **行为**: `log.WithContext(ctx) 调用内部帮助函数 GetTraceID(ctx) 获取 TraceID。`
+- **前置条件**: 必须依赖上游（Middleware）将 TraceID 提前注入到标准 Context 中。
+- **输出**: 返回一个预置了 `zap.String("trace_id", id)` 字段的 Logger。
+
+## 关卡 3：穿透 (Propagation - Service/Repo)
+
+- **行为**: 所有的业务方法签名必须包含 `ctx context.Context` 作为第一个参数。
+- **动作**: 严禁在层级调用中丢弃 Context（例如使用 `context.Background()` 替代传入的 ctx），这会导致链路断裂。
+
+## 关卡 4：异步与后台边界 (Async & Background Boundary)
+
+- **高危场景**: 在 Handler 中启动 Goroutine 处理耗时任务。
+- **陷阱**: `gin.Context` 是非线程安全的。如果 Goroutine 执行时 HTTP 请求已结束，Gin 会重置该 Context，导致数据竞争或脏读。
+- **解决方案**: 必须在主协程中执行 `ctx.Copy()`，将副本传递给 Goroutine。日志模块必须支持处理这种副本 Context。
+- **新增场景：后台任务 (Background Tasks)**
+	- **场景**: 定时任务 (Cron)、消息队列消费者 (MQ Consumer)、系统初始化。
+	- **问题**: 初始 `context.Background()` 不包含 TraceID。
+	- **动作**: 必须调用 `log.StartBackgroundTrace(ctx)` 进行“播种”。该函数会检测 Context，若无 TraceID 则生成新 ID 并注入，确保链路可追踪。
+
+---
+
+# 4. 关键架构思考：防腐层 (Anti-Corruption Layer)
+
+我们在设计时还需考虑一层“防腐”。
+
+- **问题**: 如果未来我们想给所有的日志加一个字段，比如 `env=prod`，或者想把所有的 `trace_id` 改名为 `traceId`。
+- **对策**: 所有的业务代码**严禁**直接手动构建 `zap.String("trace_id", …)`。
+- **约束**: 这个字段的 Key 必须定义在 `pkg/log` 的常量中，且只能由 `WithContext` 内部逻辑自动附加。业务开发者只负责传 Context，不负责管 ID 怎么拼写。
+
+---
+
+# 总结
+
+- **代码位置**: `internal/pkg/log`，包含 `log.go` (入口), `zap.go` (实现), `context.go` (桥接)。
+- **调用方式**: 注入 Base Logger -> 方法内 `WithContext(ctx)` -> 打印。
+- **数据流**: Middleware 生成 -> Gin Context 携带 -> Log Adapter 提取 -> Zap Field 输出。
+- **并发安全**: 警惕 Gin Context 在 Goroutine 中的误用，强调 `Copy()` 机制。
diff --git a/Go项目实战/03_基础设施/02_日志/05_目录结构与职责.md b/Go项目实战/03_基础设施/02_日志/05_目录结构与职责.md
new file mode 100644
index 0000000..881ab94
--- /dev/null
+++ b/Go项目实战/03_基础设施/02_日志/05_目录结构与职责.md
@@ -0,0 +1,76 @@
+---
+tags: []
+aliases:
+  - 目录结构与职责
+date created: 星期三, 十二月 10日 2025, 10:45:40 晚上
+date modified: 星期三, 十二月 10日 2025, 11:40:48 晚上
+---
+
+# 目录结构与职责
+
+## 1. 目录结构设计 (Directory Structure)
+
+该结构旨在实现 **“配置分离”**、**“核心隐藏”** 与 **“上下文桥接”**。
+
+```Plaintext
+internal/
+├── middleware/               # [Global] 全局中间件层
+│   ├── access_log.go         # [New] HTTP 请求访问日志 (请求入/出记录, 耗时统计)
+│   └── trace.go              # [New] 链路追踪 (生成/透传 TraceID -> 注入 Context)
+│
+└── pkg/
+    └── log/                  # [Level 0] 全局日志核心包 (基于 Zap)
+        ├── log.go            # [Facade] 对外入口 (Init, Global L(), Static Proxies)
+        ├── options.go        # [Config] 配置定义 (Level, FilePath, MaxSize)
+        ├── zap.go            # [Core] Zap 实例构建 (Encoder, Core, AtomicLevel)
+        ├── writer.go         # [IO] 输出源管理 (Lumberjack 轮转, Console/File 双写)
+        ├── context.go        # [Bridge] 上下文桥接 (WithContext, TraceID 提取)
+        └── standard.go       # [Schema] 标准字段定义 (Standardized Field Constructors)
+```
+
+---
+
+## 2. 文件职责详解 (Responsibilities)
+
+### A. `internal/pkg/log` (核心日志包)
+
+这是一个基础设施包，不应依赖任何业务逻辑（User, Order 等）。
+
+| **文件名**           | **职责描述**                                                                                                                                                                          | **关键设计点 (Design Decisions)**                                                                                                                                                                                                                                                      |
+| ----------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
+| **`log.go`**      | **门面 (Facade) 与单例管理**。<br>1. 维护私有全局变量 `globalLogger`。<br>2. 提供 `Init(opts)` 初始化入口。<br>3. 提供 `L()` 获取底层 `*zap.Logger`。<br>4. 提供 `Info/Error` 等静态代理方法。                              | **单例兜底**：在 `init()` 中初始化一个默认的 `Nop` 或 `Console` Logger，防止未初始化调用导致 Panic。<br>**Caller 修正**：<br>1. 底层 `globalLogger` 配置 `AddCallerSkip(0)`。<br>2. 静态代理方法 (`Info`, `Error`) 内部使用 `WithOptions(AddCallerSkip(1))`。<br>3. `L()` 和 `WithContext()` 返回原生 Logger (Skip 0)，确保业务层直接调用时行号正确。 |
+| **`options.go`**  | **配置对象 (DTO)**。<br>定义 `Options` 结构体，用于接收 Viper 的配置映射。                                                                                                                             | **配置解耦**：只定义 struct，不包含逻辑。支持从 `config.yaml` 的 `log` 节点自动 Unmarshal。                                                                                                                                                                                                               |
+| **`zap.go`**      | **核心构建工厂 (Factory)**。<br>负责组装 Encoder (JSON/Console)、Writer 和 Level。<br>实现 `New(opts)` 函数。                                                                                        | **环境隔离**：<br>- Dev: ConsoleEncoder + StackTrace (Warn 级)<br>- Prod: JsonEncoder + StackTrace (Panic 级)                                                                                                                                                                            |
+| **`writer.go`**   | **IO 输出管理**。<br>封装 `lumberjack.Logger`。<br>实现 `zapcore.WriteSyncer` 接口。                                                                                                           | **可靠性**：配置 `Lumberjack` 的 `Compress: true` 和 `MaxSize: 100MB`。实现 Console + File 的 **Tee (双写)** 模式。                                                                                                                                                                                |
+| **`context.go`**  | **上下文装饰器与播种器 (Decorator & Seeder)**。<br>1. `WithContext(ctx)`: 提取 TraceID。<br>2. **[New] `StartBackgroundTrace(ctx)`**: 为后台任务生成并注入根 TraceID。                                      | **零侵入**：仅通过 `zap.With()` 附加字段，返回 **派生 Logger**，不修改全局 Logger，线程安全。                                                                                                                                                                                                                 |
+| **`standard.go`** | **标准化字段与存取器 (Schema & Accessor)**。<br>1. 定义**私有** Context Key 类型，防止碰撞。<br>2. 提供 `WithTraceID(ctx, id)` 和 `GetTraceID(ctx)` 公开方法。<br>3. 定义标准字段构造器 (如 `zap.String("trace_id", …)`)。 | **规范约束**：<br>- 统一使用 snake_case。<br>- 防止拼写错误 (如 `uid` vs `user_id`)。                                                                                                                                                                                                               |
+
+### B. `internal/middleware` (中间件集成)
+
+这是日志模块与 HTTP 框架 (Gin) 结合的触点。
+
+| **文件名**             | **职责描述**                                                                                                                                       | **交互逻辑**                                                                                                     |
+| ------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------ |
+| **`trace.go`**      | **链路起点**。<br>链路追踪 (生成 TraceID -> **注入标准 Context** -> 挂载回 Gin Request)                                                                          | **上下游打通**：保证 TraceID 在微服务或网关间的透传能力。                                                                          |
+| **`access_log.go`** | **流量审计**。<br>1. 记录 `Start Time`。<br>2. 执行 `c.Next()`。<br>3. 计算 `Latency`。<br>4. 打印结构化日志。                                                       | **字段映射**：<br>`path`, `method`, `status`, `client_ip`, `latency`, `user_agent`。**必须使用 `log.WithContext(c)`**。 |
+| `recovery.go`       | 结构化灾难恢复。<br>1. `defer recover()` 捕获 Panic。<br>2. 获取 Stack Trace。<br>3. **调用 `pkg/log` 记录 JSON 格式的 Error 日志** (包含 `stack` 字段)。<br>4. 返回 500 响应。 | **替代 Gin 默认组件**：必须使用 `gin.New()` 启动，手动注册此中间件，杜绝默认的控制台文本打印。                                                   |
+
+---
+
+## 3. 数据流转图示 (Data Flow)
+
+为了确保你理解“上下文”是如何流动的，以下是逻辑路径：
+
+1. **Request In** -> `middleware/trace.go` -> 生成 `trace_id` -> **Wrap 进 `std.Context`**。 …
+2. **`pkg/log/context.go`** -> 从 **`std.Context`** 取出 `trace_id` -> …
+3. **`pkg/log/context.go`** -> 从 `gin.Context` 取出 `trace_id` -> 创建带字段的 `zap.Logger`。
+4. **`pkg/log/zap.go`** -> 序列化为 JSON `{…"trace_id":"xyz"…}`。
+5. **`pkg/log/writer.go`** -> 写入 `app.log` 文件 (由 Lumberjack 轮转)。
+
+## 4. 依赖关系检查 (Dependency Check)
+
+- `pkg/log` **不依赖** `middleware` (防止循环依赖)。
+- `middleware` **依赖** `pkg/log` (调用日志打印)。
+- `pkg/log` **仅依赖** `uber-go/zap`, `natefinch/lumberjack`。**严禁依赖** `gin` 或其他 Web 框架。所有 Context 操作均基于 Go 标准库接口。
+
+这个结构完全穷尽了我们在前几轮讨论中确定的技术决策。如果确认无误，我们将在下一步生成具体的代码实现。
diff --git a/Go项目实战/03_基础设施/02_日志/06_日志模块开发规范与质量保证手册.md b/Go项目实战/03_基础设施/02_日志/06_日志模块开发规范与质量保证手册.md
new file mode 100644
index 0000000..3ad2a9e
--- /dev/null
+++ b/Go项目实战/03_基础设施/02_日志/06_日志模块开发规范与质量保证手册.md
@@ -0,0 +1,181 @@
+---
+tags: []
+aliases:
+  - 《日志模块开发规范与质量保证手册》
+  - 一、 核心开发规范 (The Golden Rules)
+date created: 星期三, 十二月 10日 2025, 10:53:19 晚上
+date modified: 星期三, 十二月 10日 2025, 11:31:04 晚上
+---
+
+# 《日志模块开发规范与质量保证手册》
+
+---
+
+## 一、 核心开发规范 (The Golden Rules)
+
+这部分是“软约束”，属于团队共识，通过 Code Review 和 AI 辅助检查来执行。
+
+### 1. 键名命名公约 (Key Naming Convention)
+
+日志是给机器（ELK/Loki）读的，键名必须统一，方便建立索引。
+
+- **规则**: 严禁使用 CamelCase (小驼峰) 或 PascalCase (大驼峰)，**必须且只能使用 snake_case (下划线命名)**。
+- **反例**: `userId`, `IPAddress`, `httpStatus`
+- **正例**: `user_id`, `client_ip`, `http_status`
+- **理由**: 多数数据库和搜索引擎（如 Elasticsearch）的分词器对下划线更友好，且 SQL 查询习惯也是下划线。
+
+### 2. 类型安全铁律 (Type Safety Strictness)
+
+利用 Zap 的强类型优势，拒绝隐式转换。
+
+- **规则**: 在业务热点路径（Hot Path）中，**严禁使用 `zap.Any`、`zap.Reflect` 或 `Sugar` 模式**。
+- **例外**: 仅在应用启动（Init）、Panic 恢复或非高频的配置加载阶段允许使用 `SugaredLogger`。
+- **理由**: `zap.Any` 会触发反射（Reflection），导致内存逃逸和 GC 压力。这是高性能系统的“隐形杀手”。
+
+### 3. 上下文优先原则 (Context First)
+
+日志不是孤岛，必须依附于请求上下文。
+
+- **规则**: 所有 Controller、Service、Repository 层的方法，如果需要打印日志，**必须**使用 `log.WithContext(ctx).Info(…)` 及其变体。
+- **禁止**: 严禁在业务流程中直接调用全局的 `log.Info(…)`（除非是系统级事件，如定时任务启动）。
+- **理由**: 只有通过 `WithContext`，才能将 TraceID 串联起来。
+
+### 4. 哨兵值与魔法字符串 (Sentinels & Magic Strings)
+
+- **规则**: 核心日志字段的 Key 必须定义为常量（Constant）。
+- **实现**: 在 `pkg/log/standard.go` 中定义 `const TraceIDKey = "trace_id"`。
+- **禁止**: 代码中出现手写的 `zap.String("trace_id", …)`，防止拼写错误（如写成 `traceid`）。
+
+### 5. 热点路径复用原则 (Hot Path Reuse)
+
+针对循环（Loop）或复杂长流程函数，严禁重复构建 Context Logger。
+
+- **规则**: 必须在作用域入口处初始化 Logger 实例，并在该作用域内复用。
+- **反例 (Bad)**:
+
+    ```Go
+    for _, item := range items {
+        // ❌ 每次循环都分配内存
+        log.WithContext(ctx).Info("processing", zap.String("id", item.ID))
+    }
+    ```
+
+- **正例 (Good)**:
+
+    ```Go
+    // ✅ 只分配一次，复用 l
+    l := log.WithContext(ctx)
+    for _, item := range items {
+        l.Info("processing", zap.String("id", item.ID))
+    }
+    ```
+
+- **理由**: 减少大量临时的 `zap.Logger` 结构体分配，降低 GC 的 Scavenge 阶段耗时。
+
+### 6. 后台任务播种原则 (Background Trace Seeding)
+
+所有非 HTTP 触发的后台任务入口（Goroutine, Cron, MQ Handler），必须是“有状态”的。
+
+- **规则**: 任务的第一行代码必须调用 `StartBackgroundTrace`。
+- **反例 (Bad)**:
+
+    ```Go
+    func ProcessOrder(msg []byte) {
+        ctx := context.Background()
+        // ❌ 此时 ctx 空空如也，日志将丢失 TraceID
+        log.WithContext(ctx).Info("processing order")
+    }
+    ```
+
+- **正例 (Good)**:
+
+    ```Go
+    func ProcessOrder(msg []byte) {
+        // ✅ 自动生成一个新的 TraceID 注入 ctx
+        ctx := log.StartBackgroundTrace(context.Background())
+        log.WithContext(ctx).Info("processing order")
+    }
+    ```
+
+---
+
+## 二、 Linter 规则配置 (Automated Enforcement)
+
+这部分是“硬约束”，我们将在 `.golangci.yml` 中配置这些规则，强行阻断不合规代码的提交。
+
+### 1. 禁用标准库日志 (`depguard`)
+
+防止开发人员手滑使用了 Go 原生的 `log` 或 `fmt` 打印日志。
+
+Linter: depguard
+
+配置策略:
+
+- **Deny**:
+    - `log`: 标准库日志（无结构化，无法分级）。
+    - `fmt.Print*`: 控制台打印（生产环境绝对禁止）。
+    - `github.com/sirupsen/logrus`: 防止引入其他日志库。
+
+### 2. 强制错误处理 (`errcheck`)
+
+Zap 的 `Sync()` 方法可能会返回错误（特别是在 Linux 的 `/dev/stdout` 上），通常需要忽略，但写入文件的错误不能忽略。
+
+Linter: errcheck / gosec
+
+配置策略:
+
+- 对 `logger.Sync()` 的错误处理进行豁免（Exclude），因为在某些 OS 下 stdout sync 必然报错，这是已知 issue。
+- 但对 `logger.Info` 等方法的 IO 错误，原则上 Zap 内部处理了，不需要业务层捕获。
+
+### 3. 自定义规则 (`ruleguard` - 高级)
+
+标准的 Linter 无法检测“键名必须是 snake_case”。如果需要极致的管控，我们可以引入 `ruleguard`。
+
+AI 辅助检查逻辑:
+
+由于配置 ruleguard 较复杂，我们约定在 AI 生成代码阶段 执行此逻辑：
+
+- **Check 1**: 正则匹配所有 `zap.String("([a-z]+[A-Z][a-z]+)", …)` 模式，如果发现驼峰命名，立刻自我修正。
+- **Check 2**: 扫描代码中是否存在 `fmt.Print`，如有则报错。
+
+---
+
+## 三、 安全与脱敏规范 (Security & Masking)
+
+这是日志系统的“红线”。
+
+### 1. PII (个人敏感信息) 零容忍
+
+- **黑名单字段**: `password`, `token`, `access_token`, `refresh_token`, `credit_card`, `id_card`.
+- **处理方式**:
+    - **方案 A (拦截器)**: 在 `zapcore` 层加 Hook，但这会损耗性能。
+    - **方案 B (显式脱敏)**: 要求 AI 在生成代码时，对于敏感字段，自动包裹脱敏函数。例如 `zap.String("mobile", mask.Mobile(u.Mobile))`。
+    - **决策**: 采用 **方案 B**。依赖编码时的自觉和 AI 的辅助，性能最优。
+
+### 2. 大字段截断
+
+- **规则**: 禁止将 Base64 图片数据、巨大的 HTML 内容直接打入日志。
+- **限制**: 单个 Field 的 Value 长度建议限制在 2KB 以内。
+
+---
+
+## 四、 AI 辅助编码的“质量契约” (AI Quality Contract)
+
+为了确保我（AI）生成的代码符合上述规范，请你（用户）在审查我的代码时，使用以下 **Checklist** 进行验证。这也是我对你的承诺：
+
+1. **Imports 检查**: 确认没有引入 `log` 或 `fmt`。
+2. **Context 检查**: 确认 `log.WithContext(ctx)` 是日志调用的唯一起手式。
+3. **Keys 检查**: 确认所有 JSON Key 都是 `snake_case`。
+4. **Args 检查**: 确认使用的是 `zap.String/Int` 等强类型构造器，而非 `zap.Any`。
+5. **Config 检查**: 确认没有硬编码的路径（如 `/var/log`），必须来自 `options.go`。
+
+---
+
+## 五、 总结与下一步
+
+我们确立了：
+
+1. **命名**: 强制 snake_case。
+2. **类型**: 拒绝 `zap.Any`，拒绝 `fmt`。
+3. **上下文**: 强制 `WithContext`。
+4. **安全**: 显式脱敏。
diff --git a/Go项目实战/03_基础设施/02_日志/07_日志模块工程化实施标准.md b/Go项目实战/03_基础设施/02_日志/07_日志模块工程化实施标准.md
new file mode 100644
index 0000000..858812e
--- /dev/null
+++ b/Go项目实战/03_基础设施/02_日志/07_日志模块工程化实施标准.md
@@ -0,0 +1,146 @@
+---
+tags: []
+aliases:
+  - 日志模块工程化实施标准
+date created: 星期三, 十二月 10日 2025, 10:58:53 晚上
+date modified: 星期三, 十二月 10日 2025, 11:42:26 晚上
+---
+
+# 日志模块工程化实施标准
+
+---
+
+## 一、 注释与文档规范 (Documentation Standards)
+
+目标：“中文友好 (Chinese Friendly)” 且 “符合 GoDoc 标准”。
+
+我们采用 混合语言策略：结构定义用英文（为了 IDE 兼容性），业务解释用中文（为了团队协作）。
+
+### 1. 导出的包与函数 (Exported Symbols)
+
+所有对外暴露的函数（首字母大写），必须编写文档注释。
+
+- **格式要求**：
+    - 第一行：`// FunctionName 简短的英文或中文摘要` (符合 Go Lint 检查)。
+    - 空一行。
+    - 详细说明：**必须使用中文**，解释函数的行为、副作用（Side Effects）和潜在风险。
+    - 参数说明：如果有复杂参数，使用 `// - param: explanation` 格式。
+- **范例 (Style Guide)**:
+
+    > // WithContext returns a logger with the trace ID injected.
+    > 
+    > //
+    > 
+    > // [功能]: 从 context.Context 中提取 TraceID 并附加到 Logger 字段中。
+    > 
+    > // [注意]: 这是一个轻量级操作，但如果 ctx 为 nil，将返回原始 Logger 的 fallback。
+    > 
+    > // [场景]: 务必在 Controller 或 Service 的入口处优先调用。
+
+### 2. 内部实现细节 (Internal Logic)
+
+对于 `internal/pkg/log` 内部复杂的逻辑（如 `lumberjack` 的配置转换），必须在代码块上方添加中文注释。
+
+- **原则**：解释 **“为什么这么做 (Why)”**，而不是“做了什么 (What)”。代码本身已经展示了做了什么。
+- **范例**:
+
+    > // [Why]: 这里不使用 zap.NewProduction 自带的 OutputPaths，
+    > 
+    > // 因为我们需要同时输出到控制台 (为了 Docker 采集) 和文件 (为了本地容灾)，
+    > 
+    > // 且文件输出需要通过 Lumberjack 进行轮转控制。
+
+### 3. README 维护
+
+在 `internal/pkg/log/README.md` 中维护一份**“速查手册”**。
+
+- **必填内容**：
+    - 如何在 `config.yaml` 中配置（给出默认值）。
+    - 如何动态调整日志级别（如通过信号或 API）。
+    - 常见错误码（Code）与日志关键字的对应关系。
+
+---
+
+## 二、 可拓展性设计 (Extensibility Design)
+
+虽然我们拒绝“过度封装”，但必须为未来的变化预留接口（Hook Points）。
+
+### 1. 配置扩展：Functional Options 模式
+
+我们在 `Init` 函数中，不应列出所有参数，而应使用 `Option` 模式。
+
+- **设计**: `func Init(opts …Option) error`
+- **预留能力**: 未来如果需要添加“发送日志到 Kafka”或“开启 Sentry 报警”，只需新增一个 `WithKafka(addr)` 的 Option，而无需修改 `Init` 的函数签名，保证了对旧代码的兼容性。
+
+### 2. 核心扩展：Zap Hooks
+
+Zap 原生支持 `Hooks`。我们的封装必须暴露这一能力。
+
+- **场景**: 当日志级别为 `Error` 或 `Fatal` 时，可能需要同步触发飞书/钉钉报警。
+- **实现标准**: 在 `zap.go` 的构建逻辑中，检查配置是否定义了 Hooks。这允许我们在不侵入日志核心代码的情况下，挂载报警逻辑。
+
+### 3. 字段扩展：Context Key Registry
+
+随着业务发展，需要记录的元数据会增加（如 `TenantID`, `RequestID`, `SpanID`）。
+
+- **标准**: 不要在 `context.go` 里写死 key 的提取逻辑。
+- **设计**: 定义一个 `type ContextExtractor func(ctx) []Field` 类型。默认提供 `TraceIDExtractor`。允许在初始化时注册新的 Extractor。这使得业务线可以自定义需要提取的 Context 字段。
+
+---
+
+## 三、 查漏补缺 (Gap Analysis)
+
+在之前的讨论中，有几个隐蔽但致命的工程细节尚未覆盖，这里作为最后防线进行补充。
+
+### 1. 关于 `Logger.Fatal` 的使用禁令
+
+- **风险**: `zap.Logger.Fatal` 会在打印日志后调用 `os.Exit(1)`。
+- **工程标准**: **在 Web 服务（HTTP Server）中，严禁在业务逻辑层调用 `Fatal`。**
+    - _原因_: 这会直接杀死整个进程，导致所有正在处理的请求中断（没有 Graceful Shutdown）。
+    - _替代_: 遇到不可恢复错误，使用 `Error` 级别日志，并返回 `500` 错误给客户端，由上层中间件处理。
+    - _例外_: 仅在 `main.go` 启动阶段（如连不上数据库、读不到配置）可以使用 `Fatal`。
+
+### 2. 时间格式的一致性
+
+- **问题**: Zap 默认的时间格式可能是浮点数（Unix Epoch）或非标准字符串。
+- **标准**: 生产环境统一配置为 **`ISO8601` (2025-12-10T22:00:00.000Z)**。
+    - _理由_: 这种格式跨时区友好，且能被几乎所有日志分析工具（ELK, Splunk, CloudWatch）自动识别并建立时间索引。
+
+### 3. 动态日志级别 (Hot Reload)
+
+- **需求**: 线上出 Bug 时，需要临时把 Level 调成 Debug，查完再调回 Info，且不能重启服务。
+- **实现标准**: 利用 `zap.AtomicLevel`。
+    - 我们需要暴露一个 HTTP 接口（如 `PUT /admin/log/level`）或监听配置文件的 `fsnotify` 事件。
+    - 收到变更信号后，直接调用 `atomicLevel.SetLevel(zap.DebugLevel)`。这是线程安全的，无需重启实例。
+
+### 4. 测试支持 (Testing Support)
+
+- **问题**: 单元测试时，不仅不想看到日志刷屏，有时还需要断言“是否打印了某条错误日志”。
+- **标准**:
+    - 提供 `pkg/log/test_helper.go`。
+    - 封装 `zaptest/observer`。
+    - 允许测试代码通过 `log.NewTestLogger()` 获取一个观察者对象，从而断言 `logs.FilterMessage("error").Len() == 1`。
+
+### 5. 链路完整性保障
+
+- **风险**: 开发者容易遗忘在 `go func()` 中传递 Context。
+- **标准**: 在 Code Review 时，重点检查所有 `go` 关键字后是否跟随了 Context 的传递或播种操作。
+
+### 6. 框架初始化与 Panic 处理
+
+- **风险**: `gin.Default()` 会自动注册只打印文本日志的 Recovery 中间件，破坏 JSON 格式。
+- **标准**:
+	 1. 必须使用 `gin.New()` 初始化 Engine。
+	 2. 必须手动注册我们自定义的 `middleware.Recovery` 和 `middleware.AccessLog`。
+	 3. 确保 Panic 日志中包含 TraceID（从 `c.Request.Context` 中尝试恢复）。
+
+---
+
+## 四、 总结与就绪确认
+
+至此，我们已经完成了日志模块的**全生命周期设计**：
+
+1. **架构**: 基础设施层，无业务依赖。
+2. **技术栈**: Zap + Lumberjack + Context Adapter。
+3. **模式**: 单例兜底 + 依赖注入，强类型约束。
+4. **规范**: Snake_case 键名，中文友好文档，严禁 Fatal。
diff --git a/Go项目实战/03_基础设施/02_日志/AI 辅助基础设施构建 SOP (v1.0)-全局日志篇.md b/Go项目实战/03_基础设施/02_日志/AI 辅助基础设施构建 SOP (v1.0)-全局日志篇.md
new file mode 100644
index 0000000..4ed49b5
--- /dev/null
+++ b/Go项目实战/03_基础设施/02_日志/AI 辅助基础设施构建 SOP (v1.0)-全局日志篇.md	
@@ -0,0 +1,233 @@
+---
+tags: []
+aliases:
+  - 🏗️ AI 辅助基础设施构建 SOP (v1.0) - [全局日志篇]
+date created: 星期三, 十二月 10日 2025, 11:50:40 晚上
+date modified: 星期三, 十二月 10日 2025, 11:52:08 晚上
+---
+
+# 🏗️ AI 辅助基础设施构建 SOP (v1.0) - [全局日志篇]
+
+**核心理念:**
+
+1. **Configuration Driven (配置驱动):** 先定义配置结构与 Viper 映射，再实现逻辑。
+2. **Zero Allocation Constraint (零分配约束):** 在 Prompt 层面封杀 `zap.Any`，强制使用强类型字段。
+3. **Layered Delivery (分层交付):** 先交付 `pkg/log` (Level 0)，再交付 `middleware` (Level 1)。
+
+---
+
+## 📋 准备工作：上下文注入
+
+在使用以下 Prompt 前，请确保 AI 已理解《全局日志模块详细设计说明书》的全部内容。
+
+- `{语言/框架}`: Go 1.24+ / Uber Zap / Lumberjack v2
+- `{模块路径}`: `internal/pkg/log` (核心) & `internal/middleware` (集成)
+- `{关键约束}`: `pkg/log` **严禁依赖** `gin` 或 `viper` (仅接收 Config struct)。
+
+---
+
+## Phase 0: 依赖隔离与任务拆解 (The Dependency-Aware MECE)
+
+**目的:** 防止 AI 在编写日志核心时引入业务层代码（如 Gin），导致循环依赖。
+
+### 🤖 拆解者 Prompt (复制使用)
+
+```Markdown
+你现在是我的 **System Architect (系统架构师)**。
+我们要实现 `Global Logging Infrastructure`。基于《详细设计说明书》，请执行 **“依赖隔离任务拆解”**。
+
+**1. 架构红线 (Architecture Rules):**
+- **Level 0 (Core):** `internal/pkg/log`。只依赖 `zap`, `lumberjack`, standard `context`。**严禁依赖 `gin`**。
+- **Level 1 (Integration):** `internal/middleware`。依赖 `internal/pkg/log` 和 `gin`。
+
+**2. 原子化切分:**
+请将工作拆解为两个独立的 Batch，每个 Batch 包含若干 Step。
+- **Batch A (Core)**: 必须按 `options.go` (配置) -> `zap.go` (构造) -> `context.go` (桥接) -> `log.go` (门面) 的顺序。
+- **Batch B (Middleware)**: 包含 `trace.go`, `access_log.go`, `recovery.go`。
+
+**3. 输出格式:**
+请输出一个 **Markdown Checklist**。
+格式示例：
+- [ ] **Batch A - Step 1: {文件名}** - {核心职责} (关键设计点: …)
+…
+```
+
+---
+
+## Phase 0.5: API 签名锁定 (API Surface Lock)
+
+**目的:** 在实现 `zap` 复杂构建逻辑前，先锁死对外暴露的“门面”方法，确保调用体验。
+
+### 🤖 Prompt 0.5: 定义门面接口
+
+```Markdown
+在实现具体逻辑前，让我们先锁定 `internal/pkg/log` 的 **Public API**。
+请只输出 `log.go` 和 `context.go` 中 **Exported Functions** 的签名（无需函数体）。
+
+**关键要求:**
+1.  **初始化:** `Init(opts …Option)` 设计为 Functional Options 模式还是直接传 Struct？(依据设计文档应为 Struct 传入，但保留 Option 扩展性)。
+2.  **上下文注入:** `WithContext(ctx context.Context) *zap.Logger` 的签名确认。
+3.  **静态代理:** `Info`, `Error` 等静态方法如何处理 `CallerSkip`？请在注释中说明。
+4.  **后台任务:** 必须包含 `StartBackgroundTrace(ctx)` 的定义。
+
+请输出带有完整 Go Doc 的接口定义代码块。
+```
+
+---
+
+## Phase 1: 配置契约定义 (Configuration Contract)
+
+**目的:** 只有确定了“怎么配”，才能决定“怎么写”。
+
+### 🤖 Prompt 1: 定义配置结构与 Schema
+
+```Markdown
+你现在是 **DevOps 专家**。
+请定义日志模块的配置结构 (`options.go`) 以及对应的 YAML 写法。
+
+**任务:**
+1.  **Go Struct:** 定义 `Options` 结构体。
+    -   包含 `Level`, `Format` (json/console), `Filename`, `MaxSize`, `MaxBackups`, `MaxAge`, `Compress`。
+    -   Tag 必须适配 `mapstructure` (Viper 使用)。
+2.  **Default Value:** 提供一个 `NewOptions()` 函数返回生产环境推荐的默认值 (100MB, 30个文件, JSON 格式)。
+3.  **YAML Example:** 给出一个 `config.yaml` 的片段示例。
+
+**约束:**
+- 字段类型必须明确（如 `MaxSize` 是 int 还是 string? 建议 int 单位 MB）。
+```
+
+---
+
+## Phase 2: 体验验证 (DX Verification)
+
+**目的:** 验证开发者在业务代码中打印日志是否顺手，防止过度封装导致 API 臃肿。
+
+### 🤖 Prompt 2: 伪代码验证 (复制使用)
+
+```Markdown
+配置和接口已锁定。请写一段 **Service 层** 的伪代码，展示如何使用该日志库。
+
+**场景验证:**
+1.  **标准调用:** 在 `UserRegister` 方法中，如何打日志并自动带上 TraceID？
+2.  **强类型约束:** 展示使用 `zap.String`, `zap.Int` 的写法。**严禁出现 `zap.Any`**。
+3.  **子 Context:** 在 `go func()` 中如何使用 `StartBackgroundTrace` 保证链路不断？
+4.  **Error 处理:** 遇到 DB 错误时，如何记录 log 并返回 error？
+
+请展示代码，并自我评价是否符合“低心智负担”原则。
+```
+
+---
+
+## Phase 3: 核心防御式实现 (Core Defensive Implementation)
+
+**核心机制:** 这是一个**循环步骤**。针对 `internal/pkg/log` 的每个文件执行。
+
+### 🔄 循环动作 A: 生成代码
+
+**[发送 Prompt]:**
+
+```Markdown
+我们现在执行 **Batch A - Step {N}**。
+
+**任务目标:**
+生成 `{文件名}` (例如 `zap.go`)。
+
+**设计文档引用:**
+- 引用《设计说明书》中关于 `{章节名}` 的要求。
+
+**代码质量硬性约束 (Hard Constraints):**
+1.  **Snake Case:** 所有的 JSON Key (包括 TraceID) 必须手动指定为 snake_case (如 `zap.String("trace_id", v)`)。
+2.  **No Zap Any:** 严禁在核心逻辑中使用 `zap.Any`。如果是 map/struct，必须手动拆解或实现 `zapcore.ObjectMarshaler`。
+3.  **Safety:**
+    - `writer.go`: Lumberjack 的 `Compress` 必须默认为 true。
+    - `log.go`: `globalLogger` 必须有 `sync.Once` 保护，且默认初始化为 Console (避免 nil pointer)。
+4.  **Caller Skip:** 确保静态方法 (log.Info) 和实例方法 (logger.Info) 的 Caller 层级正确，都能定位到业务代码行号。
+
+请生成完整代码。
+```
+
+### 🔄 循环动作 B: 质量检查锚点
+
+**[发送 Prompt]:**
+
+```Markdown
+代码已生成。请进行 **Self-Correction (自我修正)**：
+1.  检查是否有 `fmt.Print` 残留？
+2.  检查 `log.go` 中的静态方法是否使用了 `WithOptions(zap.AddCallerSkip(1))`？如果没用，业务层行号会报错。
+3.  检查是否引入了 `gin` 或其他业务包？(Level 0 严禁依赖)。
+
+确认无误后，存入记忆，继续下一步。
+```
+
+---
+
+## Phase 4: 中间件集成 (Middleware Integration)
+
+**目的:** 只有当核心 Log 库稳定后，才实现 Gin 中间件。
+
+### 🤖 Prompt 4: 实现链路追踪与访问日志
+
+```Markdown
+现在进入 **Batch B**。我们需要实现 `internal/middleware/trace.go` 和 `access_log.go`。
+
+**任务要求:**
+1.  **Trace Middleware:**
+    -   从 Request Header (`X-Trace-ID`) 读取，若无则生成 UUID。
+    -   **关键点:** 必须调用 `log.WithTraceID(ctx, id)` 将 ID 注入 Standard Context，再回写到 `c.Request`。
+2.  **Access Log Middleware:**
+    -   记录 Start Time, End Time, Latency。
+    -   使用 `log.WithContext(c.Request.Context()).Info(…)` 打印。
+    -   **字段映射:** `method`, `path`, `ip`, `status`, `latency` (ms)。
+3.  **Recovery Middleware:**
+    -   捕获 Panic。
+    -   打印包含 Stack Trace 的 JSON Error 日志 (非 Console 文本)。
+    -   返回 500 响应。
+
+请一次性生成这三个文件的核心逻辑。
+```
+
+---
+
+## Phase 5: 极限防御测试 (Extreme Defensive Testing)
+
+**目的:** 验证并发安全、文件轮转和敏感数据脱敏。
+
+### 🤖 Prompt 5: 生成红队测试用例
+
+```Markdown
+核心代码已就绪。请为 `pkg/log` 编写单元测试 `log_test.go`。
+
+**请覆盖以下 3 个高危场景 (Test Cases):**
+
+1.  **并发竞争 (Race Detection):**
+    -   启动 100 个 Goroutine，同时调用 `log.WithContext(ctx).Info(…)`。
+    -   断言：`go test -race` 不报错，且 TraceID 不串号。
+
+2.  **Caller 准确性验证:**
+    -   编写一个测试辅助函数，解析输出的 JSON，断言 `caller` 字段指向的是测试代码行号，而不是 `log.go` 内部。
+
+3.  **敏感数据脱敏 (Mock):**
+    -   模拟打印 `zap.String("password", "123456")`。
+    -   (注意：如果我们在 Zap Core 层没做拦截，这里需要验证是否通过 AI 辅助代码生成时的规范来避免。此处请测试：如果定义了 Masking Hook，密码是否被替换为 `******`)。
+    - *注：根据设计文档，我们采用“编码规范+AI辅助”策略，故此处测试应侧重于“TraceID 是否在 Log 中正确出现”。*
+
+请输出 Test 代码。
+```
+
+---
+
+## Phase 6: SRE 验收 (SRE Review)
+
+### 🤖 Prompt 6: 运维视角审查
+
+```Markdown
+切换角色为 **SRE**。请审查生成的日志模块。
+
+**检查清单:**
+1.  **磁盘爆炸风险:** `Lumberjack` 配置是否真的生效了？(检查 WriteSyncer 的封装)。
+2.  **性能损耗:** `WithContext` 是否每次都创建了过多的 Zap 对象？(确认是否只是 Shallow Copy)。
+3.  **索引友好度:** 时间戳是否为 ISO8601 (`2025-12-10T…`)？如果是 Epoch float，ELK 处理会麻烦。
+4.  **容灾:** 如果 `logs/` 目录不可写（权限问题），程序会 Panic 还是降级输出到 Stdout？
+
+请给出 1-2 个具体的 `TODO` 优化项。
+```
diff --git a/Go项目实战/03_基础设施/02_日志/Global Logging Infrastructure - Task Checklist.md b/Go项目实战/03_基础设施/02_日志/Global Logging Infrastructure - Task Checklist.md
new file mode 100644
index 0000000..84f8843
--- /dev/null
+++ b/Go项目实战/03_基础设施/02_日志/Global Logging Infrastructure - Task Checklist.md	
@@ -0,0 +1,87 @@
+---
+tags: []
+aliases:
+  - 📋 Global Logging Infrastructure - Task Checklist
+date created: 星期三, 十二月 10日 2025, 11:55:42 晚上
+date modified: 星期三, 十二月 10日 2025, 11:56:24 晚上
+---
+收到。作为系统架构师，我已根据《全局日志模块详细设计说明书》及 SOP 要求，完成了**依赖隔离任务拆解 (Dependency-Aware MECE Breakdown)**。
+
+此拆解方案严格遵循 **Level 0 (Core)** 与 **Level 1 (Integration)** 的物理隔离，确保核心日志包零依赖于业务框架。
+
+---
+
+# 📋 Global Logging Infrastructure - Task Checklist
+
+## Phase 1: Batch A - Core Implementation (Level 0)
+
+> 目录: internal/pkg/log
+>
+> 约束: 仅依赖 zap, lumberjack, context。严禁 import gin, viper。
+
+- [ ] **Batch A - Step 1: 配置与标准定义 (`options.go`, `standard.go`)**
+    
+    - **核心职责:** 定义日志配置结构体 (Config Struct) 及全局统一的键名常量 (Standard Keys)。
+    - **关键设计:**
+        - `Options` 结构体需包含 `mapstructure` tag 以适配外部 Viper 解析。
+        - 预定义 `trace_id`, `user_id` 等常量为 `snake_case`，杜绝魔法字符串。
+        - 包含 `DefaultOptions()` 返回生产环境推荐配置 (100MB, Compress=true)。
+            
+- [ ] **Batch A - Step 2: 核心构建与 IO (`writer.go`, `zap.go`)**
+    
+    - **核心职责:** 封装 Lumberjack 文件轮转逻辑，构建 `zap.Core` 与 `zap.Logger` 实例。
+    - **关键设计:**
+        - **IO 分离:** `writer.go` 实现 `zapcore.WriteSyncer`，强制开启 `Compress: true`。
+        - **环境隔离:** `zap.go` 根据配置决定使用 `JSON Encoder` (Prod) 或 `Console Encoder` (Dev)。
+        - **双写机制:** 实现 Tee 模式，同时输出到文件和控制台 (Stdout)。
+            
+- [ ] **Batch A - Step 3: 上下文桥接 (`context.go`)**
+    
+    - **核心职责:** 实现标准 `context.Context` 到 `zap.Field` 的转换逻辑。
+    - **关键设计:**
+        - **TraceID 注入:** 实现 `WithContext(ctx)`，从 Context 提取 TraceID 并返回带有 `trace_id` 字段的 `*zap.Logger`。
+        - **后台播种:** 实现 `StartBackgroundTrace(ctx)`，为 Cron/Goroutine 任务生成根 TraceID。
+        - **零侵入:** 仅依赖标准库 Context，不依赖 Gin Context。
+            
+- [ ] **Batch A - Step 4: 全局门面 (`log.go`)**
+    
+    - **核心职责:** 管理全局单例 (Singleton)，提供静态代理方法 (Static Proxy)。
+    - **关键设计:**
+        - **懒汉兜底:** `globalLogger` 默认初始化为 Console Logger (Nop)，防止未调用 `Init` 时 Panic。
+        - **Caller 修正:** 静态方法 (`log.Info`) 必须使用 `AddCallerSkip(1)`，确保日志行号指向业务代码而非 `log.go`。
+        - **并发安全:** `Init()` 必须使用 `sync.Once` 或互斥锁保护。
+
+---
+
+## Phase 2: Batch B - Middleware Integration (Level 1)
+
+> 目录: internal/middleware
+>
+> 约束: 依赖 internal/pkg/log, gin, pkg/app。
+
+- [ ] **Batch B - Step 1: 链路追踪中间件 (`trace.go`)**
+    
+    - **核心职责:** 请求入口处的 TraceID 生成与注入。
+    - **关键设计:**
+        - 优先读取 Header `X-Trace-ID`，无则生成 UUID。
+        - **关键动作:** 调用 `log.WithTraceID(ctx, id)` 将 ID 注入 **Standard Context**，再回写到 `c.Request`，打通后续所有层的日志链路。
+            
+- [ ] **Batch B - Step 2: 访问日志中间件 (`access_log.go`)**
+    
+    - **核心职责:** 记录 HTTP 请求的黄金指标 (Golden Signals)。
+    - **关键设计:**
+        - 必须使用 `log.WithContext(c.Request.Context())` 打印，确保包含 TraceID。
+        - 记录字段：`method`, `path`, `status`, `latency` (ms), `client_ip`。
+            
+- [ ] **Batch B - Step 3: 灾难恢复中间件 (`recovery.go`)**
+    
+    - **核心职责:** 替换 Gin 默认 Recovery，提供结构化 Panic 日志。
+    - **关键设计:**
+        - 捕获 `panic` -> 获取 Stack Trace -> 构造 JSON Error 日志 (包含 `stack` 字段)。
+        - 联动 `pkg/app` 返回标准 JSON 500 响应，通过 `pkg/log` 记录系统级错误。
+
+---
+
+# 🏁 Next Action
+
+建议按照 Checklist 顺序，从 **Batch A - Step 1** 开始执行。是否现在开始 Phase 0.5 (API 签名锁定) 或直接生成 Step 1 代码？
diff --git a/Go项目实战/03_基础设施/全局日志模块 (Global Logging Infrastructure) 详细设计说明书.md b/Go项目实战/03_基础设施/全局日志模块 (Global Logging Infrastructure) 详细设计说明书.md
new file mode 100644
index 0000000..17a8ee7
--- /dev/null
+++ b/Go项目实战/03_基础设施/全局日志模块 (Global Logging Infrastructure) 详细设计说明书.md	
@@ -0,0 +1,864 @@
+---
+tags: []
+aliases:
+  - Project Context Aggregation
+date created: 星期三, 十二月 10日 2025, 11:02:10 晚上
+date modified: 星期三, 十二月 10日 2025, 11:50:40 晚上
+---
+
+# Project Context Aggregation
+
+> Source Items: 1
+
+==== 02_ 日志\01_ 设计目标.md ====
+
+```markdown
+---
+tags: []
+aliases:
+  - 1. 核心设计目标 (Core Design Goals)
+date created: 星期三, 十二月 10日 2025, 10:27:39 晚上
+date modified: 星期三, 十二月 10日 2025, 10:28:15 晚上
+---
+
+# 1. 核心设计目标 (Core Design Goals)
+
+## 目标一：全链路上下文关联 (Contextual Traceability)
+
+这是最核心的差异点。传统的 `log.Println("Database error")` 在并发环境下毫无价值，因为你不知道这条错误属于哪个请求。
+
+- **设计要求**:
+    - **自动注入 TraceID**: 必须能够从 `context.Context` 中提取 `TraceID`（目前 `internal/pkg/app` 已经生成了 TraceID），并自动将其附加到每一条日志中。
+    - **请求元数据绑定**: 除了 TraceID，还应支持自动绑定 `UserID`、`IP`、`Method`、`Path` 等元数据，形成请求的完整快照。
+    - **跨组件穿透**: 日志对象必须能够在 Layer 之间传递（例如 Controller -> Service -> Repository），且保持上下文不丢失。
+
+## 目标二：严格的结构化契约 (Strict Structured Schema)
+
+日志是写给机器看的，不是写给通过 SSH 连上服务器的人看的。
+
+- **设计要求**:
+    - **JSON First**: 生产环境强制使用 JSON 格式。
+    - **Schema 统一**: 字段命名必须统一。例如，不要混用 `uid`, `user_id`, `userId`，必须在设计阶段锁定为 snake_case (如 `user_id`)。
+    - **类型安全**: 时间戳必须统一格式（推荐 ISO8601 或 Unix Nano），数字字段不能变成字符串（便于聚合计算）。
+
+## 目标三：高性能与零侵入 (High Performance & Zero Allocation)
+
+日志通常是系统中 IO 最密集的组件之一。
+
+- **设计要求**:
+    - **低 GC 压力**: 利用 Zap 的核心优势，避免大量的 `interface{}` 反射和字符串拼接，使用强类型的 Field（如 `zap.Int`, `zap.String`）。
+    - **异步 IO (可选)**: 考虑是否引入 Buffer 机制（牺牲极端崩溃下的日志完整性换取吞吐量）。
+    - **Level 级联过滤**: 在 Debug 级别关闭时，Debug 级别的日志构造逻辑（如复杂的对象序列化）不应被执行。
+
+## 目标四：安全与合规 (Security & Compliance)
+
+这往往是被忽视的一点，也是导致安全事故的频发区。
+
+- **设计要求**:
+    - **敏感数据脱敏**: 必须具备“黑名单”机制。任何包含 `password`, `token`, `mobile`, `credit_card` 的字段在输出前必须被自动掩盖（Masking）。
+    - **安全截断**: 防止打印过大的 Body（如 Base64 图片上传）导致磁盘爆满或日志系统瘫痪，限制单条日志最大长度。
+
+---
+
+# 2. 场景化行为对比 (Dev Vs Prod)
+
+为了兼顾开发体验和生产运维标准，我们需要在设计中明确区分两种环境的行为。
+
+|**维度**|**开发环境 (Development)**|**生产环境 (Production)**|**设计意图**|
+|---|---|---|---|
+|**编码格式**|Console (彩色，人类易读)|JSON (机器易读)|开发追求直观；生产追求 ELK 解析效率。|
+|**输出目标**|Stdout (控制台)|File + Stdout (双写)|开发侧容器即焚；生产侧需持久化 + 容器采集。|
+|**日志级别**|Debug|Info / Warn|生产环境过滤掉大量 Debug 噪音，节省存储成本。|
+|**堆栈追踪**|Error 级别即打印|Panic 或 Fatal 才打印|减少生产环境日志体积，除非发生严重故障。|
+|**调用行号**|显示 (Caller)|显示 (Caller)|快速定位代码位置。|
+
+---
+
+# 3. 架构定位与边界 (Architecture Boundary)
+
+我们需要明确日志模块在架构中的位置：
+
+- **位置**: 属于 `Infrastructure Layer` (Level 0/1)。
+- **依赖关系**:
+    - **被谁依赖**: 所有层（Handler, Service, Repository）都依赖 Log。
+    - **依赖谁**: 仅依赖标准库和第三方 Log Driver (Zap)，**不应依赖业务逻辑**。
+- **与其他模块的关系**:
+    - **vs `ecode`**: `ecode` 定义错误的**类型**（Code），Log 记录错误的**现场**（Stack/Trace）。
+    - **vs `app.Response`**: Response 负责**对用户说话**（经过清洗的、友好的信息），Log 负责**对开发者说话**（原始的、包含脏数据的真相）。
+
+---
+
+# 4. 深度反思与自我反驳 (Critical Thinking & Risk Analysis)
+
+在敲定设计目标前，必须审视潜在的矛盾和风险：
+
+**反驳点 1：全链路上下文（TraceID）的传递成本**
+
+- **挑战**: 要想让 Repository 层的日志也打出 TraceID，必须修改所有方法的签名为 `func (ctx context.Context, …)`。这对现有代码（如果是非 Context 风格）是巨大的重构。
+- **回应**: 我们的 `Repository` 接口目前设计中已经包含了 `context.Context`。这是一个必须遵守的“硬约束”。如果缺少 Context，日志将断层。
+- **结论**: 必须在规范中强调：**所有层级的方法首个参数必须是 Context**。
+
+**反驳点 2：脱敏机制的性能损耗**
+
+- **挑战**: 如果每一条日志都要遍历字段去匹配“黑名单”进行正则替换，CPU 开销极大。
+- **回应**: 不能使用正则扫描全文。
+- **修正方案**: 利用 Zap 的 `Hook` 或 `Core` 包装，仅针对特定 Key（如 `password`）进行值替换，或者要求开发者在打印敏感结构体时显式调用 `.Reduct()` 方法，而非隐式全局扫描。隐式扫描在 Golang 中通常是性能杀手。
+
+**反驳点 3：异步写入的丢数据风险**
+
+- **挑战**: 为了性能使用 `Buffered Write`，如果进程被 `kill -9` 或 Panic 崩溃，缓冲区日志会丢失，而崩溃前的日志往往最重要。
+- **回应**: 对于交易类系统，**可靠性 > 吞吐量**。
+- **结论**: 默认采用 **同步写入 (Sync Write)**。Zap 本身性能已经足够强（纳秒级），除非达到数万 QPS，否则不需要引入 Buffer。对于 Panic，必须使用 `defer logger.Sync()` 确保刷盘。
+
+---
+
+# 5. 待确认问题 (Open Questions)
+
+在进入下一步（编写详细规格说明书）之前，我需要确认你对以下几点的偏好：
+
+1. **全局单例 vs 纯依赖注入**:
+    
+    - _选项 A_: 提供 `log.Info()` 全局静态方法（方便，但有副作用）。
+    - _选项 B_: 强制必须通过 `l.Info()` 实例方法调用（架构更洁癖，但调用繁琐）。
+    - _推荐_: **选项 A + B**。提供全局方法作为快捷方式（底层代理到单例），同时支持 DI 注入。你倾向于哪种？
+        
+2. **日志轮转 (Rotation) 策略**:
+    
+    - 你是倾向于按 **大小** 切割（如 100MB 一个文件），还是按 **时间** 切割（每天一个文件）？
+    - _通常建议_: 按大小切割（防止单文件过大无法打开），配合最大文件保留数。
+```
+
+==== 02_ 日志\02_ 技术栈基线.md ====
+
+```markdown
+---
+tags: []
+aliases:
+  - 1. 核心引擎 (The Engine)：Uber Zap
+date created: 星期三, 十二月 10日 2025, 10:28:15 晚上
+date modified: 星期三, 十二月 10日 2025, 10:29:20 晚上
+---
+
+# 1. 核心引擎 (The Engine)：Uber Zap
+
+行业共识 (Consensus):
+
+在 Go 语言的高性能后端领域，go.uber.org/zap 是目前无可争议的事实标准（De Facto Standard）。
+
+我的推荐:
+
+坚定地使用 Zap，不要犹豫。
+
+**老兵的经验谈 (Why & How):**
+
+- **为何不是 Logrus?** Logrus 胜在 API 极其友好（兼容标准库），但它底层大量使用反射（Reflection）和锁，在高并发场景下是严重的性能瓶颈（GC 压力大）。
+- **为何不是 Slog (Go 1.21+)?** Slog 是 Go 官方推出的结构化日志接口。虽然它是未来，但目前的生态和性能优化（尤其是在 JSON 序列化的极致性能上）尚未完全超越 Zap。且 Zap 可以很方便地作为 Slog 的 Backend。但在本项目中，为了追求极致性能和成熟度，直接使用 Zap 原生 API 是最高效的。
+- **关键决策点**:
+    - **Field 强类型**: 我们必须强制团队使用 `zap.String("key", "val")` 而非 `zap.Any("key", val)`。`Any` 会导致反射，破坏 Zap 的零内存分配（Zero Allocation）优势。这是代码审查（Code Review）的红线。
+    - **Logger vs SugaredLogger**:
+        - **核心业务链路 (Hot Path)**: 使用 `zap.Logger`（极致性能，但语法繁琐）。
+        - **初始化/非热点代码**: 使用 `zap.SugaredLogger`（语法类似 `printf`，性能稍弱但开发快）。
+        - **基线**: 我们的封装层默认暴露 `Logger` 能力，保留高性能入口。
+
+# 2. 轮转插件 (Rotation): Lumberjack V2
+
+行业共识 (Consensus):
+
+日志切割看似简单，实则坑多（并发写冲突、文件重命名原子性、不同操作系统的文件锁差异）。
+
+我的推荐:
+
+使用 gopkg.in/natefinch/lumberjack.v2。
+
+**老兵的经验谈:**
+
+- **不要造轮子**: 我见过无数团队尝试自己写 `file.Write` 然后计数切割，最后都在“多进程并发写同一个日志文件”或者“日志压缩时导致 IO 飙升”这些问题上翻车。
+- **配置陷阱**:
+    - `MaxSize`: 建议 **100MB**。太小导致文件碎片化，太大导致像 grep/vim 这种工具打开困难。
+    - `MaxBackups`: 建议保留 **30-50 个**。
+    - `MaxAge`: 建议 **7-14 天**。
+    - **Compress**: 建议 **开启 (True)**。历史日志压缩存储（gzip）能节省 90% 以上的磁盘空间，这对于云盘成本控制非常重要。
+
+# 3. 上下文管理 (Context Awareness): 自研封装层
+
+这是我们作为“架构师”必须介入的地方。原生 Zap 不懂业务上下文，我们需要一个胶水层。
+
+技术难点:
+
+如何优雅地把 TraceID 塞进每一行日志？
+
+设计路线:
+
+我们需要定义一个轻量级的 Wrapper 或者 Helper 函数。
+
+- **不要**：重写 `zap.Logger` 结构体的所有方法（那样维护成本太高）。
+- **要**：提供一个入口函数，例如 `log.WithContext(ctx)`。
+- **原理**：这个函数会从 `ctx` 取出 `TraceID`，然后调用 `zap.With(zap.String("trace_id", id))`，返回一个携带了该字段的子 Logger 实例。这是一次极低成本的指针操作。
+
+# 4. 抽象策略与混合模式 (Hybrid Pattern)
+
+结合你选择的 **Option A+B**，我们的技术实现路径如下：
+
+1. **全局变量 (The Global)**:
+    
+    - 在 `internal/pkg/log` 包内部维护一个私有的 `var globalLogger *zap.Logger`。
+    - 利用 `sync.Once` 确保其并发安全的初始化。
+    - **兜底策略**: 在 `init()` 函数中先给它一个默认的 `Console Logger`。这样即使开发者忘记调用 `InitLogger`，程序启动时的日志也不会 panic，只会打印到控制台。
+        
+2. **依赖注入 (The DI)**:
+    
+    - 在 `internal/pkg/log` 暴露一个 `Provider` 函数，供 Wire 使用。
+    - 这个 Provider 返回的必须是**同一个**底层 Zap 实例的引用（或者其派生），确保配置（如 Level、Output Path）是一致的。
+
+---
+
+# 总结：最终的技术栈清单
+
+|**组件**|**选型**|**理由**|
+|---|---|---|
+|**Logger Core**|`go.uber.org/zap` (v1.27+)|高性能、类型安全、零内存分配。|
+|**Rotation**|`gopkg.in/natefinch/lumberjack.v2`|成熟稳定，处理并发写文件不仅是事实标准，更是避坑指南。|
+|**Config**|`spf13/viper` (已引入)|利用现有的 Viper 读取 yaml 配置，实现动态等级调整。|
+|**Trace Inject**|`Custom Wrapper` (Standard Lib)|基于 `context` 的轻量封装，连接 `gin.Context` 与 `zap.Fields`。|
+
+老师的最后叮嘱 (The Moral of the story):
+
+我们现在的设计，本质上是在 Zap 的高性能 和 业务开发的便利性 之间走钢丝。
+
+最大的风险在于：封装层写得太重。
+
+如果我们在 log.Info 里面加了太多的锁、反射或者字符串拼接，那么引入 Zap 的意义就没了。所以，接下来的详细设计文档中，我们要时刻警惕“过度封装”。
+
+如果这个技术栈基线你没有异议，我们就以此为基础，开始生成《全局日志模块详细设计规格说明书》。
+```
+
+==== 02_ 日志\03_ 核心设计模式.md ====
+
+```markdown
+---
+tags: []
+aliases:
+  - 1. 核心模式：装饰器模式的变体 (Context-Decorator Pattern)
+date created: 星期三, 十二月 10日 2025, 10:37:54 晚上
+date modified: 星期三, 十二月 10日 2025, 10:38:26 晚上
+---
+
+# 1. 核心模式：装饰器模式的变体 (Context-Decorator Pattern)
+
+这是我们处理 `TraceID` 和上下文的核心手段。
+
+- 传统误区 (Over-Abstraction)：
+
+    定义一个庞大的 MyLogger 结构体，把 zap.Logger 藏在里面，然后重写 Info, Error 等所有方法。
+    
+    - _后果_：维护成本极高，每次 Zap 更新或增加新特性（如 `Panic` 或 `DPanic`），你都得跟着改代码。且容易在转发参数时产生逃逸分析（Escape Analysis）导致的内存分配。
+- 我们的决策 (The Thin Wrapper)：
+
+    只封装“获取 Logger”的动作，不封装“Logger 本身”。
+
+    我们将定义一个函数 log.WithContext(ctx context.Context) *zap.Logger。
+    
+    - _行为_：这个函数极其轻量。它从 `ctx` 中取出 `TraceID`，调用 `zap.With()` 生成一个新的 Zap 实例并返回。
+    - _优势_：业务代码拿到的依然是原生的 `*zap.Logger`。这意味着开发者可以直接使用 Zap 强大的 `zap.String`, `zap.Int` 等强类型字段构建方法，享受极致性能，没有任何中间层损耗。
+
+# 2. 接口策略：拒绝通用接口 (Concrete Type Dependency)
+
+这是 Go 语言工程实践中关于日志的一个特殊共识，也是反直觉的地方。
+
+- 传统误区 (The Java/Interface Way)：
+
+    定义一个 type ILogger interface { Info(msg string, args …interface{}) }。
+    
+    - _后果_：`args …interface{}` 会导致大量的反射（Reflection）和装箱（Boxing），这直接抹杀了 Zap 存在的意义。Zap 的核心设计哲学就是通过 `zap.Field` 避免使用 `interface{}`。
+- 我们的决策 (Concrete Type)：
+
+    直接依赖 *zap.Logger 具体类型。
+    
+    - _原则_：在 Handler、Service、Repository 层，注入的类型就是 `*zap.Logger`。
+    - _测试怎么办_：不要 Mock 日志接口。在单元测试中，直接传入 `zap.NewNop()`（什么都不做）或者 `zap.NewExample()`（输出到测试控制台）。这比 Mock 一个接口要简单且真实得多。
+
+# 3. 访问模式：混合单例与依赖注入 (The Hybrid Accessor)
+
+结合之前讨论的 Option A+B，我们通过设计模式来解决“初始化顺序”和“热加载”的问题。
+
+- 设计挑战：
+
+    如果 main.go 还没来得及读配置初始化 Logger，其他 init() 函数里就调用了日志，程序会 Panic。
+    
+- **我们的决策 (Thread-Safe Proxy)**：
+    - **原子替换 (Atomic Swap)**：全局变量 `globalLogger` 不会直接暴露给外部修改。我们将使用 `unsafe.Pointer` 或 `atomic.Value` (配合 Zap 的 `ReplaceGlobals`) 来保证在运行时重新加载配置（如动态修改 Log Level）时，不会发生并发读写冲突。
+    - **懒汉式兜底 (Lazy Fallback)**：在 `internal/pkg/log` 的 `init()` 中，我们会默认初始化一个 `Console Logger`。这样即使 `main` 函数一行代码都没跑，只要引用了包，日志功能就是可用的（虽然配置是默认的）。这极大提升了开发体验（DX）。
+
+# 4. 字段构建模式：结构化优先 (Field-First API)
+
+这关乎团队的编码规范，属于 API 设计模式。
+
+- 传统误区 (Printf Style)：
+
+    使用 SugaredLogger 的 Infof("User %s login failed, error: %v", user, err)。
+    
+    - _后果_：日志分析系统（ELK）只能拿到一串文本，无法对 `user` 进行聚合统计。
+- 我们的决策 (Structured Style)：
+
+    默认只暴露 Logger（强类型），在必要时才暴露 SugaredLogger。
+    
+    - _强制规范_：代码中必须写成 `log.Info("user login failed", zap.String("user", user), zap.Error(err))`。
+    - _设计意图_：通过 API 的设计，“强迫”开发者思考每一个字段的语义。这虽然写起来繁琐一点，但对于后期的运维和排查是无价的。
+
+---
+
+# 总结：设计规格书的基调
+
+基于以上讨论，在接下来的规格说明书中，我们将确立以下基调：
+
+1. **不造轮子**：核心逻辑全权委托给 `zap` 和 `lumberjack`。
+2. **薄封装**：`pkg/log` 代码行数应控制在 200 行以内，只做配置解析和 Context 桥接。
+3. **强类型**：严禁在核心路径使用 `interface{}`。
+4. **显式传递**：通过 `WithContext` 显式传递上下文，而不是依赖某些黑魔法（如 Goroutine Local Storage）。
+```
+
+==== 02_ 日志\04_ 架构逻辑.md ====
+
+```markdown
+---
+tags: []
+aliases:
+  - 1. 代码组织方式 (Code Organization)
+date created: 星期三, 十二月 10日 2025, 10:42:21 晚上
+date modified: 星期三, 十二月 10日 2025, 11:38:44 晚上
+---
+
+# 1. 代码组织方式 (Code Organization)
+
+我们将遵循 **“高内聚、低耦合”** 的原则，将日志模块放置在 `internal/pkg/log` 下。这里是所有日志逻辑的物理家园。
+
+建议的文件结构如下（逻辑分层）：
+
+- **`log.go` (Facade/Entry Point)**:
+    - 这是对外暴露的统一入口。包含全局单例的定义、初始化函数 (`Init`)、以及最常用的静态方法代理（如 `Info`, `Error`, `WithContext`）。
+    - **设计意图**: 让其他模块只 import 这一个包就能完成 90% 的工作。
+- **`options.go` (Configuration)**:
+    - 定义配置结构体（Level, Filename, MaxSize, MaxAge 等）。
+    - **设计意图**: 将配置解析逻辑与日志初始化逻辑分离，方便单元测试。
+- **`zap.go` (Core Implementation)**:
+    - 负责 `zap.Logger` 的具体构建。包含 Encoder 配置（JSON vs Console）、Writer 配置（Lumberjack 集成）和 Level 动态调整逻辑。
+    - 这是“脏活累活”集中的地方，屏蔽 Zap 的复杂构建细节。
+- **`context.go` (The Bridge)**:
+    - **核心组件**。实现 `TraceID` 的提取逻辑。
+    - 定义如何从 `context.Context` 中挖掘元数据，并将其转化为 `zap.Field`。
+
+---
+
+# 2. 调用方式与依赖注入 (Invocation & DI)
+
+这里有一个经典的架构冲突：**Singleton（单例） vs Dependency Injection（依赖注入）**。我们的策略是 **“依赖注入为主，单例为辅”**，但在具体使用上有一个极其重要的**反直觉设计**。
+
+## A. 为什么 Service 层不应保存 Request Logger？
+
+你可能会想在 Service 初始化时注入一个带 Context 的 Logger。
+
+- **错误做法**: `type UserService struct { logger *zap.Logger }`，然后在请求进来时试图把 request-scoped 的 logger 塞进去。
+- **架构事实**: 在 Wire 依赖注入中，`Service`、`Repository` 通常是 **单例 (Singleton)** 的（即整个应用生命周期只有一个实例）。
+- **结论**: 你**不能**把属于某一次 HTTP 请求的 `TraceID` 注入到单例的 Struct 成员变量中。
+
+## B. 正确的调用范式 (The Best Practice)
+
+Logger 作为**工具能力**被注入，Context 作为**请求参数**被传递。
+
+1. **依赖注入 (Setup Phase)**:
+    
+    - 在 `NewUserUsecase` 时，注入基础的 `*zap.Logger`（不带 TraceID）。
+    - 这个 Logger 配置好了输出路径、Level 等全局属性。
+        
+2. **方法调用 (Runtime Phase)**:
+    
+    - 在具体的方法（如 `Register`）中，使用 `log.WithContext(ctx)` 来“临时”生成一个带有 TraceID 的 Logger 实例。
+
+**示例逻辑流**:
+
+- **Struct 定义**: `struct { baseLogger *zap.Logger }`
+- **方法内部**: `l := log.WithContext(ctx, u.baseLogger)` -> `l.Info("user registered")`
+- **说明**: 这里的 `WithContext` 是一个纯内存操作（浅拷贝），开销极小，可以放心高频调用。
+
+## C. 高性能场景：作用域复用 (Scoped Logger)
+
+虽然 `log.WithContext` 是浅拷贝，但在循环或长链路中频繁调用仍会产生大量临时对象，增加 GC 压力。
+
+- **反模式 (Anti-Pattern)**: 在 `for` 循环内部调用 `log.WithContext(ctx)`。
+- **最佳实践 (Best Practice)**: **作用域提升**。在函数或循环入口处调用一次 `WithContext`，生成局部变量 `l` (Logger)，随后全程复用该变量。
+
+---
+
+# 3. 数据流与 TraceID 传递 (Data Flow)
+
+这是实现“全链路可观测性”的生命线。数据流必须打通以下四个关卡：
+
+## 关卡 1：入口 (Entry - Middleware)
+
+- **位置**: `internal/middleware/trace.go` (需新建) 或集成在 `response` 包中。
+- **行为**: 当 HTTP 请求到达，生成一个 UUID。
+- **动作**: 使用 `c.Set("X-Trace-ID", uuid)` 将其放入 Gin 的上下文存储中。同时，将其放入 HTTP Response **动作**:
+	1. 调用 `pkg/log.WithTraceID(ctx, uuid)` 将 `UUID` 注入标准 `Context`。
+	2. 执行 `c.Request = c.Request.WithContext(newCtx)` 将其回写。
+	3. (可选) 同时放入 Gin 上下文存储和 Response Header 供前端使用。
+
+## 关卡 2：桥接 (Bridge - Context Adapter)
+
+- **位置**: `internal/pkg/log/context.go`
+- **设计原则**: `pkg/log` **不依赖** `gin`，只识别标准库 `context.Context`。
+- **行为**: `log.WithContext(ctx) 调用内部帮助函数 GetTraceID(ctx) 获取 TraceID。`
+- **前置条件**: 必须依赖上游（Middleware）将 TraceID 提前注入到标准 Context 中。
+- **输出**: 返回一个预置了 `zap.String("trace_id", id)` 字段的 Logger。
+
+## 关卡 3：穿透 (Propagation - Service/Repo)
+
+- **行为**: 所有的业务方法签名必须包含 `ctx context.Context` 作为第一个参数。
+- **动作**: 严禁在层级调用中丢弃 Context（例如使用 `context.Background()` 替代传入的 ctx），这会导致链路断裂。
+
+## 关卡 4：异步与后台边界 (Async & Background Boundary)
+
+- **高危场景**: 在 Handler 中启动 Goroutine 处理耗时任务。
+- **陷阱**: `gin.Context` 是非线程安全的。如果 Goroutine 执行时 HTTP 请求已结束，Gin 会重置该 Context，导致数据竞争或脏读。
+- **解决方案**: 必须在主协程中执行 `ctx.Copy()`，将副本传递给 Goroutine。日志模块必须支持处理这种副本 Context。
+- **新增场景：后台任务 (Background Tasks)**
+	- **场景**: 定时任务 (Cron)、消息队列消费者 (MQ Consumer)、系统初始化。
+	- **问题**: 初始 `context.Background()` 不包含 TraceID。
+	- **动作**: 必须调用 `log.StartBackgroundTrace(ctx)` 进行“播种”。该函数会检测 Context，若无 TraceID 则生成新 ID 并注入，确保链路可追踪。
+
+---
+
+# 4. 关键架构思考：防腐层 (Anti-Corruption Layer)
+
+我们在设计时还需考虑一层“防腐”。
+
+- **问题**: 如果未来我们想给所有的日志加一个字段，比如 `env=prod`，或者想把所有的 `trace_id` 改名为 `traceId`。
+- **对策**: 所有的业务代码**严禁**直接手动构建 `zap.String("trace_id", …)`。
+- **约束**: 这个字段的 Key 必须定义在 `pkg/log` 的常量中，且只能由 `WithContext` 内部逻辑自动附加。业务开发者只负责传 Context，不负责管 ID 怎么拼写。
+
+---
+
+# 总结
+
+- **代码位置**: `internal/pkg/log`，包含 `log.go` (入口), `zap.go` (实现), `context.go` (桥接)。
+- **调用方式**: 注入 Base Logger -> 方法内 `WithContext(ctx)` -> 打印。
+- **数据流**: Middleware 生成 -> Gin Context 携带 -> Log Adapter 提取 -> Zap Field 输出。
+- **并发安全**: 警惕 Gin Context 在 Goroutine 中的误用，强调 `Copy()` 机制。
+```
+
+==== 02_ 日志\05_ 目录结构与职责.md ====
+
+```markdown
+---
+tags: []
+aliases:
+  - 目录结构与职责
+date created: 星期三, 十二月 10日 2025, 10:45:40 晚上
+date modified: 星期三, 十二月 10日 2025, 11:40:48 晚上
+---
+
+# 目录结构与职责
+
+## 1. 目录结构设计 (Directory Structure)
+
+该结构旨在实现 **“配置分离”**、**“核心隐藏”** 与 **“上下文桥接”**。
+
+```Plaintext
+internal/
+├── middleware/               # [Global] 全局中间件层
+│   ├── access_log.go         # [New] HTTP 请求访问日志 (请求入/出记录, 耗时统计)
+│   └── trace.go              # [New] 链路追踪 (生成/透传 TraceID -> 注入 Context)
+│
+└── pkg/
+    └── log/                  # [Level 0] 全局日志核心包 (基于 Zap)
+        ├── log.go            # [Facade] 对外入口 (Init, Global L(), Static Proxies)
+        ├── options.go        # [Config] 配置定义 (Level, FilePath, MaxSize)
+        ├── zap.go            # [Core] Zap 实例构建 (Encoder, Core, AtomicLevel)
+        ├── writer.go         # [IO] 输出源管理 (Lumberjack 轮转, Console/File 双写)
+        ├── context.go        # [Bridge] 上下文桥接 (WithContext, TraceID 提取)
+        └── standard.go       # [Schema] 标准字段定义 (Standardized Field Constructors)
+```
+
+---
+
+## 2. 文件职责详解 (Responsibilities)
+
+### A. `internal/pkg/log` (核心日志包)
+
+这是一个基础设施包，不应依赖任何业务逻辑（User, Order 等）。
+
+| **文件名**           | **职责描述**                                                                                                                                                                          | **关键设计点 (Design Decisions)**                                                                                                                                                                                                                                                      |
+| ----------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
+| **`log.go`**      | **门面 (Facade) 与单例管理**。<br>1. 维护私有全局变量 `globalLogger`。<br>2. 提供 `Init(opts)` 初始化入口。<br>3. 提供 `L()` 获取底层 `*zap.Logger`。<br>4. 提供 `Info/Error` 等静态代理方法。                              | **单例兜底**：在 `init()` 中初始化一个默认的 `Nop` 或 `Console` Logger，防止未初始化调用导致 Panic。<br>**Caller 修正**：<br>1. 底层 `globalLogger` 配置 `AddCallerSkip(0)`。<br>2. 静态代理方法 (`Info`, `Error`) 内部使用 `WithOptions(AddCallerSkip(1))`。<br>3. `L()` 和 `WithContext()` 返回原生 Logger (Skip 0)，确保业务层直接调用时行号正确。 |
+| **`options.go`**  | **配置对象 (DTO)**。<br>定义 `Options` 结构体，用于接收 Viper 的配置映射。                                                                                                                             | **配置解耦**：只定义 struct，不包含逻辑。支持从 `config.yaml` 的 `log` 节点自动 Unmarshal。                                                                                                                                                                                                               |
+| **`zap.go`**      | **核心构建工厂 (Factory)**。<br>负责组装 Encoder (JSON/Console)、Writer 和 Level。<br>实现 `New(opts)` 函数。                                                                                        | **环境隔离**：<br>- Dev: ConsoleEncoder + StackTrace (Warn 级)<br>- Prod: JsonEncoder + StackTrace (Panic 级)                                                                                                                                                                            |
+| **`writer.go`**   | **IO 输出管理**。<br>封装 `lumberjack.Logger`。<br>实现 `zapcore.WriteSyncer` 接口。                                                                                                           | **可靠性**：配置 `Lumberjack` 的 `Compress: true` 和 `MaxSize: 100MB`。实现 Console + File 的 **Tee (双写)** 模式。                                                                                                                                                                                |
+| **`context.go`**  | **上下文装饰器与播种器 (Decorator & Seeder)**。<br>1. `WithContext(ctx)`: 提取 TraceID。<br>2. **[New] `StartBackgroundTrace(ctx)`**: 为后台任务生成并注入根 TraceID。                                      | **零侵入**：仅通过 `zap.With()` 附加字段，返回 **派生 Logger**，不修改全局 Logger，线程安全。                                                                                                                                                                                                                 |
+| **`standard.go`** | **标准化字段与存取器 (Schema & Accessor)**。<br>1. 定义**私有** Context Key 类型，防止碰撞。<br>2. 提供 `WithTraceID(ctx, id)` 和 `GetTraceID(ctx)` 公开方法。<br>3. 定义标准字段构造器 (如 `zap.String("trace_id", …)`)。 | **规范约束**：<br>- 统一使用 snake_case。<br>- 防止拼写错误 (如 `uid` vs `user_id`)。                                                                                                                                                                                                               |
+
+### B. `internal/middleware` (中间件集成)
+
+这是日志模块与 HTTP 框架 (Gin) 结合的触点。
+
+| **文件名**             | **职责描述**                                                                                                                                       | **交互逻辑**                                                                                                     |
+| ------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------ |
+| **`trace.go`**      | **链路起点**。<br>链路追踪 (生成 TraceID -> **注入标准 Context** -> 挂载回 Gin Request)                                                                          | **上下游打通**：保证 TraceID 在微服务或网关间的透传能力。                                                                          |
+| **`access_log.go`** | **流量审计**。<br>1. 记录 `Start Time`。<br>2. 执行 `c.Next()`。<br>3. 计算 `Latency`。<br>4. 打印结构化日志。                                                       | **字段映射**：<br>`path`, `method`, `status`, `client_ip`, `latency`, `user_agent`。**必须使用 `log.WithContext(c)`**。 |
+| `recovery.go`       | 结构化灾难恢复。<br>1. `defer recover()` 捕获 Panic。<br>2. 获取 Stack Trace。<br>3. **调用 `pkg/log` 记录 JSON 格式的 Error 日志** (包含 `stack` 字段)。<br>4. 返回 500 响应。 | **替代 Gin 默认组件**：必须使用 `gin.New()` 启动，手动注册此中间件，杜绝默认的控制台文本打印。                                                   |
+
+---
+
+## 3. 数据流转图示 (Data Flow)
+
+为了确保你理解“上下文”是如何流动的，以下是逻辑路径：
+
+1. **Request In** -> `middleware/trace.go` -> 生成 `trace_id` -> **Wrap 进 `std.Context`**。 …
+2. **`pkg/log/context.go`** -> 从 **`std.Context`** 取出 `trace_id` -> …
+3. **`pkg/log/context.go`** -> 从 `gin.Context` 取出 `trace_id` -> 创建带字段的 `zap.Logger`。
+4. **`pkg/log/zap.go`** -> 序列化为 JSON `{…"trace_id":"xyz"…}`。
+5. **`pkg/log/writer.go`** -> 写入 `app.log` 文件 (由 Lumberjack 轮转)。
+
+## 4. 依赖关系检查 (Dependency Check)
+
+- `pkg/log` **不依赖** `middleware` (防止循环依赖)。
+- `middleware` **依赖** `pkg/log` (调用日志打印)。
+- `pkg/log` **仅依赖** `uber-go/zap`, `natefinch/lumberjack`。**严禁依赖** `gin` 或其他 Web 框架。所有 Context 操作均基于 Go 标准库接口。
+
+这个结构完全穷尽了我们在前几轮讨论中确定的技术决策。如果确认无误，我们将在下一步生成具体的代码实现。
+
+```bash
+
+==== 02_日志\06_日志模块开发规范与质量保证手册.md ====
+```markdown
+---
+tags: []
+aliases:
+  - 《日志模块开发规范与质量保证手册》
+  - 一、 核心开发规范 (The Golden Rules)
+date created: 星期三, 十二月 10日 2025, 10:53:19 晚上
+date modified: 星期三, 十二月 10日 2025, 11:31:04 晚上
+---
+
+# 《日志模块开发规范与质量保证手册》
+
+---
+
+## 一、 核心开发规范 (The Golden Rules)
+
+这部分是“软约束”，属于团队共识，通过 Code Review 和 AI 辅助检查来执行。
+
+### 1. 键名命名公约 (Key Naming Convention)
+
+日志是给机器（ELK/Loki）读的，键名必须统一，方便建立索引。
+
+- **规则**: 严禁使用 CamelCase (小驼峰) 或 PascalCase (大驼峰)，**必须且只能使用 snake_case (下划线命名)**。
+- **反例**: `userId`, `IPAddress`, `httpStatus`
+- **正例**: `user_id`, `client_ip`, `http_status`
+- **理由**: 多数数据库和搜索引擎（如 Elasticsearch）的分词器对下划线更友好，且 SQL 查询习惯也是下划线。
+
+### 2. 类型安全铁律 (Type Safety Strictness)
+
+利用 Zap 的强类型优势，拒绝隐式转换。
+
+- **规则**: 在业务热点路径（Hot Path）中，**严禁使用 `zap.Any`、`zap.Reflect` 或 `Sugar` 模式**。
+- **例外**: 仅在应用启动（Init）、Panic 恢复或非高频的配置加载阶段允许使用 `SugaredLogger`。
+- **理由**: `zap.Any` 会触发反射（Reflection），导致内存逃逸和 GC 压力。这是高性能系统的“隐形杀手”。
+
+### 3. 上下文优先原则 (Context First)
+
+日志不是孤岛，必须依附于请求上下文。
+
+- **规则**: 所有 Controller、Service、Repository 层的方法，如果需要打印日志，**必须**使用 `log.WithContext(ctx).Info(…)` 及其变体。
+- **禁止**: 严禁在业务流程中直接调用全局的 `log.Info(…)`（除非是系统级事件，如定时任务启动）。
+- **理由**: 只有通过 `WithContext`，才能将 TraceID 串联起来。
+
+### 4. 哨兵值与魔法字符串 (Sentinels & Magic Strings)
+
+- **规则**: 核心日志字段的 Key 必须定义为常量（Constant）。
+- **实现**: 在 `pkg/log/standard.go` 中定义 `const TraceIDKey = "trace_id"`。
+- **禁止**: 代码中出现手写的 `zap.String("trace_id", …)`，防止拼写错误（如写成 `traceid`）。
+
+### 5. 热点路径复用原则 (Hot Path Reuse)
+
+针对循环（Loop）或复杂长流程函数，严禁重复构建 Context Logger。
+
+- **规则**: 必须在作用域入口处初始化 Logger 实例，并在该作用域内复用。
+- **反例 (Bad)**:
+
+    ```Go
+    for _, item := range items {
+        // ❌ 每次循环都分配内存
+        log.WithContext(ctx).Info("processing", zap.String("id", item.ID))
+    }
+    ```
+
+- **正例 (Good)**:
+
+    ```Go
+    // ✅ 只分配一次，复用 l
+    l := log.WithContext(ctx)
+    for _, item := range items {
+        l.Info("processing", zap.String("id", item.ID))
+    }
+    ```
+
+- **理由**: 减少大量临时的 `zap.Logger` 结构体分配，降低 GC 的 Scavenge 阶段耗时。
+
+### 6. 后台任务播种原则 (Background Trace Seeding)
+
+所有非 HTTP 触发的后台任务入口（Goroutine, Cron, MQ Handler），必须是“有状态”的。
+
+- **规则**: 任务的第一行代码必须调用 `StartBackgroundTrace`。
+- **反例 (Bad)**:
+
+    ```Go
+    func ProcessOrder(msg []byte) {
+        ctx := context.Background()
+        // ❌ 此时 ctx 空空如也，日志将丢失 TraceID
+        log.WithContext(ctx).Info("processing order")
+    }
+    ```
+
+- **正例 (Good)**:
+
+    ```Go
+    func ProcessOrder(msg []byte) {
+        // ✅ 自动生成一个新的 TraceID 注入 ctx
+        ctx := log.StartBackgroundTrace(context.Background())
+        log.WithContext(ctx).Info("processing order")
+    }
+    ```
+
+---
+
+## 二、 Linter 规则配置 (Automated Enforcement)
+
+这部分是“硬约束”，我们将在 `.golangci.yml` 中配置这些规则，强行阻断不合规代码的提交。
+
+### 1. 禁用标准库日志 (`depguard`)
+
+防止开发人员手滑使用了 Go 原生的 `log` 或 `fmt` 打印日志。
+
+Linter: depguard
+
+配置策略:
+
+- **Deny**:
+    - `log`: 标准库日志（无结构化，无法分级）。
+    - `fmt.Print*`: 控制台打印（生产环境绝对禁止）。
+    - `github.com/sirupsen/logrus`: 防止引入其他日志库。
+
+### 2. 强制错误处理 (`errcheck`)
+
+Zap 的 `Sync()` 方法可能会返回错误（特别是在 Linux 的 `/dev/stdout` 上），通常需要忽略，但写入文件的错误不能忽略。
+
+Linter: errcheck / gosec
+
+配置策略:
+
+- 对 `logger.Sync()` 的错误处理进行豁免（Exclude），因为在某些 OS 下 stdout sync 必然报错，这是已知 issue。
+- 但对 `logger.Info` 等方法的 IO 错误，原则上 Zap 内部处理了，不需要业务层捕获。
+
+### 3. 自定义规则 (`ruleguard` - 高级)
+
+标准的 Linter 无法检测“键名必须是 snake_case”。如果需要极致的管控，我们可以引入 `ruleguard`。
+
+AI 辅助检查逻辑:
+
+由于配置 ruleguard 较复杂，我们约定在 AI 生成代码阶段 执行此逻辑：
+
+- **Check 1**: 正则匹配所有 `zap.String("([a-z]+[A-Z][a-z]+)", …)` 模式，如果发现驼峰命名，立刻自我修正。
+- **Check 2**: 扫描代码中是否存在 `fmt.Print`，如有则报错。
+
+---
+
+## 三、 安全与脱敏规范 (Security & Masking)
+
+这是日志系统的“红线”。
+
+### 1. PII (个人敏感信息) 零容忍
+
+- **黑名单字段**: `password`, `token`, `access_token`, `refresh_token`, `credit_card`, `id_card`.
+- **处理方式**:
+    - **方案 A (拦截器)**: 在 `zapcore` 层加 Hook，但这会损耗性能。
+    - **方案 B (显式脱敏)**: 要求 AI 在生成代码时，对于敏感字段，自动包裹脱敏函数。例如 `zap.String("mobile", mask.Mobile(u.Mobile))`。
+    - **决策**: 采用 **方案 B**。依赖编码时的自觉和 AI 的辅助，性能最优。
+
+### 2. 大字段截断
+
+- **规则**: 禁止将 Base64 图片数据、巨大的 HTML 内容直接打入日志。
+- **限制**: 单个 Field 的 Value 长度建议限制在 2KB 以内。
+
+---
+
+## 四、 AI 辅助编码的“质量契约” (AI Quality Contract)
+
+为了确保我（AI）生成的代码符合上述规范，请你（用户）在审查我的代码时，使用以下 **Checklist** 进行验证。这也是我对你的承诺：
+
+1. **Imports 检查**: 确认没有引入 `log` 或 `fmt`。
+2. **Context 检查**: 确认 `log.WithContext(ctx)` 是日志调用的唯一起手式。
+3. **Keys 检查**: 确认所有 JSON Key 都是 `snake_case`。
+4. **Args 检查**: 确认使用的是 `zap.String/Int` 等强类型构造器，而非 `zap.Any`。
+5. **Config 检查**: 确认没有硬编码的路径（如 `/var/log`），必须来自 `options.go`。
+
+---
+
+## 五、 总结与下一步
+
+我们确立了：
+
+1. **命名**: 强制 snake_case。
+2. **类型**: 拒绝 `zap.Any`，拒绝 `fmt`。
+3. **上下文**: 强制 `WithContext`。
+4. **安全**: 显式脱敏。
+```
+
+==== 02_ 日志\07_ 日志模块工程化实施标准.md ====
+
+```markdown
+---
+tags: []
+aliases:
+  - 日志模块工程化实施标准
+date created: 星期三, 十二月 10日 2025, 10:58:53 晚上
+date modified: 星期三, 十二月 10日 2025, 11:42:26 晚上
+---
+
+# 日志模块工程化实施标准
+
+---
+
+## 一、 注释与文档规范 (Documentation Standards)
+
+目标：“中文友好 (Chinese Friendly)” 且 “符合 GoDoc 标准”。
+
+我们采用 混合语言策略：结构定义用英文（为了 IDE 兼容性），业务解释用中文（为了团队协作）。
+
+### 1. 导出的包与函数 (Exported Symbols)
+
+所有对外暴露的函数（首字母大写），必须编写文档注释。
+
+- **格式要求**：
+    - 第一行：`// FunctionName 简短的英文或中文摘要` (符合 Go Lint 检查)。
+    - 空一行。
+    - 详细说明：**必须使用中文**，解释函数的行为、副作用（Side Effects）和潜在风险。
+    - 参数说明：如果有复杂参数，使用 `// - param: explanation` 格式。
+- **范例 (Style Guide)**:
+
+    > // WithContext returns a logger with the trace ID injected.
+    > 
+    > //
+    > 
+    > // [功能]: 从 context.Context 中提取 TraceID 并附加到 Logger 字段中。
+    > 
+    > // [注意]: 这是一个轻量级操作，但如果 ctx 为 nil，将返回原始 Logger 的 fallback。
+    > 
+    > // [场景]: 务必在 Controller 或 Service 的入口处优先调用。
+
+### 2. 内部实现细节 (Internal Logic)
+
+对于 `internal/pkg/log` 内部复杂的逻辑（如 `lumberjack` 的配置转换），必须在代码块上方添加中文注释。
+
+- **原则**：解释 **“为什么这么做 (Why)”**，而不是“做了什么 (What)”。代码本身已经展示了做了什么。
+- **范例**:
+
+    > // [Why]: 这里不使用 zap.NewProduction 自带的 OutputPaths，
+    > 
+    > // 因为我们需要同时输出到控制台 (为了 Docker 采集) 和文件 (为了本地容灾)，
+    > 
+    > // 且文件输出需要通过 Lumberjack 进行轮转控制。
+
+### 3. README 维护
+
+在 `internal/pkg/log/README.md` 中维护一份**“速查手册”**。
+
+- **必填内容**：
+    - 如何在 `config.yaml` 中配置（给出默认值）。
+    - 如何动态调整日志级别（如通过信号或 API）。
+    - 常见错误码（Code）与日志关键字的对应关系。
+
+---
+
+## 二、 可拓展性设计 (Extensibility Design)
+
+虽然我们拒绝“过度封装”，但必须为未来的变化预留接口（Hook Points）。
+
+### 1. 配置扩展：Functional Options 模式
+
+我们在 `Init` 函数中，不应列出所有参数，而应使用 `Option` 模式。
+
+- **设计**: `func Init(opts …Option) error`
+- **预留能力**: 未来如果需要添加“发送日志到 Kafka”或“开启 Sentry 报警”，只需新增一个 `WithKafka(addr)` 的 Option，而无需修改 `Init` 的函数签名，保证了对旧代码的兼容性。
+
+### 2. 核心扩展：Zap Hooks
+
+Zap 原生支持 `Hooks`。我们的封装必须暴露这一能力。
+
+- **场景**: 当日志级别为 `Error` 或 `Fatal` 时，可能需要同步触发飞书/钉钉报警。
+- **实现标准**: 在 `zap.go` 的构建逻辑中，检查配置是否定义了 Hooks。这允许我们在不侵入日志核心代码的情况下，挂载报警逻辑。
+
+### 3. 字段扩展：Context Key Registry
+
+随着业务发展，需要记录的元数据会增加（如 `TenantID`, `RequestID`, `SpanID`）。
+
+- **标准**: 不要在 `context.go` 里写死 key 的提取逻辑。
+- **设计**: 定义一个 `type ContextExtractor func(ctx) []Field` 类型。默认提供 `TraceIDExtractor`。允许在初始化时注册新的 Extractor。这使得业务线可以自定义需要提取的 Context 字段。
+
+---
+
+## 三、 查漏补缺 (Gap Analysis)
+
+在之前的讨论中，有几个隐蔽但致命的工程细节尚未覆盖，这里作为最后防线进行补充。
+
+### 1. 关于 `Logger.Fatal` 的使用禁令
+
+- **风险**: `zap.Logger.Fatal` 会在打印日志后调用 `os.Exit(1)`。
+- **工程标准**: **在 Web 服务（HTTP Server）中，严禁在业务逻辑层调用 `Fatal`。**
+    - _原因_: 这会直接杀死整个进程，导致所有正在处理的请求中断（没有 Graceful Shutdown）。
+    - _替代_: 遇到不可恢复错误，使用 `Error` 级别日志，并返回 `500` 错误给客户端，由上层中间件处理。
+    - _例外_: 仅在 `main.go` 启动阶段（如连不上数据库、读不到配置）可以使用 `Fatal`。
+
+### 2. 时间格式的一致性
+
+- **问题**: Zap 默认的时间格式可能是浮点数（Unix Epoch）或非标准字符串。
+- **标准**: 生产环境统一配置为 **`ISO8601` (2025-12-10T22:00:00.000Z)**。
+    - _理由_: 这种格式跨时区友好，且能被几乎所有日志分析工具（ELK, Splunk, CloudWatch）自动识别并建立时间索引。
+
+### 3. 动态日志级别 (Hot Reload)
+
+- **需求**: 线上出 Bug 时，需要临时把 Level 调成 Debug，查完再调回 Info，且不能重启服务。
+- **实现标准**: 利用 `zap.AtomicLevel`。
+    - 我们需要暴露一个 HTTP 接口（如 `PUT /admin/log/level`）或监听配置文件的 `fsnotify` 事件。
+    - 收到变更信号后，直接调用 `atomicLevel.SetLevel(zap.DebugLevel)`。这是线程安全的，无需重启实例。
+
+### 4. 测试支持 (Testing Support)
+
+- **问题**: 单元测试时，不仅不想看到日志刷屏，有时还需要断言“是否打印了某条错误日志”。
+- **标准**:
+    - 提供 `pkg/log/test_helper.go`。
+    - 封装 `zaptest/observer`。
+    - 允许测试代码通过 `log.NewTestLogger()` 获取一个观察者对象，从而断言 `logs.FilterMessage("error").Len() == 1`。
+
+### 5. 链路完整性保障
+
+- **风险**: 开发者容易遗忘在 `go func()` 中传递 Context。
+- **标准**: 在 Code Review 时，重点检查所有 `go` 关键字后是否跟随了 Context 的传递或播种操作。
+
+### 6. 框架初始化与 Panic 处理
+
+- **风险**: `gin.Default()` 会自动注册只打印文本日志的 Recovery 中间件，破坏 JSON 格式。
+- **标准**:
+	 1. 必须使用 `gin.New()` 初始化 Engine。
+	 2. 必须手动注册我们自定义的 `middleware.Recovery` 和 `middleware.AccessLog`。
+	 3. 确保 Panic 日志中包含 TraceID（从 `c.Request.Context` 中尝试恢复）。
+
+---
+
+## 四、 总结与就绪确认
+
+至此，我们已经完成了日志模块的**全生命周期设计**：
+
+1. **架构**: 基础设施层，无业务依赖。
+2. **技术栈**: Zap + Lumberjack + Context Adapter。
+3. **模式**: 单例兜底 + 依赖注入，强类型约束。
+4. **规范**: Snake_case 键名，中文友好文档，严禁 Fatal。
+```
diff --git a/Go项目实战/中间件/推荐的中间件目录演进策略.md b/Go项目实战/中间件/推荐的中间件目录演进策略.md
new file mode 100644
index 0000000..d44a282
--- /dev/null
+++ b/Go项目实战/中间件/推荐的中间件目录演进策略.md
@@ -0,0 +1,80 @@
+---
+tags: []
+aliases:
+  - 🏗️ 推荐的中间件目录演进策略
+date created: 星期三, 十二月 10日 2025, 11:08:17 上午
+date modified: 星期三, 十二月 10日 2025, 11:08:58 上午
+---
+这是一个非常有前瞻性的问题。你现在的顾虑完全符合 **“高内聚、低耦合”** 的架构直觉。
+
+在企业级 Go 项目中，如果把所有中间件（Auth, CORS, RateLimit, Logger, Recovery, Trace…）都堆在 `internal/middleware/` 根目录下，确实会变成一个“大杂烩”，导致文件结构不明晰。
+
+基于 **Modular Clean Architecture** 和 **Go 最佳实践**，我推荐采用 **“按复杂度分层 (Complexity-Based Layering)”** 的混合策略。
+
+# 🏗️ 推荐的中间件目录演进策略
+
+我们不需要一开始就过度设计（Over-engineering），而是制定一条**规则**：
+
+1. **通用基础设施 (Universal Infra):** 逻辑简单、无状态、单文件即可解决的，直接放在根目录。
+2. **复杂业务逻辑 (Complex Logic):** 需要定义配置结构体、辅助函数、或依赖外部库较重的，**建立子目录**。
+
+## 修正后的目录蓝图
+
+```Plaintext
+internal/
+└── middleware/
+    │
+    │   # --- Level 1: 通用基础设施 (直接放根目录) ---
+    ├── recovery.go        # [现有] 及其简单，就一个函数
+    ├── not_found.go       # [现有] 就一个 Handler
+    ├── cors.go            # [未来] CORS 配置通常单文件搞定
+    ├── trace.go           # [未来] 注入 TraceID
+    │
+    │   # --- Level 2: 复杂中间件 (独立子包) ---
+    ├── auth/              # [未来] 认证模块很复杂
+    │   ├── jwt.go         # JWT 解析逻辑
+    │   └── context.go     # 将 UserID 注入 Context 的辅助函数
+    │
+    ├── ratelimit/         # [未来] 限流可能涉及 Redis 脚本
+    │   ├── ip_limiter.go
+    │   └── lua_script.go
+    │
+    └── log/               # [未来] 访问日志
+        └── access_logger.go
+```
+
+---
+
+# 💡 为什么要这样设计？(Rationale)
+
+## 1. Go 的包导入体验 (Import DX)
+
+- 对于通用中间件:
+
+    我们在 main.go 里的调用通常希望长这样：
+
+    ```Go
+    // 读起来很通顺：使用中间件 -> 恢复、日志、CORS
+    r.Use(middleware.Recovery())
+    r.Use(middleware.Logger())
+    r.Use(middleware.Cors())
+    ```
+
+    如果强行把 `recovery.go` 放到 `middleware/recovery/recovery.go`，调用就会变成 `recovery.New()`，这在语义上丢失了“这是一个中间件”的上下文，而且引入了太多的包名。
+    
+- 对于复杂中间件:
+
+    认证通常需要配置：
+
+    ```Go
+    // 读起来清楚：这是 Auth 相关的中间件
+    r.Use(auth.Middleware(auth.Config{…}))
+    ```
+
+    这时候引入 `auth` 子包是合理的。
+
+## 2. 避免循环依赖
+
+`recovery.go` 和 `not_found.go` 属于**基础设施的底座**，它们几乎不依赖其他业务代码（除了我们刚才定义的 `app` 包）。将它们放在根目录，可以方便地被其他子包引用（虽然中间件之间很少互相引用）。
+
+---
diff --git a/Go项目实战/产品需求规格说明书 (PRD) - V1.1.md b/Go项目实战/产品需求规格说明书 (PRD) - V1.1.md
new file mode 100644
index 0000000..e0b820d
--- /dev/null
+++ b/Go项目实战/产品需求规格说明书 (PRD) - V1.1.md	
@@ -0,0 +1,149 @@
+---
+tags: []
+aliases:
+  - 📝 产品需求规格说明书 (PRD) - V1.1
+date created: 星期日, 十二月 7日 2025, 12:14:41 中午
+date modified: 星期日, 十二月 7日 2025, 12:49:19 下午
+---
+
+# 📝 产品需求规格说明书 (PRD) - V1.1
+
+> **更新日志:**
+>
+> - v1.0: 初始版本，定义功能列表。
+>     
+> - **v1.1:** [2025-12-07] 补充项目战略背景；优化软删除与缓存策略的灵活性；明确长文本存储类型。
+
+项目名称: Enterprise-CMS-Core (企业级内容管理系统核心)
+
+版本: 1.1.0
+
+状态: [✅ 已锁定]
+
+适用对象: 后端开发人员、架构师、测试人员
+
+---
+
+## 1. 项目战略概述 (Strategic Overview)
+
+### 1.1 项目背景与目标
+
+本项目并非单纯为了交付一个 CMS 软件，而是为了构建一个**“Go 语言企业级后端架构样板间”**。
+
+- **核心目标:** 验证并固化一套“模块化整洁架构”工程实践，使其具备**高可维护性**、**可扩展性**和**安全性**。
+- **衍生价值:** 产出的源码将作为团队未来的“SaaS 启动脚手架 (Boilerplate)”，或作为独立的高价值技术资产（源码付费产品）进行商业变现。
+
+### 1.2 核心用户与价值
+
+- **系统管理员 (Admin):** 痛点是“安全与失控风险”。核心价值是提供**银行级的 RBAC 权限控制**，确保没人能越权操作。
+- **内容编辑 (Editor):** 痛点是“流程混乱”。核心价值是提供**状态明确的内容流转机制**（草稿 ->审核 ->发布），防止误发。
+- **二开开发者 (Developer):** 痛点是“屎山代码”。核心价值是提供**清晰的依赖边界**和**开箱即用的基础设施**。
+
+### 1.3 成功指标 (Success Metrics)
+
+1. **业务完整性:** 必须完整支持 3 种标准角色（Admin/Editor/Subscriber）的权限隔离，且文章状态流转无逻辑漏洞。
+2. **工程质量:** 核心业务模块（User/Auth）单元测试覆盖率 > 80%；通过静态代码分析，无循环依赖。
+3. **性能基线:** 在单机 2C4G 配置下，并发 100 QPS 时，API P99 响应时间 < 200ms。
+
+---
+
+## 2. 核心功能范围 (In-Scope)
+
+### 2.1 认证与鉴权模块 (Auth & IAM)
+
+**唯一来源:** 必须使用 JWT 双令牌机制 + RBAC 模型。
+
+- **F-AUTH-01 用户注册:** 仅支持“用户名 + 密码”注册。密码必须经过 Argon2 或 Bcrypt 哈希存储。
+- **F-AUTH-02 用户登录:** 校验账号密码，返回 `Access Token` (短效 15min) 和 `Refresh Token` (长效 7 天)。
+- **F-AUTH-03 令牌刷新:** 使用有效的 Refresh Token 换取新的 Access Token。**旧的 Refresh Token 若被复用需触发安全警报（可选）或直接失效**。
+- **F-AUTH-04 统一登出:** 强制使 Refresh Token 失效（需在 Redis 中建立黑名单或白名单机制）。
+- **F-AUTH-05 密码重置:** 登录状态下修改密码，修改成功后强制吊销所有 Token。
+
+### 2.2 用户与权限模块 (User & RBAC)
+
+**预设角色:** 系统初始化必须包含以下三种角色。
+
+|**角色代码**|**名称**|**权限描述**|
+|---|---|---|
+|`admin`|超级管理员|拥有系统所有权限 (用户管理、角色分配、内容强制删除)。|
+|`editor`|内容编辑|拥有文章发布、审核、标签管理权限。不可管理用户。|
+|`subscriber`|普通用户|仅拥有修改自身资料、发布评论、查看公开文章权限。|
+
+- **F-USER-01 个人资料:** 查询与更新当前登录用户的昵称、头像 URL、简介。
+- **F-USER-02 用户管理 (Admin):** 管理员可查看用户列表，封禁/解封用户状态。
+- **F-RBAC-01 角色分配 (Admin):** 管理员可修改用户的角色（如将 User 提权为 Editor）。
+
+### 2.3 内容核心模块 (CMS Core)
+
+**核心逻辑:** 文章必须包含状态流转。
+
+- **F-ART-01 文章 CRUD:**
+    - **创建:** 默认为 `Draft` (草稿) 状态。
+    - **字段:** 标题、内容、封面图 URL、作者 ID。
+    - **数据类型约束:** 文章内容字段在数据库层面建议使用 `TEXT` 或 `LONGTEXT` 类型，以完整承载 Markdown/HTML 长文本。
+- **F-ART-02 文章状态流转:**
+    - 支持状态: `Draft` (草稿) -> `Pending` (待审核) -> `Published` (已发布) -> `Archived` (归档/软删除)。
+- **F-ART-03 分类与标签:**
+    - 文章必须归属一个分类 (Category)。
+    - 文章可关联多个标签 (Tags)。
+- **F-ART-04 内容审核 (Editor/Admin):**
+    - 拥有审核权限的角色可将 `Pending` 状态的文章改为 `Published` 或驳回至 `Draft`。
+- **F-ART-05 公开检索:**
+    - 仅 `Published` 状态的文章对外接口可见。支持按 分类、标签、标题关键词 搜索。
+
+### 2.4 互动模块 (Interaction)
+
+- **F-CMT-01 评论发布:** 登录用户可对 `Published` 文章发表评论。
+- **F-CMT-02 评论管理:** 作者可删除自己文章下的评论；Admin/Editor 可删除任何违规评论。
+
+---
+
+## 3. 非功能性需求 (Non-Functional Requirements)
+
+**开发人员必须严格遵守以下技术约束：**
+
+### 3.1 数据一致性
+
+- **删除策略 [优化]:** 核心业务数据（用户、文章）原则上必须使用 Soft Delete (`deleted_at` 字段)。
+    - _例外条款:_ 涉及法律合规（如 GDPR 用户遗忘权）或垃圾数据清理时，经系统管理员明确审批操作后，允许提供物理删除接口。
+- **事务:** 文章发布与标签关联必须在同一个 Database Transaction 中完成。
+
+### 3.2 性能与缓存
+
+- **API 响应:** 95% 的请求响应时间需 < 200ms (不含网络延迟)。
+- **缓存策略:**
+    - 建议对 **高频读取且低频修改** 的数据（如用户信息 `/profile`、热门文章详情 `/article/:id`）实施缓存策略。
+    - 具体的缓存实现（Redis Key 设计、TTL 时长、Cache-Aside 或 Write-Through 模式）由开发团队根据实际压测结果灵活调整，不强制硬编码 TTL。
+
+### 3.3 安全性
+
+- **SQL 注入:** 严禁拼接 SQL，必须使用 GORM 参数化查询。
+- **敏感数据:** 密码、RefreshToken 严禁明文出现在日志中。
+- **接口保护:** 除登录、注册、公开文章列表外，所有接口必须通过 JWT 中间件校验。
+
+### 3.4 工程规范
+
+- **Schema:** 数据库表结构变更必须提供 Up/Down SQL 迁移脚本。
+- **Doc:** 所有 API 必须自动生成 Swagger 文档。
+
+---
+
+## 4. 不在范围 (Out of Scope)
+
+**以下功能明确不包含在本次 Phase 1 开发中：**
+
+1. **❌ 第三方登录:** 不做微信/GitHub/Google 登录。
+2. **❌ 消息推送/通知:** 不做系统内通知。
+3. **❌ 文件存储服务 (OSS):** 仅处理 URL 字符串，不处理文件流上传。
+4. **❌ 复杂的富文本处理:** 后端仅存储字符串，不解析 HTML。
+5. **❌ 支付与订单:** 不包含任何电商逻辑。
+
+---
+
+## 5. 核心数据实体关系图 (ER 简述)
+
+- **User** (1) <-> (N) **Article**
+- **User** (1) <-> (N) **Comment**
+- **Article** (1) <-> (N) **Comment**
+- **Article** (N) <-> (1) **Category**
+- **Article** (N) <-> (N) **Tag** (Many-to-Many)
diff --git a/Go项目实战/用户模块/01_实体关系图.md b/Go项目实战/用户模块/01_实体关系图.md
new file mode 100644
index 0000000..6c26842
--- /dev/null
+++ b/Go项目实战/用户模块/01_实体关系图.md
@@ -0,0 +1,111 @@
+---
+tags: []
+aliases:
+  - ER 图
+date created: 星期二, 十二月 9日 2025, 10:45:43 晚上
+date modified: 星期二, 十二月 9日 2025, 10:58:01 晚上
+---
+
+# ER 图
+
+**设计思路分析:**
+
+1. **RBAC 模型选择:** 为了满足“银行级权限控制”及“企业级样板间”的扩展性要求，我采用了标准的 **RBAC Level 1 (Flat RBAC)** 变体。虽然当前只有 3 个固定角色，但使用 **多对多 (Many-to-Many)** 的关联表 (`user_roles`) 能够支持未来某用户既是 "Editor" 又是 "TechLeader" 的混合权限场景，避免后续重构。
+2. **双令牌机制落地:** 专门设计了 `refresh_tokens` 表。JWT 的 Access Token 是无状态的（不入库），但 Refresh Token 必须入库以实现“吊销”、“防重放”和“设备管理”功能。
+3. **软删除与审计:** 所有核心表（`users`, `roles`）均继承了 Base Model，包含 `deleted_at` 字段。
+
+---
+
+## 📊 阶段二：概念验证 (Conceptual Modeling - ER Diagram)
+
+```mermaid
+erDiagram
+    %% ---------------------------------------------------------
+    %% 1. 用户核心表 (Users)
+    %% 核心聚合根，包含认证凭证与个人资料
+    %% ---------------------------------------------------------
+    users {
+        bigint id PK "主键"
+        string username "用户名, unique, not null"
+        string password_hash "Argon2/Bcrypt 哈希值, not null"
+        string nickname "用户昵称 (Profile)"
+        string avatar_url "头像链接 (Profile)"
+        string bio "个人简介 (Profile)"
+        smallint status "状态: 1=Active, 0=Banned"
+        timestamptz created_at "创建时间"
+        timestamptz updated_at "更新时间"
+        timestamptz deleted_at "软删除时间 (Soft Delete)"
+    }
+
+    %% ---------------------------------------------------------
+    %% 2. 角色表 (Roles)
+    %% 存储 Admin, Editor, Subscriber 等定义
+    %% ---------------------------------------------------------
+    roles {
+        bigint id PK "主键"
+        string code "角色编码 (e.g. 'admin'), unique"
+        string name "角色显示名称 (e.g. '超级管理员')"
+        string description "备注"
+        timestamptz created_at
+        timestamptz updated_at
+        timestamptz deleted_at
+    }
+
+    %% ---------------------------------------------------------
+    %% 3. 用户-角色关联表 (User Roles)
+    %% 中间表，实现 RBAC 多对多关系
+    %% ---------------------------------------------------------
+    user_roles {
+        bigint user_id FK "关联 users.id"
+        bigint role_id FK "关联 roles.id"
+        timestamptz created_at
+    }
+
+    %% ---------------------------------------------------------
+    %% 4. 刷新令牌表 (Refresh Tokens)
+    %% 用于双令牌机制的续期与风控
+    %% ---------------------------------------------------------
+    refresh_tokens {
+        bigint id PK "主键"
+        bigint user_id FK "关联 users.id"
+        string token_hash "Refresh Token 的哈希值 (安全考虑不存明文)"
+        string family_id "令牌家族ID (用于检测重用/Rotation)"
+        string parent_token_id "父令牌ID (用于溯源)"
+        boolean is_revoked "是否已撤销 (黑名单机制)"
+        timestamptz expires_at "过期时间 (7天)"
+        timestamptz created_at
+    }
+
+    %% ---------------------------------------------------------
+    %% 关系定义 (Relationships)
+    %% ---------------------------------------------------------
+    
+    %% 一个用户可以拥有多个 Refresh Token (多设备登录)
+    users ||--o{ refresh_tokens : "has_many (sessions)"
+
+    %% 一个用户可以拥有多个角色 (扩展性设计)
+    users ||--o{ user_roles : "assigned_to"
+    
+    %% 一个角色可以包含多个用户
+    roles ||--o{ user_roles : "includes"
+```
+
+---
+
+## 🔑 关键关系业务含义说明
+
+1. **Users `||--o{` Refresh Tokens (1 对 多):**
+    
+    - **业务含义:** 一个用户可以在多个设备（手机、PC）同时登录。
+    - **风控逻辑:** 当用户执行“修改密码”或“严重违规封号”时，后端会根据 `user_id` 批量将该用户下的所有 `is_revoked` 设为 `true`，从而实现**强制下线**。
+    - **令牌轮转:** `family_id` 和 `parent_token_id` 用于检测令牌复用攻击。如果一个旧的 RT 被使用，系统可以根据 `family_id` 级联作废整个令牌链。
+        
+2. **Users `}|--|{` Roles (多 对 多，通过 `user_roles`):**
+    
+    - **业务含义:** 虽然 PRD 定义了三个层级，但物理模型采用“多对多”设计是架构上的**防御性编程**。
+    - **场景:** 如果未来需要赋予某个 Editor 临时的 Admin 权限，或者创建一个 "SuperSubscriber"（付费会员），我们只需在 `user_roles` 插入一条记录，而无需修改表结构。
+        
+3. **Users 表的混合设计:**
+    
+    - **决策:** 我没有将 `Profile` (昵称/头像) 拆分为独立表。
+    - **理由:** 遵循“勿增实体”原则。在当前 V1 阶段，Profile 字段较少（仅 3 个），且在列表页展示时（如“评论列表”）属于高频连表查询。合并不仅减少了 JOIN 开销，也简化了 GORM 的模型编写。
diff --git a/Go项目实战/用户模块/02_SQL DDL 脚本.md b/Go项目实战/用户模块/02_SQL DDL 脚本.md
new file mode 100644
index 0000000..721f164
--- /dev/null
+++ b/Go项目实战/用户模块/02_SQL DDL 脚本.md	
@@ -0,0 +1,212 @@
+---
+tags: []
+aliases:
+  - SQL DDL 脚本
+  - 🛡️ 设计说明与合规性检查
+date created: 星期二, 十二月 9日 2025, 11:04:59 晚上
+date modified: 星期二, 十二月 9日 2025, 11:53:32 晚上
+---
+这里是为您生成的 **PostgreSQL 15** 生产级 SQL DDL 脚本。
+
+# SQL DDL 脚本
+
+## 🛡️ 设计说明与合规性检查
+
+1. **架构一致性:** 严格遵循之前确认的 Mermaid ER 图逻辑。
+2. **软删除优化:** 所有包含 `deleted_at` 的表均增加了部分索引 (Partial Index)，确保在使用 `WHERE deleted_at IS NULL` 时查询性能最优，同时减少索引体积。
+3. **安全性:**
+    
+    - 所有外键均使用 `ON DELETE RESTRICT`，防止误删用户导致级联删除关联数据（如订单、日志）。
+    - `refresh_tokens` 表的 `token_hash` 设为唯一，防止哈希碰撞。
+        
+4. **类型规范:** 遵循宪法，使用 `TIMESTAMPTZ` 处理时间，`TEXT` 处理字符串，`SMALLINT` 处理枚举状态。
+
+---
+
+### 📝 修改说明文档 (Changelog v1.1)
+
+本次更新核心聚焦于 **“千万级数据下的查询性能”** 与 **“高频鉴权的延迟优化”**。
+
+|**修改点**|**变更内容 (What)**|**预期效果 (Effect)**|**架构师理由 (Why)**|
+|---|---|---|---|
+|**1. 反范式化缓存**|`users` 表新增字段 `cached_role_codes TEXT[]`。|**鉴权性能提升 10x**。API 网关/中间件在鉴权时，无需关联查询 `user_roles` 和 `roles` 表，直接读取当前行即可拿到权限。|**Space for Time (以空间换时间)**。鉴权是系统最高频（QPS 10,000+）的操作，3 表 JOIN 在高并发下是 CPU 杀手。虽然增加了写入时的维护成本，但换来了极高的读取性能。|
+|**2. 深分页索引**|新增索引 `idx_users_active_created_at` (针对 `created_at DESC` + `deleted_at IS NULL`)。|**后台列表秒开**。即使翻到第 10 万页，数据库也能利用索引直接定位数据，避免全表扫描和内存排序。|**B 端体验保障**。原索引仅优化了登录（按用户名查），未覆盖管理后台最常用的“按注册时间倒序查看”场景。|
+|**3. 分区策略标注**|在 `refresh_tokens` 表头添加了关于 **Range Partitioning** 的架构警告与注释。|**防止 IO 爆炸**。明确告知 DBA/运维团队，在数据量突破 5000 万前必须实施表分区。|**生命周期管理**。日志类/令牌类数据如果不做分区，在执行批量删除（清理过期 Token）时会导致数据库 WAL 日志爆满甚至锁死。|
+
+---
+
+### 📜 SQL DDL 脚本 (v1.1 Production-Ready)
+
+```SQL
+-- =========================================================
+-- Enterprise-CMS-Core Schema v1.1
+-- Architecture: Modular Clean Architecture
+-- Database: PostgreSQL 15+
+-- =========================================================
+
+-- ⚠️ 警告: 生产环境请移除 DROP 语句
+DROP TABLE IF EXISTS refresh_tokens CASCADE;
+DROP TABLE IF EXISTS user_roles CASCADE;
+DROP TABLE IF EXISTS roles CASCADE;
+DROP TABLE IF EXISTS users CASCADE;
+
+-- 1. 全局设置
+-- 确保时间存储统一，避免应用层时区转换混乱
+SET timezone = 'Asia/Shanghai';
+
+-- =========================================================
+-- 2. 用户核心表 (users)
+-- =========================================================
+CREATE TABLE users (
+    id                BIGSERIAL    PRIMARY KEY,
+    username          TEXT         NOT NULL,
+    password_hash     TEXT         NOT NULL, -- Argon2/Bcrypt Hash
+    
+    -- Profile 字段 (允许 NULL，应用层需处理指针)
+    nickname          TEXT,
+    avatar_url        TEXT,
+    bio               TEXT,
+    
+    -- 状态: 1=Active, 0=Banned (应用层枚举)
+    status            SMALLINT     NOT NULL DEFAULT 1,
+    
+    -- [v1.1 新增] 反范式化字段: 缓存角色编码
+    -- 目的: 让鉴权中间件实现 Zero-Join 查询
+    -- 默认值: 空数组 '{}'，避免 NULL 指针异常
+    cached_role_codes TEXT[]       NOT NULL DEFAULT '{}',
+    
+    -- Base Model 字段
+    created_at        TIMESTAMPTZ  NOT NULL DEFAULT NOW(),
+    updated_at        TIMESTAMPTZ  NOT NULL DEFAULT NOW(),
+    deleted_at        TIMESTAMPTZ
+);
+
+-- 2.1 约束定义
+ALTER TABLE users 
+    ADD CONSTRAINT uniq_users_username UNIQUE (username);
+
+-- 2.2 索引策略
+-- [Index] 软删除查询优化 (BRIN / Partial Index)
+-- 场景: 绝大多数业务只查“未删除”数据，此过滤条件能大幅减小索引体积
+CREATE INDEX idx_users_deleted_at_brin ON users (deleted_at) 
+    WHERE deleted_at IS NULL; 
+
+-- [Index] 登录查询优化
+-- 场景: 根据用户名登录，且必须未被删除
+CREATE INDEX idx_users_username_active ON users (username) 
+    WHERE deleted_at IS NULL;
+
+-- [v1.1 新增] [Index] 后台管理列表/深分页优化
+-- 场景: SELECT * FROM users WHERE deleted_at IS NULL ORDER BY created_at DESC LIMIT N OFFSET M
+-- 理由: 消除 FileSort，直接利用索引顺序扫描
+CREATE INDEX idx_users_active_created_at ON users (created_at DESC) 
+    WHERE deleted_at IS NULL;
+
+-- 2.3 注释
+COMMENT ON TABLE users IS '用户核心表';
+COMMENT ON COLUMN users.cached_role_codes IS '[冗余字段] 缓存用户当前拥有的角色Code (e.g. {admin, editor})，用于提升鉴权性能';
+
+-- =========================================================
+-- 3. 角色定义表 (roles)
+-- =========================================================
+CREATE TABLE roles (
+    id              BIGSERIAL    PRIMARY KEY,
+    code            TEXT         NOT NULL, -- 业务唯一标识: 'admin', 'editor'
+    name            TEXT         NOT NULL, -- 显示名称: '超级管理员'
+    description     TEXT,
+    
+    created_at      TIMESTAMPTZ  NOT NULL DEFAULT NOW(),
+    updated_at      TIMESTAMPTZ  NOT NULL DEFAULT NOW(),
+    deleted_at      TIMESTAMPTZ
+);
+
+ALTER TABLE roles 
+    ADD CONSTRAINT uniq_roles_code UNIQUE (code);
+
+COMMENT ON TABLE roles IS '系统角色定义表 (元数据)';
+
+-- =========================================================
+-- 4. 用户-角色关联表 (user_roles)
+-- =========================================================
+CREATE TABLE user_roles (
+    id              BIGSERIAL    PRIMARY KEY,
+    user_id         BIGINT       NOT NULL,
+    role_id         BIGINT       NOT NULL,
+    created_at      TIMESTAMPTZ  NOT NULL DEFAULT NOW()
+);
+
+-- 4.1 外键约束 (确保数据一致性，防止孤儿数据)
+ALTER TABLE user_roles
+    ADD CONSTRAINT fk_user_roles_users FOREIGN KEY (user_id) 
+    REFERENCES users(id) ON DELETE RESTRICT;
+
+ALTER TABLE user_roles
+    ADD CONSTRAINT fk_user_roles_roles FOREIGN KEY (role_id) 
+    REFERENCES roles(id) ON DELETE RESTRICT;
+
+-- 4.2 唯一约束 (防止重复授权)
+ALTER TABLE user_roles 
+    ADD CONSTRAINT uniq_user_roles_pair UNIQUE (user_id, role_id);
+
+-- 4.3 索引
+-- 场景: 当管理员更新某用户角色时，需要快速查找到关联记录
+CREATE INDEX idx_user_roles_user_id ON user_roles(user_id);
+
+COMMENT ON TABLE user_roles IS '用户与角色的多对多关联表 (Write Source of Truth)';
+
+-- =========================================================
+-- 5. 刷新令牌表 (refresh_tokens)
+-- =========================================================
+-- [v1.1 架构备注] 
+-- ⚠️ Scaling Policy: 
+-- 当单表行数预计超过 5000 万时，必须启用 Range Partitioning。
+-- 建议策略: PARTITION BY RANGE (created_at)，按月分表，定期 DROP 旧分区。
+-- 当前 V1 阶段保持标准表结构。
+CREATE TABLE refresh_tokens (
+    id              BIGSERIAL    PRIMARY KEY,
+    user_id         BIGINT       NOT NULL,
+    token_hash      TEXT         NOT NULL, 
+    
+    -- 风控与轮转字段
+    family_id       TEXT         NOT NULL, -- 令牌家族，用于检测复用攻击
+    parent_token_id TEXT         NOT NULL DEFAULT '', -- 溯源链
+    is_revoked      BOOLEAN      NOT NULL DEFAULT FALSE, -- 黑名单开关
+    
+    expires_at      TIMESTAMPTZ  NOT NULL,
+    created_at      TIMESTAMPTZ  NOT NULL DEFAULT NOW()
+);
+
+ALTER TABLE refresh_tokens
+    ADD CONSTRAINT fk_refresh_tokens_users FOREIGN KEY (user_id) 
+    REFERENCES users(id) ON DELETE RESTRICT;
+
+ALTER TABLE refresh_tokens 
+    ADD CONSTRAINT uniq_refresh_tokens_hash UNIQUE (token_hash);
+
+-- [Index] 安全风控查询
+-- 场景 1: 用户改密码 -> 吊销所有设备 (WHERE user_id = ?)
+-- 场景 2: 检测到令牌盗用 -> 吊销整个家族 (WHERE family_id = ?)
+CREATE INDEX idx_refresh_tokens_user_id ON refresh_tokens(user_id);
+CREATE INDEX idx_refresh_tokens_family_id ON refresh_tokens(family_id);
+
+COMMENT ON TABLE refresh_tokens IS '双令牌机制存储表 (高频写入/删除，需关注膨胀问题)';
+```
+
+---
+
+## 🔍 索引策略自辩 (Why These indexes?)
+
+1. **`users.idx_users_deleted_at_brin`**:
+    
+    - **场景**: 系统中几乎 100% 的查询（List, Get）都会带上 `deleted_at IS NULL`。
+    - **优势**: 这是一个“部分索引” (Partial Index)。它只索引活跃用户，随着时间推移，被软删除的用户越来越多，这个索引依然会保持很小，查询速度极快。
+        
+2. **`refresh_tokens.idx_refresh_tokens_family_id`**:
+    
+    - **场景**: 触发“令牌复用”警报时。
+    - **逻辑**: 黑客利用旧的 Refresh Token 尝试刷新 -> 系统检测到该 Token 已被用过 -> 系统根据 `family_id` 瞬间查出该链条上所有新颁发的 Token -> 全部标记为 `is_revoked = TRUE`。如果没有这个索引，高并发下这一步风控逻辑会锁表或超时。
+        
+3. **`user_roles.idx_user_roles_user_id`**:
+    
+    - **场景**: 每次 HTTP 请求经过 `AuthMiddleware`。
+    - **逻辑**: 中间件必须校验当前 User 是否为 `Admin`。这需要高频执行 `SELECT role_id FROM user_roles WHERE user_id = ?`。此索引是系统吞吐量的关键。
diff --git a/Go项目实战/用户模块/03_entity 代码.md b/Go项目实战/用户模块/03_entity 代码.md
new file mode 100644
index 0000000..5333cb5
--- /dev/null
+++ b/Go项目实战/用户模块/03_entity 代码.md	
@@ -0,0 +1,205 @@
+---
+tags: []
+date created: 星期二, 十二月 9日 2025, 11:56:32 晚上
+date modified: 星期二, 十二月 9日 2025, 11:57:24 晚上
+---
+
+# 03_entity 代码
+
+根据 **v1.1 SQL DDL** 的变更（主要是增加了反范式化字段 `cached_role_codes`）以及 **“按领域分包”** 的架构要求，以下是完整的、生产级的 GORM Entity 代码。
+
+请注意：为了处理 PostgreSQL 的 `text[]` 数组类型，我们在 Go 中通常直接使用 `[]string` 并配合 GORM 的 `type:text[]` 标签（GORM v2 的 Postgres 驱动支持此特性）。
+
+---
+
+## 📂 1. 用户领域实体
+
+**文件路径:** `internal/user/entity.go`
+
+```Go
+package user
+
+import (
+	"database/sql/driver"
+	"encoding/json"
+	"errors"
+	"time"
+
+	"gorm.io/gorm"
+)
+
+// =================================================================================
+// 核心实体 (Core Entities)
+// 遵循 "Pragmatic Entity" 模式: 既是业务实体也是 GORM 模型
+// =================================================================================
+
+// User 聚合根
+type User struct {
+	// ID 使用 int64 对应 BigSerial
+	ID int64 `gorm:"column:id;primaryKey;autoIncrement" json:"id"`
+
+	// -------------------------------------------------------------------------
+	// 认证与安全
+	// -------------------------------------------------------------------------
+	Username     string `gorm:"column:username;type:text;not null;unique" json:"username"`
+	PasswordHash string `gorm:"column:password_hash;type:text;not null" json:"-"` // 🔒 安全: 永不序列化
+
+	// -------------------------------------------------------------------------
+	// 个人资料 (Profile)
+	// 使用指针 (*string) 以区分 DB 中的 NULL 和 空字符串
+	// -------------------------------------------------------------------------
+	Nickname  *string `gorm:"column:nickname;type:text" json:"nickname"`
+	AvatarURL *string `gorm:"column:avatar_url;type:text" json:"avatarUrl"`
+	Bio       *string `gorm:"column:bio;type:text" json:"bio"`
+
+	// -------------------------------------------------------------------------
+	// 状态与权限
+	// -------------------------------------------------------------------------
+	// Status: 1=Active, 0=Banned
+	Status int16 `gorm:"column:status;type:smallint;not null;default:1" json:"status"`
+
+	// [v1.1 新增] 反范式化字段: 缓存角色编码
+	// GORM Postgres 驱动通常能自动处理 []string <-> text[]
+	// 作用: 鉴权中间件读取此字段即可，无需 Join 角色表
+	CachedRoleCodes StringArray `gorm:"column:cached_role_codes;type:text[];not null;default:'{}'" json:"cachedRoleCodes"`
+
+	// -------------------------------------------------------------------------
+	// 审计与时间
+	// -------------------------------------------------------------------------
+	CreatedAt time.Time      `gorm:"column:created_at;not null;default:now()" json:"createdAt"`
+	UpdatedAt time.Time      `gorm:"column:updated_at;not null;default:now()" json:"updatedAt"`
+	DeletedAt gorm.DeletedAt `gorm:"column:deleted_at;index" json:"-"` // 启用软删除
+
+	// -------------------------------------------------------------------------
+	// 关联 (Associations) - 仅用于 Preload，非物理字段
+	// -------------------------------------------------------------------------
+	Roles []Role `gorm:"many2many:user_roles;joinForeignKey:user_id;joinReferences:role_id" json:"roles,omitempty"`
+}
+
+// TableName 显式定义表名
+func (User) TableName() string {
+	return "users"
+}
+
+// Role 角色实体
+type Role struct {
+	ID          int64          `gorm:"column:id;primaryKey;autoIncrement" json:"id"`
+	Code        string         `gorm:"column:code;type:text;not null;unique" json:"code"` // e.g. "admin"
+	Name        string         `gorm:"column:name;type:text;not null" json:"name"`        // e.g. "管理员"
+	Description *string        `gorm:"column:description;type:text" json:"description"`
+	CreatedAt   time.Time      `gorm:"column:created_at;not null;default:now()" json:"createdAt"`
+	UpdatedAt   time.Time      `gorm:"column:updated_at;not null;default:now()" json:"updatedAt"`
+	DeletedAt   gorm.DeletedAt `gorm:"column:deleted_at;index" json:"-"`
+}
+
+func (Role) TableName() string {
+	return "roles"
+}
+
+// UserRole 关联实体 (中间表)
+// 即使是中间表，也定义实体以便于管理（如审计创建时间）
+type UserRole struct {
+	ID        int64     `gorm:"column:id;primaryKey;autoIncrement" json:"id"`
+	UserID    int64     `gorm:"column:user_id;not null" json:"userId"`
+	RoleID    int64     `gorm:"column:role_id;not null" json:"roleId"`
+	CreatedAt time.Time `gorm:"column:created_at;not null;default:now()" json:"createdAt"`
+}
+
+func (UserRole) TableName() string {
+	return "user_roles"
+}
+
+// =================================================================================
+// 辅助类型 (Helper Types)
+// 确保 PostgreSQL 数组类型能正确 Scanner/Valuer
+// =================================================================================
+
+// StringArray 自定义类型以处理 PostgreSQL 的 text[]
+// 虽然 GORM 高版本支持 []string，但显式实现接口更兼容不同的 Driver
+type StringArray []string
+
+func (a *StringArray) Scan(value interface{}) error {
+	bytes, ok := value.([]byte)
+	if !ok {
+		return errors.New("type assertion to []byte failed")
+	}
+	// 处理空数组情况 "{}"
+	str := string(bytes)
+	if str == "{}" {
+		*a = []string{}
+		return nil
+	}
+	// 这里使用简单处理，生产环境建议使用 lib/pq 或 pgx 的解析逻辑
+	// 简单实现: 依赖 GORM 默认行为，或者使用 JSON 兼容
+	return json.Unmarshal(bytes, a) // 注意：PG 数组格式不是 JSON，此处通常依赖 Driver 的自动转换
+}
+
+func (a StringArray) Value() (driver.Value, error) {
+	if len(a) == 0 {
+		return "{}", nil
+	}
+	// 同样，依赖 GORM 传递给 Driver
+	return a, nil
+}
+```
+
+> **👨‍💻 架构师注 (User Entity):**
+>
+> 1. **`CachedRoleCodes`**: 我定义了一个 `StringArray` 类型。虽然现代 GORM (`gorm.io/driver/postgres`) 可以直接把 `[]string` 映射为 `text[]`，但在代码中显式标记类型（甚至未来引入 `lib/pq` 的 `pq.StringArray`）会让类型转换逻辑更健壮，防止驱动更新导致的兼容性问题。
+>     
+> 2. **`json:"-"`**: 再次确认 `PasswordHash` 和 `DeletedAt` 已被隐藏，防止敏感信息泄露。
+
+---
+
+## 📂 2. 认证领域实体
+
+**文件路径:** `internal/auth/entity.go`
+
+```Go
+package auth
+
+import (
+	"time"
+)
+
+// RefreshToken 令牌实体
+// 负责双令牌机制中的长效令牌存储与风控
+// 对应 SQL 表: refresh_tokens
+type RefreshToken struct {
+	ID     int64 `gorm:"column:id;primaryKey;autoIncrement" json:"id"`
+	UserID int64 `gorm:"column:user_id;not null;index" json:"userId"` // 仅存储 ID，保持领域解耦
+
+	// -------------------------------------------------------------------------
+	// 安全核心
+	// -------------------------------------------------------------------------
+	// TokenHash: 存哈希值，防止数据库泄露后 Token 直接被利用
+	TokenHash string `gorm:"column:token_hash;type:text;not null;unique" json:"-"`
+
+	// -------------------------------------------------------------------------
+	// 风控与轮转 (Token Rotation & Risk Control)
+	// -------------------------------------------------------------------------
+	// FamilyID: 标记一整条 Token 链，用于检测重放攻击时级联吊销
+	FamilyID string `gorm:"column:family_id;type:text;not null;index" json:"familyId"`
+
+	// ParentTokenID: 溯源上一个 Token，构建链式关系
+	ParentTokenID string `gorm:"column:parent_token_id;type:text;not null;default:''" json:"parentTokenId"`
+
+	// IsRevoked: 黑名单开关
+	IsRevoked bool `gorm:"column:is_revoked;not null;default:false" json:"isRevoked"`
+
+	// -------------------------------------------------------------------------
+	// 生命周期
+	// -------------------------------------------------------------------------
+	ExpiresAt time.Time `gorm:"column:expires_at;not null" json:"expiresAt"`
+	CreatedAt time.Time `gorm:"column:created_at;not null;default:now()" json:"createdAt"`
+}
+
+// TableName 显式定义表名
+func (RefreshToken) TableName() string {
+	return "refresh_tokens"
+}
+```
+
+> **👨‍💻 架构师注 (Auth Entity):**
+>
+> 1. **领域边界**: 这里没有引入 `User` 结构体指针。在 `auth` 领域内，我们只关心 `UserID`。如果业务逻辑需要获取用户详情（例如封禁检查），应由 `auth.Service` 调用 `user.Service` 或 `user.Repository`，而不是在 Entity 层面强耦合。这符合 Clean Architecture 的原则。
diff --git a/Go项目实战/用户模块/04_业务逻辑功能清单.md b/Go项目实战/用户模块/04_业务逻辑功能清单.md
new file mode 100644
index 0000000..9685da3
--- /dev/null
+++ b/Go项目实战/用户模块/04_业务逻辑功能清单.md
@@ -0,0 +1,88 @@
+---
+tags: []
+aliases:
+  - 04_ 业务逻辑功能清单
+date created: 星期三, 十二月 10日 2025, 12:04:34 凌晨
+date modified: 星期三, 十二月 10日 2025, 12:05:53 凌晨
+---
+
+# 04_ 业务逻辑功能清单
+
+## TL;DR (摘要)
+
+- **基础版 (MVP):** 仅满足最基本的“注册 - 登录 - 看自己”流程，适合快速打通前后端联调，但**不符合** PRD 的安全标准。
+- **完整版 (Enterprise):** 严格对应 PRD V1.1，包含双令牌刷新、强制登出、RBAC 提权及管理员封禁功能，符合生产环境安全要求。
+
+---
+
+## 方案一：基础版 (MVP / Prototype)
+
+适用场景: 项目初期快速搭建原型 (PoC)，验证核心业务流程（如文章发布），暂时忽略复杂的安全合规。
+
+局限性: 仅使用单 Access Token（长效），无刷新机制，无法强制踢人下线，无管理员管理界面。
+
+|**模块**|**方法**|**API 路径**|**核心功能描述**|**鉴权要求**|
+|---|---|---|---|---|
+|**Auth**|POST|`/api/v1/register`|用户注册 (仅用户名 + 密码)|无|
+|**Auth**|POST|`/api/v1/login`|用户登录 (返回长效 JWT)|无|
+|**User**|GET|`/api/v1/user/profile`|获取当前登录用户信息|JWT|
+|**User**|PUT|`/api/v1/user/profile`|修改自己的昵称、简介|JWT|
+
+> 自我反驳 (基础版):
+> 此方案虽然简单，但直接违反了 PRD 中 F-AUTH-03 (令牌刷新) 和 F-AUTH-04 (统一登出) 的要求。若项目进入 Alpha 测试阶段，必须立刻废弃此方案，否则存在严重的安全隐患（Token 泄露即完全失控）。
+
+---
+
+## 方案二：完整版 (Enterprise / PRD Compliant)
+
+**适用场景:** 正式开发与生产环境交付。严格遵循“银行级 RBAC”和“双令牌”机制。
+
+### 1. 认证服务 (Auth Service) - 公开/基础域
+
+对应 PRD 章节: 2.1 认证与鉴权模块
+
+|**需求编号**|**方法**|**API 路径**|**功能描述**|**输入参数**|**鉴权**|
+|---|---|---|---|---|---|
+|**F-AUTH-01**|POST|`/api/v1/auth/register`|用户注册 (密码需 Hash 存储)|`username`, `password`|无|
+|**F-AUTH-02**|POST|`/api/v1/auth/login`|登录 (颁发 Access + Refresh Token)|`username`, `password`|无|
+|**F-AUTH-03**|POST|`/api/v1/auth/refresh`|**令牌刷新** (旧换新，防复用机制)|`refresh_token`|无|
+|**F-AUTH-04**|POST|`/api/v1/auth/logout`|**统一登出** (将 Refresh Token 加入黑名单)|`refresh_token`|JWT|
+|**F-AUTH-05**|POST|`/api/v1/auth/password`|**重置密码** (成功后吊销所有 Token)|`old_pwd`, `new_pwd`|JWT|
+
+### 2. 用户自服务 (User Self-Service) - 个人域
+
+对应 PRD 章节: 2.2 用户与权限模块 (F-USER-01)
+
+|**需求编号**|**方法**|**API 路径**|**功能描述**|**备注**|**鉴权**|
+|---|---|---|---|---|---|
+|**F-USER-01**|GET|`/api/v1/users/me`|获取我的详细资料|**建议增加 Redis 缓存**|JWT|
+|**F-USER-01**|PUT|`/api/v1/users/me`|修改资料 (昵称, 头像 URL, 简介)|更新后需清除缓存|JWT|
+
+### 3. 管理员运维 (Admin Dashboard) - 管理域
+
+对应 PRD 章节: 2.2 用户与权限模块 (F-USER-02, F-RBAC-01)
+
+|**需求编号**|**方法**|**API 路径**|**功能描述**|**关键逻辑**|**鉴权**|
+|---|---|---|---|---|---|
+|**F-USER-02**|GET|`/api/v1/admin/users`|**用户列表查询**|支持分页、按用户名搜索、按状态筛选|**Admin Only**|
+|**F-USER-02**|PATCH|`/api/v1/admin/users/:id/status`|**封禁/解封用户**|修改状态为 `active`/`banned`，若封禁需强制踢下线|**Admin Only**|
+|**F-RBAC-01**|PATCH|`/api/v1/admin/users/:id/role`|**角色变更 (提权)**|修改角色为 `editor`/`admin`|**Admin Only**|
+
+---
+
+## 关键设计决策说明 (Technical Decisions)
+
+1. **关于 PATCH vs PUT:**
+    
+    - 在**完整版**的管理接口中，我使用了 `PATCH` 而不是 `PUT`。
+    - **理由:** `PUT` 语义上是全量替换。在修改用户状态（如封禁）或角色时，我们只修改单个字段，使用 `PATCH` 更符合 RESTful 语义，且能避免管理员无意中覆盖了用户的其他信息（如昵称）。
+        
+2. **关于路径设计 (URI Design):**
+    
+    - 区分了 `/users/me` (当前用户) 和 `/admin/users/:id` (管理特定用户)。
+    - **理由:** 这种分离能清晰地界定权限边界。`/me` 接口永远不需要传 ID（从 Token 解析），杜绝了普通用户通过遍历 ID 窃取他人信息的越权风险 (IDOR)。
+        
+3. **关于缓存 (Cache):**
+    
+    - **自我反驳:** 虽然 PRD 建议对 `/profile` 进行缓存，但在 API 定义阶段不需要体现在 URL 上。
+    - **补充:** 但作为后端设计，你需要在 `GET /users/me` 的 Controller 层实现 Cache-Aside 模式（先查 Redis，无则查 DB 并回写）。
diff --git a/Go项目实战/通用上下文.md b/Go项目实战/通用上下文.md
new file mode 100644
index 0000000..ea9e09a
--- /dev/null
+++ b/Go项目实战/通用上下文.md
@@ -0,0 +1,960 @@
+---
+tags: []
+aliases:
+  - Project Context Aggregation
+date created: 星期三, 十二月 10日 2025, 12:10:59 凌晨
+date modified: 星期三, 十二月 10日 2025, 12:06:29 中午
+---
+
+# Project Context Aggregation
+
+> Source Items: 6
+
+# ⚙️ Go 模块根路径约束 (Module Root Path Constraint)
+
+**核心约束:**
+
+- **项目 Go Module 路径 (Root Path):** `gitea-aliyun/Klein/enterprise-cms-core`
+- **用途:** 所有内部导入（Internal Imports）必须以此路径作为前缀。
+- **示例:**
+    - **错误:** `import "internal/pkg/ecode"`
+    - **正确:** `import "gitea-aliyun/Klein/enterprise-cms-core/internal/pkg/ecode"`
+
+**AI 约束实施规则:**
+
+1. 在生成任何包含 `import` 语句的代码时，必须检查并使用上述 Root Path。
+2. 若代码位于 `internal` 目录下，且引用了另一个 `internal` 目录下的包，必须使用完整的 Root Path。
+
+==== 00_ 软件产品全生命周期管理规范.md ====
+
+```markdown
+---
+tags: []
+aliases:
+  - 📘 软件产品全生命周期管理规范 (PDLC Guidelines)
+date created: 星期日, 十二月 7日 2025, 12:49:19 下午
+date modified: 星期日, 十二月 7日 2025, 12:49:54 下午
+---
+这是一个通用的、标准化的《互联网软件产品全生命周期（PDLC）管理规范》。此文档旨在为从灵感到交付的全过程提供顶层指导，适用于中大型项目或追求工程卓越的小型团队。
+
+---
+
+# 📘 软件产品全生命周期管理规范 (PDLC Guidelines)
+
+版本: 2.0 (通用标准版)
+
+适用范围: 全栈开发、SaaS 产品、企业级应用系统
+
+核心目标: 降低不确定性，确保交付质量，实现可预测的工程化产出。Shutterstock
+
+---
+
+## 阶段概览 (Phase Overview)
+
+我们将产品落地过程划分为 7 个核心阶段（P0 - P6）。每个阶段都有明确的准入（Entry）和准出（Exit）标准。
+
+|**阶段代号**|**阶段名称**|**核心角色**|**关键产出物**|
+|---|---|---|---|
+|**P0**|**立项与价值验证 (Inception)**|PM, Tech Lead, Stakeholder|BRD, 可行性分析报告|
+|**P1**|**需求定义与原型 (Definition)**|PM, UI/UX|PRD, 原型图 (Figma)|
+|**P2**|**技术方案设计 (Technical Design)**|Architect, Backend, Frontend|TDD, API 契约, ER 图|
+|**P3**|**开发与实现 (Development)**|Developers|源代码, 单元测试|
+|**P4**|**质量保障与验证 (Verification)**|QA, Developers|测试报告, Bug 清单|
+|**P5**|**发布与部署 (Release)**|DevOps, Tech Lead|镜像, Release Note|
+|**P6**|**运维与迭代 (Operations)**|SRE, Ops, PM|监控面板, 运营数据报告|
+
+---
+
+## 📅 详细阶段拆解
+
+### P0: 立项与价值验证 (Inception & Strategy)
+
+**目的:** 明确“为什么要做”。防止团队在伪需求或技术不可行的方向上浪费资源。
+
+- **主要工作:**
+    
+    1. **商业需求分析:** 确定业务痛点、目标用户及商业价值。
+    2. **技术可行性预研 (PoC):** 针对关键技术难点（如 AI 模型效果、高并发瓶颈）进行快速验证。
+    3. **资源评估:** 粗略估算所需人力、时间及服务器成本。
+        
+- **关键产出 (Artifacts):**
+    - `BRD (Business Requirement Document)`：商业需求文档。
+    - `PoC Demo`：概念验证原型（如有必要）。
+- **决策门 (Gate):** **Go / No-Go**。如果 ROI（投入产出比）过低，在此阶段终止。
+
+### P1: 需求定义与产品设计 (Product Definition)
+
+**目的:** 明确“要做成什么样”。将模糊的想法转化为具象的功能逻辑和视觉形态。
+
+- **主要工作:**
+    
+    1. **需求细化:** 编写详细的功能列表、用户故事 (User Stories) 和验收标准 (AC)。
+    2. **交互设计 (UX):** 绘制用户流程图 (User Flow)、低保真线框图。
+    3. **视觉设计 (UI):** 输出高保真设计稿、UI 切图、设计规范 (Design System)。
+        
+- **关键产出 (Artifacts):**
+    - `PRD (Product Requirement Document)`：产品需求规格说明书（唯一真理来源）。
+    - `Figma/Sketch Files`：高保真设计稿。
+- **决策门 (Gate):** **需求评审 (PRD Review)**。开发团队确认需求逻辑闭环，无歧义。
+
+### P2: 技术方案设计 (Technical Design)
+
+**目的:** 明确“怎么实现”。**这是程序员最重要的规划阶段，严禁跳过此阶段直接编码。**
+
+- **主要工作:**
+    
+    1. **架构设计:** 确定微服务拆分、技术选型、中间件依赖（Redis/MQ/DB）。
+    2. **数据建模 (Schema Design):** 绘制 ER 图，编写 DDL (SQL 建表语句)，确定索引策略。
+    3. **接口定义 (API Contract):** 定义 URL、Method、Request/Response JSON 结构、错误码。
+    4. **详细设计 (TDD):** 核心算法逻辑、状态机流转图、时序图、缓存策略设计。
+        
+- **关键产出 (Artifacts):**
+    - `TDD (Technical Design Document)`：技术设计文档。
+    - `ER Diagram & SQL Scripts`：数据库模型与迁移脚本。
+    - `OpenAPI/Swagger Spec`：API 接口定义文档。
+- **决策门 (Gate):** **技术评审 (Design Review)**。架构师或 Tech Lead 确认方案具备扩展性、安全性及性能达标。
+
+### P3: 开发与实现 (Implementation)
+
+**目的:** 将设计转化为代码。注重代码质量与规范。
+
+- **主要工作:**
+    
+    1. **环境准备:** 本地开发环境搭建、Mock 数据生成。
+    2. **编码 (Coding):** 后端 API 开发、前端组件开发、业务逻辑实现。
+    3. **单元测试 (Unit Test):** 编写核心逻辑的单元测试，确保覆盖率。
+    4. **代码审查 (Code Review):** 提交 Merge Request，进行同行评审。
+        
+- **关键产出 (Artifacts):**
+    - `Source Code`：符合规范的源码。
+    - `Unit Test Report`：单元测试通过报告。
+- **决策门 (Gate):** **代码合并 (Merge)**。CI 流水线检查通过（Lint, Test, Build）。
+
+### P4: 质量保障与验证 (Quality Assurance)
+
+**目的:** 确保交付物符合需求且无重大缺陷。
+
+- **主要工作:**
+    
+    1. **集成测试:** 前后端联调，确保接口数据交互正常。
+    2. **系统测试:** QA 团队根据测试用例进行全量测试。
+    3. **非功能测试:** 性能测试 (Load Test)、安全扫描 (Security Scan)。
+    4. **Bug 修复:** 开发修复 QA 发现的问题并回归。
+        
+- **关键产出 (Artifacts):**
+    - `Test Cases`：测试用例。
+    - `Bug List`：缺陷清单及修复记录。
+    - `Performance Report`：压测报告（可选）。
+- **决策门 (Gate):** **验收评审 (UAT)**。Bug 清零或无 P0/P1 级 Bug，PM 验收通过。
+
+### P5: 发布与部署 (Release & Deployment)
+
+**目的:** 安全、平滑地将产品推向生产环境。
+
+- **主要工作:**
+    
+    1. **构建交付:** 编译二进制文件、构建 Docker 镜像。
+    2. **预发布验证 (Staging):** 在仿真环境中进行最后一次冒烟测试。
+    3. **正式部署 (Production):** 灰度发布 (Canary) 或 蓝绿部署，执行数据库迁移。
+    4. **回滚预案:** 准备好一旦失败的一键回滚脚本。
+        
+- **关键产出 (Artifacts):**
+    - `Release Note`：发布说明（变更日志）。
+    - `Docker Image / Binaries`：制品。
+- **决策门 (Gate):** **上线检查清单 (Checklist)**。确认配置、密钥、数据库备份均已就绪。
+
+### P6: 运维与持续迭代 (Operations & Maintenance)
+
+**目的:** 保障系统稳定性，根据反馈进行优化。
+
+- **主要工作:**
+    
+    1. **监控告警:** 配置 CPU/内存、QPS、错误率监控，设置 PagerDuty 告警。
+    2. **日志审计:** 收集与分析运行日志 (ELK/Loki)。
+    3. **数据复盘:** 分析用户行为数据，验证 P0 阶段的商业假设。
+    4. **事故复盘 (Post-mortem):** 若发生故障，撰写复盘报告，制定改进措施。
+        
+- **关键产出 (Artifacts):**
+    - `SLA Report`：服务可用性报告。
+    - `User Analytics`：用户数据分析报表。
+
+---
+
+## ⚙️ 关键支撑体系 (Supporting Pillars)
+
+除了上述流程，以下三个支撑体系贯穿始终：
+
+1. **项目管理 (Project Management):** 使用 Jira/Trello 管理任务看板，每日站会同步进度，识别风险。
+2. **配置管理 (Configuration Management):** 代码版本控制 (Git Flow)，环境配置隔离 (Env Vars)。
+3. **文档工程 (Documentation):** 保持 BRD, PRD, API 文档与代码的同步更新，避免“文档腐烂”。
+```
+
+==== 关于个人开发者的开发模式.md ====
+
+```markdown
+---
+tags: []
+aliases:
+  - 渐进式开发最佳实践
+date created: 星期一, 十二月 8日 2025, 12:04:31 凌晨
+date modified: 星期一, 十二月 8日 2025, 12:05:12 凌晨
+---
+
+# 渐进式开发最佳实践
+
+## 1. 必须在写代码前锁定的“硬约束” (The Non-Negotiables)
+
+即使是后规划细节，但这 **4 样东西** 是一旦开工就很难改的，必须在骨架阶段定死：
+
+1. **目录结构 (Directory Layout):** `cmd`, `internal`, `pkg` 怎么分。这决定了你能不能顺畅地加代码。
+    
+    - _现状:_ 我们已经定好了 (Modular Clean Architecture)。
+        
+2. **核心技术栈与基础设施:** 选 Gin 还是 Echo，用 GORM 还是 SQLX，依赖注入用 Wire 还是手写。
+    
+    - _现状:_ 我们已经定好了 (Gin+GORM+Wire+Viper)。
+        
+3. **统一的交互规范:** API 怎么返回错误？数据库怎么管理变更？日志打在哪里？
+    
+    - _现状:_ 我们已经定好了 (JSON Envelope, Golang-Migrate, Zap)。
+        
+4. **核心领域模型 (Core Schema):** 最关键的表（User, Role）。
+    
+    - _原因:_ 它们是系统的地基，地基不稳，后面写 Service 逻辑会反复推倒重来。
+
+---
+
+## 2. 可以（且应该）推迟设计的“软逻辑” (The Deferrables)
+
+这些内容不要现在想，想了也是白想，等写到那个函数时再具体的“具体问题具体分析”：
+
+1. **复杂的业务算法:** 比如“文章的热度排名算法”、“复杂的权限递归校验逻辑”。
+    
+    - _策略:_ 先写个 `return true` 或简单的逻辑占位，跑通流程再说。
+        
+2. **极致的性能优化:** 比如“这里要不要加 Redis 缓存？”、“这里 SQL 要不要分表？”。
+    
+    - _策略:_ 先跑通功能 (Make it work)，再优化性能 (Make it fast)。
+        
+3. **非核心字段的定义:** 比如文章表里要不要加 `seo_keywords`，用户表要不要加 `wechat_id`。
+    
+    - _策略:_ 用到了再加 migration，不要为了“未来可能用到”而过度设计。
+        
+4. **具体的 API 参数细节:** 比如“更新文章是传 ID 还是传 UUID”。
+    
+    - _策略:_ 写 Handler 的时候，顺手定义 DTO 就行。
+
+---
+
+## 3. 个人开发者的“曳光弹”开发流 (The Tracer Bullet Workflow)
+
+不要试图“横向”开发（先把所有 50 张表设计完，再把所有 API 定义完）。
+
+要进行 “纵向”切片开发（Vertical Slice）。
+
+**推荐的实操步骤：**
+
+### 第一阶段：搭建“行走的骨架” (Day 1 - 也就是你现在该做的)
+
+**目标：** 一个能跑起来、能连数据库、有日志、有 Swagger 文档，但没有任何业务功能的空壳。
+
+1. **初始化项目:** 建立文件夹，`go mod init`。
+2. **配置基础设施:** 放入 `Makefile`, `docker-compose.yml`, `config.yaml`。
+3. **连通性测试:** 写一个简单的 `GET /ping` 接口，确保能读到配置，能连上 DB，能打出日志。
+4. **依赖注入跑通:** 确保 `wire` 能自动生成代码并启动 Server。
+5. **结果:** 你拥有了一个**“生产级”的 Hello World**。
+
+### 第二阶段：第一个“核心切片” (Day 2-3)
+
+**目标:** 打通 User 模块的完整闭环。
+
+1. **DB:** 设计 `users` 表，执行 Migrate。
+2. **Entity:** 生成 User Struct。
+3. **Repo:** 写 `CreateUser` 和 `FindUser` 的 CRUD。
+4. **Service:** 写 `Register` 逻辑（这里涉及到密码加密，此时再去查 Argon2 怎么用）。
+5. **API:** 定义 `RegisterReq` DTO，写 Handler。
+6. **测试:** 用 Postman/Swagger 调通注册接口。
+
+### 第三阶段：具体问题具体分析 (Day 4+)
+
+**目标:** 遇到什么写什么。
+
+- _场景:_ 比如你做到了“文章发布”，突然发现需要“敏感词过滤”。
+- _动作:_ 停下来，在 `pkg/util` 里设计一个敏感词过滤函数（或者找个库），然后在 Service 层调用它。
+- _这就是你说的:_ “进行到具体的业务逻辑的时候进行设计”。
+
+---
+
+## 4. 总结给你的建议
+
+你现在的焦虑在于试图**预见未来**。
+
+**作为个人开发者，你的代码就是你的设计文档。**
+
+**你的下一步行动：**
+
+1. **停止**思考复杂的业务场景。
+2. **立即**按照我们之前确定的目录结构，新建文件夹。
+3. **立即**把 `docker-compose` 跑起来，把 `main.go` 跑起来。
+4. **立即**实现“用户注册”这一个功能。
+
+只要“骨架”（架构分层、依赖注入、数据库管理方式）是对的，后面你往里面填什么肉（业务逻辑），怎么填，都不会把楼盖歪。
+
+**准备好开始初始化项目文件夹了吗？**
+```
+
+==== 关于项目的顶层设计模式和风格.md ====
+
+```markdown
+---
+tags: []
+aliases:
+  - 🏗️ Project Architecture & Design Guidelines (v1.0)
+date created: 星期日, 十二月 7日 2025, 11:57:43 中午
+date modified: 星期二, 十二月 9日 2025, 11:00:14 晚上
+---
+
+# 🏗️ Project Architecture & Design Guidelines (v1.0)
+
+项目代号: Enterprise-CMS-Core
+
+架构风格: 模块化整洁架构 (Modular Clean Architecture)
+
+核心原则: 实用主义 (Pragmatic)、Go 原生思维 (Idiomatic)、领域驱动 (DDD-Lite)
+
+## 1. 技术栈约束 (Tech Stack Constraints)
+
+- **Language:** Go 1.21+
+- **Web Framework:** Gin
+- **Database:** PostgreSQL (Primary), Redis (Cache)
+- **ORM:** GORM (With Migration Tools)
+- **Dependency Injection:** Google Wire
+- **Configuration:** Viper (YAML)
+- **Observability:** Zap (Log), Prometheus (Metrics), Jaeger (Trace)
+- **Documentation:** Swagger / OpenAPI 3.0
+
+---
+
+## 2. 目录结构规范 (Directory Structure)
+
+采用 **“按领域分包 (Package by Domain)”** 的扁平化结构，而非传统的按层分包。
+
+```Plaintext
+root/
+├── cmd/server/
+│   ├── main.go             # 仅包含 wire 初始化与 app.Run()
+│   └── wire.go             # 顶层依赖注入定义
+├── config/                 # 配置文件模板 (config.yaml)
+├── internal/
+│   ├── api/                # [API层] 全局通用的 HTTP DTO (Request/Response)
+│   ├── middleware/         # [中间件] Gin 中间件 (Auth, CORS, Logger)
+│   ├── pkg/                # [基础设施] 内部通用组件 (AppResult, ErrorCode)
+│   │
+│   │   # --- 核心业务领域 (Domain Modules) ---
+│   │   # 每个领域包内部扁平化，自包含所有逻辑
+│   ├── user/               # [示例] 用户领域
+│   │   ├── entity.go       # 核心实体 (GORM Model)
+│   │   ├── repository.go   # 仓储接口定义 + GORM 实现
+│   │   ├── service.go      # 业务逻辑 (Service Struct)
+│   │   ├── handler.go      # HTTP 控制器 (Controller)
+│   │   └── provider.go     # Wire ProviderSet
+│   │
+│   └── article/            # [示例] 文章领域 (结构同上)
+│
+├── pkg/                    # [外部库] 可抽离的通用工具 (Hash, JWT, Logger封装)
+├── migrations/             # 数据库迁移 SQL 文件 (up/down)
+├── go.mod
+└── Makefile
+```
+
+---
+
+## 3. 核心架构设计规则 (Architectural Rules)
+
+### 3.1. 依赖倒置与注入 (IoC & DI)
+
+- **规则:** 严禁在业务代码中手动 `New()` 依赖对象。
+- **实现:** 所有依赖关系必须通过 `NewStruct(dep Interface)` 构造函数声明，并由 `Google Wire` 在编译期自动组装。
+- **模块化注入:** 每个领域包（如 `internal/user`）必须包含一个 `provider.go`，导出 `var ProviderSet = wire.NewSet(…)`，供顶层 `cmd/server/wire.go` 聚合。
+
+### 3.2. 接口策略 (Interface Strategy)
+
+- **Repository (必须):** 仓储层**必须**定义接口（例如 `UserRepository`），以支持 Mock 测试和数据库切换。
+- **Service (按需):** 默认**不需要**定义 Service 接口，直接使用 Struct。仅在以下情况提取接口：
+    
+    1. 出现循环依赖。
+    2. 需要对 Service 进行 Mock 测试。
+    3. 该 Service 存在多种策略实现（如 `PaymentService` 有支付宝/微信两种实现）。
+
+### 3.3. 领域包扁平化 (Flat Domain Package)
+
+- **规则:** 在 `internal/user/` 等领域包内，**不再**建立 `service/`, `repo/` 子目录。
+- **原因:** 利用 Go 的 `package` 级私有可见性，隐藏领域内部细节（如辅助函数、内部 DTO），仅暴露必要的 Handler 和 Service 方法。
+
+### 3.4. 数据模型 (Model Vs Entity)
+
+- **策略:** 采用 **"Pragmatic Entity"** 模式。
+- **定义:** `entity.go` 中的结构体既是业务实体，也是 GORM 模型（带 `gorm:"…"` 标签）。
+- **例外:** 只有当数据库存储结构与业务逻辑结构差异巨大时，才在 Repository 内部引入独立的 PO (Persistent Object) 并进行转换。
+
+---
+
+## 4. 编码实施标准 (Implementation Standards)
+
+### 4.1. 错误处理 (Error Handling)
+
+- **禁止:** 严禁直接返回 `error` 字符串给前端。
+- **必须:** Service 层返回标准 `error`，Controller 层通过 `pkg/app` 将其转换为统一响应格式。
+- **格式:**
+
+    ```Go
+    // Response JSON
+    {
+        "code": 20001,
+        "msg": "User already exists",
+        "data": null
+    }
+    ```
+
+### 4.2. 数据库交互 (Database Interaction)
+
+- **禁止:** Controller 层严禁导入 `gorm` 包，严禁执行 SQL。
+- **迁移:** 生产环境严禁使用 `AutoMigrate`。必须使用 `migrations/` 目录下的版本化 SQL 脚本进行变更。
+
+### 4.3. 路由注册 (Router Registration)
+
+- **规则:** 路由不再集中管理。
+- **实现:** 每个领域包暴露一个 `RegisterRoutes(r *gin.RouterGroup)` 方法。在 `main.go` 启动时，统一调用各模块的注册方法。
+
+---
+
+## 5. AI 编程指令 (Instruction for AI Agent)
+
+> **当作为 AI 助手编写代码时，请严格遵守以下指令：**
+
+1. **Context Check:** 在生成代码前，检查当前目录结构是否符合 `Section 2`。如果不符，请优先建议重构或遵循现有结构。
+2. **No Logic Leak:** 确保 HTTP 处理逻辑（解析参数、校验参数）留在 `handler.go`，业务规则（判断权限、计算）留在 `service.go`，SQL 操作留在 `repository.go`。
+3. **Wire Awareness:** 每当新增 Service 或 Repository，必须自动更新同目录下的 `provider.go`，并在 `cmd/server/wire.go` 中检查是否需要重新生成。
+4. **Testability:** 编写 Repository 代码时，优先考虑“如何 Mock”。
+
+```bash
+
+==== 规范数据库设计 & 变更管理及工程流操作.md ====
+```markdown
+---
+tags: []
+aliases:
+  - 🛠️ Database Engineering & Migration Standard (v1.0)
+date created: 星期日, 十二月 7日 2025, 10:31:59 晚上
+date modified: 星期二, 十二月 9日 2025, 10:14:44 晚上
+---
+
+# 🛠️ Database Engineering & Migration Standard (v1.0)
+
+文档用途: 规范数据库设计、变更管理及工程流操作。
+
+适用范围: 所有涉及 Schema 变更的后端开发任务。
+
+核心原则: Code First (Logic) but SQL First (Schema). 严禁生产环境使用 ORM 自动建表。
+
+---
+
+## 1. 基础设施与工具链 (Infrastructure & Tools)
+
+本项目采用 **“容器化数据库 + 版本化迁移工具”** 的架构。
+
+| **组件**          | **选型**             | **说明**                                    |
+| --------------- | ------------------ | ----------------------------------------- |
+| **Database**    | **PostgreSQL 15+** | 运行于 Docker 容器中，保证开发/生产环境一致。               |
+| **Schema Mgmt** | **Golang-Migrate** | CLI 工具，用于生成和执行版本化 SQL 脚本。                 |
+| **GUI Client**  | **Navicat**        | 推荐 Navicat / DataGrip / DBeaver，仅用于设计和验证。 |
+| **Automation**  | **Make**           | 封装常用命令，屏蔽底层复杂参数。                          |
+
+### 1.1 目录结构规范
+
+Plaintext
+
+```bash
+project-root/
+├── migrations/                 # [Source of Truth] 存放所有 SQL 变更文件
+│   ├── 000001_init_users.up.sql
+│   └── 000001_init_users.down.sql
+├── internal/
+│   └── {domain}/               # 领域包
+│       └── entity.go           # [Code Mapping] GORM 结构体定义
+├── docker-compose.yml          # 定义本地 DB 容器
+└── Makefile                    # 集成迁移命令
+```
+
+---
+
+## 2. 数据库设计规范 (Design Standards)
+
+### 2.1 命名约定
+
+- **表名:** 必须使用**复数**形式，`snake_case` (e.g., `users`, `order_items`).
+- **字段名:** 全小写，`snake_case` (e.g., `created_at`, `user_id`).
+- **索引名:**
+    - 普通索引: `idx_tablename_column`
+    - 唯一索引: `uniq_tablename_column`
+- **外键名:** `fk_tablename_ref_tablename`
+
+### 2.2 关键字段约束
+
+所有业务表**必须**包含以下基础字段：
+
+```SQL
+id          BIGSERIAL PRIMARY KEY, -- 或 UUID
+created_at  TIMESTAMPTZ NOT NULL DEFAULT NOW(),
+updated_at  TIMESTAMPTZ NOT NULL DEFAULT NOW(),
+deleted_at  TIMESTAMPTZ            -- 仅在需要软删除时添加
+```
+
+### 2.3 设计禁忌
+
+1. **严禁** 使用物理外键的级联删除 (`ON DELETE CASCADE`)，除非是关联性极强的子表（如文章标签关联）。核心业务数据必须使用 `ON DELETE RESTRICT`。
+2. **严禁** 在涉及金额的字段使用 `FLOAT` 或 `DOUBLE`，必须使用 `DECIMAL` 或 `BIGINT` (分)。
+3. **严禁** 将 `NULL` 作为布尔值的第三种状态。布尔字段必须设置 `NOT NULL DEFAULT FALSE`。
+
+---
+
+## 3. 标准作业流程 (SOP)
+
+开发人员需严格遵循以下 **5 步闭环** 进行数据库变更：
+
+### Step 1: 启动环境
+
+确保本地 Docker 数据库正在运行。
+
+```Bash
+make network  # 对应 docker-compose up -d
+```
+
+### Step 2: 创建迁移文件 (Create)
+
+使用 Makefile 生成成对的 `.sql` 文件（up/down）。
+
+- `name` 参数应简短描述变更内容（如 `add_avatar_to_users`）。
+
+```Bash
+make new_migration name=init_schema
+# 输出:
+# Created migrations/000001_init_schema.up.sql
+# Created migrations/000001_init_schema.down.sql
+```
+
+### Step 3: 编写 SQL (Edit)
+
+- **UP 文件:** 填入 `CREATE TABLE`, `ALTER TABLE`, `CREATE INDEX` 等正向操作。
+    - _技巧:_ 可在 GUI 工具中设计好表结构，复制生成的 DDL 语句粘贴至此。
+- **DOWN 文件:** 填入对应的回滚操作（如 `DROP TABLE`, `DROP INDEX`）。
+
+### Step 4: 执行变更 (Apply)
+
+将 SQL 应用到本地数据库。
+
+```Bash
+make migrate_up
+```
+
+_验证:_ 使用 GUI 工具连接数据库，确认表结构已更新。
+
+### Step 5: 代码映射 (Mapping)
+
+在 `internal/{domain}/entity.go` 中编写对应的 Go Struct。
+
+- 确保 `gorm` tag 与数据库定义一致。
+- 确保 `json` tag 符合 API 契约。
+
+---
+
+## 4. 自动化配置 (Automation)
+
+将以下内容固化到项目根目录的 `Makefile` 中。
+
+> **注意:** 确保 `DB_DSN` 与 `docker-compose.yml` 中的配置完全一致。
+
+```Makefile
+# ==============================================================================
+# Database & Migration Logic
+# ==============================================================================
+
+# Database Connection String
+# 格式: postgres://user:password@host:port/dbname?sslmode=disable
+DB_DSN := postgres://postgres:secret@localhost:5432/cms_core?sslmode=disable
+
+.PHONY: network new_migration migrate_up migrate_down migrate_force
+
+# 1. 启动本地环境
+network:
+	docker-compose up -d
+
+# 2. 创建新的迁移文件 (Usage: make new_migration name=create_users)
+new_migration:
+	@if [ -z "$(name)" ]; then echo "Error: name is required"; exit 1; fi
+	migrate create -ext sql -dir migrations -seq $(name)
+
+# 3. 执行所有未执行的迁移 (Up)
+migrate_up:
+	migrate -path migrations -database "$(DB_DSN)" up
+
+# 4. 回滚上一次迁移 (Down 1 step)
+migrate_down:
+	migrate -path migrations -database "$(DB_DSN)" down 1
+
+# 5. 强制修复版本 (当 dirty database 时使用, version 为具体的版本号)
+migrate_force:
+	migrate -path migrations -database "$(DB_DSN)" force $(version)
+```
+
+---
+
+## 5. 故障排查 (Troubleshooting)
+
+**Q: 执行 migrate_up 时报错 "Dirty database version x".**
+
+- **原因:** 上一次迁移执行到一半失败了（可能是 SQL 语法错误），导致版本锁死。
+- **解决:**
+    
+    1. 手动修复 SQL 文件中的语法错误。
+    2. 执行 `make migrate_force version=x` (x 是失败前的那个版本号)。
+    3. 再次执行 `make migrate_up`。
+
+**Q: 多人协作时产生版本冲突。**
+
+- **现象:** 你有一个 `0003_add_xx.up.sql`，同事提交代码后也有一个 `0003_add_yy.up.sql`。
+- **解决:** 重命名你的迁移文件编号为 `0004`，确保序列号在时间轴上是递增且唯一的。
+
+```bash
+
+==== 七七八八的接口设计相关问题.md ====
+```markdown
+---
+tags: []
+aliases:
+  - 1. 接口版本控制策略 (API Versioning Strategy)
+date created: 星期日, 十二月 7日 2025, 11:38:52 晚上
+date modified: 星期日, 十二月 7日 2025, 11:42:18 晚上
+---
+
+# 七七八八的接口设计相关问题
+
+## 1. 接口版本控制策略 (API Versioning Strategy)
+
+**核心问题：** 当你发布了 V1 版本后，某天需要修改接口字段（比如把 `name` 拆分为 `first_name` 和 `last_name`），如何保证老版本的 App 不会崩溃？
+
+**三种主流流派：**
+
+1. **URI Path Versioning (推荐):**
+    
+    - **格式:** `https://api.example.com/v1/users`
+    - **优点:** 直观、易于调试、缓存友好。这也是 GitHub, Twitter, Google API 采用的主流方案。
+    - **落地:** 我们在 Gin 的 Router Group 中直接体现：
+
+        Go
+
+        ```bash
+        v1 := r.Group("/api/v1")
+        {
+            v1.GET("/users", ...)
+        }
+        ```
+
+2. **Header Versioning:**
+    
+    - **格式:** Header 中添加 `Accept: application/vnd.myapi.v1+json`
+    - **优点:** URL 干净。
+    - **缺点:** 调试麻烦（浏览器直接访问 URL 看不到结果），CDN 缓存配置复杂。**不推荐 MVP 阶段使用。**
+        
+3. **Query Parameter:**
+    
+    - **格式:** `/users?version=1`
+    - **评价:** 看起来很土，通常不用于 RESTful API。
+
+**👉 你的策略：** 坚定选择 **URI Path Versioning (`/api/v1`)**。只在发生**破坏性变更 (Breaking Change)** 时才升级到 v2。新增字段不算破坏性变更，不需要升级版本。
+
+---
+
+## 2. HTTP 方法的精准语义 (Verbs Semantics)
+
+很多新手只会用 `GET` 和 `POST`。企业级 API 必须精准区分以下方法的含义：
+
+|**方法**|**语义**|**幂等性 (Idempotency)**|**典型场景**|
+|---|---|---|---|
+|**GET**|获取资源|✅ 是|获取文章列表、详情|
+|**POST**|新建资源|❌ 否|发布新文章、提交评论|
+|**PUT**|**全量替换**资源|✅ 是|修改文章（客户端发送文章的完整 JSON，没传的字段会被置空）|
+|**PATCH**|**局部更新**资源|❌ 否 (理论上)|修改文章状态（只传 `{"status": "published"}`，其他字段不变）|
+|**DELETE**|删除资源|✅ 是|删除文章|
+
+⚠️ 重点关注 PUT vs PATCH:
+
+在 Go 语言中实现 PATCH 有点麻烦（因为 Go 的结构体默认值问题，你很难区分用户是传了 0 还是没传这个字段）。
+
+- **最佳实践:** 对于 CMS 这种表单复杂的系统，**修改接口首选 `PUT` (全量)**，或者针对特定状态修改提供独立接口（如 `POST /articles/:id/publish`）。如果必须做 `PATCH`，DTO 需使用指针类型 `*string` 来判断是否为 `nil`。
+
+---
+
+## 3. RESTful URL 设计模式 (Resource Naming)
+
+**原则：URL 中只出现名词，不出现动词。**
+
+- ❌ **反例 (RPC 风格 - 不要这么做):**
+    - `/api/getUsers`
+    - `/api/createUser`
+    - `/api/deleteArticle?id=1`
+- ✅ **正例 (REST 风格):**
+    - `GET /api/v1/users` (获取列表)
+    - `POST /api/v1/users` (创建)
+    - `DELETE /api/v1/articles/1` (删除 ID 为 1 的文章)
+
+**复杂关系的嵌套设计：**
+
+- _场景:_ 获取某篇文章下的评论。
+- _设计:_ `GET /api/v1/articles/{article_id}/comments`
+- _场景:_ 获取某个作者的所有文章。
+- _设计:_ `GET /api/v1/users/{user_id}/articles`
+
+---
+
+## 4. 列表接口三剑客：分页、排序、筛选 (Pagination, Sorting, Filtering)
+
+你的 CMS 一定会有“文章列表”页面，这个接口是最复杂的。不要为每种查询都写一个新接口，要设计一个**通用的查询接口**。
+
+**最佳实践标准：**
+
+1. **分页 (Pagination):**
+    
+    - 使用 `page` (页码) 和 `page_size` (每页条数)。
+    - URL 示例: `/articles?page=2&page_size=20`
+    - **注意:** 要限制 `page_size` 的最大值（如 100），防止恶意用户一次请求 100 万条数据把数据库打挂。
+        
+2. **排序 (Sorting):**
+    
+    - 使用 `sort` 参数。`-` 代表降序，无符号代表升序。
+    - URL 示例: `/articles?sort=-created_at` (按创建时间倒序)
+    - URL 示例: `/articles?sort=view_count,-created_at` (先按浏览量升序，再按时间倒序)
+        
+3. **筛选 (Filtering):**
+    
+    - 直接使用字段名作为参数。
+    - URL 示例: `/articles?category_id=1&status=published`
+
+---
+
+## 5. 状态码与错误处理 (Status Codes & Error Handling)
+
+**不要永远只返回 200 OK！**
+
+前端开发最恨的就是：HTTP 状态码是 200，结果 Body 里写着 `{"code": 500, "msg": "Error"}`。这会让监控系统失效。
+
+**你需要遵守的“HTTP 状态码地图”：**
+
+- **2xx (成功):**
+    - `200 OK`: 通用成功。
+    - `201 Created`: 创建成功 (POST 返回)。
+    - `204 No Content`: 删除成功 (DELETE 返回，不带 Body)。
+- **4xx (客户端错误 - 前端背锅):**
+    - `400 Bad Request`: 参数校验失败（如邮箱格式不对）。
+    - `401 Unauthorized`: 未登录/Token 过期。
+    - `403 Forbidden`: 登录了，但没权限（如普通用户想删文章）。
+    - `404 Not Found`: 资源不存在。
+- **5xx (服务端错误 - 你背锅):**
+    - `500 Internal Server Error`: 代码崩了/数据库挂了。
+
+统一错误响应格式 (JSON Envelope):
+
+无论发生什么错误，Body 必须保持结构一致，方便前端拦截：
+
+JSON
+
+```bash
+{
+  "code": 40001,           // 业务错误码 (你在 pkg/e 定义的)
+  "message": "标题已存在",   // 给用户看的提示
+  "request_id": "abc-123"  // 方便查日志的 Trace ID
+}
+```
+
+---
+
+## 6. 进阶知识：幂等性 (Idempotency)
+
+**概念：** 用户因为网络卡顿，连续点击了 3 次“发布文章”按钮，你的系统会创建 1 篇文章还是 3 篇？
+
+- **非幂等:** `POST`。点 3 次创建 3 篇。
+- **幂等:** `PUT` / `DELETE`。改 3 次和改 1 次结果一样；删 3 次和删 1 次结果一样（都是没了）。
+
+如何处理 POST 的幂等性？
+
+对于关键业务（如支付、核心数据创建），通常要求前端在 Header 带一个 Idempotency-Key (UUID)。后端 Redis 记录这个 Key，如果短时间内收到相同的 Key，直接返回上次的结果，不执行数据库插入。
+
+(注：MVP 阶段可以先不做，但面试或者做高可靠系统时必须知道)
+
+---
+
+## 总结：在你开始定义 API 之前
+
+请在心中建立这套标准：
+
+1. **URL:** `/api/v1/名词`
+2. **Method:** 查询用 GET，新建用 POST，修改用 PUT，删除用 DELETE。
+3. **List:** 永远记得预留 `page`, `page_size`。
+4. **Response:** 永远返回统一的 JSON 结构，报错必须用 4xx/5xx 状态码。
+
+**准备好了吗？我们可以开始基于这些原则，设计 User 模块的 API 了。**
+
+```bash
+
+==== 产品需求规格说明书 (PRD) - V1.1.md ====
+```markdown
+---
+tags: []
+aliases:
+  - 📝 产品需求规格说明书 (PRD) - V1.1
+date created: 星期日, 十二月 7日 2025, 12:14:41 中午
+date modified: 星期日, 十二月 7日 2025, 12:49:19 下午
+---
+
+# 📝 产品需求规格说明书 (PRD) - V1.1
+
+> **更新日志:**
+>
+> - v1.0: 初始版本，定义功能列表。
+>     
+> - **v1.1:** [2025-12-07] 补充项目战略背景；优化软删除与缓存策略的灵活性；明确长文本存储类型。
+
+项目名称: Enterprise-CMS-Core (企业级内容管理系统核心)
+
+版本: 1.1.0
+
+状态: [✅ 已锁定]
+
+适用对象: 后端开发人员、架构师、测试人员
+
+---
+
+## 1. 项目战略概述 (Strategic Overview)
+
+### 1.1 项目背景与目标
+
+本项目并非单纯为了交付一个 CMS 软件，而是为了构建一个**“Go 语言企业级后端架构样板间”**。
+
+- **核心目标:** 验证并固化一套“模块化整洁架构”工程实践，使其具备**高可维护性**、**可扩展性**和**安全性**。
+- **衍生价值:** 产出的源码将作为团队未来的“SaaS 启动脚手架 (Boilerplate)”，或作为独立的高价值技术资产（源码付费产品）进行商业变现。
+
+### 1.2 核心用户与价值
+
+- **系统管理员 (Admin):** 痛点是“安全与失控风险”。核心价值是提供**银行级的 RBAC 权限控制**，确保没人能越权操作。
+- **内容编辑 (Editor):** 痛点是“流程混乱”。核心价值是提供**状态明确的内容流转机制**（草稿 ->审核 ->发布），防止误发。
+- **二开开发者 (Developer):** 痛点是“屎山代码”。核心价值是提供**清晰的依赖边界**和**开箱即用的基础设施**。
+
+### 1.3 成功指标 (Success Metrics)
+
+1. **业务完整性:** 必须完整支持 3 种标准角色（Admin/Editor/Subscriber）的权限隔离，且文章状态流转无逻辑漏洞。
+2. **工程质量:** 核心业务模块（User/Auth）单元测试覆盖率 > 80%；通过静态代码分析，无循环依赖。
+3. **性能基线:** 在单机 2C4G 配置下，并发 100 QPS 时，API P99 响应时间 < 200ms。
+
+---
+
+## 2. 核心功能范围 (In-Scope)
+
+### 2.1 认证与鉴权模块 (Auth & IAM)
+
+**唯一来源:** 必须使用 JWT 双令牌机制 + RBAC 模型。
+
+- **F-AUTH-01 用户注册:** 仅支持“用户名 + 密码”注册。密码必须经过 Argon2 或 Bcrypt 哈希存储。
+- **F-AUTH-02 用户登录:** 校验账号密码，返回 `Access Token` (短效 15min) 和 `Refresh Token` (长效 7 天)。
+- **F-AUTH-03 令牌刷新:** 使用有效的 Refresh Token 换取新的 Access Token。**旧的 Refresh Token 若被复用需触发安全警报（可选）或直接失效**。
+- **F-AUTH-04 统一登出:** 强制使 Refresh Token 失效（需在 Redis 中建立黑名单或白名单机制）。
+- **F-AUTH-05 密码重置:** 登录状态下修改密码，修改成功后强制吊销所有 Token。
+
+### 2.2 用户与权限模块 (User & RBAC)
+
+**预设角色:** 系统初始化必须包含以下三种角色。
+
+|**角色代码**|**名称**|**权限描述**|
+|---|---|---|
+|`admin`|超级管理员|拥有系统所有权限 (用户管理、角色分配、内容强制删除)。|
+|`editor`|内容编辑|拥有文章发布、审核、标签管理权限。不可管理用户。|
+|`subscriber`|普通用户|仅拥有修改自身资料、发布评论、查看公开文章权限。|
+
+- **F-USER-01 个人资料:** 查询与更新当前登录用户的昵称、头像 URL、简介。
+- **F-USER-02 用户管理 (Admin):** 管理员可查看用户列表，封禁/解封用户状态。
+- **F-RBAC-01 角色分配 (Admin):** 管理员可修改用户的角色（如将 User 提权为 Editor）。
+
+### 2.3 内容核心模块 (CMS Core)
+
+**核心逻辑:** 文章必须包含状态流转。
+
+- **F-ART-01 文章 CRUD:**
+    - **创建:** 默认为 `Draft` (草稿) 状态。
+    - **字段:** 标题、内容、封面图 URL、作者 ID。
+    - **数据类型约束:** 文章内容字段在数据库层面建议使用 `TEXT` 或 `LONGTEXT` 类型，以完整承载 Markdown/HTML 长文本。
+- **F-ART-02 文章状态流转:**
+    - 支持状态: `Draft` (草稿) -> `Pending` (待审核) -> `Published` (已发布) -> `Archived` (归档/软删除)。
+- **F-ART-03 分类与标签:**
+    - 文章必须归属一个分类 (Category)。
+    - 文章可关联多个标签 (Tags)。
+- **F-ART-04 内容审核 (Editor/Admin):**
+    - 拥有审核权限的角色可将 `Pending` 状态的文章改为 `Published` 或驳回至 `Draft`。
+- **F-ART-05 公开检索:**
+    - 仅 `Published` 状态的文章对外接口可见。支持按 分类、标签、标题关键词 搜索。
+
+### 2.4 互动模块 (Interaction)
+
+- **F-CMT-01 评论发布:** 登录用户可对 `Published` 文章发表评论。
+- **F-CMT-02 评论管理:** 作者可删除自己文章下的评论；Admin/Editor 可删除任何违规评论。
+
+---
+
+## 3. 非功能性需求 (Non-Functional Requirements)
+
+**开发人员必须严格遵守以下技术约束：**
+
+### 3.1 数据一致性
+
+- **删除策略 [优化]:** 核心业务数据（用户、文章）原则上必须使用 Soft Delete (`deleted_at` 字段)。
+    - _例外条款:_ 涉及法律合规（如 GDPR 用户遗忘权）或垃圾数据清理时，经系统管理员明确审批操作后，允许提供物理删除接口。
+- **事务:** 文章发布与标签关联必须在同一个 Database Transaction 中完成。
+
+### 3.2 性能与缓存
+
+- **API 响应:** 95% 的请求响应时间需 < 200ms (不含网络延迟)。
+- **缓存策略:**
+    - 建议对 **高频读取且低频修改** 的数据（如用户信息 `/profile`、热门文章详情 `/article/:id`）实施缓存策略。
+    - 具体的缓存实现（Redis Key 设计、TTL 时长、Cache-Aside 或 Write-Through 模式）由开发团队根据实际压测结果灵活调整，不强制硬编码 TTL。
+
+### 3.3 安全性
+
+- **SQL 注入:** 严禁拼接 SQL，必须使用 GORM 参数化查询。
+- **敏感数据:** 密码、RefreshToken 严禁明文出现在日志中。
+- **接口保护:** 除登录、注册、公开文章列表外，所有接口必须通过 JWT 中间件校验。
+
+### 3.4 工程规范
+
+- **Schema:** 数据库表结构变更必须提供 Up/Down SQL 迁移脚本。
+- **Doc:** 所有 API 必须自动生成 Swagger 文档。
+
+---
+
+## 4. 不在范围 (Out of Scope)
+
+**以下功能明确不包含在本次 Phase 1 开发中：**
+
+1. **❌ 第三方登录:** 不做微信/GitHub/Google 登录。
+2. **❌ 消息推送/通知:** 不做系统内通知。
+3. **❌ 文件存储服务 (OSS):** 仅处理 URL 字符串，不处理文件流上传。
+4. **❌ 复杂的富文本处理:** 后端仅存储字符串，不解析 HTML。
+5. **❌ 支付与订单:** 不包含任何电商逻辑。
+
+---
+
+## 5. 核心数据实体关系图 (ER 简述)
+
+- **User** (1) <-> (N) **Article**
+- **User** (1) <-> (N) **Comment**
+- **Article** (1) <-> (N) **Comment**
+- **Article** (N) <-> (1) **Category**
+- **Article** (N) <-> (N) **Tag** (Many-to-Many)
+```
diff --git a/Project_Baseline的深度补全.md b/Project_Baseline的深度补全.md
new file mode 100644
index 0000000..cda9313
--- /dev/null
+++ b/Project_Baseline的深度补全.md
@@ -0,0 +1,272 @@
+---
+tags: []
+aliases:
+  - Project_Baseline 的深度补全
+date created: 星期三, 十一月 19日 2025, 2:12:13 下午
+date modified: 星期三, 十一月 26日 2025, 11:26:23 晚上
+---
+
+# Project_Baseline 的深度补全
+
+## 1. 开发环境与构建生态 (Development Environment & Build Ecology)
+
+- **核心指向**：确立代码“以此为基”运行的所有静态背景。包含操作系统底座、异构编译工具链的特殊性、以及依赖库的边界。
+
+### 1.1 操作系统与内核基座 (OS & Kernel Baseline)
+
+- **覆盖范围**：定义代码运行的最底层软件土壤。重点关注操作系统发行版的特定版本限制、Linux 内核参数配置、以及系统级基础库（如 libc/libstdc++）的兼容性边界。
+- **1.1.1 发行版与内核版本指纹**
+    - 指向：具体的发行版元数据、内核发布号、补丁级别、以及内核构建时的 GCC 版本（防止 `insmod` 版本不匹配）。
+- **1.1.2 内存子系统策略 (Memory Subsystem Policy)**
+    - 指向：大页内存（HugePages）配置、透明大页（THP）状态、虚拟内存交换策略（Swappiness）、Overcommit 策略。
+- **1.1.3 CPU 调度与核心隔离 (CPU Scheduling & Isolation)**
+    - 指向：CPU 亲和性（Affinity）默认策略、隔离核心（Isolcpus）配置、NUMA 节点拓扑、实时调度策略限制。
+- **1.1.4 系统级资源限制 (System Resource Limits)**
+    - 指向：文件句柄限制（Open Files）、栈空间大小（Stack Size）、最大进程数（NPROC）、核心转储（Core Dump）策略。
+- **1.1.5 设备节点与总线映射 (Device Nodes & Bus Mapping)**
+    - 指向：PCIe 地址空间布局（BAR 空间）、设备文件权限（`/dev/*`）、IOMMU 组别状态，IO 调度算法 (I/O Scheduler)。
+- **1.1.6 时间同步服务 (Time Synchronization)**
+	- 雷达系统涉及多板卡协同，OS 层面的时钟源（TSC/HPET）以及 `chrony`/`ptp4l` 的状态决定了打时标的精度。如果 OS 时间漂移，信号处理的时间对齐会出错。
+
+### 1.2 异构编译工具链体系 (Heterogeneous Compiler Toolchain)
+
+  - **覆盖范围**：区分 Host 端 (CPU) 与 Device 端 (GPU) 的差异化编译路径。重点解决“谁来编译什么”以及“它们如何握手”的问题。
+  - **1.2.1 Host 端编译器规范 (Host Compiler Spec)**
+      - 指向：`g++` 的绝对路径、版本指纹、以及它所定义的默认 C++ 标准（`-std=c++11` vs `gnu++14`）。
+  - **1.2.2 Device 端编译器规范 (Device Compiler Spec)**
+      - 指向：`clang++` 的绝对路径、版本、**Corex 后端 Target 标志**（例如 `-x ivcore`）、以及它是如何被 CMake 识别的。
+  - **1.2.3 链接器与加载器配置 (Linker & Loader)**
+      - 指向：`ld` 版本、`rpath` 策略（确保运行时能找到 `libixattn.so` 等非标库）。
+  - **1.2.4 混合编译兼容性 (Hybrid Compilation Compatibility)** \<-- **新增**
+      - 指向：`clang++` 自动引用的 GCC Toolchain 路径（`--gcc-toolchain`）、C++ 标准库的一致性检查、以及强制定义的预处理宏（Macros）。
+
+### 1.3 GPGPU 软件开发套件 (GPGPU SDK & Driver Stack)
+
+  - **覆盖范围**：不仅包含驱动和基础运行时，重点核查数学库、模板库及官方示例代码。
+  - **1.3.1 驱动核心模块状态 (Driver Kernel Modules)**
+      - 指向：`.ko` 模块加载参数、依赖关系（vfio-pci）、以及 `/dev` 设备节点的权限与映射。
+  - **1.3.2 运行时环境与兼容层 (Runtime Environment & Shim Layer)**
+      - 指向：`libcudart.so` 的版本伪装、`libcuda.so` (Driver API) 的存在性、以及动态链接库的真实物理位置。
+  - **1.3.3 管理与监控接口 (Management Interfaces)**
+      - 指向：`ixsmi` 工具的可用性、显存/算力占用查询指令、以及 ECC 错误统计接口（雷达长时运行必需）。
+  - **1.3.4 核心数学加速库 (Core Math Libraries)**
+      - 指向：**FFT (cuFFT)** 和 **BLAS (cuBLAS)** 库的具体存在性、版本号。这是雷达业务的“心脏”。
+  - **1.3.5 开发者头文件与生态 (Developer Headers & Ecosystem)**
+      - 指向：`cuda_runtime.h` 等头文件的位置、内容检查（是原版还是魔改版？），以及 **`thrust/`** 库是否存在。
+  - **1.3.6 官方示例与构建范式 (Official Samples & Build Patterns)**
+      - 指向：SDK 自带 Sample 代码的目录结构、Makefile 写法。这是 AI 学习“如何正确调用 SDK”的唯一真理来源。
+
+### 1.4 构建系统与工程配置 (Build System & Project Configuration)
+
+- **覆盖范围**：定义“源码 -\> 二进制”的自动化流水线。不仅包含 CMake 语法，更包含对异构编译器行为的**强制管控**。
+  - **1.4.1 CMake 核心环境与生成器 (CMake Core & Generator)**
+      - 指向：CMake 最低版本要求 (`cmake_minimum_required`)、生成器类型 (Unix Makefiles vs Ninja)、以及构建目录外构建 (Out-of-source Build) 的强制策略。
+  - **1.4.2 异构编译器编排策略 (Heterogeneous Compiler Orchestration)**
+      - 指向：**如何锁定 Host 编译器** (`CMAKE_CXX_COMPILER`)、**如何传递 Device 编译器路径** (`CLANG_CUDA_COMPILER`)，以及 `project()` 命令定义的语言范围（是仅 `CXX` 还是包含 `CUDA`）。
+  - **1.4.3 编译选项与性能开关 (Compilation Flags & Performance Switches)**
+      - 指向：
+          - **Host 端**：`-O3`, `-march=armv8-a+lse`, `-Wall`。
+          - **Device 端**：`-x ivcore`, `--cuda-gpu-arch`, `-fPIC`。
+          - **宏定义**：`NDEBUG`, `__ILUVATAR__` 等全局宏的管理。
+  - **1.4.4 依赖管理与链接逻辑 (Dependency Management & Linking Logic)**
+      - 指向：头文件搜索路径 (`include_directories` vs `target_include_directories`)、**RPATH 设定** (`CMAKE_INSTALL_RPATH`)、以及 `FindPackage` vs `FetchContent` (如 GTest) 的使用策略。
+  - **1.4.5 产物输出与安装规则 (Artifact Output & Installation Rules)**
+      - 指向：`CMAKE_RUNTIME_OUTPUT_DIRECTORY` (bin 目录)、`make install` 的行为、以及调试符号 (`.debug`) 的剥离策略。
+
+### 1.5 核心依赖库与中间件 (Core Dependencies & Middleware)
+
+- **覆盖范围**：除 OS 和 GPU SDK 外的第三方“军火库”。重点关注 Host 端算法支撑、数据链路传输、以及系统可观测性基础设施。
+  - **1.5.1 系统运行时与 ABI 基线 (System Runtime & ABI Baseline)**
+      - **核心指向**：这是二进制兼容性的底线。不仅要看 `glibc`，还要确认 `libstdc++.so` 包含的符号版本（`GLIBCXX_3.4.x`），防止引入的新库报 "version not found"。同时关注 `zlib` / `openssl` 等基础压缩加密库的版本。
+  - **1.5.2 Host 端信号处理与数学库 (Host Signal Processing & Math Libs)**
+      - **核心指向**：服务于 CPU 端的预处理/后处理算法。重点探测 **FFTW3**（是否存在？是否开启了 NEON 优化？）、**OpenBLAS** 或 **Eigen**。这些库的性能直接决定了 CPU 负载。
+  - **1.5.3 通信、存储与基础设施中间件 (Comm, Storage & Infra Middleware)**
+      - **核心指向**：服务于数据网关和系统健壮性。
+          - **通信**：ZeroMQ/DDS（传输层）、Protobuf/Flatbuffers（协议层）。
+          - **存储**：HDF5/Parquet（用于存原始回波）。
+          - **基建**：spdlog/glog（高性能日志）、yaml-cpp/jsoncpp（配置解析）。
+
+### 1.6 调试、分析与版本控制工具 (Debugging, Profiling & Versioning)
+
+- **覆盖范围**：涵盖从代码质量（内存安全）到性能验证（实时监控），再到大文件管理（Git LFS）的全周期辅助工具。
+  - **1.6.1 异构调试与内存安全 (Heterogeneous Debugging & Memory Safety)**
+      - **核心指向**：确保代码逻辑正确性与内存健壮性。
+      - **内容**：GDB 版本与**远程/异构配置**、C/C++ **内存检测工具（如 Valgrind）**、以及 IDE（如 VSCode）对 GPU 调试的集成状态。
+  - **1.6.2 性能分析与实时监控 (Performance Analysis & Real-time Monitoring)**
+      - **核心指向**：确保代码运行在正确速度并符合实时性要求。
+      - **内容**：GPU 专用 Profiler（如 `ixsmi` 高级功能）、**Linux 内核分析工具（Perf/ftrace）**、以及实时系统负载工具（`htop`、`numa` 监控）。
+  - **1.6.3 版本控制与数据基线管理 (Versioning & Data Baseline Management)**
+      - **核心指向**：确保工程版本与数据的一致性。
+      - **内容**：Git 版本、**Git LFS** (雷达数据/系数文件) 配置、CI/CD 环境中的版本标签规范。
+
+---
+
+---
+
+## 2. 数据接口与通信协议 (Data Interface & Communication Protocols)
+
+- **核心指向**：定义系统的“输入”与“输出”。包含前端 ADC 数据的接入方式、内部模块间的数据流转格式、以及对外的结果分发协议。
+
+### 2.1 原始数据链路与采集协议 (Raw Data Link & Acquisition Protocol)
+
+- **覆盖范围**：定义从雷达前端 ADC/DPU 发送至 Host 端的物理传输机制、链路协商、以及数据包的 L2/L3 层结构。重点关注 PCIe/万兆/自定义高速链路的适配和 JUMBO Frame 的支持状态。
+  - **2.1.1 物理链路层与传输媒介 (Physical Link Layer & Transport Medium)**
+    - **核心指向**：定义 Host 端 NIC（网络接口卡）或采集卡与前端 DPU/ADC 之间的物理连接类型和规格。涵盖光纤/铜缆 SFP 模块类型、端口速率（10G/40G/100G）、PCIe 链路的实际协商速度与带宽（GT/s, Link Width），以及链路协商的自适应或强制模式。
+  - **2.1.2 数据链路层协议与封装 (Data Link Layer Protocol & Encapsulation)**
+    - **核心指向**：定义数据流在 L2/L3 层的协议选择。涵盖是否使用标准 UDP/IP 协议，或者定制的裸 Ethernet/RoCE 协议。重点关注 **JUMBO Frame** 的最大有效载荷（MTU）设置，以及自定义协议头中对雷达单元 ID 和波束 ID 的封装格式。
+  - **2.1.3 NIC 硬件资源与队列管理 (NIC Hardware Resource & Queue Management)**
+    - **核心指向**：定义网络接口控制器（NIC）硬件的性能参数和配置。涵盖网卡 RX/TX **环形缓冲区（Ring Buffer）** 的深度配置、**中断聚合（Interrupt Coalescing）** 的延迟和计数阈值，以及 RX/TX 队列到 CPU 核心的亲和性（Affinity）绑定策略。
+  - **2.1.4 数据包完整性与时序保证 (Packet Integrity & Sequencing Assurance)**
+    - **核心指向**：定义在链路层对数据可靠性的保障机制。涵盖雷达数据包的**序列号（Sequence Number）** 字段、数据包头的 CRC/Checksum 校验、以及对传输层丢包率的实时监控与统计方法。
+  - **2.1.5 DMA 与内核旁路策略 (DMA & Kernel Bypass Strategy)**
+    - **核心指向**：定义从 NIC 硬件接收缓冲区将数据移动到用户态内存的高速策略。涵盖是否使用传统的内核 TCP/UDP 堆栈，还是采用 **DPDK**、**AF\_XDP** 或 **RDMA** 等内核旁路技术实现零拷贝（Zero-copy）的数据路径，以最小化 CPU 参与和内核延迟。
+
+### 2.2 异构 DMA 与内存传输机制 (Heterogeneous DMA & Memory Transfer Mechanism)
+
+- **覆盖范围**：定义 Host CPU 与 Device GPU（智铠 MR-V100）之间的高速、低延迟数据移动策略。重点关注 **零拷贝（Zero-copy）**、**UVA** (统一虚拟寻址) 的利用、以及对 **NUMA 拓扑**的感知，以优化 Node 1 显存访问性能。
+  - **2.2.1 锁页内存管理与分配策略 (Page-Locked/Pinned Memory Management)**
+    - **核心指向**：定义 Host 端内存的分配方式以适配 DMA 引擎。涵盖使用 `cudaMallocHost` 或 `cudaHostRegister` 申请**锁页内存（Pinned Memory）**，以规避 OS 分页机制导致的 DMA 拷贝性能下降。对于雷达高吞吐业务，需定义专用的大块内存池（Memory Pool）以减少频繁申请/释放的系统调用开销。
+  - **2.2.2 异步流水线与计算通信重叠 (Asynchronous Pipelining & Compute-Copy Overlap)**
+    - **核心指向**：定义如何利用 GPU 的独立 Copy Engine 实现“掩盖传输延迟”。涵盖 **CUDA Streams** 的多流设计模式，实现 `H2D` (Host-to-Device) 拷贝、`Kernel` 计算、`D2H` (Device-to-Host) 拷贝的三级流水线并行（Ping-Pong / Double Buffering）。
+  - **2.2.3 NUMA 感知的内存亲和性控制 (NUMA-Aware Memory Affinity Control)**
+    - **核心指向**：针对双路飞腾 S5000C 的特殊架构，定义内存物理位置的约束。强制要求与 GPU 交互的 Host 内存必须分配在 **NUMA Node 1**（即 GPU 所挂载的 CPU 插槽）的本地 DRAM 上，严禁跨 QPI/UPI 总线进行 DMA 传输，以避免带宽减半和延迟抖动。
+  - **2.2.4 统一虚拟寻址与零拷贝技术 (Unified Virtual Addressing & Zero-Copy)**
+    - **核心指向**：利用 Iluvatar SDK 的 UVA 特性，定义特定场景下的免拷贝访问策略。涵盖对于小数据量（如控制参数、波控码）直接让 GPU 通过 PCIe 总线读取 Host 内存（Zero-Copy），以及评估在大数据量回波传输中启用 UVA 的 TLB Miss 风险与收益。
+  - **2.2.5 传输粒度与 TLP 效率优化 (Transfer Granularity & TLP Efficiency)**
+    - **核心指向**：定义 DMA 传输的最小数据块大小（Batch Size）。基于 PCIe 协议的 **TLP (Transaction Layer Packet)** 开销和 **MPS (Max Payload Size)** 限制（审计发现仅 128/256 Bytes），计算最优的传输粒度（如按 CPI 或 Pulse Batch），以最大化 PCIe 有效载荷比率。
+  - **2.2.6 显存布局与对齐约束 (VRAM Layout & Alignment Constraints)**
+    - **核心指向**：定义数据在显存中的物理排列。涵盖满足 GPU 内存控制器 **Coalesced Access (合并访问)** 要求的首地址对齐（通常为 128/256 字节对齐）、Padding 填充策略，以及多通道雷达数据的存储格式（SoA vs AoS）转换逻辑，以适配 SIMT 计算模式。
+
+### 2.3 内部控制平面通信接口 (Internal Control Plane Interface - IPC)
+
+- **覆盖范围**：定义系统内部各功能模块（`IModule`）与核心管理组件（调度器、配置管理器）之间的**控制流交互机制**。该接口基于**进程内事件总线（In-Process EventBus）**架构，实现模块间的解耦、生命周期编排、资源仲裁及故障传递。**核心约束**：控制平面严禁传输任何业务数据块（如 I/Q 数据或点迹数组），仅允许传输元数据、状态码和控制指令。
+  - **2.3.1 事件总线架构与路由机制 (Event Bus Architecture & Routing Mechanism)**
+    - **核心指向**：定义系统控制流的中枢神经。采用**发布 - 订阅 (Pub/Sub)** 模式，实现 `IEventBus` 接口。支持**同步分发**（`publishSync`，用于高优先级指令的即时回调）与**异步分发**（`publishAsync`，用于状态上报的非阻塞入队）的混合路由策略，确保控制指令在微秒级内准确送达。
+  - **2.3.2 全链路追踪上下文传递 (Trace Context Propagation)**
+    - **核心指向**：定义控制指令的审计与追踪规范。强制要求所有控制事件（Event）必须携带全局唯一的 `TraceID`。涵盖在跨线程（如从 `API网关` 线程到 `SignalProcessor` 工作线程）传递事件时，利用 `TraceContextGuard` 或类似的 **RAII 机制**自动捕获、保存和恢复线程本地存储（TLS）中的追踪上下文，实现“无感”的链路追踪。
+  - **2.3.3 生命周期编排与状态同步协议 (Lifecycle Orchestration & State Synchronization)**
+    - **核心指向**：定义 `TaskScheduler` 与业务模块间的握手协议。涵盖标准化的生命周期指令事件（`StartModuleEvent`, `StopModuleEvent`, `PauseModuleEvent`）以及模块的状态变更回执（`ModuleRunningEvent`, `ModuleStoppedEvent`）。重点关注在系统启动/关闭时的**拓扑依赖顺序**控制逻辑，确保无“悬空”状态。
+  - **2.3.4 故障传播与恢复信令 (Fault Propagation & Recovery Signaling)**
+    - **核心指向**：定义异常情况下的通信契约。涵盖**致命错误上报**（`ModuleFailedEvent`，携带标准化 `ErrorCode` 和堆栈快照）的格式，以及调度器下发的**恢复指令流**（如 `PauseDataFlow` -> `RestartModule` -> `ResumeDataFlow`）的时序规范。集成**熔断器（Circuit Breaker）**状态广播，防止故障扩散。
+  - **2.3.5 系统负载保护与热节流控制 (System Load Protection & Thermal Throttling)**
+	  - **核心指向**：鉴于显控架构的扁平化，控制平面的资源管理重心从“UI 响应性保障”转移至 **“系统物理安全保障”**。接口仅用于在极端工况（如机箱温度过高、GPU 功耗触顶）下，强制降低计算负载以保护硬件。
+  - **2.3.6 两阶段配置热更新协议 (Two-Phase Configuration Hot-Reload Protocol)**
+	  - **核心指向**：定义动态配置变更时的协商机制。涵盖 `ConfigManager` 发起的 **“验证询问”**（`ValidateConfigChangeEvent`，模块需在超时前反馈可行性）和 **“变更通知”**（`ConfigChangedEvent`，模块执行原子更新），确保在并发环境下配置更新的事务一致性。
+  - **2.3.7 性能指标遥测通道 (Performance Telemetry Channel)**
+	  - **核心指向**：定义业务模块向 `MonitoringModule` 上报健康数据的单向通道。涵盖 `MetricsUpdateEvent` 的数据结构定义（键值对映射），以及采用 **线程本地缓存（Thread-Local Storage）** 结合 **MPSC（多生产单消费）队列** 的高吞吐、无锁上报策略，彻底消除监控逻辑对业务主线程的锁竞争干扰。
+
+### 2.4 外部目标数据分发协议 (External Target Data Distribution Protocol)
+
+- **覆盖范围**：定义核心处理服务器（通过 `DisplayController`）向外部独立显控终端分发高实时性业务数据（如航迹、点迹）的**网络通信契约**。鉴于显控端采用轻量级 2D 渲染，本协议不再包含针对 UI 交互的流控逻辑，而是专注于**全速、单向、无阻塞**的数据推送，仅在接收到系统级热保护指令时执行被动节流。
+  - **2.4.1 传输层拓扑与套接字模型 (Transport Layer Topology & Socket Model)**
+    - **核心指向**：定义数据传输的物理载体。采用 **UDP 单播 (Unicast)** 模式，由服务器作为发送方，向单一客户端推送。强制使用 **非阻塞 (Non-blocking) Socket** 配合 `epoll` 边缘触发模式。鉴于已移除 UI 抢占逻辑，Socket 发送缓冲区 (`SO_SNDBUF`) 应配置为**最大可用值**（如 8MB+），以吸收网络抖动，确保在计算核心全速运转时网络层不成为瓶颈。
+  - **2.4.2 业务数据序列化规范 (Business Data Serialization Specification)**
+    - **核心指向**：定义跨网络二进制格式。继续强制使用 **Google Protobuf (v3)**。数据包根对象 `TrackDataBatch` 必须包含**全链路追踪 ID (`TraceID`)**。由于取消了任务切分，数据包的生成频率将与雷达脉冲处理周期（CPI）严格同步，不再出现因被抢占而导致的“微批次（Micro-batch）”碎片化数据包。
+  - **2.4.3 丢包检测与时序完整性机制 (Packet Loss Detection & Sequencing Integrity)**
+    - **核心指向**：定义数据一致性策略。协议头包含单调递增的 **`batch_sequence_id`**。客户端对于乱序包执行**立即丢弃**策略。由于后端不再因 UI 操作而暂停，客户端应预期收到**极其平稳**的数据流；任何超过 2 个周期的静默都应被客户端判定为“网络故障”而非“后端繁忙”，并触发重连告警。
+  - **2.4.4 热节流响应与流量整形 (Thermal Throttling Response & Traffic Shaping)**
+    - **核心指向**：**（基于 ECN 修正）** 定义在系统过热时的降级行为。当 `DisplayController` 收到 `SetComputeThrottleEvent`（热保护指令）时，必须在网络发送层执行**主动丢包**或**发送间隔插入（Gap Insertion）**，以减少网卡中断和总线功耗。例如，在 `Level 2` 节流状态下，仅发送关键航迹数据（Confirmed Tracks），丢弃所有点迹（Plots）和调试数据，从而降低系统整体热负荷。
+  - **2.4.5 端到端延迟遥测 (End-to-End Latency Telemetry)**
+    - **核心指向**：定义性能监控闭环。数据包必须携带 **“数据生成时间戳”**。客户端计算 **Glass-to-Glass Latency** 并回传。此指标现在主要用于监控网络链路质量和散热系统的有效性（即观察热节流是否导致了延迟显著增加），而非用于调节 UI 渲染优先级。
+
+---
+
+**变更说明 (基于 ECN-2025-001)：**
+1. **移除**：移除了所有关于“为了 UI 响应性而暂停数据发送”的描述。
+2. **新增**：**2.4.4 热节流响应**。这是新架构下唯一合法的“主动降速”场景。
+3. **调整**：在 **2.4.1** 中强调了 Socket 缓冲区配置为“最大值”，因为不再需要担心缓冲区积压影响 UI 线程（UI 线程已与计算/发送线程物理解耦且互不干扰）。
+
+**下一步交互建议：**
+我们已完成基于 ECN 补丁修正的 **2.4 外部目标数据分发协议**。请指示：我们是继续进行 **3. 信号处理算法与数学原理** 的分解，还是您有其他的 ECN 需要应用？
+
+### 2.5 数据结构定义与序列化规范 (Data Structure Definition & Serialization Specification)
+
+- **覆盖范围**：定义系统内外部数据交互的**静态契约**。该规范严格区分 **“内部原生对象（In-Memory Native Objects）”** 与 **“外部传输契约（On-Wire Contracts）”**，并界定两者之间的**转换边界**。内部关注极致的计算性能（SIMD 对齐、零拷贝），外部关注跨语言/跨平台的互操作性（Protobuf）。
+    - **2.5.1 内部高性能业务对象模型 (Internal High-Performance Business Object Model)**
+        - **核心指向**：定义在 `DataReceiver` -> `SignalProcessor` -> `DataProcessor` 流水线中流转的 C++ 原生结构体（DTO）。涵盖 `DetectionResult`（点迹）和 `TrackData`（航迹）的内存布局设计，强制使用 **POD (Plain Old Data)** 类型，并应用 `alignas(16/32)` 以适配 **SIMD (AVX/NEON)** 向量化指令优化，严禁在核心计算路径上使用虚函数或复杂对象。
+    - **2.5.2 内部控制事件模式定义 (Internal Control Event Schema Definition)**
+        - **核心指向**：定义在 `EventBus` 上流转的控制信令结构。所有事件必须继承自 `BaseEvent`，并强制包含 **全链路追踪 ID (`TraceID`)** 和 **高精度时间戳**。事件负载（Payload）必须保持轻量（通常仅包含状态码、配置键值对或对象 ID），严禁携带大块业务数据（如 I/Q 波形），以保障控制平面的低延迟响应。
+    - **2.5.3 外部数据交换契约 (External Data Exchange Contract)**
+        - **核心指向**：定义系统向外部（显控终端、API 网关）输出数据的接口定义语言 (IDL)。强制选用 **Google Protobuf (v3)** 作为唯一标准。涵盖 `.proto` 文件的版本管理规范（语义化版本控制），以及字段的 **向前/向后兼容性** 设计原则（如使用 `optional` 字段，保留 `reserved` 标识符），确保前后端可独立演进。
+    - **2.5.4 零拷贝数据容器规范 (Zero-Copy Data Container Specification)**
+        - **核心指向**：定义承载内部业务对象的通用包装器 `DataPacket<T>`。涵盖其 **Header** 的标准化元数据（序列号、源模块、TraceID），以及 **Payload** 的所有权管理机制——必须使用 `std::unique_ptr` 配合 **自定义删除器 (Custom Deleter)**，以实现内存块在生命周期结束时的自动归还（回收到 `MemoryPool`），彻底消除内存泄漏风险。
+    - **2.5.5 序列化边界与映射策略 (Serialization Boundary & Mapping Strategy)**
+        - **核心指向**：定义“内部对象”转换为“外部格式”的**唯一合法位置**。明确规定 **仅在 `DisplayController`（数据网关）** 和 **`ApiCommandService`（API 响应）** 处进行序列化操作。涵盖从 C++ Struct 到 Protobuf Message 的字段映射逻辑（Mapping Logic），以及在边界处进行 **数据清洗与脱敏** 的安全规范。
+
+### 2.6 时序同步与数据一致性 (Timing Synchronization & Data Coherence)
+
+- **覆盖范围**：定义系统的时间基准获取方式、数据流打点策略以及跨模块处理时的时间对齐逻辑。涵盖从硬件层面的 PTP/GPS 同步，到软件层面的 CPI（相干处理间隔）对齐，以及航迹预测中的时间外推算法，确保系统在微秒级精度下的时空一致性。
+  - **2.6.1 高精度统一时钟源架构 (High-Precision Unified Clock Architecture)**
+    - **核心指向**：定义系统时间的唯一真值来源。优先采用 **PTP (IEEE 1588v2)** 协议通过网口同步至 GPS/北斗授时服务器，实现亚微秒级的时间同步精度。涵盖在 PTP 不可用时的 **NTP 回退策略**，以及利用 CPU **TSC (Time Stamp Counter)** 寄存器作为高频计时源的校准逻辑，防止系统时间跳变（Time Jump）导致的逻辑错误。
+  - **2.6.2 多级数据打点策略 (Multi-Level Timestamping Strategy)**
+    - **核心指向**：定义数据包时间戳的生成位置与精度分级。首选网卡硬件 **TSU (Timestamp Unit)** 生成的入站时间戳（Ingress Timestamp），次选内核网络栈的 `SO_TIMESTAMP` 软件时间戳。在 `DataReceiver` 封装 `RawDataPacket` 时，强制将此硬件/内核时间戳固化为数据的 **“诞生时间” (Generation Time)**，并在后续全链路中保持不变。
+  - **2.6.3 相干处理间隔对齐机制 (CPI Alignment Mechanism)**
+    - **核心指向**：针对信号处理模块的特殊时序要求。定义如何根据雷达 **PRF (脉冲重复频率)** 和 **波位编码**，将连续到达的 UDP 数据包在内存池中重组为严格对齐的 **CPI 数据块**。涵盖处理网络抖动导致的脉冲到达时间波动（Jitter）的缓冲策略，确保 FFT 和多普勒处理时的数据在时间域上严格相干。
+  - **2.6.4 航迹外推与异步测量融合 (Track Extrapolation & Asynchronous Measurement Fusion)**
+    - **核心指向**：针对数据处理模块的时空一致性逻辑。定义在进行数据关联（Data Association）时，如何将上一时刻（$t_{k-1}$）的航迹状态，基于运动模型精确外推至当前测量时刻（$t_k$）。涵盖处理乱序到达（Out-of-Order）量测数据的**延迟关联**或**丢弃策略**，确保卡尔曼滤波的更新步基于单调递增的时间轴。
+  - **2.6.5 全链路延迟审计与抖动监控 (End-to-End Latency Auditing & Jitter Monitoring)**
+    - **核心指向**：定义系统实时性的度量标准。利用 `DataPacket` 头部携带的诞生时间戳，在流水线的每个关键节点（接收、信号处理完成、航迹更新完成、网关发送）计算 **驻留时间 (Residence Time)**。监控模块需实时统计各阶段的延迟分布，一旦发现处理抖动超过 CPI 周期的一定比例（如 10%），立即触发性能告警或热节流保护。
+
+### 2.7 链路鲁棒性与错误校检 (Link Robustness & Error Checking)
+
+- **覆盖范围**：定义系统对通信链路故障的容错能力。涵盖在 UDP 链路中部署 CRC/Checksum 校验、丢包统计与报告机制、以及内部 IPC 异常时的超时和重试策略。
+    - **2.7.1 应用层数据完整性校验 (Application-Layer Data Integrity Verification)**
+        - **核心指向**：弥补 UDP 标准校验和（16-bit）在大数据量传输下的碰撞风险。确立 **CRC32c (Castagnoli)**（硬件指令加速）为标准算法，强制在所有 `TrackDataBatch` 和 `RawDataPacket` 的协议头中包含校验字段。定义校验失败时的**“零容忍”丢弃策略**，防止比特翻转（Bit Flip）导致的脏数据污染卡尔曼滤波状态。
+    - **2.7.2 链路健康度监测与心跳机制 (Link Health Monitoring & Heartbeat Mechanism)**
+        - **核心指向**：定义双向链路的保活协议。在数据静默期（无业务数据发送时）强制发送 **高频心跳包 (1Hz - 10Hz)**，以维持中间网络设备的 NAT 映射并快速检测物理断连。定义 **“静默超时” (Silence Timeout)** 阈值（如 2000ms），一旦触发即判定链路中断，自动触发告警并重置接收状态机。
+    - **2.7.3 差异化丢包恢复策略 (Differentiated Packet Loss Recovery Strategy)**
+        - **核心指向**：针对不同业务流性质定义恢复逻辑。对于 **实时雷达数据（Data Plane）**，采用 **“即时丢弃 (Drop-and-Forget)”** 策略，严禁重传以避免队头阻塞（Head-of-Line Blocking）；对于 **关键控制指令（Control Plane）**，采用 **“带确认重传 (ARQ / ACK-Retry)”** 机制，确保配置变更和启停指令的必达性。
+    - **2.7.4 内部 IPC 拥塞控制与背压 (Internal IPC Congestion Control & Backpressure)**
+        - **核心指向**：针对进程内 `SPSC`（无锁队列）的溢出保护。定义 **“有界队列 (Bounded Queue)”** 策略，当队列深度达到高水位（High Watermark，如 80%）时，对上游模块施加**背压 (Backpressure)**，强制执行 **“尾部丢弃 (Tail Drop)”** 或 **“间隔抽稀”**，优先保障系统主进程不发生 OOM（内存溢出）。
+
+---
+
+---
+
+## 3. 异构计算架构与资源调度 (Heterogeneous Computing & Resource Scheduling)
+
+- **覆盖范围**：从任务模型的定义，到 CPU/GPU 的分工，再到显存内部的精细化管理。核心目标是在 Feiteng + Iluvatar 平台上实现 **“数据进，结果出，中间无阻塞，显存不碎片”** 的极致流水线。
+
+### 3.1 异构协同模型与职责边界 (Heterogeneous Collaboration Model & Responsibility Boundary)
+
+- **核心指向**：明确 Host (CPU) 与 Device (GPU) 的绝对分工。确立 **“控制密集型在 CPU，计算密集型在 GPU”** 的原则。定义 CPU 不再是“保姆”（微观管理每个 Kernel 的启动），而是“指挥官”（下发宏观指令包）。界定后处理（CFAR 之后的数据关联）回流 CPU 的具体边界点，防止 GPU 算力被标量逻辑浪费。
+
+### 3.2 计算图静态编排与执行引擎 (Static Compute Graph & Execution Engine)
+
+- **核心指向**：针对雷达算法流程固定的特性，摒弃运行时动态解析 DAG（有向无环图）的高开销模式。定义 **“静态编译图 (Static Compiled Graph)”** 策略，在系统初始化阶段将业务流程固化为一系列预定义的 `TaskNode` 链表。执行引擎（Execution Engine）仅需按序触发，实现 **零开销调度 (Zero-Overhead Scheduling)**。
+
+### 3.3 GPU 上下文与流并发策略 (GPU Context & Stream Concurrency Strategy)
+
+- **核心指向**：定义如何利用智铠 GPU 的硬件队列（Hardware Queues）。鉴于 ECN-2025-001 已移除 UI 抢占，本节确立 **“通道级并行 (Channel-Level Parallelism)”** 策略。即每个雷达通道（或波束）绑定一个独立的 `cudaStream_t`，实现多通道算法的物理并行执行，最大化 GPU 占有率（Occupancy）。
+
+### 3.4 显存暂存区与工作空间管理 (VRAM Scratchpad & Workspace Management)
+
+- **核心指向**：解决算法中间结果（如脉压后的复数矩阵）的存储问题。严禁在热路径上调用 `cudaMalloc`。设计 **“显存竞技场 (VRAM Arena)”** 或 **“栈式分配器 (Stack Allocator)”**，为每个流预分配固定的临时工作区（Scratchpad）。利用内存复用技术（Memory Aliasing），让不同阶段的算法共享同一块物理显存，极大降低显存峰值开销。
+
+### 3.5 内核启动优化与持久化线程 (Kernel Launch Optimization & Persistent Threads)
+
+- **核心指向**：对抗 PCIe 启动开销（Launch Latency）。针对大量微小算子（如简单的向量加减），引入 **“内核融合 (Kernel Fusion)”** 策略或 **“持久化线程 (Persistent Threads)”** 模式（即 GPU 上常驻一个 Loop Kernel，通过轮询标志位执行任务），消除 CPU 频繁下发指令带来的系统调用抖动。
+
+### 3.6 异构同步机制与完成通知 (Heterogeneous Synchronization & Completion Notification)
+
+- **核心指向**：定义 CPU 如何感知 GPU 计算结束。摒弃高延迟的 `cudaStreamSynchronize()`（全阻塞），采用 **“基于事件的回调 (Event-Based Callback)”** 或 **“主机轮询标志位 (Host-Polling on Zero-Copy Flag)”** 机制。与 2.3.1 的事件总线对接，在计算完成的微秒级内触发下游的 `DisplayController`。
+
+---
+
+---
+
+## 4. 信号处理业务逻辑流 (Signal Processing Business Logic Flow)
+
+- **核心指向**：定义软件需要实现的“业务链路”。即数据在进入流水线后，需要经过哪些具体的处理节点（Node）以及这些节点的连接顺序和控制逻辑。
+
+---
+
+## 5. 实时性能与吞吐量约束 (Real-time Performance & Throughput Constraints)
+
+- **核心指向**：定义系统的“非功能性指标”。包含对处理时延的硬性要求、数据吞吐带宽的限制、以及系统优化的量化目标。
+
+---
+
+## 6. 工程架构与可靠性保障 (Engineering Architecture & Reliability Assurance)
+
+- **核心指向**：定义系统的“健壮性”。包含程序的生命周期管理、错误处理机制、日志系统、以及在无人值守情况下的自恢复能力。
diff --git a/Prompt模板/首席架构师和技术文档标准委员会的严苛审核员.md b/Prompt模板/首席架构师和技术文档标准委员会的严苛审核员.md
new file mode 100644
index 0000000..6f40508
--- /dev/null
+++ b/Prompt模板/首席架构师和技术文档标准委员会的严苛审核员.md
@@ -0,0 +1,32 @@
+---
+tags: []
+date created: 星期四, 十一月 20日 2025, 8:08:39 晚上
+date modified: 星期日, 十二月 7日 2025, 9:25:56 晚上
+---
+
+```markdown
+请扮演一位具备二十年经验的首席架构师和技术文档标准委员会的**严苛审核员**。您的任务是针对下方提供的结构化大纲，执行一次**高标准、无遗漏、具备批判性深度**的细致审查。
+
+**待审查大纲：**
+[在此粘贴您需要审查的结构化大纲内容。请确保包含各级标题和简要的核心描述/指向。]
+
+**审查维度与核心要求：**
+请根据以下三个核心维度，逐一进行评估并提供结构化的反馈：
+
+### 1. 结构与逻辑严谨性 (Structural & Logical Rigor)
+* **正交性检查 (Orthogonality Check)：** 审核同级条目之间是否存在概念重叠或交叉覆盖（Non-Orthogonality）。要求所有同级条目必须是**相互独立、完全穷尽 (Mutually Exclusive, Collectively Exhaustive - MECE)** 的技术维度。请指出任何存在重叠或边界模糊的条目。
+* **层次深度合理性 (Hierarchical Depth Appropriateness)：** 评估条目划分的深度是否一致且合理。是否存在某一级条目过于抽象（应进一步细化）或过于具体（应归并或提升层级）的情况。
+* **依赖关系与流程逻辑 (Dependency & Flow Logic)：** 检查大纲的组织顺序是否遵循合理的技术依赖关系或实现流程。例如，配置是否在构建之前，设计是否在实现之前。
+
+### 2. 专业性与风格一致性 (Professionalism & Style Consistency)
+* **术语纯粹性 (Terminology Purity)：** 严格对照文档的“纯粹、客观、深度、专业”风格要求。检查所有标题和描述是否使用了**最精确、最严谨**的技术术语。指出任何模糊、口语化或带主观色彩的表达。
+* **概念边界清晰度 (Conceptual Boundary Clarity)：** 审查每个条目的描述是否清晰地界定了其技术范围和边界。提议修正任何可能导致歧义或混淆的描述。
+* **一致性校验 (Consistency Validation)：** 确保大纲内的所有英文翻译与中文描述在技术概念上保持高度一致。
+
+### 3. 全面性与无死角覆盖 (Completeness & Comprehensive Coverage)
+* **遗漏点识别 (Blind Spot Identification)：** 从首席架构师的角度，指出大纲在**关键技术领域或流程**上可能存在的**遗漏点 (Blind Spots)**。特别关注管理、安全、性能、测试、部署等横切关注点是否被纳入。
+* **上下文充分性 (Context Sufficiency)：** 评估大纲是否充分覆盖了其核心指向（如果存在）所暗示的所有技术组件和考量因素。
+
+**输出格式：**
+请严格按照上述三个维度（1、2、3）分段撰写您的审核报告。对于发现的**每个问题**，请提供具体的**条目编号、问题描述**，以及**专业的修正建议**。如果某个维度没有发现问题，请明确说明：“[维度名称]：结构严谨，无明显问题。”
+```
diff --git a/不懂的技术列表.md b/不懂的技术列表.md
new file mode 100644
index 0000000..ad2ca52
--- /dev/null
+++ b/不懂的技术列表.md
@@ -0,0 +1,14 @@
+---
+tags: []
+date created: 星期四, 十一月 20日 2025, 8:18:19 晚上
+date modified: 星期日, 十二月 7日 2025, 9:26:12 晚上
+---
+虚拟内存分页
+可分页内存
+DMA
+![[202511190027_Ref_Project_Glossary_术语表#DMA (Direct Memory Access)]]
+
+H2D/D2H
+Non-Default Stream
+OS 策略：==numa_balancing== 已被禁用。这意味着我们不能指望操作系统自动把内存迁移到正确的节点，必须手动管理。
+numa_balancing 是什么？
diff --git a/关于新版雷达前端通信协议的若干想法.md b/关于新版雷达前端通信协议的若干想法.md
new file mode 100644
index 0000000..b58414f
--- /dev/null
+++ b/关于新版雷达前端通信协议的若干想法.md
@@ -0,0 +1,177 @@
+---
+tags: []
+aliases:
+  - 网络标准是 大端序。 但是考虑到既然大家都在 x86/ARM (Little-Endian) 环境下跑，且为了追求极致性能（减少转换指令），保持主机字节序是雷达内部私有协议的常见做法
+date created: 星期四, 十二月 4日 2025, 8:34:02 晚上
+date modified: 星期四, 十二月 4日 2025, 10:22:01 晚上
+---
+
+# 网络标准是 大端序。 但是考虑到既然大家都在 x86/ARM (Little-Endian) 环境下跑，且为了追求极致性能（减少转换指令），保持主机字节序是雷达内部私有协议的常见做法
+
+> 此处 C++ 防御性编程
+>  ```cpp
+>  // 在 protocol_v1.0.h 头部加入
+>  #include <type_traits>
+>  
+>  // C++20 标准检测方式 (推荐)
+>  // static_assert(std::endian::native == std::endian::little, "CRITICAL ERROR: Platform must be Little-Endian!");
+>  
+>  // C++17 兼容检测方式 (针对您的环境)
+>  constexpr bool is_little_endian() {
+>      uint16_t x = 0x0001;
+>      auto p = reinterpret_cast<const uint8_t*>(&x);
+>      return *p == 0x01;
+>  }
+>  static_assert(is_little_endian(), "CRITICAL ERROR: Platform must be Little-Endian according to ICD V0.1 !");
+>  ```
+
+# 核心议题 1.1：校验算法 (Checksum)——为了工程安全升级为 CRC
+
+> 升级 (CRC-16-CCITT)
+> - 2 字节 (末尾)
+
+# 核心议题 1.3：帧头与对齐 (Header & Alignment)
+
+	- C++ 结构体对齐方式（`#pragma pack(1)` 还是 4 字节对齐？），以及如何统一两种链路的帧头处理。【判断我们的硬件资源倾向于去优化什么？】
+
+# 巨型帧硬件可能不支持
+
+   > **路径 A：硬件流 - 强制巨型帧 (Jumbo Frames)**
+   >
+   > - **原理**：命令网卡和交换机支持更大的包，将 MTU 设置为 **9000** 字节。
+   >     
+   > - **优点**：
+   >     
+   >     - **极简代码**：C++ 端几乎不需要改动，直接发大包。
+   >         
+   >     - **极高性能**：CPU 中断次数减少 6 倍（发 1 个大包 vs 发 6 个小包）。
+   >         
+   > - **缺点**：
+   >     
+   >     - **环境依赖**：必须确保**所有**设备（雷达网卡、交换机、服务器网卡）都配置了 MTU 9000。如果中间经过一个不支持 Jumbo 的普通路由器，包会被丢弃。
+   >         
+   >     - **运维成本**：您提到过您是运维工程师，这意味着每次部署新环境，您都必须手动配置 MTU。
+>
+   > **路径 B：软件流 - 应用层分片 (Application Layer Slicing)**
+>
+   > - **原理**：在 C++ 代码里，手动把 16KB 数据切成 1400 字节的小块，给每个小块加一个微型包头（包含：帧 ID、分片序号、总分片数）。接收端收到后再手动拼起来。
+   >     
+   > - **优点**：
+   >     
+   >     - **环境适应性强**：插在任何普通交换机或路由器上都能跑。
+   >         
+   >     - **抗干扰优化**：如果丢了一个小片，我们可以只重传那个小片（虽然 UDP 实现这个很难，但理论上可行），或者至少我们知道丢了哪一片。
+   >         
+   > - **缺点**：
+   >     
+   >     - **代码极其复杂**：需要编写“分包器”和“重组缓冲区”逻辑，处理乱序到达、超时丢弃等棘手问题。这对开发进度是巨大挑战。
+
+   > 补充防御：预留分片能力 (The Safety Valve)
+   > 虽然我们主推巨型帧，但我建议在定义回波数据包的 C++ 结构体时，**不要把所有空间都写死**。
+   > 在《以太网协议格式》（表 7）中 ，有一个 `参数长度` (2 Bytes) 和 `命令参数` (不定长)。对于回波数据（表 A），虽然它没有显式的“保留字段”，但我建议在设计 `EchoPacket` 结构体时，定义一个**可选的头部结构**，一旦后续需要应用层切片，直接启用即可，无需重构整个通信流程。
+   > *(此动作不改变当前文档，仅在代码层面做防御性设计。)*
+
+# UDP 可靠性机制 需要在算法上增加其可靠性
+
+> **决策点**：
+> - 重发次数定多少？
+> - 超时时间设为多少（建议 <5ms）？--> 这个根据雷达的设计指标确定。建议不同指令设置不同的时间间隔。
+> - 控制指令是否需要 QoS 优先标记？必须使用这个作为标注。
+
+> 综合建议
+> ```text
+> 第一级：紧急指令（如"紧急停机"）
+>   - 重发次数：1次
+>   - 超时时间：1ms
+>   - QoS：最高优先级（EF）
+>   - 特点：宁可丢包，不可延迟
+> 
+> 第二级：实时控制指令（如"波束指向"）
+>   - 重发次数：2次
+>   - 超时时间：3ms
+>   - QoS：高优先级（AF41）
+>   - 特点：平衡可靠性与实时性
+> 
+> 第三级：配置与状态指令
+>   - 重发次数：3次
+>   - 超时时间：10ms
+>   - QoS：普通优先级（CS0）
+>   - 特点：保证可靠，允许延迟
+> ```
+
+# 指令精度与物理现实—— **DBF???**
+
+> **传输层**：严格按照 `int16_t` 传输，缩放因子为 `0.0025`。
+> ```cpp
+> // 0.0025 度量化 -> 2 Bytes (int16_t)
+> // Max value: 65.0 / 0.0025 = 26000 (fit in int16_t range ±32767)
+> int16_t azimuth_raw; 
+> 
+> // 辅助函数 (Helper)
+> float get_azimuth_deg() const { return azimuth_raw * 0.0025f; }
+> void set_azimuth_deg(float deg) { azimuth_raw = (int16_t)(deg / 0.0025f); }
+> ```
+
+- **混合模型**
+
+```python
+class BeamSteeringSimulator:
+    def __init__(self, hardware_type="DBF"):
+        """
+        硬件类型:
+        - "DBF": 数字波束形成，完美精度
+        - "HighRes": 高精度移相器(10-12位)
+        - "MidRes": 中精度移相器(8位)+抖动
+        - "LowRes": 低精度移相器(6位)+校准
+        """
+        self.hardware_type = hardware_type
+        
+        # 设置不同硬件的精度模型
+        self.models = {
+            "DBF": {"bits": 32, "has_dithering": False, "has_calibration": False},
+            "HighRes": {"bits": 12, "has_dithering": True, "has_calibration": True},
+            "MidRes": {"bits": 8, "has_dithering": True, "has_calibration": True},
+            "LowRes": {"bits": 6, "has_dithering": True, "has_calibration": False}
+        }
+        
+        model = self.models[hardware_type]
+        self.min_step = 360.0 / (2**model["bits"])
+        
+        if model["has_calibration"]:
+            self.effective_step = self.min_step / 10.0  # 校准提升10倍
+        else:
+            self.effective_step = self.min_step
+        
+        self.has_dithering = model["has_dithering"]
+    
+    def steer_beam(self, target_angle):
+        # 基础量化
+        base_angle = round(target_angle / self.effective_step) * self.effective_step
+        
+        # 相位抖动效果
+        if self.has_dithering and abs(target_angle - base_angle) > 0:
+            # 在两个相邻状态间抖动，获得平均精度
+            next_angle = base_angle + self.effective_step
+            error_to_base = target_angle - base_angle
+            dither_ratio = error_to_base / self.effective_step
+            
+            # 实际实现中，抖动是时分的，这里模拟平均效果
+            actual_angle = base_angle * (1 - dither_ratio) + next_angle * dither_ratio
+        else:
+            actual_angle = base_angle
+        
+        # 加上微小随机误差（模拟现实不完美）
+        if self.hardware_type != "DBF":
+            random_error = np.random.normal(0, self.effective_step * 0.1)
+            actual_angle += random_error
+        
+        return actual_angle
+
+# 使用示例
+sim = BeamSteeringSimulator(hardware_type="HighRes")
+target = 45.0025
+actual = sim.steer_beam(target)
+print(f"硬件类型: {sim.hardware_type}")
+print(f"目标角度: {target:f}°, 实际角度: {actual:f}°")
+print(f"角度误差: {abs(target-actual):f}°")
+```
diff --git a/前端感知软件数据表V1.0.md b/前端感知软件数据表V1.0.md
new file mode 100644
index 0000000..a367641
--- /dev/null
+++ b/前端感知软件数据表V1.0.md
@@ -0,0 +1,172 @@
+# **前端感知设备软件接口控制文件 (ICD)**
+
+**文档编号**: FES-SW-ICD-001
+
+**版本**: V1.0
+
+**日期**: 2025-05-01
+
+**密级**: 内部公开
+
+## **1\. 范围**
+
+本接口控制文件（ICD）规定了前端感知系统中，信号处理系统（SPS）、数据采集控制系统（DACS）、天馈射频系统及相关外设之间的通信协议、数据格式及时序要求。  
+本文件适用于前端感知系统的软件开发、系统集成及联调测试。
+
+## **2\. 系统概述与接口关系**
+
+前端感知系统采用星型分布式架构，由1个信号处理系统作为主控节点，控制3个分布式数据采集控制系统。
+
+### **2.1 节点定义**
+
+| 设备名称 | 缩写 | 逻辑编号 | IP地址 | 备注 |
+| :---- | :---- | :---- | :---- | :---- |
+| 信号处理系统 | SPS | 0x01 | 192.168.0.100 | 主控节点 |
+| 数据采集控制系统1 | DACS-1 | 0x02 | 192.168.0.200 | 子阵1控制 |
+| 数据采集控制系统2 | DACS-2 | 0x03 | 192.168.0.201 | 子阵2控制 |
+| 数据采集控制系统3 | DACS-3 | 0x04 | 192.168.0.202 | 子阵3控制 |
+| 天馈射频系统 | ANT | 0x05 | N/A | LVDS/串行连接 |
+| 时统供电系统 | PSU/Time | 0x06 | N/A | RS485连接 |
+
+### **2.2 通信链路规划**
+
+| 链路名称 | 连接对象 | 物理介质 | 传输协议 | 带宽要求 | 关键约束 |
+| :---- | :---- | :---- | :---- | :---- | :---- |
+| **控制/状态链路** | SPS \<-\> DACS | Ethernet | UDP/IP | 10 Gbps | 低延迟优先 |
+| **大数据回波链路** | SPS \<-\> DACS | Ethernet | UDP/IP | 10 Gbps | **MTU 9000 (Jumbo Frame)** |
+| **前端控制链路** | DACS \<-\> ANT | LVDS/RS422 | 私有串行 | 5 Mbps | **CRC-16 校验** |
+
+## **3\. 通用协议规范**
+
+### **3.1 数据格式与字节序**
+
+为保证基于 x86/ARM 架构的通用计算平台处理效率，系统内所有多字节字段（short, int, long, float 等）传输时均采用 **小端模式 (Little-Endian)**，即低字节在前，高字节在后。
+
+### **3.2 结构体对齐**
+
+所有通信数据包结构体均采用 **1字节对齐 (1-byte alignment/packed)**，严禁编译器插入填充字节。
+
+### **3.3 校验算法**
+
+为确保复杂电磁环境下的数据完整性，所有串行通信链路均采用 **CRC-16-CCITT** 算法。
+
+* **多项式**: 0x1021 ($x^{16} \+ x^{12} \+ x^5 \+ 1$)  
+* **初始值**: 0xFFFF  
+* **结果处理**: 不取反，小端传输
+
+## **4\. 以太网通信协议**
+
+### **4.1 端口分配**
+
+| 发送方 | 接收方 | 信息类型 | 协议 | 目标端口 (Base) | 备注 |
+| :---- | :---- | :---- | :---- | :---- | :---- |
+| SPS | DACS (1\~3) | 控制命令 | UDP | 10011 \~ 10013 | \+0, \+1, \+2 |
+| DACS (1\~3) | SPS | 状态信息 | UDP | 10021 \~ 10023 | \+0, \+1, \+2 |
+| DACS (1\~3) | SPS | 回波数据 | UDP | 10031 \~ 10033 | **需开启巨型帧** |
+
+### **4.2 通用报文头结构 (Ethernet Header)**
+
+所有以太网UDP报文（命令、状态、回波）均包含以下标准包头（15字节）：
+
+| 偏移 | 字段名称 | 长度 | 类型 | 说明 |
+| :---- | :---- | :---- | :---- | :---- |
+| 0 | SenderID | 1B | uint8 | 发送设备编号 |
+| 1 | RespFlag | 1B | uint8 | 响应标志 (0:无需, 1:需要) |
+| 2 | SeqID | 2B | uint16 | 命令序号 (循环计数) |
+| 4 | TargetID | 1B | uint8 | 受控设备编号 |
+| 5 | CmdCode | 1B | uint8 | 命令编号 (见附录A) |
+| 6 | RetryCnt | 1B | uint8 | 重发次数 (0-2) |
+| 7 | Timestamp | 4B | uint32 | 数据生成时间 (秒计数) |
+| 11 | Version | 2B | uint16 | 版本号/子序号 |
+| 13 | DataLen | 2B | uint16 | 后续载荷长度 (不含包头) |
+
+## **5\. 详细载荷定义**
+
+### **5.1 参数安排数据包 (SPS \-\> DACS)**
+
+对应命令编号：0x22 (状态设置和参数安排)
+
+| 序号 | 字段名称 | 类型 | 精度/单位 | 说明 |
+| :---- | :---- | :---- | :---- | :---- |
+| 1 | FrameCount | uint32 | 1 | 搜索帧计数 |
+| 2 | BeamTotal | uint16 | 1 | 帧波束总数 |
+| 3 | SecBeamNum | uint16 | 1 | 秒周期安排波束数 |
+| 4 | CPICount | uint32 | 1 | CPI计数基数 |
+| 5 | BeamID | uint8 | 1 | 波束编号 |
+| 6 | WorkStatus | uint8 | Bitfield | D2-0:天线模式, D4-3:收发控制, D5:射频模拟, D7-6:波束类型 |
+| 7 | WidthSel | uint8 | Bitfield | D1-0:收发展宽, D4-2:方位展宽, D7-5:俯仰展宽 |
+| 8 | Azimuth | int16 | **0.0025°** | 方位指向，范围 \[-65, 65\] 度 |
+| 9 | Elevation | int16 | **0.0025°** | 俯仰指向，范围 \[-65, 65\] 度 |
+| 10 | FreqCode | uint8 | 10MHz | 0=15.5GHz, Step=10MHz |
+| 11 | MGC\_Gain | uint16 | 0.5dB | D7-0:短码增益, D15-8:长码增益 |
+| 12 | SigType | uint8 | N/A | 信号波形类型定义 |
+| 13 | Bandwidth | uint16 | 0.5MHz | D7-0:短码带宽, D15-8:长码带宽 |
+| 14 | PulseWidth | uint16 | 0.5us | D7-0:短码脉宽, D15-8:长码脉宽 |
+| 15 | PRT | uint16 | 1us | 脉冲重复周期 |
+| 16 | AccPoints | uint16 | 1 | 积累点数 |
+| 17 | SimDelay | uint16 | 0.01us | 模拟目标距离延迟 |
+| 18 | SimSpeed | int16 | 360/2^15 | 模拟目标速度 |
+| 19 | SampShort | uint16 | 1 | 短码采样点数 |
+| 20 | SampLong | uint16 | 1 | 长码采样点数 |
+| 21 | DataRate | uint8 | 1Mbps | 采样率 |
+
+### **5.2 回波AD数据包 (DACS \-\> SPS)**
+
+**注意**：该数据包载荷通常超过 1500 字节，严禁依赖 IP 分片。网络交换设备必须配置 **MTU 9000**。
+
+| 序号 | 字段名称 | 类型 | 说明 |
+| :---- | :---- | :---- | :---- |
+| 1 | CPICount | uint32 | CPI计数 |
+| 2-21 | (参数回传) | \- | 包含当前CPI的实际执行参数（结构同5.1节序号6-21） |
+| 22 | PRT\_Count | uint16 | N (脉冲个数) |
+| 23 | IQ\_Data | Buffer | 变长数据区。排列格式： N \* (和路短码IQ \+ 和路长码IQ \+ 差路短码IQ ... \+ 辅助路IQ) |
+
+## **6\. 串行通信协议 (DACS \<-\> 天馈)**
+
+### **6.1 下行控制包 (DACS \-\> ANT)**
+
+采用定长数据帧，总长度 **24 Bytes**。
+
+| 偏移 | 字段名称 | 长度 | 说明 |
+| :---- | :---- | :---- | :---- |
+| 0 | Header | 2B | 固定 **0x55AA** |
+| 2 | DestID | 1B | 固定 0x05 (天馈) |
+| 3 | SrcID | 1B | DACS ID (0x02/03/04) |
+| 4 | TotalLen | 2B | 固定 24 (0x0018) |
+| 6 | CPICount | 4B | CPI/波束计数 |
+| 10 | WorkMode | 1B | 工作方式 (同表A.3) |
+| 11 | WidthSel | 1B | 展宽选择 (同表A.3) |
+| 12 | Azimuth | 2B | 方位指向 (0.0025°/LSB) |
+| 14 | Elevation | 2B | 俯仰指向 (0.0025°/LSB) |
+| 16 | Frequency | 1B | 工作频率代码 |
+| 17 | MGC\_Gain | 2B | MGC 增益控制 |
+| 19 | **Reserved** | **3B** | 保留字段 (全0) |
+| 22 | **CRC16** | **2B** | **CRC-16-CCITT 校验码** |
+
+### **6.2 上行状态包 (ANT \-\> DACS)**
+
+采用定长数据帧，总长度 **24 Bytes**。
+
+| 偏移 | 字段名称 | 长度 | 说明 |
+| :---- | :---- | :---- | :---- |
+| 0 | Header | 2B | 固定 **0x55AA** |
+| 2 | DestID | 1B | DACS ID (0x02/03/04) |
+| 3 | SrcID | 1B | 固定 0x05 (天馈) |
+| 4 | TotalLen | 2B | 固定 24 (0x0018) |
+| 6 | CPICount | 4B | 对应执行的CPI计数 |
+| 10 | WorkMode | 1B | 当前工作方式 |
+| 11 | WidthSel | 1B | 当前展宽状态 |
+| 12 | Azimuth | 2B | 当前方位 (0.0025°/LSB) |
+| 14 | Elevation | 2B | 当前俯仰 (0.0025°/LSB) |
+| 16 | Frequency | 1B | 当前频率 |
+| 17 | MGC\_Gain | 2B | 当前增益 |
+| 19 | FaultCode | 2B | 故障状态码 (Bit0: 综合故障, Bit1-15: 扩展定义) |
+| 21 | **Reserved** | **1B** | 保留字段 (全0) |
+| 22 | **CRC16** | **2B** | **CRC-16-CCITT 校验码** |
+
+## **附录 A：单位换算参考**
+
+1. **角度**: Physical\_Angle (deg) \= Raw\_Value \* 0.0025  
+2. **频率**: Frequency (MHz) \= 15500 \+ Raw\_Value \* 10  
+3. **增益**: Gain (dB) \= Raw\_Value \* 0.5  
+4. **时间**: Ethernet Header 中的 Timestamp 为 UTC 时间的秒数部分。
diff --git a/小技术/MTU&JUMBO_Frame_(MTU_9000).md b/小技术/MTU&JUMBO_Frame_(MTU_9000).md
new file mode 100644
index 0000000..5c8c598
--- /dev/null
+++ b/小技术/MTU&JUMBO_Frame_(MTU_9000).md
@@ -0,0 +1,68 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 9:58:46 晚上
+date modified: 星期三, 十一月 19日 2025, 9:59:01 晚上
+---
+
+### 一、 核心概念：MTU 与网络开销
+
+| 概念 | 定义 (专业) | 默认值 (行业标准) |
+| :--- | :--- | :--- |
+| **MTU** (Maximum Transmission Unit, 最大传输单元) | 网络通信中，单个数据包（或帧）在不被分片（Fragmentation）的情况下，**链路层可承载的最大数据净载荷**（Payload）尺寸。 | **1500 字节** |
+| **开销** (Overhead) | 每个数据包除了净载荷外，还必须包含的固定长度的网络协议头（如以太网头、IP 头、UDP 头等）。 | **约 42 - 54 字节** |
+
+### 二、 默认 MTU (1500) 在雷达高吞吐场景的局限性
+
+在雷达数据采集（高速、大容量的 UDP 数据流）场景中，使用默认的 MTU 1500 字节会产生两个致命的性能问题：
+
+#### 1. 吞吐效率低下 (Efficiency)
+
+- 在 MTU 1500 的情况下，每个数据包中，实际用于传输雷达数据的净载荷仅占 $1500 / (1500 + \text{Headers})$。
+- 如果雷达数据流的速率是 $1000 \text{Mbps}$ (1GbE 的理论上限)，其中有高达 $3\%-5\%$ 的带宽会被固定协议头开销占据，实际用于净数据的带宽进一步降低。
+
+#### 2. CPU 中断风暴 (The Interrupt Storm)
+
+这是实时系统中最关键的问题。
+
+- 为了传输大量数据，操作系统和网卡必须将数据流切割成无数个 1500 字节的小块。
+- 每接收一个数据包，网卡通常会触发一次**硬件中断（IRQ）**来通知 CPU 内核数据已到达。
+- 在 1GbE 链路满负荷运行时，CPU 需要在**每秒处理数十万次**的网卡中断。
+- **后果：** 频繁的中断处理会导致 CPU 大量时间花费在**上下文切换 (Context Switching)** 和中断服务例程上，而不是执行您的核心信号处理算法。这将显著推高系统 CPU 占用率（`sys cpu`），破坏实时性。
+
+### 三、 JUMBO Frame (MTU 9000) 的引入与价值
+
+“JUMBO Frame”是一种非标准的、通过配置将 MTU **放大到 9000 字节左右**的技术。它不是一种新协议，而是对现有以太网协议参数的扩展。
+
+#### 1. 核心价值：极大减少 CPU 中断频率
+
+将 MTU 从 1500 提升到 9000 字节，意味着：
+
+- **数据量不变，中断次数减少 6 倍。** 传输相同的数据量，现在只需要发送六分之一的数据包数量。
+- **结果：** CPU 从每秒处理数十万次中断，降低到每秒处理数万次中断。这极大地减轻了内核的压力，将 CPU 资源释放回用户态，保障了您的雷达实时处理线程能够获得更稳定的调度时间。
+
+#### 2. 吞吐效率提升 (Header Compression)
+
+- 在 MTU 9000 下，协议头开销在整个帧中的占比被稀释到**小于 $0.5\%$**，几乎所有的带宽都用于传输雷达净载荷。
+- **结论：** 在您当前**受限于 1GbE 硬件** 的情况下，MTU 9000 是确保 1GbE 链路能跑满**最接近 $1 \text{Gb/s}$ 的有效吞吐量**的**P1 级软件优化**。
+
+### 四、 技术实施要求与基线确立
+
+MTU 9000 不是一个自动生效的配置，它是一个**端到端（End-to-End）**的协商机制。
+
+| 环节 | 要求 (基线) |
+| :--- | :--- |
+| **Host NIC** (您的麒麟服务器) | **必须**通过 `ip link set dev ens4f1 mtu 9000` 命令将 NIC 接口 (例如 `ens4f1`) 的 MTU 设为 9000。 |
+| **DPU/ADC** (雷达前端) | **必须**将其发送端的 MTU 设为 **9000 字节**或相同的数值。 |
+| **网络设备** (交换机/路由器) | 如果数据路径中有交换机等中间设备，**所有中间设备**的端口也必须开启并配置 MTU 9000，否则将导致数据包被丢弃或分片（后者会重新引入 CPU 开销）。 |
+
+**最终基线结论：**
+
+鉴于硬件瓶颈，采用 **UDP/IP + JUMBO Frame (MTU 9000 字节)** 是在当前 Feiteng/Kylin 平台上实现雷达数据采集链路性能最大化的**核心基线**。
+
+---
+
+**下一步讨论：**
+
+如果您确认了 MTU 9000 的基线，我建议我们进入下一阶段，讨论如何从内核层面配合这一高吞吐策略，即 `2.1.3 NIC 硬件资源与队列管理` 和 `2.1.5 DMA 与内核旁路策略`。
+
+**提问：** 在确认 JUMBO Frame 基线后，您对 **NIC 环形缓冲区 (Ring Buffer)** 的深度配置是否有初步的性能或资源偏好？（这是一个直接影响丢包率的关键参数）
diff --git a/小技术/交互式变基 (Interactive Rebase).md b/小技术/交互式变基 (Interactive Rebase).md
new file mode 100644
index 0000000..e69de29
diff --git a/小技术/大端序和小端序.md b/小技术/大端序和小端序.md
new file mode 100644
index 0000000..a53036d
--- /dev/null
+++ b/小技术/大端序和小端序.md
@@ -0,0 +1,148 @@
+---
+tags: []
+aliases:
+  - TL;DR
+date created: 星期四, 十一月 27日 2025, 7:22:37 晚上
+date modified: 星期五, 十一月 28日 2025, 12:47:41 凌晨
+---
+
+# 大端序和小端序
+
+## TL;DR
+
+**端序 (Endianness)** 指的是**多字节数据**（如 `int`, `float`）在内存中存储的**字节排列顺序**。
+
+- **大端序 (Big-Endian)：** 高位字节存放在低地址（符合人类阅读习惯，从左到右）。**网络传输标准**。
+- **小端序 (Little-Endian)：** 低位字节存放在低地址（高低位颠倒）。**x86/x64 架构标准**。
+- **核心影响：** 在进行网络编程（Socket）或跨平台文件解析时，必须进行字节序转换，否则读出的数值会完全错误。
+
+---
+
+## 1. 核心概念与可视化
+
+计算机内存就像一条长长的街道，每个“门牌号”（内存地址）只能住一个人（1 个字节，8 bits）。
+
+当我们存储一个需要占多个门牌号的“大家伙”（比如 4 字节的整数 0x12345678）时，就产生了一个问题：应该把头（高位）放在小编号，还是把脚（低位）放在小编号？
+
+假设内存地址从 `0x100` 开始增长，数据是十六进制的 `0x12345678`：
+
+- **高位 (MSB)：** `0x12` （数值最大的部分）
+- **低位 (LSB)：** `0x78` （数值最小的部分）
+
+### 可视化对比
+
+|**内存地址**|**大端序 (Big-Endian)**|**小端序 (Little-Endian)**|
+|---|---|---|
+|**0x100 (低地址)**|**12** (高位 MSB)|**78** (低位 LSB)|
+|**0x101**|34|56|
+|**0x102**|56|34|
+|**0x103 (高地址)**|**78** (低位 LSB)|**12** (高位 MSB)|
+|**人类阅读视角**|`12 34 56 78` (顺眼)|`78 56 34 12` (反人类)|
+
+---
+
+## 2. 为什么会有两种标准？(底层原理)
+
+这并非单纯的“习惯不同”，而是基于不同的工程权衡：
+
+### 大端序 (Big-Endian) 的逻辑
+
+- **直观性：** 内存中的顺序与人类手写数字的顺序一致。`123` 就是先写百位，再写个位。
+- **符号判断快：** 正负号（符号位）总是在第一个字节（低地址）。CPU 只要读第一个字节就能判断正负，无需读完整个数。
+- **应用场景：** **网络协议 (TCP/IP)**、Java 虚拟机、早期的 Motorola 68k 处理器。
+
+### 小端序 (Little-Endian) 的逻辑
+
+- **计算优势：** 计算机做加法是从低位开始算的（需要进位）。CPU 读取数据时，先读到低位（低地址），可以直接开始运算，无需等待高位读取完成。
+- **类型转换零开销：** 强制转换数据类型（如 `int32` 转 `int8`）时，**内存地址不需要变**。因为低位都在 `0x100`，只要把读取长度截断即可。而在大端序中，转成 `int8` 需要将地址偏移到 `0x103` 才能拿到低位。
+- **应用场景：** **Intel x86/x64 架构**、现代大部分 ARM 芯片（虽然 ARM 支持双端序，但在 Android/iOS 上默认配置为小端）。
+
+---
+
+## 3. 工程中的“坑”：网络字节序 Vs 主机字节序
+
+在网络开发中，这是最容易出错的地方。
+
+- **主机字节序 (Host Byte Order)：** 取决于 CPU 架构。Intel CPU 是小端序。
+- **网络字节序 (Network Byte Order)：** **强制规定为大端序**。
+
+**典型故障流程：**
+
+1. 你的 x86 服务器（小端）发送整数 `1` (`0x00000001`)。
+2. 如果不转换直接发，网线上跑的数据是 `01 00 00 00`（小端首字节）。
+3. 接收端（假设也是 x86）按照网络标准（大端）解析，认为收到的是 `0x01000000`（十进制 16,777,216）。
+4. **结果：** 发送了 1，对方收到了 1600 多万。
+
+解决方案：
+
+使用标准库函数进行显式转换（代码具备可移植性，若架构相同会编译为空操作）：
+
+- `htonl()`: Host to Network Long (32-bit)
+- `htons()`: Host to Network Short (16-bit)
+- `ntohl()`: Network to Host Long
+- `ntohs()`: Network to Host Short
+
+---
+
+## 4. 代码检测与验证 (C/C++)
+
+这是一个经典面试题，也是检测当前环境端序的最简单方法。
+
+```C
+#include <stdio.h>
+#include <stdint.h>
+
+// 检查当前系统是否为小端序
+int is_little_endian() {
+    uint32_t num = 1; // 0x00000001
+    // 将 int 指针强转为 char 指针，只读取内存中第一个字节（低地址）
+    char *byte_ptr = (char*)&num; 
+    
+    // 如果低地址存的是 1，说明低位在前 -> 小端序
+    // 如果低地址存的是 0，说明高位在前 -> 大端序
+    return (*byte_ptr == 1);
+}
+
+int main() {
+    uint32_t data = 0x12345678;
+    uint8_t *p = (uint8_t*)&data;
+
+    printf("Current System: %s\n", is_little_endian() ? "Little-Endian (小端)" : "Big-Endian (大端)");
+    
+    printf("Memory Dump of 0x12345678:\n");
+    for(int i = 0; i < 4; i++) {
+        printf("Address +%d: 0x%02x\n", i, p[i]);
+    }
+    
+    return 0;
+}
+```
+
+**x86 机器上的输出：**
+
+```Plaintext
+Current System: Little-Endian (小端)
+Memory Dump of 0x12345678:
+Address +0: 0x78
+Address +1: 0x56
+Address +2: 0x34
+Address +3: 0x12
+```
+
+---
+
+## 5. 自我反驳与局限性 (Self-Rebuttal)
+
+虽然“网络是大端，x86 是小端”是共识，但以下情况需要注意：
+
+- **单字节数据无关性：** ASCII 字符串（如 "Hello"）不受端序影响，因为每个字符只占 1 字节，不存在“内部顺序”问题。只有 `int`、`short`、`long`、`float` 等多字节类型才受影响。
+- **位序 (Bit Endianness)：** 我们讨论的是**字节序**。在极少数底层协议（如某些旧的串行通信协议）中，**一个字节内部的 8 个 bit** 传输顺序也分大端和小端。但在现代 CPU 和标准网络编程中，通常不需要关心位序，硬件会处理好。
+- **双端序架构 (Bi-endian)：** ARM 和 PowerPC 架构实际上是可配置的。虽然安卓和 iOS 运行在 ARM 上通常配置为小端，但在某些基站或路由器设备上，ARM 可能运行在大端模式。**不能假设 ARM 永远是小端。**
+
+---
+
+## 6. 总结
+
+1. **大端序 (Big-Endian)：** 顺撇子。高位在低地址。**网络标准。**
+2. **小端序 (Little-Endian)：** 逆撇子。低位在低地址。**主机 (x86) 标准。**
+3. **铁律：** 只要涉及**跨机器通信**（网络）或**跨系统文件交换**，必须显式调用 `ntohl` / `htonl` 系列函数，严禁依赖默认行为。
diff --git a/小技术/环形缓冲区-Ring Buffer的深度配置.md b/小技术/环形缓冲区-Ring Buffer的深度配置.md
new file mode 100644
index 0000000..c8e413a
--- /dev/null
+++ b/小技术/环形缓冲区-Ring Buffer的深度配置.md	
@@ -0,0 +1,78 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 10:00:12 晚上
+date modified: 星期三, 十一月 19日 2025, 10:03:20 晚上
+---
+
+### 一、 环形缓冲区（Ring Buffer）的原理与实时性作用
+
+#### 1\. 概念定位
+
+环形缓冲区（Ring Buffer，常称为 RX/TX 队列）是位于网络接口卡（NIC）硬件和操作系统内核网络堆栈之间的 **FIFO 队列**。它由内核驱动在系统物理内存中分配和映射。
+
+#### 2\. 实时性功能：数据减震器
+
+在雷达高速数据流中，Ring Buffer 充当了关键的**数据减震器（Shock Absorber）**。
+
+  - **工作机制：** 当 NIC 硬件通过 **DMA** (直接内存访问) 将接收到的数据包写入缓冲区时，CPU 尚未开始处理。当 CPU 核心因执行您的信号处理算法或其他高优先级任务而产生瞬时延迟（Jitter）时，Ring Buffer 可以暂存 NIC 涌入的数据。
+  - **关键价值：** 它提供了**时间容忍度**。如果内核调度或中断处理短暂延迟，只要 Ring Buffer 还有空间，数据就不会因为\*\* 缓冲区溢出（Buffer Overrun）\*\* 而被网卡硬件丢弃。
+
+### 二、 深度配置的权衡分析（Trade-off Matrix）
+
+对于雷达信号处理这类**对数据完整性有 P0 级要求**的业务，我们需要在**内存消耗**和**可靠性**之间进行权衡。
+
+| 维度 | 小缓冲区配置 (e.g., 256) | 大缓冲区配置 (e.g., 4096) | 结论与建议 |
+| :--- | :--- | :--- | :--- |
+| **数据完整性/丢包风险 (P0)** | **高。** 突发流量或内核微秒级延迟即可能导致 Ring Buffer 满溢，引发丢包。 | **极低。** 可缓冲更长的系统瞬态延迟（数十毫秒），显著降低数据丢包率。 | **P0 级需求：** 必须使用大缓冲区。 |
+| **CPU 负载/效率** | 每次中断处理的数据批次小，CPU 频繁唤醒，上下文切换开销大。 | 每次中断可批量处理更多数据描述符，有利于**批量处理（Batch Processing）**，整体降低 CPU 负载。 | **性能优化：** 大缓冲区有助于降低 CPU 开销。 |
+| **内存开销与锁定** | 低。对系统内存消耗小。 | 高。Ring Buffer 空间需要使用**连续的物理内存**，并需要 `mlock()` 锁定以保证实时性。 | **系统资源充裕：** 系统总内存高达 62GiB，且已解除了 `max locked memory` 限制，可承担大开销。|
+| **平均延迟/抖动** | 理论平均延迟最低，但延迟抖动大（可能在零和丢包之间跳跃）。 | 略微增加平均延迟（数据包在 Buffer 中停留时间长），但**延迟抖动（Jitter）更小**。 | **实时性需求：** 相比绝对最低延迟，更需要低抖动和高可靠性。|
+
+### 三、 基线确立与实施规范
+
+基于上述权衡分析，为保障雷达数据采集的**可靠性**和**低丢包率**，应采取最大化配置策略。
+
+#### 1\. 基线确定
+
+  - **RX Ring Buffer (接收):** **强制设定为 NIC 硬件支持的 RX 队列最大值。** (通常为 4096 或 8192)。
+  - **TX Ring Buffer (发送):** 保持默认或适度增加。雷达采集业务是接收主导，发送压力相对较小。
+
+#### 2\. 关键实施命令
+
+您需要使用 `ethtool` 工具来查询和配置 NIC 的 Ring Buffer 深度。
+
+```bash
+# 1. 查询当前 NIC 接口 (例如 ens4f1) 的 Ring Buffer 能力与当前值
+# Max: 是硬件支持的最大深度；Current: 是当前设置值
+ethtool -g ens4f3
+Ring parameters for ens4f3:
+Pre-set maximums:
+RX:             8192
+RX Mini:        0
+RX Jumbo:       0
+TX:             8192
+Current hardware settings:
+RX:             512
+RX Mini:        0
+RX Jumbo:       0
+TX:             512
+
+# 2. 将 RX Ring Buffer 深度配置为最大值 (假设 Max 为 4096)
+# 注意：配置值不能超过 ethtool -g 中显示的 Max: 值。
+ethtool -G ens4f3 rx 8192
+```
+
+#### 3\. 额外提醒：内核内存
+
+配置完成后，请确保您的内核已经通过 `sysctl` 优化了网络缓冲区大小，以匹配 JUMBO Frame 的需求。审计报告已确认该优化已实施：
+
+```bash
+sysctl net.core.rmem_max
+net.core.rmem_max = 26214400 # 约 25MB，足以支持 Ring Buffer 深度和 JUMBO Frame
+```
+
+**下一步讨论：**
+
+在确立了 JUMBO Frame 和最大 Ring Buffer 的基线后，我们进入下一议题：`2.1.5 DMA 与内核旁路策略`。
+
+**提问：** 您是否倾向于使用**内核旁路（Zero-copy）技术**（如 DPDK 或 AF\_XDP），以进一步降低 CPU 负载并消除内核开销，还是更倾向于使用**标准 UDP/IP 堆栈**以保证实现的简单和平台兼容性？（请考虑您当前 Kylin V10/GCC 7.3/Clang 18 的异构环境对新技术的兼容性挑战。）
diff --git a/小技术/硬件 PTP 同步 + TSC 软时钟封装.md b/小技术/硬件 PTP 同步 + TSC 软时钟封装.md
new file mode 100644
index 0000000..aad2427
--- /dev/null
+++ b/小技术/硬件 PTP 同步 + TSC 软时钟封装.md	
@@ -0,0 +1,166 @@
+---
+tags: []
+aliases:
+  - TL;DR
+date created: 星期三, 十一月 26日 2025, 9:31:51 晚上
+date modified: 星期三, 十一月 26日 2025, 9:38:25 晚上
+---
+
+# 硬件 PTP 同步 + TSC 软时钟封装
+
+## TL;DR
+
+**硬件 PTP 同步 + TSC 软时钟封装** 是一种专为**微秒级低延迟系统**（如高频交易、雷达信号处理）设计的时间同步方案。
+**核心逻辑**：利用 **硬件 PTP (精确时间协议)** 获取高精度的全球统一时间（解决“准”的问题），利用 CPU 的 **TSC (时间戳计数器)** 实现纳秒级极速读取（解决“快”的问题）。两者结合，消除了通过 PCIe 读取网卡时间的巨大延迟，使应用程序能在 **10-30 纳秒** 内获取误差小于 **1 微秒** 的绝对时间。
+
+-----
+
+## 1. 核心概念拆解
+
+要理解这个方案，必须先理解它试图解决的矛盾：**精度与速度通常不可兼得**。
+
+| 组件 | 全称 (中文) | 角色 | 优点 | 缺点 |
+| :--- | :--- | :--- | :--- | :--- |
+| **PTP** | Precision Time Protocol (精确时间协议) | **校准者** (类似于标准原子钟) | 精度极高 (硬件级可达亚微秒)，全网统一。 | 读取慢。从 CPU 到网卡读取时间需要走 PCIe 总线，耗时 **\>500ns**，这在高频场景不可接受。 |
+| **TSC** | Time Stamp Counter (时间戳计数器) | **计数者** (类似于手中的秒表) | 读取极快 (CPU 寄存器指令)，耗时 **\~10ns**。 | 只有相对刻度 (开机后的 CPU 周期数)，不知绝对时间；可能受 CPU 变频影响 (漂移)。 |
+
+**封装 (Encapsulation)** 的本质就是：**用 PTP 定期校准 TSC，应用程序只读 TSC。**
+
+-----
+
+## 2. 为什么需要这种方案？(底层原理)
+
+通常获取时间使用操作系统提供的 `gettimeofday` 或 `clock_gettime`，但在极致性能场景下，这有两种开销：
+
+1. **系统调用 (System Call) 开销：** 用户态切换到内核态，开销大。
+2. **I/O 延迟：** 如果要获得最真实的 PTP 时间，必须读取网卡上的寄存器。CPU 访问外设（网卡）必须经过 PCIe 总线，这比访问内存慢几个数量级。
+
+**方案演进路线：**
+NTP (毫秒级，软件同步) `->` 软件 PTP (微秒级，受 OS 抖动影响) `->` 硬件 PTP (亚微秒，但读取慢) `->` **硬件 PTP + TSC 软时钟 (亚微秒精度 + 纳秒级读取)**
+
+-----
+
+## 3. 实现流程与逻辑
+
+该方案通常由一个后台守护进程（Control Plane）和一个前台高效接口（Data Plane）组成。
+
+```mermaid
+graph TD
+    A["GPS/北斗卫星"] -->|授时| B("PTP Master Server")
+    B -->|网络包| C["本地网卡 (NIC) PTP 硬件时钟"]
+    
+    subgraph "操作系统内核/驱动"
+    C -->|定期读取/校准| D{"时钟同步算法"}
+    E["CPU TSC 寄存器"] -->|读取当前周期| D
+    D -->|计算转换参数 Scale & Offset| F["共享内存 (Shared Memory)"]
+    end
+    
+    subgraph "用户态应用程序"
+    E -->|RDTSC 指令| G["读取 TSC"]
+    F -->|读取参数| G
+    G -->|公式计算| H["高精度绝对时间"]
+    end
+```
+
+1. **硬件层 (PTP)：** 网卡硬件打标，确保获得的时间戳不包含操作系统调度的延迟。
+2. **控制面 (Sync Driver)：** 一个内核驱动或后台进程，每秒多次（如 10Hz）同时读取 " 网卡 PTP 时间 " 和 "CPU TSC 计数值 "。
+3. **计算面 (Calibration)：** 计算线性关系 $T_{real} = TSC \times Scale + Offset$。
+4. **数据面 (User App)：** 应用程序直接通过汇编指令 `rdtsc` 读取寄存器，结合共享内存中的 $Scale$ 和 $Offset$ 计算时间。**全程无系统调用，无 I/O 操作。**
+
+-----
+
+## 4. 代码实现示例 (C++)
+
+> **注意**：此代码仅为核心逻辑演示，生产环境需增加内存屏障 (Memory Barrier)、原子操作和 CPU 亲和性绑核处理。
+
+```cpp
+#include <cstdint>
+#include <iostream>
+#include <x86intrin.h> // for __rdtsc
+
+// 模拟共享内存中的校准参数
+struct ClockParams {
+    uint64_t base_ptp_ns; // 基准 PTP 时间 (纳秒)
+    uint64_t base_tsc;    // 对应的 TSC 计数值
+    double   mult;        // 转换倍率 (1 TSC tick 对应多少 ns)
+    
+    // 生产环境需要加入 sequence lock 避免读到更新中的数据
+};
+
+// 模拟：假设这是由后台同步线程更新的全局变量
+volatile ClockParams g_params = { 1700000000000000000, 1000000, 0.4 }; 
+
+class SoftClock {
+public:
+    // 获取当前高精度时间 (纳秒)
+    static uint64_t NowNs() {
+        uint64_t current_tsc;
+        uint64_t current_time_ns;
+
+        // 1. 读取 CPU TSC 寄存器 (极快)
+        // 使用 __rdtscp 而非 __rdtsc 可以防止指令重排，保证测量准确性
+        unsigned int aux;
+        current_tsc = __rdtscp(&aux); 
+
+        // 2. 线性变换： Time = BaseTime + (DeltaTSC * Multiplier)
+        // 实际工程中为避免浮点运算，通常使用定点数位移操作 (Shift)
+        uint64_t delta_tsc = 0;
+        
+        // 简单的边界检查：防止 TSC 溢出或重置导致的巨大跳变
+        if (current_tsc >= g_params.base_tsc) {
+            delta_tsc = current_tsc - g_params.base_tsc;
+        } else {
+            // 错误处理：TSC 回退（极少见，可能是多核不同步）
+            // 策略：返回上一次可信时间或降级调用系统时间
+            return 0; // 示例直接返回 0
+        }
+
+        current_time_ns = g_params.base_ptp_ns + (uint64_t)(delta_tsc * g_params.mult);
+        
+        return current_time_ns;
+    }
+};
+
+int main() {
+    uint64_t t = SoftClock::NowNs();
+    if (t == 0) {
+        std::cerr << "Error: Clock instability detected." << std::endl;
+        return 1;
+    }
+    std::cout << "Current HW-Synced Time: " << t << " ns" << std::endl;
+    return 0;
+}
+```
+
+-----
+
+## 5. 方案对比
+
+| 维度 | 仅用系统调用 (gettimeofday) | 纯硬件 PTP 读取 (Read NIC) | 硬件 PTP + TSC 封装 |
+| :--- | :--- | :--- | :--- |
+| **数据源** | OS 系统时间 (软) | 网卡寄存器 (硬) | **CPU 寄存器 (硬) + 算法校准** |
+| **精度 (误差)** | 微秒级 (us) \~ 毫秒级 | 亚微秒 (\<1us) | **亚微秒 (\<1us)** |
+| **读取耗时 (Latency)** | \~500 ns (系统调用开销) | \>500 ns (PCIe I/O 开销) | **\~10 - 20 ns (纯 CPU 计算)** |
+| **性能损耗** | 中 (上下文切换) | 高 (阻塞总线) | **极低** |
+| **典型场景** | 日志记录、普通业务 | 低频高精校准 | **高频交易、雷达信号处理** |
+
+-----
+
+## 6. 局限性与风险 (Self-Rebuttal)
+
+虽然此方案是高性能领域的首选，但在以下场景会失效或需特殊处理：
+
+  - **TSC 漂移问题 (Non-Invariant TSC)：** 在极老的 CPU 上，TSC 频率会随 CPU 降频/超频而变化。
+      - *对策：* 必须确认 CPU 支持 `Invariant TSC` (现代 x86 CPU 基本都支持)。
+  - **多核不同步 (Core Sync)：** 不同 CPU 核心的 TSC 寄存器初值可能不同。
+      - *对策：* 必须在 OS 启动时强制同步 TSC，或在代码中计算每个核心的独立 Offset。
+  - **SMI (系统管理中断)：** 硬件层面的中断（如散热控制）可能暂停 CPU，导致 TSC 计数虽然在走，但实际业务逻辑停顿，造成“时间流逝但业务未动”的错觉。
+      - *对策：* 在 BIOS 中尽可能关闭所有省电和管理功能 (Performance Mode)。
+  - **虚拟机陷阱：** 在虚拟化环境 (VM) 中，TSC 可能是模拟的，读取开销变大且精度下降。
+      - *对策：* 此方案主要适用于物理机 (Bare Metal) 或支持 `kvm-clock` 透传的环境。
+
+## 7. 总结
+
+  - **痛点：** 网卡时间准但读得慢，CPU 时间读得快但不准。
+  - **解法：** `PTP` 负责准，`TSC` 负责快，软件负责中间的 `转换逻辑`。
+  - **核心路径：** 卫星 `->` 网卡 PTP `->` 驱动校准 `->` 共享内存 `->` 用户态 TSC 计算。
diff --git a/小技术/跨缓存行（Cache Line Split）.md b/小技术/跨缓存行（Cache Line Split）.md
new file mode 100644
index 0000000..c5bef93
--- /dev/null
+++ b/小技术/跨缓存行（Cache Line Split）.md	
@@ -0,0 +1,78 @@
+---
+tags: 
+aliases:
+  - 1. 宏观原理图：箱子与积木的错位
+date created: 星期一, 十一月 24日 2025, 5:50:26 下午
+date modified: 星期一, 十一月 24日 2025, 5:50:35 下午
+---
+
+# 1. 宏观原理图：箱子与积木的错位
+
+想象 CPU 是一个强迫症收纳师，他手里有一排固定的收纳盒（缓存行），每个盒子长度固定是 64。
+
+我们要存的数据（点迹） 是长度为 48 的积木条。
+
+请看下面的图，展示了当我们把积木一条接一条紧挨着放进去时，发生了什么：
+
+
+```mermaid
+---
+config:
+    theme: base
+    flowchart:
+        curve: linear
+---
+graph LR
+    %% 样式定义
+    classDef box fill:#e6f7ff,stroke:#1890ff,stroke-width:2px,stroke-dasharray: 5 5
+    classDef block1 fill:#ffccc7,stroke:#f5222d,stroke-width:2px
+    classDef block2 fill:#d9f7be,stroke:#52c41a,stroke-width:2px
+
+    subgraph Memory["内存空间 (连续摆放)"]
+        direction LR
+        
+        subgraph Box1["收纳盒 1 (容量 64)"]
+            direction LR
+            A1["积木A (48)"]:::block1
+            B1["积木B 的头 (16)"]:::block2
+        end
+        
+        subgraph Box2["收纳盒 2 (容量 64)"]
+            direction LR
+            B2["积木B 的身子 (32)"]:::block2
+            C1["…"]:::white
+        end
+    end
+
+    %% 解释连接
+    A1 -- 紧挨着 --> B1
+    B1 -- "⚠️ 惨遭腰斩 ⚠️" --> B2
+```
+
+# 2. 细节文字表述：为什么这很糟糕？
+
+**场景还原：**
+
+1. **强迫症规则**：CPU 每次读取数据，必须**连盒带盖**端走整整一个“收纳盒”（64 字节），不能只捏走里面的某一块。
+2. **读取积木 A（红色）**：
+    
+    - CPU 伸手端走 **收纳盒 1**。
+    - 积木 A 完整地在盒子里。
+    - **耗时**：1 次搬运。**（快）**
+        
+3. **读取积木 B（绿色）**：
+    
+    - CPU 端走 **收纳盒 1**，拿到了积木 B 的**头**。
+    - CPU 发现身子没了，只能再去端走 **收纳盒 2**，拿到积木 B 的**身子**。
+    - 然后 CPU 还得在手里把这两段拼起来。
+    - **耗时**：2 次搬运 + 拼接时间。**（慢！）**
+
+# 3. 结论与解决方案
+
+- **问题核心**：因为数据的尺寸（48）不能被盒子的尺寸（64）整除，导致后续的数据像“跨栏”一样骑在两个盒子的边界上。这叫**跨缓存行（Cache Line Split）**。
+- **我们的方案（填充 Padding）**：
+    - 既然 48 放不进 64 很尴尬，我们就在每个积木后面**硬塞 16 块没用的泡沫（Padding）**。
+    - 把积木强行撑大到 **64**。
+    - **结果**：虽然浪费了空间，但现在每个盒子正好放一个积木。CPU 拿任何积木都只需要搬 **1 次**盒子。
+
+这就是我们为了极致性能所做的妥协：**用空间换时间**。
diff --git a/总结.md b/总结.md
new file mode 100644
index 0000000..ef054f9
--- /dev/null
+++ b/总结.md
@@ -0,0 +1,90 @@
+---
+tags: []
+aliases:
+  - TL;DR
+date created: 星期三, 十一月 26日 2025, 10:13:35 晚上
+date modified: 星期三, 十一月 26日 2025, 10:13:42 晚上
+---
+基于提供的文档内容和元数据，对您当前工作的深度分析如下：
+
+# TL;DR
+
+您正在主持构建一套**基于国产异构算力平台（飞腾 CPU + 天数智芯 GPU）的高性能雷达信号处理系统软件架构**。当前处于**工程基线确立与详细设计阶段 (Phase 2 - Detailed Design & Baselining)**。核心工作聚焦于在受限硬件条件下（如 1GbE 瓶颈、PCIe 降级）通过极致的软件调优（零拷贝、无锁队列、JUMBO Frame）压榨系统性能，并通过发布 ECN（工程变更通知）修正早期的架构缺陷（如 UI/计算资源竞争）。
+
+-----
+
+# 1. 项目画像与技术底座 (Project Profile & Stack)
+
+| 维度 | 规格/状态 | 关键推论 |
+| :--- | :--- | :--- |
+| **业务领域** | **雷达信号处理 (Radar Signal Processing)** | 涉及高吞吐数据流（I/Q 数据）、硬实时计算（FFT/CFAR）、态势显示。 |
+| **硬件环境** | **国产化信创平台 (Localization)** | **CPU**: 飞腾 (Feiteng) S5000C (ARM64, NUMA 架构)<br>**GPU**: 天数智芯 (Iluvatar) 智铠 MR-V100 (GPGPU)<br>**NIC**: 网迅 (Wangxun) 1GbE |
+| **软件环境** | **Kylin V10 SP1 (Linux 4.19)** | 编译器：GCC 7.3 (Host) + Clang 18 (Device)<br>中间件：Protobuf v3, ZeroMQ, HDF5 |
+| **当前痛点** | **物理带宽瓶颈 (P0)** | 网卡仅千兆，PCIe x16 降级为 x8。软件优化被迫承担硬件补救的角色。 |
+
+-----
+
+# 2. 当前核心工作流 (Current Workstreams)
+
+您正在同时推进以下四个维度的标准化与基线确立工作：
+
+## 2.1 基础设施审计与加固 (Infrastructure Auditing & Hardening)
+
+  - **动作**：对软硬件环境进行“地毯式”排查（1.x 章节）。
+  - **具体产出**：
+      - **内核调优**：禁用 `numa_balancing`，开启 `hugepages`，解除 `memlock` 限制。
+      - **编译编排**：确立 `Host(GCC)` + `Device(Clang)` 的混合编译范式，规避 CMake 原生 CUDA 支持的兼容性问题。
+      - **运行时伪装**：验证 CoreX SDK 对 CUDA 10.2 的 API 级兼容性。
+
+## 2.2 数据面极致性能优化 (Data Plane Optimization)
+
+  - **动作**：设计从网卡到显存的零拷贝/低延迟通路（2.1, 2.2 章节）。
+  - **具体产出**：
+      - **采集链路**：确立 **UDP + JUMBO Frame (MTU 9000)** 方案，以缓解 1GbE 的中断压力。
+      - **DMA 策略**：确立 **双流乒乓 (Double Buffering)** + **显式 NUMA 绑定 (Node 1)**，掩盖 PCIe 传输延迟。
+      - **显存布局**：强制使用 `cudaMallocPitch` 和 `float2` 交织存储，适配 `cuFFT` 性能需求。
+
+## 2.3 控制面解耦与鲁棒性设计 (Control Plane Decoupling)
+
+  - **动作**：构建进程内的高可靠神经中枢（2.3 章节）。
+  - **具体产出**：
+      - **事件总线**：设计混合双通道（Sync/Async）EventBus，集成 **TLS 全链路追踪 (TraceID)**。
+      - **热更新**：设计基于 **2PC (两阶段提交)** + **RCU** 的无锁配置热更新协议。
+      - **资源仲裁**：发布 **ECN-2025-001**，移除 UI 对 GPU 的抢占逻辑，回归计算吞吐优先策略，引入四级热节流机制。
+
+## 2.4 数据治理与契约定义 (Data Governance)
+
+  - **动作**：严格界定内部对象与外部协议的边界（2.4, 2.5 章节）。
+  - **具体产出**：
+      - **双态模型**：发布 **ECN-2025-002**，强制分离内部高性能 POD 对象（C++ Struct）与外部传输对象（Protobuf），仅在 `DisplayController` 边界处转换。
+      - **显控协议**：定义 `TrackDataBatch` 原子批次，支持多站标识与端到端延迟遥测。
+
+-----
+
+# 3. 架构决策矩阵 (Decision Matrix Snapshot)
+
+您在设计过程中进行了一系列关键权衡（Trade-off），体现了“工程落地优先”的原则：
+
+| 决策点 | 放弃方案 | 采纳方案 | 核心理由 |
+| :--- | :--- | :--- | :--- |
+| **传输层** | TCP / 组播 | **UDP 单播** | 去中心化，无状态，适配分布式阵面。 |
+| **内存管理** | 动态 `malloc` | **预分配锁页内存池** | 消除系统调用开销，支持 DMA。 |
+| **时间同步** | NTP (软件) | **硬件 PTP + TSC 软时钟** | 实现亚微秒级精度与纳秒级读取速度。 |
+| **异常处理** | 无脑重启 | **依赖感知四步法** | Pause-\>Stop-\>Restart-\>Resume，防止数据积压导致 OOM。 |
+| **UI 交互** | 抢占式调度 | **扁平化 + 热节流** | 移除不确定性，回归计算吞吐优先。 |
+
+-----
+
+# 4. 自我反驳与风险提示 (Self-Rebuttal)
+
+尽管架构设计趋于严谨，但基于当前文件仍存在以下**局限性或风险**：
+
+1. **硬件瓶颈是硬伤**：目前的 **1GbE 网卡** 和 **PCIe x8 降级** 是物理硬伤。目前的 JUMBO Frame 和 DMA 优化属于“戴着镣铐跳舞”，只能缓解而无法彻底解决带宽上限问题。如果雷达波形升级（如增加通道数或带宽），软件优化将瞬间失效。
+2. **ECC 监控缺失**：审计发现 `ixsmi` 无法查询 ECC 错误。对于长时间运行的雷达系统，显存位翻转可能导致静默数据错误，当前架构缺乏应用层的 CRC 校验或冗余计算作为兜底。
+3. **国产化环境的稳定性**：虽然 SDK 宣称兼容 CUDA 10.2，但 `Clang` 编译 `ivcore` 后端在复杂 C++ 模板（如 Thrust）下的边界情况（Corner Cases）尚未经过大规模压力测试，存在编译器 Bug 风险。
+
+-----
+
+# 结论
+
+您不仅仅是在写代码，而是在**制定标准**。您正在通过一系列严密的 ECN 和基线文档，将一个可能处于原型阶段的系统，强行规约为符合工业级标准的、可维护、高性能的软件产品。
diff --git a/技术选择/DMA与内核旁路策略.md b/技术选择/DMA与内核旁路策略.md
new file mode 100644
index 0000000..63b6b9e
--- /dev/null
+++ b/技术选择/DMA与内核旁路策略.md
@@ -0,0 +1,40 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 10:12:04 晚上
+date modified: 星期三, 十一月 19日 2025, 10:12:16 晚上
+---
+
+### 2.1.5 DMA 与内核旁路策略 (DMA & Kernel Bypass Strategy)
+
+- **概要**: 本节旨在确立数据从网络硬件到用户态页锁定内存 (`MemoryPool`) 的传输策略。核心目标是**最小化 CPU 参与**和**消除内核层面的内存拷贝**。基于当前 Feiteng/Kylin 平台的稳定性与现有设计兼容性考量，我们确立**优化标准 I/O**为基线方案，并以 AF\_XDP 作为 P0 级性能提升的风险备选方案。
+- **约束前提**
+    1. **物理约束**: 采集链路为 **1GbE** (物理上限)。
+    2. **协议基线**: **UDP/IP + JUMBO Frame (MTU 9000 字节)** (已确认)。
+    3. **软件架构**: 模块已采用**多级流水线并发**和**页锁定内存池**。
+
+---
+
+### 基线方案（A）：优化标准 I/O 与批量接收 (`recvmmsg`)
+
+  - **设计哲学**: 平台兼容性优先，在确保系统稳健性的前提下，通过软件优化达到高性能目标。该方案与模块已设计的 **`UdpReceiver` I/O 线程**和 **`epoll` 事件循环**完全兼容。
+  - **实现策略**:
+      1. **内核 I/O 机制**: `UdpReceiver` 组件运行在专用的 I/O 线程中，利用 Linux 内核提供的 `recvmmsg()` 系统调用进行数据接收。
+      2. **核心性能优化 (批量接收)**: `recvmmsg()` 的优势在于**一次系统调用可以处理多达 256 个数据包**，极大减少了用户态与内核态之间的切换开销，这是降低 I/O 线程 CPU 占用率 (KPI 目标之一) 的关键手段。
+      3. **吞吐量放大**: 结合已确立的 **JUMBO Frame (MTU 9000)** 基线，每一次 `recvmmsg()` 调用都将传输大量的有效净载荷，使得系统调用的价值被最大化，有效压榨 1GbE 链路的极限吞吐量。
+      4. **数据流**: **网卡 DMA** $\to$ **内核 Ring Buffer** $\to$ **用户态 `MemoryPool` (内存拷贝)**。虽然仍存在内核到用户空间的拷贝，但通过**批量接收**和**巨型帧**的组合，将拷贝效率提升至最高水平。
+
+---
+
+### 备选方案（B）：AF\_XDP 内核零拷贝 (P0 性能备选)
+
+  - **设计目标**: 达成真正的**内核旁路零拷贝**，将数据从网卡 DMA 区域直接映射到用户态，完全消除 I/O 线程中的内存拷贝开销，以达成更严格的 **CPU 资源占用率** KPI。
+  - **实现策略与风险**:
+      1. **技术路径**: 通过 eBPF 程序将网络流量重定向到 AF\_XDP Socket，绕过内核协议栈。
+      2. **兼容性风险 (P1)**: 当前系统运行在 **Kylin Linux 4.19 内核**上。此内核版本对 XDP/eBPF 技术的支持成熟度和功能完整性低于主流 5.x 内核。同时，网卡驱动（Wangxun WX1860AL4）对 XDP 接口的适配状况未知。
+      3. **启用时机**: 仅当 **基线方案 A (优化标准 I/O)** 无法满足 **I/O 线程 \< 5% (单核)** 的 CPU 资源占用率 KPI 时，才启动对 AF\_XDP 在当前平台上的兼容性验证和移植工作。
+
+---
+
+### 舍弃方案（C）：DPDK
+
+  - **舍弃理由**: DPDK 采用轮询模式（Poll Mode），与模块设计的 `epoll` 异步事件驱动模型相悖。且 DPDK 需要将网卡完全从内核中接管，在 **Kylin/aarch64 平台**上的部署、驱动绑定和调试成本过高，与项目的稳健性原则不符。
diff --git a/技术选择/清单.md b/技术选择/清单.md
new file mode 100644
index 0000000..0382dce
--- /dev/null
+++ b/技术选择/清单.md
@@ -0,0 +1,49 @@
+---
+tags: []
+date created: 星期四, 十一月 20日 2025, 8:52:43 晚上
+date modified: 星期日, 十二月 7日 2025, 9:26:50 晚上
+---
+流的设计模式：B. 多流乒乓/多缓冲 (Multi-Stream Ping-Pong) (推荐)
+但是 先设计 A. 单流串行 (Serial Stream) 作为代码调试阶段的轻量级。
+
+1. 缓冲区管理状态机
+
+```mermaid
+stateDiagram-v2
+    %% 状态定义
+    state "HOST_OWNED<br/>(主机所有)" as HOST
+    state "DEVICE_OWNED_H2D<br/>(传输中: H->D)" as H2D
+    state "DEVICE_OWNED_COMPUTE<br/>(计算中: Kernel)" as COMPUTE
+    state "DEVICE_OWNED_D2H<br/>(传输中: D->H)" as D2H
+    state "RELEASED<br/>(待归还)" as RELEASED
+
+    %% 流程流转
+    [*] --> HOST : 从 MemoryPool 申请
+
+    HOST --> H2D : I/O线程填充数据\n并调用 cudaMemcpyAsync
+    note right of HOST
+        此时数据位于页锁定内存
+        CPU 写入完成
+    end note
+
+    H2D --> COMPUTE : 记录 H2D_Event\nStreamWaitEvent
+    note right of H2D
+        DMA 引擎正在搬运
+        CPU 不阻塞
+    end note
+
+    COMPUTE --> D2H : Kernel 执行完毕\n自动触发 D2H
+    note right of COMPUTE
+        GPU 核心正在计算
+        数据驻留显存
+    end note
+
+    D2H --> RELEASED : D2H 完成回调\n或 Event 同步
+    note right of D2H
+        结果已写回 Host
+    end note
+
+    RELEASED --> HOST : DataPacket 析构\n自动归还 Pool
+    
+    RELEASED --> [*]
+```
diff --git a/系统基座文件/1/1.1/1.1.1 发行版与内核版本指纹.md b/系统基座文件/1/1.1/1.1.1 发行版与内核版本指纹.md
new file mode 100644
index 0000000..6d9b861
--- /dev/null
+++ b/系统基座文件/1/1.1/1.1.1 发行版与内核版本指纹.md	
@@ -0,0 +1,120 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 3:10:38 下午
+date modified: 星期三, 十一月 19日 2025, 5:42:25 下午
+---
+
+# 1.1.1 发行版与内核版本指纹
+
+**1. OS 发行版完整标识 (Distro Full ID)**
+
+- **关键性**：P0
+- **预期信息**：确认具体的 SP 版本（如 V10 SP1/SP2/SP3），不同版本的 Glibc 和内核基线差异极大。
+- 探测命令：
+
+	```bash
+	cat /etc/kylin-release /etc/os-release 2>/dev/null | grep -E "PRETTY_NAME|VERSION_ID|Kylin Linux Advanced Server"
+	Kylin Linux Advanced Server release V10 (GFB)
+	NAME="Kylin Linux Advanced Server"
+	VERSION_ID="V10"
+	PRETTY_NAME="Kylin Linux Advanced Server V10 (GFB)"
+	```
+
+**2. CPU 架构与字节序 (Arch & Endianness)**
+
+- **关键性**：P0
+- **预期信息**：必须确认为 aarch64 且为 Little Endian（小端序），这是 Feiteng S5000C 的基础特征。
+- 探测命令：
+
+    ```bash
+    lscpu | grep -E "Architecture|Byte Order"
+    空
+    ```
+
+**3. 内核发布版本号 (Kernel Release)**
+
+- **关键性**：P0
+- **预期信息**：精确的内核版本字符串。驱动源码的 Header Path 必须与此完全一致。
+- 探测命令：
+
+    ```bash
+    uname -r
+    4.19.90-52.23.v2207.gfb08.ky10.aarch64
+    ```
+
+**4. 内核构建编译器版本 (Kernel GCC Version)**
+
+- **关键性**：P0
+- **预期信息**：提取圆括号内的 gcc version。如果此版本与当前环境中 gcc 版本差异过大，编译内核模块时极易报错。
+- 探测命令：
+
+    ```bash
+    cat /proc/version
+    Linux version 4.19.90-52.23.v2207.gfb08.ky10.aarch64 (KYLINSOFT@localhost.localdomain) (gcc version 7.3.0 (GCC)) #1 SMP Tue Apr 23 18:20:01 CST 2024
+    ```
+
+**5. 内核启动参数全集 (Kernel Boot Cmdline)**
+
+- **关键性**：P1
+- **预期信息**：检查是否已有预设的 isolcpus、hugepages 或 iommu 参数，判断基线是否纯净。
+- 探测命令：
+
+    ```bash
+    cat /proc/cmdline
+    BOOT_IMAGE=/vmlinuz-4.19.90-52.23.v2207.gfb08.ky10.aarch64 root=/dev/mapper/klas-root ro rd.lvm.lv=klas/root rd.lvm.lv=klas/swap acpi=on rhgb quiet console=tty0 crashkernel=1024M,high smmu.bypassdev=0x1000:0x17 smmu.bypassdev=0x1000:0x15 video=efifb:off module_blacklist=phytium_mci_pci module_blacklist=phytium_mci audit=0
+    ```
+
+**6. 内核构建时间戳 (Kernel Build Timestamp)**
+
+- **关键性**：P2
+- **预期信息**：确认内核是原厂构建还是用户自行重新编译过的版本。
+- 探测命令：
+
+    ```bash
+    uname -v
+    #1 SMP Tue Apr 23 18:20:01 CST 2024
+    ```
+
+**7. 内核模块签名强制性 (Module Signing Policy)**
+
+- **关键性**：P1
+- **预期信息**：检查 CONFIG_MODULE_SIG_FORCE。如果是 y，则加载未签名的自研驱动会被拒绝。
+- 探测命令：
+
+    ```bash
+    grep "CONFIG_MODULE_SIG" /boot/config-$(uname -r) 2>/dev/null || echo "Config check failed"
+    CONFIG_MODULE_SIG=y
+	# CONFIG_MODULE_SIG_FORCE Is not Set
+	CONFIG_MODULE_SIG_ALL=y
+	# CONFIG_MODULE_SIG_SHA1 is not set
+	# CONFIG_MODULE_SIG_SHA224 is not set
+	CONFIG_MODULE_SIG_SHA256=y
+	# CONFIG_MODULE_SIG_SHA384 is not set
+	# CONFIG_MODULE_SIG_SHA512 is not set
+	CONFIG_MODULE_SIG_HASH="sha256"
+	CONFIG_MODULE_SIG_KEY="certs/signing_key.pem"
+	```
+
+**8. 安全模块状态 (LSM Status)**
+
+- **关键性**：P1
+- **预期信息**：确认 SELinux 或 Kysec（麒麟安全子系统）的状态，这是导致设备节点无权限访问的常见原因。
+- 探测命令：
+
+    ```bash
+    sestatus 2>/dev/null; getenforce 2>/dev/null; ls -d /sys/kernel/security/lsm
+    SELinux status:                 disabled
+	Disabled
+	/sys/kernel/security/lsm
+    ```
+
+**9. 页大小配置 (Page Size Configuration)**
+
+- **关键性**：P1
+- **预期信息**：aarch64 架构下可能存在 4KB 或 64KB 页大小的差异。页大小不匹配会导致内存映射（mmap）失败。
+- 探测命令：
+
+	```bash
+	getconf PAGESIZE
+	65536
+	```
diff --git a/系统基座文件/1/1.1/1.1.2 内存子系统策略 (Memory Subsystem Policy).md b/系统基座文件/1/1.1/1.1.2 内存子系统策略 (Memory Subsystem Policy).md
new file mode 100644
index 0000000..e01ecb3
--- /dev/null
+++ b/系统基座文件/1/1.1/1.1.2 内存子系统策略 (Memory Subsystem Policy).md	
@@ -0,0 +1,77 @@
+---
+tags: 
+aliases:
+  - 1.1.2 内存子系统策略 (Memory Subsystem Policy)
+date created: 星期三, 十一月 19日 2025, 3:48:55 下午
+date modified: 星期三, 十一月 19日 2025, 3:49:00 下午
+---
+
+# 1.1.2 内存子系统策略 (Memory Subsystem Policy)
+
+**1. 透明大页状态 (Transparent HugePages Status)**
+
+  - **关键性**：P0
+  - **预期信息**：查看当前状态是 `[always]` 还是 `[never]`。在 64KB 基础页宽的系统上，THP 机制更为激进，极易导致内存碎片化和不可预测的内核态 CPU 占用（sys cpu high）。雷达实时处理业务通常强制要求设为 `never` 或 `madvise`。
+  - 探测命令：
+
+    ```bash
+    cat /sys/kernel/mm/transparent_hugepage/enabled
+    always [madvise] never
+    ```
+
+**2. 标准大页尺寸 (Default Hugepage Size)**
+
+  - **关键性**：P1
+  - **预期信息**：确认系统默认的大页物理尺寸。在 x86 (4KB 页) 上通常是 2MB；但在 64KB 页宽的 aarch64 系统上，一级大页通常是 **512MB**。这直接决定了驱动程序（如 DMA 缓冲）申请连续物理内存时的对齐粒度和最小单元。
+  - 探测命令：
+
+    ```bash
+    grep "Hugepagesize" /proc/meminfo
+    Hugepagesize:     524288 kB
+    ```
+
+**3. 大页内存预留量 (Total HugePages)**
+
+  - **关键性**：P1
+  - **预期信息**：检查系统是否在启动阶段通过 Boot Args 预留了物理大页。若显示 `0`，说明完全依赖运行时分配。对于从 ADC 采集的高速数据流，运行时动态申请大页极易失败，必须确认是否有静态预留。
+  - 探测命令：
+
+    ```bash
+    grep "HugePages_Total" /proc/meminfo
+    HugePages_Total:       0
+    ```
+
+**4. 虚拟内存交换倾向 (Swappiness)**
+
+  - **关键性**：P1
+  - **预期信息**：数值范围 0-100。对于实时雷达系统，任何形式的 Swap-out（内存换出）都是致命的，会导致毫秒级的处理中断。该值应被严格限制在 `0` 或 `10` 以内。
+  - 探测命令：
+
+    ```bash
+    cat /proc/sys/vm/swappiness
+    10
+    ```
+
+**5. 内存过载分配策略 (Overcommit Memory Policy)**
+
+  - **关键性**：P2
+  - **预期信息**：返回值为 `0` (启发式), `1` (总是允许), 或 `2` (严格限制)。GPGPU 驱动初始化时常需预分配巨大的虚拟地址空间，若此值为 `2` (禁止过载) 且无足够 Swap，驱动初始化（`cudaMalloc` 等价调用）可能会直接崩溃。
+  - 探测命令：
+
+    ```bash
+    cat /proc/sys/vm/overcommit_memory
+    0
+    ```
+
+**6. 物理内存全景 (Physical Memory Overview)**
+
+  - **关键性**：P2
+  - **预期信息**：获取 `Total`（物理总内存）与 `Available`（实际可用）。需特别关注在 64KB 页系统下，内核自身的数据结构（Page Tables）会消耗比 x86 更多的内存，需评估剩余内存是否满足信号处理算法的峰值需求。
+  - 探测命令：
+
+    ```bash
+    free -h
+	    total        used        free      shared  buff/cache   available
+	Mem:           62Gi       2.8Gi        58Gi        81Mi       1.2Gi        54Gi
+	Swap:         8.0Gi          0B       8.0Gi
+    ```
diff --git a/系统基座文件/1/1.1/1.1.3 CPU 调度与核心隔离 (CPU Scheduling & Isolation).md b/系统基座文件/1/1.1/1.1.3 CPU 调度与核心隔离 (CPU Scheduling & Isolation).md
new file mode 100644
index 0000000..96cac82
--- /dev/null
+++ b/系统基座文件/1/1.1/1.1.3 CPU 调度与核心隔离 (CPU Scheduling & Isolation).md	
@@ -0,0 +1,115 @@
+---
+tags: 
+date created: 星期三, 十一月 19日 2025, 3:56:35 下午
+date modified: 星期三, 十一月 19日 2025, 3:56:46 下午
+---
+
+# 1.1.3 CPU 调度与核心隔离 (CPU Scheduling & Isolation)
+
+**1. CPU 物理拓扑与 NUMA 布局 (CPU Topology & NUMA Layout)**
+
+  - **关键性**：P0
+  - **预期信息**：确认物理核心数、Socket 数量及 NUMA 节点分布。Feiteng S5000C 通常为多路多核架构，跨 NUMA 节点的内存访问会导致显著的时延抖动，需确认 CPU 核心与 NUMA 节点的亲和性映射。
+  - 探测命令：
+
+    ```bash
+    lscpu -e=CPU,NODE,SOCKET,CORE,CACHE
+    CPU NODE SOCKET CORE L1d:L1i:L2:L3
+      0    0      0    0 0:0:0:0
+      1    0      0    1 1:1:1:0
+      2    0      0    2 2:2:2:0
+      …
+     15    0      0   15 15:15:15:0
+     16    1      0   16 16:16:16:1
+     17    1      0   17 17:17:17:1
+      …
+     31    1      0   31 31:31:31:1
+    ```
+
+**2. 运行时核心隔离状态 (Runtime CPU Isolation)**
+
+  - **关键性**：P0
+  - **预期信息**：检查内核是否已成功隔离指定核心（返回核心列表）。被隔离的核心将不再接收操作系统的常规任务调度，仅处理绑定到该核心的实时雷达信号处理线程。若为空，说明未配置隔离。
+  - 探测命令：
+
+    ```bash
+    cat /sys/devices/system/cpu/isolated
+
+    ```
+
+**3. CPU 频率调节模式 (Frequency Scaling Governor)**
+
+  - **关键性**：P1
+  - **预期信息**：确认 CPU 调频策略。应为 `performance`（定频/高性能）。若为 `powersave` 或 `ondemand`，CPU 频率随负载波动会破坏信号处理的时间确定性（Jitter）。
+  - 探测命令：
+
+    ```bash
+    cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor | sort | uniq
+    performance
+    ```
+
+**4. 自动 NUMA 平衡策略 (Automatic NUMA Balancing)**
+
+  - **关键性**：P1
+  - **预期信息**：返回 `0` (禁用) 或 `1` (启用)。在实时系统中应设为 `0`。若启用，内核会自动迁移内存页以试图优化局部性，这会引发不可控的 Page Fault 和延迟，严重干扰 DSP 算法运行。
+  - 探测命令：
+
+    ```bash
+    cat /proc/sys/kernel/numa_balancing
+    1
+    ```
+
+**5. 实时调度节流阈值 (Real-time Throttling)**
+
+  - **关键性**：P1
+  - **预期信息**：默认通常为 `950000` (μs)，即预留 5% CPU 给非实时任务。若雷达处理线程独占核心且需 100% 占用（死循环轮询），需设为 `-1` 以关闭节流，否则线程会被强制挂起。
+  - 探测命令：
+
+    ```bash
+    cat /proc/sys/kernel/sched_rt_runtime_us
+    950000
+    ```
+
+**6. 中断负载均衡服务状态 (IRQ Balance Service)**
+
+  - **关键性**：P2
+  - **预期信息**：确认 `irqbalance` 服务状态。对于高性能网卡或 PCIe 采集卡，通常需要关闭自动均衡，手动将硬中断（IRQ）绑定到特定核心，以避免中断处理在不同核心间漂移导致缓存失效。
+  - 探测命令：
+
+    ```bash
+    systemctl status irqbalance 2>/dev/null | grep -E "Active|Loaded"
+       Loaded: loaded (/usr/lib/systemd/system/irqbalance.service; enabled; vendor preset: enabled)
+       Active: active (running) since Wed 2025-11-19 14:12:35 CST; 1h 41min ago
+    ```
+
+**7. 离线核心状态 (Offline CPUs)**
+
+  - **关键性**：P2
+  - **预期信息**：检查是否有核心被逻辑关闭（Hotplug off）。这有时用于节能或规避硬件故障，需确认所有预期可用的物理核心均处于 Online 状态（此处为空表示全在线）。
+  - 探测命令：
+
+    ```bash
+    cat /sys/devices/system/cpu/offline
+
+    ```
+
+**8. 现有实时进程分布 (Existing RT Processes)**
+
+  - **关键性**：P2
+  - **预期信息**：扫描当前系统中是否已有运行在 `RR` (Round Robin) 或 `FIFO` 策略下的实时进程，防止它们与未来的雷达业务产生资源争抢。
+  - 探测命令：
+
+    ```bash
+    ps -eo pid,cls,rtprio,cmd --sort=-rtprio | grep -E "RR|FF" | head -n 10
+         13  FF     99 [migration/0]
+         16  FF     99 [migration/1]
+         21  FF     99 [migration/2]
+         26  FF     99 [migration/3]
+         31  FF     99 [migration/4]
+         36  FF     99 [migration/5]
+         41  FF     99 [migration/6]
+         46  FF     99 [migration/7]
+         51  FF     99 [migration/8]
+         56  FF     99 [migration/9]
+    ```
+
diff --git a/系统基座文件/1/1.1/1.1.4 系统级资源限制 (System Resource Limits).md b/系统基座文件/1/1.1/1.1.4 系统级资源限制 (System Resource Limits).md
new file mode 100644
index 0000000..8bb8259
--- /dev/null
+++ b/系统基座文件/1/1.1/1.1.4 系统级资源限制 (System Resource Limits).md	
@@ -0,0 +1,145 @@
+---
+tags: 
+date created: 星期三, 十一月 19日 2025, 3:57:04 下午
+date modified: 星期三, 十一月 19日 2025, 4:02:26 下午
+---
+
+# 1.1.4 系统级资源限制 (System Resource Limits)
+
+**1. 进程级资源配额 (Process Limits / ulimit)**
+
+  - **关键性**：P0
+  - **信息解析**：
+      - **关键风险点**：`max locked memory` (锁定内存) 仅为 **64KB**。这是致命配置。雷达实时程序必须通过 `mlock()` 锁定物理内存以防止被 Swap 换出。此限制会导致锁定失败，进而引发不可控的缺页中断（Page Fault），破坏实时性。
+      - **有利配置**：`open files` (文件句柄) 已达 **524288**，`core file size` 为 `unlimited`，这有利于高并发 Socket 通信和崩溃现场保留。
+      - **注意点**：`stack size` 为 **8192KB (8MB)**。对于深度递归或在栈上分配大型矩阵的 DSP 算法，可能面临 Stack Overflow 风险，建议在工程中调整或改为堆分配。
+  - 探测命令与结果：
+
+    ```bash
+    ulimit -a
+    core file size          (blocks, -c) unlimited
+    data seg size           (kbytes, -d) unlimited
+    scheduling priority             (-e) 0
+    file size               (blocks, -f) unlimited
+    pending signals                 (-i) 255853
+    max locked memory       (kbytes, -l) 64
+    max memory size         (kbytes, -m) unlimited
+    open files                      (-n) 524288
+    pipe size            (512 bytes, -p) 8
+    POSIX message queues     (bytes, -q) 819200
+    real-time priority              (-r) 0
+    stack size              (kbytes, -s) 8192
+    cpu time               (seconds, -t) unlimited
+    max user processes              (-u) 255853
+    virtual memory          (kbytes, -v) unlimited
+    file locks                      (-x) unlimited
+    ```
+
+**2. 系统级文件句柄上限 (System-wide File Handles)**
+
+  - **关键性**：P2
+  - **信息解析**：
+      - `file-max` 约为 $9.22 \times 10^{18}$，`nr_open` 约为 $10.7$ 亿。
+      - 结论：内核层面的文件描述符限制极其宽裕，不存在系统级瓶颈。任何 "Too many open files" 错误均将源自进程级（ulimit）限制。
+  - 探测命令与结果：
+
+    ```bash
+    cat /proc/sys/fs/file-max
+    9223372036854775807
+    ```
+
+    ```bash
+    cat /proc/sys/fs/nr_open
+    1073741816
+    ```
+
+**3. 线程与进程容量 (Thread & Process Capacity)**
+
+  - **关键性**：P1
+  - **信息解析**：
+      - `pid_max` (419 万) 和 `threads-max` (51 万) 提供了充足的 ID 空间。
+      - 结论：系统支持高并发多线程模型，能够容纳雷达处理管线中密集的数据分发线程。
+  - 探测命令与结果：
+
+    ```bash
+    cat /proc/sys/kernel/pid_max
+    4194304
+    ```
+
+    ```bash
+    cat /proc/sys/kernel/threads-max
+    511707
+    ```
+
+**4. 核心转储策略 (Core Dump Strategy)**
+
+  - **关键性**：P2
+  - **信息解析**：
+      - `core_pattern` 被重定向至 `systemd-coredump`。这意味着 Core 文件会被压缩并统一存储在 `/var/lib/systemd/coredump/`，而非散落在当前目录。这对长期运行的无人值守系统有利，便于统一回溯。
+      - `suid_dumpable` 为 `0`。这意味着如果雷达主程序使用了 `setuid` 提权或文件 capabilities，崩溃时将**不会**产生 Core Dump。调试阶段建议临时设为 `1`。
+  - 探测命令与结果：
+
+    ```bash
+    cat /proc/sys/kernel/core_pattern
+    |/usr/lib/systemd/systemd-coredump %P %u %g %s %t %c %h
+    ```
+
+    ```bash
+    cat /proc/sys/fs/suid_dumpable
+    0
+    ```
+
+**5. 管道缓冲区限制 (Pipe Buffer Limits)**
+
+  - **关键性**：P2
+  - **信息解析**：
+      - `pipe-max-size` 为 **1MB**。
+      - 结论：如果进程间通信（IPC）大量依赖 Pipe，单次原子写入不应超过此值。对于高吞吐雷达数据，建议使用共享内存而非管道。
+  - 探测命令与结果：
+
+    ```bash
+    cat /proc/sys/fs/pipe-max-size
+    1048576
+    ```
+
+**6. System V IPC 限制 (Shared Memory & Semaphores)**
+
+  - **关键性**：P1
+  - **信息解析**：
+      - **共享内存**：最大段大小 (Max Segment Size) 极为巨大（PB 级），完全满足 GPGPU 异构计算中零拷贝（Zero-copy）或大块内存共享的需求。
+      - **消息队列**：`max message size` 仅为 **8192 字节**。这表明 System V 消息队列仅适用于传递极小的控制指令（Control Plane），严禁用于传输雷达回波数据（Data Plane）。
+  - 探测命令与结果：
+
+    ```bash
+    ipcs -l
+    ---------- 消息限制 -----------
+    系统最大队列数量 = 32000
+    最大消息尺寸 (字节) = 8192
+    默认的队列最大尺寸 (字节) = 16384
+
+    ---------- 同享内存限制 ------------
+    最大段数 = 4096
+    最大段大小 (千字节) = 18014398509465599
+    最大总共享内存 (千字节) = 18014398509481920
+    最小段大小 (字节) = 1
+
+    --------- 信号量限制 -----------
+    最大数组数量 = 32000
+    每个数组的最大信号量数目 = 32000
+    系统最大信号量数 = 1024000000
+    每次信号量调用最大操作数 = 500
+    信号量最大值=32767
+    ```
+
+**7. 持久化资源配置文件 (Persistent Config File)**
+
+  - **关键性**：P1
+  - **信息解析**：
+      - 输出为空。说明 `/etc/security/limits.conf` 中没有显式配置。
+      - 结论：当前的系统限制值（如 `open files = 524288`）可能来自于 systemd 的全局默认配置或 `/etc/security/limits.d/` 下的子文件。但 `memlock` 的 64KB 限制必须在此文件中显式覆盖，否则每次重启都会面临实时性风险。
+  - 探测命令与结果：
+
+    ```bash
+    grep -vE "^#|^$" /etc/security/limits.conf
+    (空)
+    ```
diff --git a/系统基座文件/1/1.1/1.1.5 设备节点与总线映射 (Device Nodes & Bus Mapping).md b/系统基座文件/1/1.1/1.1.5 设备节点与总线映射 (Device Nodes & Bus Mapping).md
new file mode 100644
index 0000000..a777f18
--- /dev/null
+++ b/系统基座文件/1/1.1/1.1.5 设备节点与总线映射 (Device Nodes & Bus Mapping).md	
@@ -0,0 +1,110 @@
+---
+tags: 
+date created: 星期三, 十一月 19日 2025, 4:05:45 下午
+date modified: 星期三, 十一月 19日 2025, 4:06:00 下午
+---
+
+# 1.1.5 设备节点与总线映射 (Device Nodes & Bus Mapping)
+
+**1. 核心加速卡与显示设备识别 (GPU & Display Recognition)**
+
+  - **关键性**：P0
+  - **信息解析**：
+      - **设备状态**：成功识别到 ID 为 `1e3e:0002` 的 Processing accelerator，此即 **天数智芯（Iluvatar）智铠 GPU**。物理总线地址为 `0001:01:00.0`。
+      - **设备节点**：`/dev/iluvatar0` 已创建，且权限为 `666` (crw-rw-rw-)，这意味着用户态程序可以直接访问，驱动加载正常。
+      - **显示设备**：检测到 Phytium 原生显示控制器 (`0001:02:00.0`)，映射为 `/dev/dri/card0`。
+  - 探测命令与结果：
+
+    ```bash
+    lspci -nn | grep -E "VGA|3D|Display|Processing|Accelerator"
+    0001:01:00.0 Processing accelerators [1200]: Device [1e3e:0002] (rev 01)
+    0001:02:00.0 Display controller [0380]: Phytium Technology Co., Ltd. Device [1db7:dc3e]
+    ```
+
+    ```bash
+    ls -lR /dev/dri /dev/vfio /dev/iluvatar* 2>/dev/null
+    crw-rw-rw- 1 root root 239, 0 11月 19 14:12 /dev/iluvatar0
+    …
+    ```
+
+**2. PCIe 链路带宽与完备性 (PCIe Link Status)**
+
+  - **关键性**：P0
+  - **信息解析**：
+      - **严重告警 (Network)**：`dmesg` 显示网迅网卡（ngbe）带宽受限。
+
+        > `8.000 Gb/s available PCIe bandwidth, limited by 5.0 GT/s PCIe x2 link`
+        > 网卡能力为 x4，但实际协商或插槽仅支持 x2。**这导致物理带宽上限仅为 8Gbps，无法跑满双口万兆，雷达高吞吐传输存在丢包风险。**
+
+      - **链路降级 (Link Downgrade)**：`lspci` 统计显示有多个设备状态为 `downgraded`。需确认 GPU (`0001:01:00.0`) 当前是跑在 `Speed 16GT/s, Width x16` 还是被降级。
+  - 探测命令与结果：
+
+    ```bash
+    dmesg | grep -iE "smmu|iommu|pci|aer|firmware" | tail -n 20
+    [    7.267461] ngbe 0000:0d:00.0: 8.000 Gb/s available PCIe bandwidth, limited by 5.0 GT/s PCIe x2 link at 0000:09:04.0
+    ```
+
+    ```bash
+    lspci -vv | grep -E "LnkCap:|LnkSta:" | grep -E "Speed|Width" | sort | uniq -c
+          1                 LnkSta: Speed 16GT/s (downgraded), Width x8 (ok)
+          1                 LnkSta: Speed 16GT/s (ok), Width x8 (downgraded)
+    ```
+
+**3. IOMMU 组别与隔离 (IOMMU Groups)**
+
+  - **关键性**：P1
+  - **信息解析**：
+      - **功能状态**：IOMMU 已激活。
+      - **分组详情**：
+          - GPU (`0001:01:00.0`) 被分配在 **Group 18**。
+          - 网卡 (`0000:0d:00.x`) 被分配在 **Group 19**。
+      - **结论**：GPU 独占 Group 18，这非常有利于通过 VFIO 进行直通（Passthrough）或用户态驱动开发，隔离性良好。
+  - 探测命令与结果：
+
+    ```bash
+    dmesg | grep -iE "smmu|iommu|pci|aer|firmware"
+    [    6.942440] iommu: Adding device 0001:01:00.0 to group 18
+    [    7.112576] iommu: Adding device 0000:0d:00.0 to group 19
+    ```
+
+**4. 中断亲和性与分布 (Interrupt Affinity)**
+
+  - **关键性**：P1
+  - **信息解析**：
+      - **NVMe 风险**：NVMe SSD 的中断 (`nvme0q0`, IRQ 124) 在终端输出时刻仅触发在 CPU0 上（Count=37）。
+      - **USB 干扰**：大量的 `xhci_hcd` (USB) 中断分布在 IRQ 128-146。
+      - **建议**：必须将雷达的高速信号采集卡中断和 NVMe 落盘中断手动绑定到不同的 CPU 核心，避免与 CPU0（通常处理 OS 杂项）争抢。
+  - 探测命令与结果：
+
+    ```bash
+    cat /proc/interrupts | grep -i "MSI" | head -n 20
+    124:         37          0 … 0   ITS-MSI 135790592 Edge      nvme0q0
+    ```
+
+**5. 块设备 IO 调度器 (Block Device IO Scheduler)**
+
+  - **关键性**：P2
+  - **信息解析**：
+      - **NVMe 配置**：`nvme0n1` 当前调度器为 `[none]`。
+      - **结论**：**优秀配置**。对于 NVMe SSD，使用 `none` (多队列直通) 能最大程度降低 CPU 开销，最适合雷达原始数据（Raw Data）的高速落盘场景。
+  - 探测命令与结果：
+
+    ```bash
+    grep "" /sys/block/*/queue/scheduler
+    /sys/block/nvme0n1/queue/scheduler:[none] mq-deadline kyber bfq 
+    ```
+
+**6. PCIe 最大有效载荷 (Max Payload Size)**
+
+  - **关键性**：P2
+  - **信息解析**：
+      - 多数设备协商在 `512 bytes`，但也有一部分在 `128 bytes` 或 `256 bytes`。
+      - 若 GPU 或采集卡的 MPS (Max Payload Size) 不匹配（如一个 128 一个 512），PCIe 控制器会强制按照木桶效应（最低值）传输，导致 DMA 效率下降 15%-30%。需确认 GPU 具体协商值。
+  - 探测命令与结果：
+
+    ```bash
+    lspci -vv | grep -E "DevCtl:|DevCap:" | grep -E "MaxPayload|MaxReadReq" | sort | uniq -c
+         15                 DevCap: MaxPayload 128 bytes…
+         23                 DevCap: MaxPayload 512 bytes…
+    ```
+
diff --git a/系统基座文件/1/1.1/1.1.6 时间同步与系统关键疑点深挖 (Time Synchronization & Deep-Dive).md b/系统基座文件/1/1.1/1.1.6 时间同步与系统关键疑点深挖 (Time Synchronization & Deep-Dive).md
new file mode 100644
index 0000000..ed529ca
--- /dev/null
+++ b/系统基座文件/1/1.1/1.1.6 时间同步与系统关键疑点深挖 (Time Synchronization & Deep-Dive).md	
@@ -0,0 +1,92 @@
+---
+tags: 
+date created: 星期三, 十一月 19日 2025, 4:10:16 下午
+date modified: 星期三, 十一月 19日 2025, 4:10:27 下午
+---
+
+# 1.1.6 时间同步与系统关键疑点深挖 (Time Synchronization & Deep-Dive)
+
+**1. 时间同步服务健康度 (Time Synchronization Health)**
+
+  - **关键性**：P1
+  - **信息解析**：
+      - **时钟源 (Clocksource)**：系统正确使用了 `arch_sys_counter`，这是 ARM64 架构下的高精度硬件计数器，基准可靠。
+      - **同步偏差 (Offset)**：当前与 NTP 服务器的偏差约为 **6ms - 7ms** (`-6106us` \~ `+7072us`)。对于毫秒级雷达应用尚可接受，但若涉及多站协同或相控阵微秒级同步，此偏差**过大**，建议改用 PTP (Precision Time Protocol) 或连接本地高精度 GPS 时钟源。
+      - **频率漂移 (Frequency Skew)**：`89.988 ppm`，表明本地晶振走得稍快，但在 Chrony 修正范围内。
+  - 探测命令与结果：
+
+    ```bash
+    cat /sys/devices/system/clocksource/clocksource0/current_clocksource
+    arch_sys_counter
+
+    chronyc sources -v
+    ^* 113.141.164.38  …  -6106us[-6155us] +/-  35ms
+    ^+ 223.4.249.80    …  +7072us[+7072us] +/-  34ms
+    ```
+
+**2. GPU 链路降级确认 (GPU Link Downgrade Verification)**
+
+  - **关键性**：P0 (Critical)
+  - **信息解析**：
+      - **链路状态**：明确确证 **GPU 运行在 PCIe 4.0 x8 模式** (`Speed 16GT/s (ok), Width x8 (downgraded)`)。
+      - **根本原因**：物理插槽可能仅为 `x8` 电气连接，或者 GPU 金手指接触不良，亦或是主板 BIOS 设置了通道拆分（Bifurcation）。
+      - **后果**：理论带宽上限从 32GB/s (x16) 降至 16GB/s (x8)。若雷达回波数据量巨大（如多通道宽带信号），这将成为数据传输的硬瓶颈。
+  - 探测命令与结果：
+
+    ```bash
+    lspci -s 0001:01:00.0 -vv | grep -E "LnkCap:|LnkSta:"
+    LnkCap: Port #0, Speed 16GT/s, Width x16 …
+    LnkSta: Speed 16GT/s (ok), Width x8 (downgraded)
+    ```
+
+**3. 系统性能配置档 (System Performance Profile)**
+
+  - **关键性**：P1
+  - **信息解析**：
+      - **激活策略**：`throughput-performance` 已激活。
+      - **缺陷**：尽管使用了高性能配置，但前序审计发现 `numa_balancing=1` 依然开启。这说明 Kylin 默认的 `throughput-performance` 策略并未激进地关闭 NUMA 自动均衡，后续需创建自定义 Tuned Profile 来覆盖此项。
+  - 探测命令与结果：
+
+    ```bash
+    tuned-adm active
+    Current active profile: throughput-performance
+    ```
+
+**4. 透明大页整理策略 (THP Defrag Policy)**
+
+  - **关键性**：P2
+  - **信息解析**：
+      - **当前状态**：`[madvise]`。
+      - **评价**：这是一个**相对安全**的设置。意味着内核仅在应用程序通过 `madvise(MADV_HUGEPAGE)` 显式请求时才整理大页，避免了全局强制整理带来的随机延迟。与 1.1.2 节建议一致。
+  - 探测命令与结果：
+
+    ```bash
+    cat /sys/kernel/mm/transparent_hugepage/defrag
+    always defer defer+madvise [madvise] never
+    ```
+
+**5. 网络接口映射概览 (Network Interface Mapping)**
+
+  - **关键性**：P2
+  - **信息解析**：
+      - **接口列表**：
+          - `ens4f0` - `ens4f3`：这极有可能是那是那块**带宽受限**的网迅四口千兆/万兆网卡。目前 `ens4f1` 为 `UP` 状态。
+          - `ens2f7u1u2`：USB 网卡或转接设备，当前处于 `UP` 状态。
+      - **下一步行动**：后续网络调优时，需重点针对 `ens4f*` 系列接口使用 `ethtool` 检查 Ring Buffer 大小和硬中断聚合（Coalesce）设置。
+  - 探测命令与结果：
+
+    ```bash
+    ip -br link show
+    ens4f0            DOWN …
+    ens4f1            UP …
+    ```
+
+-----
+
+### 1\. 开发环境与构建生态 - 审计总结
+
+至此，**1.1 操作系统与内核基座** 的深度审计已全部完成。我们已经掌握了这台机器的“体检报告”：
+
+  - **底座**：Kylin V10 SP1 (aarch64), Kernel 4.19 (GCC 7.3 构建), **64KB PageSize**。
+  - **算力**：Feiteng S5000C + Iluvatar 智铠 GPU (PCIe x8 降级运行)。
+  - **风险**：PageSize 兼容性、GPU 带宽减半、NVMe 中断挤压在 CPU0、系统时钟偏差较大。
diff --git a/系统基座文件/1/1.1/1.1.7 实时性与吞吐量配置补丁 (Real-time & Throughput Patches).md b/系统基座文件/1/1.1/1.1.7 实时性与吞吐量配置补丁 (Real-time & Throughput Patches).md
new file mode 100644
index 0000000..055e5d5
--- /dev/null
+++ b/系统基座文件/1/1.1/1.1.7 实时性与吞吐量配置补丁 (Real-time & Throughput Patches).md	
@@ -0,0 +1,64 @@
+---
+tags: []
+aliases:
+  - 1.1.7 实时性与吞吐量配置补丁 (Real-time & Throughput Patches)
+date created: 星期三, 十一月 19日 2025, 4:31:12 下午
+date modified: 星期三, 十一月 19日 2025, 4:31:40 下午
+---
+
+# 1.1.7 实时性与吞吐量配置补丁 (Real-time & Throughput Patches)
+
+| **组件** | **状态** | **说明** |
+| :--- | :--- | :--- |
+| **limits.conf** | 已修复 | 解决了 `max locked memory` 64KB 的致命限制。 |
+| **sysctl.conf** | 已优化 | 解决了 `numa_balancing` 抖动和网络缓冲不足的问题。 |
+| **GRUB CMDLINE** | 已加固 | 解决了 USB 设备的自动挂起风险。 |
+
+-----
+
+**1. 进程级资源锁定限制 (Process Memory Locking)**
+
+  - **关键性**：P0
+  - **信息解析**：已通过修改 `/etc/security/limits.conf`，将**锁定内存限制**从原先的致命值 **64KB** 提升至 `unlimited`。这确保了雷达实时线程和 DMA 缓冲区能成功调用 `mlock()`，杜绝内存换出导致的延迟。
+  - 探测命令与结果：
+
+    ```bash
+    ulimit -l
+    unlimited
+    ```
+
+**2. 核心调度与实时节流策略 (CPU Scheduling & Throttling)**
+
+  - **关键性**：P0
+  - **信息解析**：已停止并禁用 `irqbalance` 服务，并强制将内核 `numa_balancing` 设置为 `0`，消除了自动化的内存和中断迁移，以保障信号处理的时序确定性。同时，通过 `sched_rt_runtime_us = -1` 解除了对实时线程的 CPU 时间节流。
+  - 探测命令与结果：
+
+    ```bash
+    systemctl status irqbalance | grep Active
+    Active: inactive (dead) since …
+
+    sysctl kernel.numa_balancing
+    kernel.numa_balancing = 0
+    ```
+
+**3. 网络 UDP 缓冲区优化 (Network UDP Buffers)**
+
+  - **关键性**：P1
+  - **信息解析**：已通过 `/etc/sysctl.d/99-radar-tuning.conf` 文件，将内核接收 (`rmem_max`) 和发送 (`wmem_max`) 缓冲区最大值从默认值提升至 25MB 以上，同时优化了 ARP 表大小。这对于处理降级 PCIe 链路 上的雷达高速 UDP 数据流是必要的。
+  - 探测命令与结果：
+
+    ```bash
+    sysctl net.core.rmem_max
+    net.core.rmem_max = 26214400
+    ```
+
+**4. 硬件电源管理修正 (USB Power Management)**
+
+  - **关键性**：P2
+  - **信息解析**：已通过 GRUB 引导参数，追加 `usbcore.autosuspend=-1`。这防止了连接的 USB 设备（如网卡）因系统默认的节能策略而进入休眠，保障了数据流的持续性。
+  - 探测命令与结果：
+
+    ```bash
+    cat /proc/cmdline
+    … usbcore.autosuspend=-1 … 
+    ```
diff --git a/系统基座文件/1/1.2/1.2.1 Host 端编译器规范 (Host Compiler Spec).md b/系统基座文件/1/1.2/1.2.1 Host 端编译器规范 (Host Compiler Spec).md
new file mode 100644
index 0000000..b287632
--- /dev/null
+++ b/系统基座文件/1/1.2/1.2.1 Host 端编译器规范 (Host Compiler Spec).md	
@@ -0,0 +1,87 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 4:34:58 下午
+date modified: 星期三, 十一月 19日 2025, 4:49:09 下午
+---
+
+# 1.2.1 Host 端编译器规范 (Host Compiler Spec)
+
+**1. Host 编译器身份确证 (Host Compiler Identity)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **绝对路径**：`/usr/bin/g++`。
+      - **版本指纹**：**GCC 7.3.0 (aarch64)**。
+      - **深度解读**：此版本与前序审计（1.1.1）中内核构建所用的编译器完全一致。这意味着用户态程序（Host Code）与内核态驱动（Kernel Module）拥有相同的 ABI（二进制接口）边界，极大降低了 `insmod` 时的版本冲突风险。
+  - **探测命令与结果**：
+
+    ```bash
+    /usr/bin/g++ --version
+    g++ (GCC) 7.3.0
+    Copyright (C) 2017 Free Software Foundation, Inc.
+    ```
+
+    ```bash
+    ls -l /usr/bin/g++
+    -rwxr-xr-x 4 root root 988400  2月 21  2022 /usr/bin/g++
+    ```
+
+**2. 默认语言标准支持 (Default C++ Standard)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **宏定义值**：`201402L`。
+      - **标准映射**：对应 **C++14** (GNU++14)。
+      - **工程约束**：当前环境默认支持 C++14 特性（如 `std::make_unique`, `lambda capture`）。若项目代码依赖 C++17（如 `std::filesystem`, `std::optional`），必须在 `CMakeLists.txt` 中显式配置 `set(CMAKE_CXX_STANDARD 17)`，否则将导致编译失败。
+  - **探测命令与结果**：
+
+    ```bash
+    /usr/bin/g++ -dM -E -x c++ /dev/null | grep __cplusplus
+    #define __cplusplus 201402L
+    ```
+
+**3. Device 编译器与工具链锚定 (Device Compiler & Toolchain Binding)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **编译器版本**：**Clang 18.1.8** (CoreX 4.3.8 Build)。这是一个非常新的版本，对现代 C++ 语法支持极佳。
+      - **工具链锚定 (Crucial)**：`Selected GCC installation: /usr/lib/gcc/aarch64-linux-gnu/7.3.0`。
+      - **深度解读**：这是异构编译中最关键的“握手”。Clang 本身不带标准库（libstdc++），它必须“借用”系统 GCC 的库。此处显示 Clang 已正确探测并绑定到了系统 GCC 7.3.0。若此处显示 `None` 或错误路径，链接阶段将必现 `undefined reference to std::…` 错误。
+  - **探测命令与结果**：
+
+    ```bash
+    which clang++
+    /usr/local/corex-4.3.8/bin/clang++
+    ```
+
+    ```bash
+    clang++ -v 2>&1 | grep "Selected GCC installation"
+    Selected GCC installation: /usr/lib/gcc/aarch64-linux-gnu/7.3.0
+    ```
+
+**4. 构建系统缓存状态 (Build System Cache State)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **编译器锁定**：`CMAKE_CXX_COMPILER` 明确被锁定为 `/usr/bin/g++`，未被环境变量（如 `CC`/`CXX`）篡改为其他版本。
+      - **发布模式优化**：`CMAKE_CXX_FLAGS_RELEASE` 设为 `-O3 -DNDEBUG`。对于雷达信号处理这类计算密集型任务，`-O3` 开启了循环向量化（Loop Vectorization），这对 ARM64 NEON 指令集优化至关重要。
+  - **探测命令与结果**：
+
+    ```bash
+    grep -E "CMAKE_CXX_COMPILER|CMAKE_CXX_FLAGS" …/build/CMakeCache.txt
+    CMAKE_CXX_COMPILER:STRING=/usr/bin/g++
+    CMAKE_CXX_FLAGS_RELEASE:STRING=-O3 -DNDEBUG
+    ```
+
+**5. 产物真实性审计 (Artifact Verification)**
+
+  - **关键性**：**P2**
+  - **信息解析**：
+      - **二进制指纹**：`.o` 文件的 `.comment` 段中包含 `GCC: (GNU) 7.3.0`。
+      - **结论**：这证实了最终生成的机器码确实是由 GCC 7.3 编译的，排除了 CMake 只是“看起来”配置了 g++ 但实际调用了其他编译器的可能性（这种情况在存在 `ccache` 或 `distcc` 时偶有发生）。
+  - **探测命令与结果**：
+
+    ```bash
+    find … -name "*.o" … | grep "GCC: ("
+    GCC: (GNU) 7.3.0
+    ```
diff --git a/系统基座文件/1/1.2/1.2.2 Device 端编译器规范 (Device Compiler Spec).md b/系统基座文件/1/1.2/1.2.2 Device 端编译器规范 (Device Compiler Spec).md
new file mode 100644
index 0000000..636e5d0
--- /dev/null
+++ b/系统基座文件/1/1.2/1.2.2 Device 端编译器规范 (Device Compiler Spec).md	
@@ -0,0 +1,68 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 4:54:50 下午
+date modified: 星期三, 十一月 19日 2025, 5:09:06 下午
+---
+
+# 1.2.2 Device 端编译器规范 (Device Compiler Spec)
+
+**1. Device 编译器身份与警告 (Compiler Identity & Warnings)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **编译器内核**：**Clang 18.1.8** (基于 LLVM 18)。这是一个非常激进的新版本，支持最新的 C++ 标准。
+      - **关键迁移警告**：
+
+        > `clang++: warning: When compiling *.cu file for ivcore '-x cuda' need replace with '-x ivcore' …`
+
+          - **含义**：目前的构建方式使用了 `-x cuda` 标志，天数智芯编译器对此发出了**废弃警告**。
+          - **行动项**：工程文件中应尽快将编译语言标志从 `-x cuda` 迁移为 `-x ivcore`，以防未来 SDK 更新导致构建中断。
+          - **强制约束**: AI 生成的 CMakeLists.txt 中，所有 .cu 文件的编译命令必须使用 -x ivcore，严禁使用 -x cuda。
+  - **探测命令与结果**：
+
+    ```bash
+    /usr/local/corex-4.3.8/bin/clang++ --version
+    clang version 18.1.8 (4.3.8 …)
+    ```
+
+**2. 运行时库映射 (Runtime Library Mapping)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **库文件位置**：`/usr/local/corex/lib` (注意不是 `lib64`)。
+      - **CUDA 兼容层 (Shim Layers)**：
+          - `libcudart.so` -\> `libcudart.so.89`：存在。这是运行时 API 的入口。
+          - `libcuda.so`：存在。这是驱动层 API 的入口。
+          - `libcufft.so`, `libcublas.so`, `libcudnn.so`：全套数学库均已存在同名替换文件。
+      - **智铠原生层 (Native Layers)**：
+          - `libixthunk.so`：推测为内核态 Thunking 层，负责最终的 syscall 下发。
+          - `libixcore.so` (via `libcv_ixcore`): 核心计算库。
+      - **链接器支持**：发现了 `LLVMgold.so`，表明该环境支持 LTO (Link Time Optimization) 链接时优化。
+  - **文件系统证据**：
+
+    ```text
+    /usr/local/corex/lib/libcudart.so -> libcudart.so.89
+    /usr/local/corex/lib/libcuda.so
+    /usr/local/corex/lib/libixthunk.so
+    ```
+
+**3. 宏定义环境 (Macro Environment)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **平台标识**：`__ILUVATAR__ = 1`。代码中可以用 `#ifdef __ILUVATAR__` 编写专用优化。
+      - **兼容性标识**：`__CUDA__ = 1`，`__CUDACC__` 已定义。这是为了欺骗现有的 CUDA 代码，使其认为自己正在被 NVCC 编译。
+  - **探测命令与结果**：
+
+    ```bash
+    clang++ -dM -E -x cuda /dev/null | grep "__ILUVATAR__"
+    #define __ILUVATAR__ 1
+    ```
+
+**4. 头文件搜索优先级 (Header Search Priority)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **劫持机制**：编译器优先搜索 `/usr/local/corex-4.3.8/lib/clang/18/include/cuda_wrappers`。
+      - **原理**：CoreX 在此目录下放置了与 CUDA 同名的头文件（如 `cuda_runtime.h`），拦截标准调用并映射到底层 Iluvatar Runtime。
+      - **GCC 绑定**：后续搜索路径正确回落到 Host 端的 `/usr/lib/gcc/aarch64-linux-gnu/7.3.0/`，保证了与 Host 代码的 ABI 兼容。
diff --git a/系统基座文件/1/1.2/1.2.3 链接器与加载器配置 (Linker & Loader).md b/系统基座文件/1/1.2/1.2.3 链接器与加载器配置 (Linker & Loader).md
new file mode 100644
index 0000000..9674227
--- /dev/null
+++ b/系统基座文件/1/1.2/1.2.3 链接器与加载器配置 (Linker & Loader).md	
@@ -0,0 +1,63 @@
+---
+tags: 
+date created: 星期三, 十一月 19日 2025, 5:03:58 下午
+date modified: 星期三, 十一月 19日 2025, 5:04:15 下午
+---
+
+# 1.2.3 链接器与加载器配置 (Linker & Loader)
+
+**1. 链接器身份与版本 (Linker Identity)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **组件版本**：**GNU ld (Binutils) 2.34**。这是一个相对较新的版本，完全支持 AArch64 的各种重定位类型（Relocation Types）和 LTO 插件。
+      - **兼容性**：与 GCC 7.3 和 Clang 18 均能良好配合。
+  - **探测命令与结果**：
+
+    ```bash
+    ld --version
+    GNU ld (GNU Binutils) 2.34
+    ```
+
+**2. 二进制依赖解析 (Binary Dependency Analysis)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **直接依赖 (NEEDED)**：`libcudart.so.2`。
+          - **深度解读**：这非常有意思。编译器（Clang）在编译时似乎模仿了 CUDA 10.2 的 ABI 行为，或者链接了伪装成 10.2 版本的存根库。这是为了让旧的 CUDA 代码无缝迁移。
+      - **运行时路径 (RPATH)**：`/usr/local/corex/lib`。
+          - **评价**：**优秀配置**。CMake 构建脚本通过 `CMAKE_INSTALL_RPATH` 或自动计算，将 SDK 库路径硬编码到了 ELF 文件头中。这是避免“DLL 地狱”的最佳实践。
+  - **探测命令与结果**：
+
+    ```bash
+    readelf -d …/bin/main_app | grep -E "RPATH|NEEDED"
+     0x0000000000000001 (NEEDED)             共享库：[libcudart.so.2]
+     0x000000000000000f (RPATH)              Library rpath: [/usr/local/corex/lib]
+    ```
+
+**3. 运行时加载器解析 (Runtime Loader Resolution)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **解析结果**：`ldd` 显示 `libcudart.so.2` 被成功解析到了 `/usr/local/corex/lib/libcudart.so.2`。
+      - **结论**：运行时链接器（ld-linux）在执行程序时，优先读取了 RPATH，找到了正确的文件，而没有去系统默认目录瞎找。程序**一定**能跑起来，不会报 `cannot open shared object file`。
+  - **探测命令与结果**：
+
+    ```bash
+    ldd …/bin/main_app
+    libcudart.so.2 => /usr/local/corex/lib/libcudart.so.2 (0x0000fffeda1a0000)
+    ```
+
+**4. 系统级库路径污染 (System Library Path State)**
+
+  - **关键性**：**P2**
+  - **信息解析**：
+      - **环境变量**：`LD_LIBRARY_PATH` 被设置了多次重复的 `/usr/local/corex-4.3.8/lib`。
+          - **风险**：虽然 RPATH 优先级高于 `LD_LIBRARY_PATH`，但这种冗余设置可能在调试（Debug）或运行其他未设置 RPATH 的工具时引发困惑。建议在 `.bashrc` 中清理去重。
+      - **ld.so.conf**：系统中没有专门针对 corex 的 `.conf` 文件。这进一步凸显了 CMake 中设置 RPATH 的重要性——如果 CMake 没设 RPATH，程序必挂。
+  - **探测命令与结果**：
+
+    ```bash
+    echo $LD_LIBRARY_PATH
+    /usr/local/corex-4.3.8/lib:/usr/local/corex-4.3.8/lib:… (重复)
+    ```
diff --git a/系统基座文件/1/1.2/1.2.4 混合编译兼容性 (Hybrid Compilation Compatibility).md b/系统基座文件/1/1.2/1.2.4 混合编译兼容性 (Hybrid Compilation Compatibility).md
new file mode 100644
index 0000000..6cc6207
--- /dev/null
+++ b/系统基座文件/1/1.2/1.2.4 混合编译兼容性 (Hybrid Compilation Compatibility).md	
@@ -0,0 +1,45 @@
+# 1.2.4 混合编译兼容性 (Hybrid Compilation Compatibility)
+
+**1. C++ 标准库 ABI 兼容性 (StdLib ABI Compatibility)**
+
+  - **关键性**：**P0** (Showstopper)
+  - **信息解析**：
+      - **GCC 状态**：`#define _GLIBCXX_USE_CXX11_ABI 1`
+      - **Clang 状态**：`#define _GLIBCXX_USE_CXX11_ABI 1`
+      - **深度解读**：这是混合编译成败的关键。GCC 5.1 引入了新版 `std::string` 和 `std::list` 实现（符合 C++11 标准），并使用 Dual ABI 机制。如果两个编译器此宏定义不一致（例如一个为 0 一个为 1），链接器将无法匹配标准库符号。
+      - **结论**：两者完全对齐，**无需**在 CMake 中手动添加 `-D_GLIBCXX_USE_CXX11_ABI=0`。
+  - **探测命令与结果**：
+    ```bash
+    echo "#include <string>" | g++ … | grep ABI
+    #define _GLIBCXX_USE_CXX11_ABI 1
+    echo "#include <string>" | clang++ … | grep ABI
+    #define _GLIBCXX_USE_CXX11_ABI 1
+    ```
+
+**2. 目标架构与指令集基线 (Target Architecture Baseline)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **宏定义检查**：两者均定义了 `__aarch64__` 和 `__ARM_ARCH 8`，且**均未定义** `__ARM_FEATURE_ATOMICS`。
+      - **原子指令策略**：
+          * 现代 ARMv8.1+ 引入了 LSE (Large System Extensions) 原子指令（如 `ldadd`, `cas`），性能远超传统的 LL/SC (Load-Link/Store-Conditional, 即 `ldxr/stxr`) 循环。
+          * 由于宏缺失且 grep `ldadd` 无输出，说明两个编译器都**回退到了保守的 LL/SC 模式**。
+      - **风险评估**：考虑到飞腾 S5000C 基于 ARMv8 架构，这种保守策略是**最安全**的。强制开启 LSE (`-march=armv8.1-a+lse`) 虽然可能提升原子计数器性能，但在旧微架构上会导致 `SIGILL` (非法指令崩溃)。
+  - **探测命令与结果**：
+    ```bash
+    g++ … | grep __ARM_FEATURE_ATOMICS
+    (空) -> 未启用 LSE
+    clang++ … | grep __ARM_FEATURE_ATOMICS
+    (空) -> 未启用 LSE
+    ```
+
+**3. 编译标志警告 (Compiler Flags Warning)**
+
+  - **关键性**：**P2**
+  - **信息解析**：
+      - **重复警告**：Clang 再次提示 `'-x cuda' will not be supported`。
+      - **行动项**：在 **1.2.2** 中已记录，需在 `CMakeLists.txt` 中修正语言标志。
+  - **探测命令与结果**：
+    ```text
+    clang++: warning: … need replace with '-x ivcore' …
+    ```
diff --git a/系统基座文件/1/1.3/1.3.1 驱动核心模块状态 (Driver Kernel Modules).md b/系统基座文件/1/1.3/1.3.1 驱动核心模块状态 (Driver Kernel Modules).md
new file mode 100644
index 0000000..c8d48e5
--- /dev/null
+++ b/系统基座文件/1/1.3/1.3.1 驱动核心模块状态 (Driver Kernel Modules).md	
@@ -0,0 +1,66 @@
+---
+tags: 
+date created: 星期三, 十一月 19日 2025, 5:27:53 下午
+date modified: 星期三, 十一月 19日 2025, 5:28:03 下午
+---
+
+# 1.3.1 驱动核心模块状态 (Driver Kernel Modules)
+
+**1. 驱动加载与版本一致性 (Driver Load & Consistency)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **核心状态**：驱动 `iluvatar` (v4.3.8) 已成功加载。
+      - **健康自检**：dmesg 明确输出 `iluvatar 0001:01:00.0: DEV-0 is okay.`，标志着硬件初始化通过，未遇到固件加载错误。
+      - **签名警告**：`module verification failed` 提示内核被“污染（tainted）”，这是因为使用了厂商提供的 Out-of-tree 非开源驱动。在开发环境中可忽略，生产环境若有强安全合规要求需进行自签名。
+  - **探测命令与结果**：
+
+    ```bash
+    dmesg | grep "iluvatar" | tail -n 5
+    [ 6.657344] iluvatar 0001:01:00.0: enabling device (0000 -> 0002)
+    [ 7.037538] iluvatar 0001:01:00.0: DEV-0 is okay.
+    ```
+
+**2. 关键模块参数配置 (Key Module Parameters)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **统一寻址 (UVA/VMM)**：`itr_enable_vmm_va:Y`。开启了虚拟内存管理，允许 GPU 直接访问进程虚拟地址空间，简化了 `cudaMallocManaged` 等 API 的实现。
+      - **保留显存**：`itr_text_mem_size:512`。驱动预留了 512MB 显存用于存放指令代码（Text Segment）。对于显存较小的卡（如 8GB），这 0.5GB 的开销需计入总预算。
+      - **功耗策略**：`power:0`。通常 0 代表高性能模式（关闭激进节能），这有利于雷达信号处理的实时性稳定性。
+  - **探测命令与结果**：
+
+    ```bash
+    grep -r . /sys/module/iluvatar/parameters/
+    /sys/module/iluvatar/parameters/itr_enable_vmm_va:Y
+    /sys/module/iluvatar/parameters/itr_text_mem_size:512
+    /sys/module/iluvatar/parameters/power:0
+    ```
+
+**3. 设备节点与权限映射 (Device Nodes & Permissions)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **用户态接口**：`/dev/iluvatar0` 已创建。
+      - **权限状态**：`crw-rw-rw- (666)`。这意味着**任何用户**都可以提交 GPU 任务，无需加入特定组（如 `video` 组）。虽然方便开发，但在多用户服务器上存在安全隐患。
+      - **PCI 绑定**：`/sys/bus/pci/…/driver` 链接正确指向了 `iluvatar` 驱动，确认设备未被 `pci-stub` 或 `vfio-pci` 错误抢占。
+  - **探测命令与结果**：
+
+    ```bash
+    ls -l /dev/iluvatar0
+    crw-rw-rw- 1 root root 239, 0 …
+    ```
+
+**4. 虚拟化与直通依赖 (Virtualization Dependencies)**
+
+  - **关键性**：**P2**
+  - **信息解析**：
+      - **VFIO 栈**：`mdev` 和 `vfio` 模块被 `iluvatar` 依赖。
+      - **架构意义**：这表明智铠驱动采用了现代化的 **MDEV (Mediated Device)** 架构设计。即使在物理机上，它也可能利用 VFIO 框架来管理 DMA 和中断，这为将来在 Docker 容器或 KVM 虚拟机中直通 GPU 提供了原生支持。
+  - **探测命令与结果**：
+
+    ```bash
+    lsmod | grep iluvatar
+    iluvatar  983040  0
+    vfio      262144  3 vfio_mdev,vfio_iommu_type1,iluvatar
+    ```
diff --git a/系统基座文件/1/1.3/1.3.2 运行时环境与兼容层 (Runtime Environment & Shim Layer).md b/系统基座文件/1/1.3/1.3.2 运行时环境与兼容层 (Runtime Environment & Shim Layer).md
new file mode 100644
index 0000000..0f386ba
--- /dev/null
+++ b/系统基座文件/1/1.3/1.3.2 运行时环境与兼容层 (Runtime Environment & Shim Layer).md	
@@ -0,0 +1,61 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 5:29:54 下午
+date modified: 星期三, 十一月 19日 2025, 5:30:07 下午
+---
+
+# 1.3.2 运行时环境与兼容层 (Runtime Environment & Shim Layer)
+
+**1. 环境变量配置 (Environment Configuration)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - [cite\_start]**SDK 根路径**：`COREX_HOME` 被正确设置为 `/usr/local/corex` [cite: 1]。这是许多第三方构建脚本查找头文件和库的依据。
+      - [cite\_start]**库搜索路径**：`LD_LIBRARY_PATH` 包含 `/usr/local/corex/lib` [cite: 1]，确保了在未设置 RPATH 的情况下也能找到 SDK 库。
+  - **探测命令与结果**：
+
+    ```bash
+    env | grep "COREX"
+    COREX_HOME=/usr/local/corex
+    ```
+
+**2. 驱动层转发机制 (Driver Shim Mechanism)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - [cite\_start]**转发确认**：`libcuda.so` (即 NVIDIA Driver API 的替代品) 显式依赖于 `libixthunk.so` [cite: 1]。
+      - **架构意义**：这是智铠 SDK 兼容 CUDA 的核心枢纽。它拦截了如 `cuMemAlloc`、`cuLaunchKernel` 等标准驱动调用，并通过 `libixthunk` 将其转换为发往 `iluvatar.ko` 内核模块的指令。
+  - **探测命令与结果**：
+
+    ```bash
+    ldd /usr/local/corex/lib/libcuda.so
+    libixthunk.so => /usr/local/corex/lib/libixthunk.so
+    ```
+
+**3. 运行时版本伪装 (Runtime Version Masquerading)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **金丝雀测试**：一个标准的 CUDA Runtime API 程序成功编译并运行。
+      - [cite\_start]**版本欺骗**：系统返回 **Runtime Version: 10020** 和 **Driver Version: 10020** [cite: 1]。
+      - **结论**：SDK 成功将自己伪装成了 **CUDA 10.2** 环境。这对于雷达信号处理算法库（如某些开源的 FFT 实现）至关重要，因为它们往往会对 CUDA 版本进行硬编码检查。
+  - **探测命令与结果**：
+
+    ```bash
+    ./test_runtime
+    Detected CUDA Runtime Version: 10020
+    Detected CUDA Driver Version:  10020
+    ```
+
+**4. 运行时库依赖策略 (Runtime Library Strategy)**
+
+  - **关键性**：**P2**
+  - **信息解析**：
+      - [cite\_start]**依赖链**：`libcudart.so` 仅依赖标准系统库 (`libc`, `libstdc++` 等) [cite: 1]。
+      - **推论**：不同于 `libcuda.so`，`libcudart` 可能设计得更为轻量，仅负责 API 的参数封装和管理，具体的硬件操作可能全部下沉到了驱动层库或通过动态加载实现。
+  - **探测命令与结果**：
+
+    ```bash
+    ldd /usr/local/corex/lib/libcudart.so
+    (无 libix* 显式依赖)
+    ```
diff --git a/系统基座文件/1/1.3/1.3.3 管理与监控接口 (Management Interfaces).md b/系统基座文件/1/1.3/1.3.3 管理与监控接口 (Management Interfaces).md
new file mode 100644
index 0000000..c2b7d42
--- /dev/null
+++ b/系统基座文件/1/1.3/1.3.3 管理与监控接口 (Management Interfaces).md	
@@ -0,0 +1,96 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 5:34:23 下午
+date modified: 星期三, 十一月 19日 2025, 6:29:11 晚上
+---
+
+# 1.3.3 管理与监控接口 (Management Interfaces)
+
+**1. 基础状态概览 (Basic Status Overview)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **型号识别**：**Iluvatar MR-V100**。这是智铠的高端训练/推理卡。
+      - **显存容量**：**32 GB** (32768 MiB)。对于雷达信号处理（如动目标检测 MTI、脉冲压缩），这是一个非常充裕的显存池，允许处理超大的相干处理间隔（CPI）数据块。
+      - **热状态**：当前温度 **60°C**，风扇状态不可读 (N/A)。鉴于功耗仅 **41W** (空载)，温度略高，可能是被动散热或机房环境温度较高。
+  - **探测命令与结果**：
+
+    ```bash
+    /usr/local/corex/bin/ixsmi
+    | 0    Iluvatar MR-V100         | 00000001:01:00.0     |
+    | N/A  60C   P0    41W / 150W   | 64MiB / 32768MiB     |
+    ```
+
+**2. ECC 错误监控能力 (ECC Monitoring Capability)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **查询失败**：`Field "ecc.errors…" is not a valid field`。
+      - **深度解读**：这意味着我们无法通过标准 SMI 命令监控显存的单比特翻转（Single Bit Error）。对于雷达这类对数据准确性敏感的系统，这是一个**盲区**。
+      - **行动项**：在应用层代码中增加自校验逻辑（如周期性内存完整性测试），或联系厂商询问私有 ECC 查询接口。
+  - **探测命令与结果**：
+
+    ```bash
+    ixsmi --query-gpu=ecc…
+    Field … is not a valid field to query.
+    ```
+
+**3. 频率与功耗详情 (Clock & Power)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **核心频率**：当前 **1500 MHz**，最大 **1600 MHz**。GPU 几乎运行在全速状态（P0 态），性能释放良好。
+      - **功耗墙**：默认上限 **150W**。相比 NVIDIA V100 (250W) 或 A100 (400W)，这张卡功耗较低，适合边缘侧雷达站部署。
+      - **温度阈值**：**95°C** 开始降频 (Slowdown)，**105°C** 强制关机 (Shutdown)。当前 60°C 距离热墙尚远。
+  - **探测命令与结果**：
+
+    ```bash
+    ixsmi -q -d CLOCK,POWER,TEMPERATURE
+    GPU Power Draw                  : 41 W
+    GPU Max Operating Temp          : 95 C
+    SM                              : 1500 MHz
+    ```
+
+**4. NUMA 拓扑亲和性 (NUMA Affinity)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **绑定关系**：GPU 0 绑定到 **NUMA Node 1**。
+      - **核心范围**：**CPU 16-31**。
+      - **工程约束**：在编写多线程雷达处理程序时，**严禁**将主处理线程调度到 CPU 0-15。若发生跨 Node 内存拷贝，带宽将受到 QPI/UPI 总线的严重制约（增加 20%-40% 的延迟）。必须使用 `numactl --cpunodebind=1` 或 `pthread_setaffinity_np` 强制绑定。
+  - **探测命令与结果**：
+
+    ```bash
+    ixsmi topo -m
+    GPU0     X      16-31            1
+    ```
+
+**5. 进程监控 (Process Monitoring)**
+
+  - **关键性**：**P2**
+  - **信息解析**：
+      - **状态**：当前无运行进程 (`No running processes found`)。
+      - **结论**：环境“干净”，无后台训练任务或僵尸进程占用显存，适合进行基准测试（Benchmark）或新业务部署。
+  - **探测命令与结果**：
+
+    ```bash
+    ixsmi pmon
+    (No entries)
+    ```
+
+**6. 关键风险应对 (Critical Risk Response)**
+
+**6.1 运维盲区：ECC 监控缺失**
+
+  - **风险定性**：**P1 (可靠性风险)**。`ixsmi` 工具当前不支持查询 ECC 错误字段，导致系统无法感知显存物理位翻转（Bit Flip），在雷达长时运行中存在数据静默错误的隐患。
+  - **应对策略**：已向厂商咨询底层查询接口。在获得官方工具前，建议在应用层增加关键数据块（如原始回波数据）的 CRC32 完整性校验。
+
+**6.2 架构陷阱：NUMA 拓扑失配**
+
+  - **风险定性**：**P0 (性能风险)**。`ixsmi topo` 确认 GPU 绑定在 **NUMA Node 1 (CPU 16-31)**。若程序默认在 Node 0 启动，跨 CPU 访问显存将导致 QPI/UPI 总线瓶颈，延迟增加且不可控。
+  - **执行修正**：必须使用 `numactl` 强制绑定 CPU 亲和性。针对您的构建环境，启动命令应规范为：
+
+    ```bash
+    # 强制将进程绑定到 NUMA Node 1 (Core 16-31)
+    numactl --cpunodebind=1 --membind=1 /home/Radar/workspace/signal-processing-demo/build/bin/main_app
+    ```
diff --git a/系统基座文件/1/1.3/1.3.4 核心数学加速库 (Core Math Libraries).md b/系统基座文件/1/1.3/1.3.4 核心数学加速库 (Core Math Libraries).md
new file mode 100644
index 0000000..6a9d57b
--- /dev/null
+++ b/系统基座文件/1/1.3/1.3.4 核心数学加速库 (Core Math Libraries).md	
@@ -0,0 +1,69 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 6:38:56 晚上
+date modified: 星期三, 十一月 19日 2025, 6:39:15 晚上
+---
+
+# 1.3.4 核心数学加速库 (Core Math Libraries)
+
+**1. 数学库物理实体与映射 (Physical Library Mapping)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **文件存在性**：`libcufft.so` (FFT) 和 `libcublas.so` (BLAS) 均存在于 `/usr/local/corex/lib`。
+      - **版本伪装策略**：
+          - `libcublas.so` -\> 链接至 `libcublas.so.2.3.254`（伪装 CUDA 10.2）。
+          - `libcufft.so` -\> 链接至 `libcufft.so.1.2.89`（伪装 CUDA 10.1）。
+      - **容量分析**：
+          - `libcufft` 体积高达 **412MB**，`libcublas` 为 **133MB**。
+          - **结论**：如此巨大的体积表明这**绝不是**简单的 API 转发层（Shim），而是包含完整数学算法实现的**重编译版本**（Native Implementation）。
+  - **探测命令与结果**：
+
+    ```bash
+    ls -lh /usr/local/corex/lib/libcufft.so*
+    -rwxr-xr-x … 412M … libcufft.so.1.2.89
+    ```
+
+**2. 二进制身份指纹 (Binary Identity)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **构建来源**：`strings` 命令输出显示包含 `iluvatar.version` 和 `clang version 18.1.8 (4.3.8 …)`。
+      - **深度解读**：这证实了该库是由天数智芯（Iluvatar）使用其自研工具链（Clang 18 base）从源码重新编译的，而非 NVIDIA 的二进制文件。这意味着其底层实现已针对智铠 GPU 的 VLIW 架构进行了特定优化。
+  - **探测命令与结果**：
+
+    ```bash
+    strings … | grep "iluvatar"
+    iluvatar.version
+    SDK Version
+    ```
+
+**3. 开发头文件状态 (Header Availability)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **状态**：`cufft.h` 和 `cublas_v2.h` 均存在且大小正常。
+      - **兼容性**：这意味着现有的雷达信号处理代码（通常包含这两个头文件）无需修改 `#include` 路径即可直接编译。
+  - **探测命令与结果**：
+
+    ```bash
+    ls -l …/include/cufft.h …/include/cublas_v2.h
+    -rwxr-xr-x … 13033 … cufft.h
+    ```
+
+**4. 功能性金丝雀测试 (Functional Canary Test)**
+
+  - **关键性**：**P0 (Critical)**
+  - **信息解析**：
+      - **测试内容**：同时调用 `cufftPlan1d` (创建 FFT 句柄) 和 `cublasCreate` (创建矩阵句柄)。
+      - **测试结果**：
+          - `cuFFT Plan1d: Success`
+          - `cuBLAS Create: Success`
+      - **审计结论**：**数学库功能完好**。链接器成功找到了库，且初始化函数能正确与驱动交互并分配资源。这是验证 SDK 可用性的里程碑。
+  - **探测命令与结果**：
+
+    ```bash
+    ./test_math
+    cuFFT Plan1d: Success
+    cuBLAS Create: Success
+    ```
diff --git a/系统基座文件/1/1.3/1.3.5 开发者头文件与生态 (Developer Headers & Ecosystem).md b/系统基座文件/1/1.3/1.3.5 开发者头文件与生态 (Developer Headers & Ecosystem).md
new file mode 100644
index 0000000..5eeede6
--- /dev/null
+++ b/系统基座文件/1/1.3/1.3.5 开发者头文件与生态 (Developer Headers & Ecosystem).md	
@@ -0,0 +1,52 @@
+---
+tags: 
+date created: 星期三, 十一月 19日 2025, 6:50:09 晚上
+date modified: 星期三, 十一月 19日 2025, 6:50:20 晚上
+---
+
+# 1.3.5 开发者头文件与生态 (Developer Headers & Ecosystem)
+
+**审计综述**：
+本环节确认了 SDK 对现代 C++ 开发生态的支持能力。最关键的发现是 **Thrust 模板库（v1.9.7）** 的完整存在且功能正常，这意味着雷达信号处理算法可以利用类似 STL 的高层抽象进行开发，而无需手写繁琐的 CUDA Kernel。同时，**FP16** 和 **标准数学函数** 的支持，保障了从 NVIDIA 平台迁移代码时的源码级兼容性。
+
+**1. Thrust 模板库完备性 (Thrust Template Library)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **版本指纹**：检测到 `THRUST_VERSION 100907`，对应 **Thrust v1.9.7**。这是一个非常成熟且广泛使用的版本（对应 CUDA 10.x 时代）。
+      - **后端架构**：`THRUST_DEVICE_SYSTEM` 宏确认为 `CUDA` 后端。这表明智铠 SDK 实现了对 NVIDIA Thrust 接口的底层拦截与适配，开发者可以使用 `thrust::sort`, `thrust::reduce` 等高阶原语。
+      - **功能验证**：金丝雀测试（Canary Test）成功在 Device 端完成了 Vector 数据拷贝与排序，证明 C++ 模板元编程在 `Clang++` 编译器下能正确展开并生成 GPU 指令。
+  - **探测依据**：
+
+    ```bash
+    grep "THRUST_VERSION" /usr/local/corex/include/thrust/version.h
+    #define THRUST_VERSION 100907
+    ls -d /usr/local/corex/include/thrust
+    /usr/local/corex/include/thrust
+    ```
+
+**2. 混合精度计算支持 (Mixed Precision / FP16)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **头文件状态**：`/usr/local/corex/include/cuda_fp16.h` 存在且文件大小正常（约 110KB）。
+      - **业务价值**：在雷达数据存储（IQ 采样）和部分波束形成算法中，使用半精度（FP16）可将显存带宽需求降低 50%。该头文件的存在意味着我们可以定义 `__half` 类型并调用 `__hadd`, `__hmul` 等原生指令。
+  - **探测依据**：
+
+    ```bash
+    ls -l /usr/local/corex/include/cuda_fp16.h
+    -rwxr-xr-x 1 root root 110679 …
+    ```
+
+**3. 设备端数学函数库 (Device Math Functions)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **CRT 支持**：检测到 `crt/math_functions.h` (337KB) 和 `math_functions.h`。
+      - **兼容性意义**：这些头文件映射了 C 标准数学库（如 `sinf`, `powf`, `sqrtf`）到 GPU 的硬件指令（SFU Special Function Units）。对于涉及大量三角函数运算的雷达信号处理（如相位解缠），这是必不可少的基础设施。
+  - **探测依据**：
+
+    ```bash
+    ls -l /usr/local/corex/include/crt/math_functions.h
+    -rwxr-xr-x 1 root root 337836 …
+    ```
diff --git a/系统基座文件/1/1.3/1.3.6 官方示例与构建范式 (Official Samples & Build Patterns).md b/系统基座文件/1/1.3/1.3.6 官方示例与构建范式 (Official Samples & Build Patterns).md
new file mode 100644
index 0000000..cf076a3
--- /dev/null
+++ b/系统基座文件/1/1.3/1.3.6 官方示例与构建范式 (Official Samples & Build Patterns).md	
@@ -0,0 +1,49 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 6:59:57 晚上
+date modified: 星期三, 十一月 19日 2025, 7:02:54 晚上
+---
+
+# 1.3.6 官方示例与构建范式 (Official Samples & Build Patterns)
+
+**审计综述**：
+由于系统中缺失官方 SDK 示例代码（`/usr/local/corex/samples` 不存在），我们将 **用户验证过的工程配置 (`SignalProject`)** 确立为该环境下的**标准构建范式（Golden Build Pattern）**。
+
+**1. 核心构建策略：显式异构分离 (Explicit Heterogeneous Separation)**
+- **关键性**：**P0**
+- **范式解析**：
+    - [cite_start]**Host 编译器**：显式锁定为 `/usr/bin/g++`。这是为了确保与 OS 内核（GCC 7.3 构建）的 ABI 完美兼容，避免 `libstdc++` 符号冲突。
+    - [cite_start]**Device 编译器**：通过自定义变量 `CLANG_CUDA_COMPILER` 指向 `clang++`。这表明构建系统**没有**使用 CMake 原生的 `LANGUAGES CUDA` 支持（通常会自动寻找 nvcc），而是采用“C++ 项目 + 手动管理 GPU 编译规则”的模式。
+    - [cite_start]**语言标准**：`project(SignalProject LANGUAGES CXX)`。项目本质被定义为 C++ 工程，GPU 代码被视为一种特殊的 C++ 扩展（ivcore/cuda）。
+
+**2. SDK 路径管理 (SDK Path Management)**
+- **关键性**：**P1**
+- **范式解析**：
+    - [cite_start]**硬编码路径**：SDK 根目录被锚定在 `/usr/local/corex`。
+    - [cite_start]**头文件搜索**：显式定义 `COREX_INC_PATH` 用于查找 `cuda_runtime.h`。这与我们在 **1.3.5** 中发现的头文件位置一致。
+    - [cite_start]**库文件搜索**：显式定义 `COREX_LIB_PATH`，配合 **1.2.3** 中验证过的 RPATH 机制，构成了完整的链接闭环。
+
+**3. 依赖管理范式 (Dependency Management Pattern)**
+- **关键性**：**P2**
+- **范式解析**：
+    - [cite_start]**GoogleTest 集成**：使用 `FetchContent` 在线拉取 `v1.14.0` 版本的 GTest。这意味着构建环境需要互联网连接，且该版本的 GTest 与当前的 GCC 7.3 / Clang 18 混合环境兼容。
+
+**4. 结论与建议**
+- **当前状态**：构建范式已通过实战验证。
+- **行动项**：后续开发所有新模块时，**必须严格复制**此 `CMakeLists.txt` 中的编译器设置部分（特别是 `set(CMAKE_CXX_COMPILER …)` 和 `set(CLANG_CUDA_COMPILER …)`），任何试图引入 `enable_language(CUDA)` 或移除 GCC 显式指定的行为都极可能导致构建失败。
+
+---
+
+### 1.3 章节最终总结：GPGPU 软件开发套件
+
+至此，我们完成了对 **1.3 GPGPU 软件开发套件** 的全方位审计：
+
+1. **驱动 (Driver)**：`iluvatar.ko` (v4.3.8) 加载正常，但 NUMA 绑定需人工干预。
+2. **运行时 (Runtime)**：成功伪装为 **CUDA 10.2**，全链路金丝雀测试通过。
+3. **数学库 (Math)**：`cuFFT` / `cuBLAS` 的智铠原生重构版存在且可用，这是雷达业务的基石。
+4. **开发生态 (Ecosystem)**：`Thrust 1.9.7` 模板库就绪，支持高效率 C++ 开发。
+5. **构建范式 (Build)**：确立了 **"Host(GCC) + Device(Clang) + CoreX SDK"** 的混合编译标准。
+
+**风险提示**：
+- **ECC 监控缺失**：需在软件层增加数据校验。
+- **NUMA 拓扑陷阱**：必须使用 `numactl` 或代码级绑定锁死 CPU 16-31。
diff --git a/系统基座文件/1/1.4/1.4.1 CMake 核心环境 (CMake Core).md b/系统基座文件/1/1.4/1.4.1 CMake 核心环境 (CMake Core).md
new file mode 100644
index 0000000..b68557e
--- /dev/null
+++ b/系统基座文件/1/1.4/1.4.1 CMake 核心环境 (CMake Core).md	
@@ -0,0 +1,48 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 7:24:00 晚上
+date modified: 星期三, 十一月 19日 2025, 7:27:31 晚上
+---
+
+# 1.4.1 CMake 核心环境 (CMake Core)
+
+**1. 构建工具版本 (CMake Version)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **物理版本**：**4.1.2**。这是一个非常新的版本（User Context 为 2025 年 11 月），意味着它原生支持现代 C++20/23 特性及最新的构建策略。
+      - **项目约束**：`cmake_minimum_required(VERSION 3.10)`。
+      - **结论**：版本兼容性极佳。CMake 4.x 完全向后兼容 3.x 语法。
+  - **探测命令与结果**：
+
+    ```bash
+    cmake --version
+    cmake version 4.1.2
+    ```
+
+**2. 构建生成器 (Build Generator)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **类型**：**Unix Makefiles**。
+      - **评价**：这是 Linux 环境下的经典默认值。
+      - **优化建议**：对于拥有 64 核以上的飞腾 S5000C 平台，若后续发现增量编译速度较慢，可考虑切换为 **Ninja** (`cmake -G Ninja …`)，其依赖分析速度通常优于 Make。目前保持 Makefiles 亦无大碍。
+  - **探测命令与结果**：
+
+    ```bash
+    grep "CMAKE_GENERATOR" …/CMakeCache.txt
+    CMAKE_GENERATOR:INTERNAL=Unix Makefiles
+    ```
+
+**3. 工具链隔离状态 (Toolchain Isolation)**
+
+  - **关键性**：**P2**
+  - **信息解析**：
+      - **状态**：`CMAKE_TOOLCHAIN_FILE` 为空。
+      - **架构意义**：这意味着 CMake 没有加载外部的交叉编译配置脚本。所有的编译器指定（Host GCC / Device Clang）均完全由项目内部的 `CMakeLists.txt` 显式控制。这符合“显式异构分离”的设计模式。
+  - **探测命令与结果**：
+
+    ```bash
+    grep "CMAKE_TOOLCHAIN_FILE" …/CMakeCache.txt
+    (Empty)
+    ```
diff --git a/系统基座文件/1/1.4/1.4.2 编译器编排 (Compiler Orchestration).md b/系统基座文件/1/1.4/1.4.2 编译器编排 (Compiler Orchestration).md
new file mode 100644
index 0000000..9aedc1b
--- /dev/null
+++ b/系统基座文件/1/1.4/1.4.2 编译器编排 (Compiler Orchestration).md	
@@ -0,0 +1,55 @@
+---
+tags: 
+aliases:
+  - 1.4.2 异构编译器编排策略 (Heterogeneous Compiler Orchestration)
+date created: 星期三, 十一月 19日 2025, 7:27:38 晚上
+date modified: 星期三, 十一月 19日 2025, 7:42:22 晚上
+---
+
+# 1.4.2 异构编译器编排策略 (Heterogeneous Compiler Orchestration)
+
+**审计综述**：
+项目采用了\*\*“Host 主导，Device 旁路”\*\* 的编排模式。通过显式锁定 Host 编译器并禁用 CMake 原生 CUDA 支持，彻底规避了标准 `FindCUDA` 模块在国产异构环境下的兼容性问题。这种配置极其稳健，是当前环境下的最佳实践。
+
+**1. Host 编译器锁定 (Host Compiler Locking)**
+
+  - **关键性**：**P0**
+  - **策略解析**：
+      - **配置**：`set(CMAKE_CXX_COMPILER "/usr/bin/g++")`。
+      - **深度解读**：
+          - **绝对路径**：使用了 `/usr/bin/g++`，消除了 `cc` 或 `c++` 软链接指向不明的风险。
+          - **ABI 锚定**：强制使用系统 GCC，确保了与 OS 内核（GCC 7.3 构建）及系统库（libstdc++）的二进制兼容性。这是混合编译稳定性的基石。
+  - **探测依据**：
+
+    ```cmake
+    set(CMAKE_CXX_COMPILER "/usr/bin/g++")
+    ```
+
+**2. Device 编译器传递 (Device Compiler Passing)**
+
+  - **关键性**：**P1**
+  - **策略解析**：
+      - **配置**：`set(CLANG_CUDA_COMPILER "clang++")`。
+      - **风险提示**：当前配置使用相对命令名。在多编译器共存的环境中（如同时安装了系统 Clang），可能导致误调用。建议优化为 `${COREX_PATH}/bin/clang++` 以实现物理隔离。
+      - **角色**：此变量主要用于后续 `add_custom_command` 或自定义编译规则中，作为处理 `.cu` 文件的专用工具。
+  - **探测依据**：
+
+    ```cmake
+    set(CLANG_CUDA_COMPILER "clang++")
+    ```
+
+**3. 语言标准范围定义 (Language Scope Definition)**
+
+  - **关键性**：**P0**
+  - **策略解析**：
+      - **配置**：`project(SignalProject LANGUAGES CXX)`。
+      - **核心逻辑**：
+          - **仅启用 CXX**：明确告知 CMake 这是一个纯 C++ 项目。
+          - **禁用 CUDA**：`grep "enable_language(CUDA)"` 为空，表明未启用 CMake 的原生 CUDA 支持。
+      - **架构优势**：这避免了 CMake 试图去寻找 NVCC 或执行标准的 CUDA 设备链接（Device Linking）流程，从而让开发者完全掌控智铠 GPU 代码的编译参数（如 `-x ivcore`）。
+  - **探测依据**：
+
+    ```cmake
+    project(SignalProject LANGUAGES CXX)
+    # enable_language(CUDA) -> Not Found
+    ```
diff --git a/系统基座文件/1/1.4/1.4.3 编译标志策略 (Flags Strategy).md b/系统基座文件/1/1.4/1.4.3 编译标志策略 (Flags Strategy).md
new file mode 100644
index 0000000..fc48482
--- /dev/null
+++ b/系统基座文件/1/1.4/1.4.3 编译标志策略 (Flags Strategy).md	
@@ -0,0 +1,55 @@
+---
+tags: 
+aliases:
+  - 1.4.3 编译选项与性能开关 (Compilation Flags & Performance Switches)
+date created: 星期三, 十一月 19日 2025, 7:30:01 晚上
+date modified: 星期三, 十一月 19日 2025, 7:42:46 晚上
+---
+
+# 1.4.3 编译选项与性能开关 (Compilation Flags & Performance Switches)
+
+**审计综述**：
+当前构建系统在功能层面已适配智铠 SDK（正确使用了 `-x ivcore`），但在性能调优层面尚处于“默认状态”，缺失针对飞腾 CPU 的特定优化标志。
+
+**1. Host 端编译标志策略 (Host Compilation Strategy)**
+
+  - **关键性**：**P1**
+  - **策略解析**：
+      - **构建类型管理**：正确区分了 `Release` (`-O3 -DNDEBUG`) 和 `Debug` (`-g`) 模式。CMake 默认的 Release 配置已开启最高等级的循环向量化优化。
+      - **架构优化 (缺失)**：未检测到 `-march=armv8-a` 或 `-mtune=phytium`。
+          - **改进建议**：建议显式添加 `-march=armv8-a` 以启用 ARMv8 指令集特性。鉴于 1.2.4 审计显示编译器未启用 LSE 原子指令，暂不建议添加 `+lse`，以免引入兼容性问题。
+      - **警告等级 (缺失)**：主业务代码 (`signal_lib`) 未开启 `-Wall`，建议补全。
+  - **探测依据**：
+
+    ```bash
+    grep "CMAKE_CXX_FLAGS_RELEASE" …/CMakeCache.txt
+    CMAKE_CXX_FLAGS_RELEASE:STRING=-O3 -DNDEBUG
+    ```
+
+**2. Device 端方言与架构标志 (Device Dialect & Arch Flags)**
+
+  - **关键性**：**P0**
+  - **策略解析**：
+      - **核心方言标志**：检测到关键标志 **`-x ivcore`**。
+          - **深度解读**：这是智铠编译器（Clang-based）识别 `.cu` 文件的“暗号”。不同于 NVCC 自动处理后缀，Clang 需要显式告知语言类型。该标志的存在证明构建脚本已针对 CoreX SDK v4.x 进行了正确适配。
+      - **包含路径**：正确注入了 `-I/usr/local/corex/include`，确保 `cuda_runtime.h` 等头文件可见。
+      - **位置无关代码**：虽然未显式 grep 到 `-fPIC`，但通常 CMake 处理动态库时会自动添加。若构建静态库（当前情况），此选项非必须。
+  - **探测依据**：
+
+    ```bash
+    grep -r "clang++" …
+    /bin/clang++ -x ivcore …
+    ```
+
+**3. 宏定义管理 (Macro Management)**
+
+  - **关键性**：**P2**
+  - **策略解析**：
+      - **调试宏**：`NDEBUG` 在 Release 模式下正确定义，禁用了 `assert()` 检查，减少运行时开销。
+      - **平台宏**：未在 CMake 中显式定义 `__ILUVATAR__`。这不是问题，因为 1.2.2 审计已确认 Device 编译器会在预处理阶段自动注入该宏。
+  - **探测依据**：
+
+    ```bash
+    grep "CMAKE_CXX_FLAGS_RELEASE" …
+    … -DNDEBUG
+    ```
diff --git a/系统基座文件/1/1.4/1.4.4 依赖管理与链接逻辑 (Dependency Management & Linking Logic).md b/系统基座文件/1/1.4/1.4.4 依赖管理与链接逻辑 (Dependency Management & Linking Logic).md
new file mode 100644
index 0000000..26377dc
--- /dev/null
+++ b/系统基座文件/1/1.4/1.4.4 依赖管理与链接逻辑 (Dependency Management & Linking Logic).md	
@@ -0,0 +1,70 @@
+---
+tags: 
+aliases:
+  - 1.4.4 依赖管理与链接逻辑 (Dependency Management & Linking Logic)
+date created: 星期三, 十一月 19日 2025, 7:48:04 晚上
+date modified: 星期三, 十一月 19日 2025, 7:48:14 晚上
+---
+
+# 1.4.4 依赖管理与链接逻辑 (Dependency Management & Linking Logic)
+
+**1. 依赖获取策略 (Dependency Acquisition Strategy)**
+
+  - **关键性**：**P1**
+  - **策略解析**：
+      - **在线拉取**：使用了现代 CMake 的 `FetchContent` 模块在线管理 GoogleTest。
+      - **优势**：相比传统的 `ExternalProject_Add`，`FetchContent` 在配置阶段即下载源码，使得子项目可以直接参与主构建树的编译，非常适合 CI/CD 自动化环境。
+      - **配置状态**：已配置 `gtest_force_shared_crt` 等缓存变量，确保运行时库兼容。
+  - **探测依据**：
+
+    ```cmake
+    include(FetchContent)
+    FetchContent_Declare(…)
+    FetchContent_MakeAvailable(googletest)
+    ```
+
+**2. 头文件暴露与隔离 (Header Visibility & Isolation)**
+
+  - **关键性**：**P0**
+  - **策略解析**：
+      - **目标级管理**：全面采用 `target_include_directories`。
+      - **传递性控制**：
+          - `signal_lib` 使用了 **PUBLIC** 属性。这意味着任何链接了 `signal_lib` 的目标（如 `main_app`），都会自动继承其头文件搜索路径。这是构建库（Library）的标准范式。
+          - GTest 使用了 **SYSTEM INTERFACE**，有效屏蔽了第三方库可能产生的编译器警告。
+  - **探测依据**：
+
+    ```cmake
+    target_include_directories(signal_lib PUBLIC …)
+    ```
+
+**3. 链接传递性与作用域 (Linking Transitivity & Scope)**
+
+  - **关键性**：**P0**
+  - **策略解析**：
+      - **层级清晰**：
+          - `signal_lib` 封装了底层的 SDK 细节（链接 `cudart`），对外暴露为高级接口。
+          - `main_app` 仅需链接业务库 `signal_lib` 和系统库 `numa`，无需关心底层是否使用了 CUDA。
+      - **链接模式**：
+          - `main_app` 使用 **PRIVATE** 链接 `numa`（仅自己用，不传递）。
+          - `signal_lib` 使用 **PUBLIC** 链接 `cudart`（依赖传递）。
+  - **探测依据**：
+
+    ```cmake
+    target_link_libraries(main_app PRIVATE signal_lib numa)
+    target_link_libraries(signal_lib PUBLIC cudart)
+    ```
+
+**4. 运行时路径注入 (RPATH Mechanism)**
+
+  - **关键性**：**P0 (Critical)**
+  - **策略解析**：
+      - **物理状态**：`readelf` 确认二进制文件头部包含 `Library rpath: [/usr/local/corex/lib]`。
+      - **生成机制**：尽管源码中未显式设置 `CMAKE_INSTALL_RPATH`，但由于链接时使用了库的绝对路径（推测 `cudart` 变量解析为 `/usr/local/corex/lib/libcudart.so`），CMake 默认会将非系统路径（Non-standard Path）自动添加到 Build Tree 的 RPATH 中。
+      - **运维价值**：这确保了程序部署到生产环境时，**不需要**配置 `LD_LIBRARY_PATH` 环境变量即可运行，极大地降低了运维出错率。
+  - **探测依据**：
+
+    ```bash
+    readelf -d …/bin/main_app | grep RPATH
+    0x000000000000000f (RPATH)   Library rpath: [/usr/local/corex/lib]
+    ```
+
diff --git a/系统基座文件/1/1.4/1.4.5 产物输出与安装规则 (Artifact Output & Installation Rules).md b/系统基座文件/1/1.4/1.4.5 产物输出与安装规则 (Artifact Output & Installation Rules).md
new file mode 100644
index 0000000..95a1a59
--- /dev/null
+++ b/系统基座文件/1/1.4/1.4.5 产物输出与安装规则 (Artifact Output & Installation Rules).md	
@@ -0,0 +1,64 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 7:50:36 晚上
+date modified: 星期三, 十一月 19日 2025, 7:51:09 晚上
+---
+
+# 1.4.5 产物输出与安装规则 (Artifact Output & Installation Rules)
+
+**审计综述**：
+项目采用了\*\*“集中式输出”**策略，极大地方便了开发阶段的调试与运行。然而，主构建脚本**完全缺失了安装规则 (`install`)\*\*，这意味着无法通过 `make install` 将产物打包或部署到系统目录，当前仅限于在构建目录（Build Tree）内运行。
+
+**1. 输出目录布局 (Output Directory Layout)**
+
+  - **关键性**：**P1**
+  - **策略解析**：
+      - **集中管理**：通过设置 `CMAKE_RUNTIME_OUTPUT_DIRECTORY` 等变量，强制将所有生成物归档到 `${CMAKE_BINARY_DIR}/bin` 和 `${CMAKE_BINARY_DIR}/lib`。
+      - **优势**：
+          - 避免了编译产物散落在源码目录深处（In-source build pollution）。
+          - 简化了 `RPATH` 的管理，因为所有库都在同一个相对路径下。
+          - 方便了 `numactl` 等工具的调用路径书写（如 1.3.3 中所示）。
+  - **探测依据**：
+
+    ```cmake
+    set(CMAKE_RUNTIME_OUTPUT_DIRECTORY ${CMAKE_BINARY_DIR}/bin)
+    ```
+
+**2. 安装规则状态 (Installation Rule Status)**
+
+  - **关键性**：**P2 (Missing)**
+  - **策略解析**：
+      - **现状**：`grep "install("` 显示主项目（`app` 和 `signal_lib`）**未定义任何安装规则**。仅有的安装指令来自第三方依赖（GTest）和 SDK 内部文件。
+      - **影响**：运行 `make install` 将不会复制雷达主程序或库文件。对于目前的 Demo / 原型开发阶段，这是可接受的。
+      - **改进建议**：若项目进入生产交付阶段，必须补充 `install(TARGETS main_app DESTINATION bin)` 等指令，以便生成发布包（RPM/DEB）。
+  - **探测依据**：
+
+    ```bash
+    grep -r "install(" …
+    # (无主项目相关输出)
+    ```
+
+**3. 调试符号与剥离策略 (Debug Symbol Strategy)**
+
+  - **关键性**：**P2**
+  - **策略解析**：
+      - **物理状态**：`file` 命令显示 `not stripped`，说明符号表（Symbol Table）保留，可支持 `nm` 或 `gdb` 查看函数名堆栈。
+      - **调试信息**：`readelf` 未找到 `.debug` 段。这是因为当前处于 **Release** 模式（`-O3 -DNDEBUG`），编译器默认不生成 DWARF 源码级调试信息。
+      - **结论**：这是标准的 Release 构建产物，兼顾了性能（优化开启）和基础可维护性（崩溃时能看到函数名）。
+  - **探测依据**：
+
+    ```bash
+    file …/main_app
+    … not stripped
+    ```
+
+-----
+
+### 1.4 章节最终总结：构建系统与工程配置
+
+至此，我们完成了对 **1.4 构建系统** 的全方位审计。我们确立了该项目的\*\*“构建基线”\*\*：
+
+1. **核心**：CMake 4.1 + Unix Makefiles。
+2. **编排**：**Host(GCC) + Device(Clang) 显式分离**，禁用原生 CUDA 语言支持。
+3. **标志**：适配了 CoreX SDK 的 `-x ivcore` 方言，但缺少 Host 端的架构优化 (`-march=armv8-a`)。
+4. **布局**：产物集中输出到 `build/bin`，RPATH 自动注入，安装规则待补。
diff --git a/系统基座文件/1/1.5/1.5.1 系统运行时与 ABI 基线 (System Runtime & ABI Baseline).md b/系统基座文件/1/1.5/1.5.1 系统运行时与 ABI 基线 (System Runtime & ABI Baseline).md
new file mode 100644
index 0000000..d43a468
--- /dev/null
+++ b/系统基座文件/1/1.5/1.5.1 系统运行时与 ABI 基线 (System Runtime & ABI Baseline).md	
@@ -0,0 +1,65 @@
+---
+tags: 
+date created: 星期三, 十一月 19日 2025, 8:00:42 晚上
+date modified: 星期三, 十一月 19日 2025, 8:01:00 晚上
+---
+
+# 1.5.1 系统运行时与 ABI 基线 (System Runtime & ABI Baseline)
+
+**1. C++ 标准库 ABI 边界 (C++ StdLib ABI Horizon)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **当前版本**：`GLIBCXX_3.4.24`。
+      - **对应编译器**：**GCC 7.3.0**。
+      - **工程约束**：
+          - **C++ 标准**：完美支持 **C++14**。
+          - **C++17 风险**：尽管 GCC 7.3 宣称支持 C++17，但 `std::filesystem` 等特性此时仍位于 `std::experimental` 命名空间，且 ABI 与 GCC 8/9（GLIBCXX\_3.4.26+）不兼容。
+          - **第三方库选型**：在引入预编译的第三方库（如 TensorRT, Arrow）时，必须下载 **CentOS 7 / Ubuntu 18.04** 兼容版本，严禁使用依赖 GCC 9+ 的新版库，否则必报 `version 'GLIBCXX_3.4.26' not found`。
+  - **探测依据**：
+
+    ```bash
+    strings /usr/lib64/libstdc++.so | grep "GLIBCXX" | tail -n 1
+    GLIBCXX_3.4.24
+    ls -l /usr/lib64/libstdc++.so
+    … -> libstdc++.so.0.24
+    ```
+
+**2. 系统基础 C 运行库 (System Glibc)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **版本**：**glibc 2.28**。
+      - **评价**：这是 Kylin V10 SP1 的出厂标配。相比 CentOS 7 的 glibc 2.17，它提供了更好的 `memcpy` 性能和更现代的 syscall 封装，足以支撑绝大多数现代雷达信号处理中间件。
+  - **探测依据**：
+
+    ```bash
+    ldd --version
+    ldd (GNU libc) 2.28
+    ```
+
+**3. 安全与压缩基础设施 (Security & Compression Infra)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **OpenSSL**：版本 **1.1.1f** (LTS)。支持 TLS 1.3。这是构建安全数据链路（如 HTTPS, Secure gRPC）的基石，且版本未过时，无需手动升级。
+      - **Zlib**：版本 **1.2.11**。标准且稳定，用于 HDF5 或 Log 压缩无压力。
+  - **探测依据**：
+
+    ```bash
+    openssl version
+    OpenSSL 1.1.1f  31 Mar 2020
+    ```
+
+**4. 全局库冲突检测 (Global Conflict Detection)**
+
+  - **关键性**：**P2**
+  - **信息解析**：
+      - **状态**：**Clean (无污染)**。
+      - **解读**：在 `/usr/local` 下未发现“私藏”的 `libstdc++.so` 或 `libc.so`。这意味着系统加载器（Loader）不会因为搜索路径顺序问题加载到错误的运行时库，极大地降低了调试难度。
+  - **探测依据**：
+
+    ```bash
+    find /usr/local -name "libstdc++.so*" …
+    (Empty Result)
+    ```
diff --git a/系统基座文件/1/1.5/1.5.2 Host 端信号处理与数学库 (Host Signal Processing & Math Libs).md b/系统基座文件/1/1.5/1.5.2 Host 端信号处理与数学库 (Host Signal Processing & Math Libs).md
new file mode 100644
index 0000000..b619262
--- /dev/null
+++ b/系统基座文件/1/1.5/1.5.2 Host 端信号处理与数学库 (Host Signal Processing & Math Libs).md	
@@ -0,0 +1,51 @@
+---
+tags: 
+date created: 星期三, 十一月 19日 2025, 8:01:59 晚上
+date modified: 星期三, 十一月 19日 2025, 8:10:41 晚上
+---
+
+# 1.5.2 Host 端信号处理与数学库 (Host Signal Processing & Math Libs)
+
+**1. 快速傅里叶变换库 (FFTW3)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **版本**：**3.5.8**。这是 FFTW3 系列非常稳定的版本。
+      - **精度支持**：
+          - `libfftw3f.so` (单精度 float)：用于处理雷达原始 IQ 数据（通常为 float 或 int16）。
+          - `libfftw3.so` (双精度 double)：用于高精度后处理算法。
+          - `libfftw3l.so` (长双精度 long double)：用于极端精度需求（较少用）。
+      - **并行能力**：提供了 `_omp` (OpenMP) 和 `_threads` (Pthreads) 版本。建议在代码中优先链接 `libfftw3f_omp` 以利用多核优势。
+  - **探测依据**：
+
+    ```bash
+    ls -l /usr/lib64/libfftw3f.so
+    … libfftw3f.so.5.8
+    ```
+
+**2. 线性代数加速库 (OpenBLAS)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **版本**：**0.3.10**。
+      - **架构优化**：OpenBLAS 0.3.x 系列对 ARMv8 (Cortex-A57/A72 等微架构) 有良好的支持，能自动检测并使用 NEON 指令集。这对于 CPU 端波束合成（矩阵乘法）至关重要。
+      - **头文件**：`/usr/include/openblas/cblas.h` 已就绪，可直接使用标准 CBLAS 接口。
+  - **探测依据**：
+
+    ```bash
+    ls -l /usr/lib64/libopenblas.so
+    … libopenblas-r0.3.10.so
+    ```
+
+**3. C++ 矩阵模板库 (Eigen3)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **状态**：**Installed**。
+      - **特性**：Eigen 是纯头文件库（Header-only），无需编译链接。它能自动检测并调用后端的 BLAS 库（如 OpenBLAS）进行加速，是现代 C++ 算法开发的首选。
+  - **探测依据**：
+
+    ```bash
+    ls -d /usr/include/eigen3
+    /usr/include/eigen3
+    ```
diff --git a/系统基座文件/1/1.5/1.5.3 通信、存储与基础设施中间件 (Comm, Storage & Infra Middleware).md b/系统基座文件/1/1.5/1.5.3 通信、存储与基础设施中间件 (Comm, Storage & Infra Middleware).md
new file mode 100644
index 0000000..0a154b5
--- /dev/null
+++ b/系统基座文件/1/1.5/1.5.3 通信、存储与基础设施中间件 (Comm, Storage & Infra Middleware).md	
@@ -0,0 +1,56 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 8:16:48 晚上
+date modified: 星期三, 十一月 19日 2025, 8:17:14 晚上
+---
+
+# 1.5.3 通信、存储与基础设施中间件 (Comm, Storage & Infra Middleware)
+
+**审计综述**：
+Host 端数据基础设施已经补齐。我们确认 Protobuf 编译器已安装，可支持控制协议的开发；ZeroMQ 和 HDF5 库均已正确链接到系统库，数据传输和落盘能力已具备。
+
+**1. 通信与协议中间件 (Comm & Protocols)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **Protobuf 编译器**：`protoc` (v3.14.0) 已就绪。这使得开发者可以编译最新的 `.proto` 文件，用于控制指令或数据结构的版本化管理。
+      - **ZeroMQ (ZMQ)**：库文件 `libzmq.so.2.4` 存在。这是构建雷达后端实时数据发布/订阅（Pub/Sub）消息总线的核心传输层。
+      - **评估**：ZeroMQ (v5.x) 和 Protobuf (v3.x) 均为现代版本，Host 端具备高性能数据通信能力。
+  - **探测依据**：
+
+    ```bash
+    protoc --version
+    libprotoc 3.14.0
+    ls -l /usr/lib64/libzmq.so*
+    lrwxrwxrwx … /usr/lib64/libzmq.so -> libzmq.so.2.4
+    ```
+
+**2. 数据存储中间件 (Storage Middleware)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **HDF5 编译器**：`h5cc` 已就绪。`h5cc` 是 HDF5 库的专用编译器 Wrapper，它的存在证明 HDF5 的头文件和开发库已正确安装。
+      - **用途**：HDF5 是存储雷达高维原始回波数据（IQ Data）的首选标准格式。
+  - **探测依据**：
+
+    ```bash
+    which h5cc
+    /usr/bin/h5cc
+    ls -l /usr/include/hdf5.h
+    -rw-r--r-- 1 root root 2561 … /usr/include/hdf5.h
+    ```
+
+**3. 日志与配置设施 (Logging & Config Infra)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **日志 (Glog)**：`libglog.so.0.0` 存在。Glog 提供了高性能的线程安全日志、VLOG 分级和断言机制，有助于雷达后端代码的稳定运行和故障排除。
+      - **配置 (YAML)**：`libyaml-cpp.so.6.3` 存在。YAML 是比 JSON 更适合人工维护的配置文件格式，常用于存储复杂的雷达波位表或系统参数。
+  - **探测依据**：
+
+    ```bash
+    ls -l /usr/lib64/libglog.so*
+    … /usr/lib64/libglog.so.0.0
+    ls -l /usr/lib64/libyaml-cpp.so*
+    … /usr/lib64/libyaml-cpp.so.6.3
+    ```
diff --git a/系统基座文件/1/1.6/1.6.1 异构调试与内存安全 (Heterogeneous Debugging & Memory Safety).md b/系统基座文件/1/1.6/1.6.1 异构调试与内存安全 (Heterogeneous Debugging & Memory Safety).md
new file mode 100644
index 0000000..6a80113
--- /dev/null
+++ b/系统基座文件/1/1.6/1.6.1 异构调试与内存安全 (Heterogeneous Debugging & Memory Safety).md	
@@ -0,0 +1,55 @@
+---
+tags: []
+aliases:
+  - 1.6.1 异构调试与内存安全 (Heterogeneous Debugging & Memory Safety)
+date created: 星期三, 十一月 19日 2025, 8:31:15 晚上
+date modified: 星期三, 十一月 19日 2025, 8:31:38 晚上
+---
+
+# 1.6.1 异构调试与内存安全 (Heterogeneous Debugging & Memory Safety)
+
+**审计综述**：
+系统在调试层面具备极高的能力，Host 端 GDB 基础稳固，Device 端拥有专用调试器。然而，ASAN 库的安装路径不标准，需要手动配置系统链接器以启用。
+
+**1. GDB 调试前端 (GDB Debugging Frontend)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **版本与支持**：GDB 版本为 **9.2** (Kylin 定制版)，且 **Python 接口已激活**。
+      - **价值**：Python 接口是 VSCode / CLion 等 IDE 实现高级断点、复杂结构体可视化以及 GDB 脚本扩展的必要条件。
+  - **探测依据**：
+
+    ```bash
+    gdb --version
+    GNU gdb (GDB) KylinOS 9.2-3…
+    gdb -q -ex 'pi print(…)' -ex quit
+    Python support is active
+    ```
+
+**2. 异构调试工具链 (Heterogeneous Debugger Tools)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **专用调试器**：**ixgdb** (Iluvatar GDB) 存在。这是用于 GPU Kernel 级断点调试的专用工具，等同于 NVIDIA 的 `cuda-gdb`。
+      - **远程支持**：`gdbserver` 存在。可用于在远程开发机器（如 Windows/MacOS）上通过 VSCode/SSH 附件到 Kylin 服务器上的进程进行调试。
+  - **探测依据**：
+
+    ```bash
+    ls -l /usr/local/corex/bin/*gdb*
+    /usr/local/corex/bin/ixgdb
+    /usr/local/corex/bin/gdbserver
+    ```
+
+**3. 内存安全检测工具 (Memory Safety Checkers)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **Valgrind**：**v3.13.0** 已安装，可用于 Host 端代码的内存泄漏和越界访问检测。
+      - **ASAN (Address Sanitizer)**：库文件 `libasan.so` **已安装**在 GCC 7.3 的私有路径 (`/usr/lib/gcc/…`)。
+      - **风险与修正**：ASAN 库默认对系统链接器不可见。已通过创建 `/etc/ld.so.conf.d/gcc7-asan.conf` 文件并执行 `ldconfig` 解决了此路径问题。
+  - **探测依据**：
+
+    ```bash
+    which valgrind && valgrind --version
+    /usr/bin/valgrind valgrind-3.13.0
+    ```
diff --git a/系统基座文件/1/1.6/1.6.2 性能分析与实时监控 (Performance Analysis & Real-time Monitoring).md b/系统基座文件/1/1.6/1.6.2 性能分析与实时监控 (Performance Analysis & Real-time Monitoring).md
new file mode 100644
index 0000000..a901ec0
--- /dev/null
+++ b/系统基座文件/1/1.6/1.6.2 性能分析与实时监控 (Performance Analysis & Real-time Monitoring).md	
@@ -0,0 +1,57 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 8:34:02 晚上
+date modified: 星期三, 十一月 19日 2025, 8:34:18 晚上
+---
+
+# 1.6.2 性能分析与实时监控 (Performance Analysis & Real-time Monitoring)
+
+**审计综述**：
+系统在 Host 端和 Device 端均具备强大的性能监控和分析能力。已确认关键工具 `perf` 和 `ixprof` 存在，且内核支持完整的事件追踪。NUMA 内存分配均衡，为高性能雷达应用提供了可靠的诊断基础。
+
+**1. GPU 性能分析工具链 (GPU Profiling Toolchain)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **CUpti 接口**：`libcupti.so.2.89` 存在。**CUpti (CUDA Profiling Tools Interface)** 是所有高级 GPU 性能工具与驱动通信的底层接口，它的存在证明 GPU 侧的性能数据采集功能已激活。
+      - **专用 Profiler**：`ixprof` (Iluvatar Profiler) 存在。这是用于采集 GPU 单元利用率、显存带宽和 Kernel 时序等指标的专用工具，可用于替代 `nvprof`。
+  - **探测依据**：
+
+    ```bash
+    ls -l /usr/local/corex/lib/libcupti.so*
+    … libcupti.so.2.89
+    ls -l /usr/local/corex/bin/ixprof
+    /usr/local/corex/bin/ixprof
+    ```
+
+**2. Linux 内核级性能分析 (Kernel Performance Analysis)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **Perf 工具**：`/usr/bin/perf` 存在。Perf 已识别出 **Bus Cycles**、**Cache Misses**、**CPU Cycles** 等 ARMv8 硬件性能计数器事件。
+      - **内核追踪 (Ftrace)**：`/sys/kernel/debug/tracing/available_tracers` 文件存在（虽然大小为 0），证明 `debugfs` 已挂载，内核支持 **ftrace**。这为分析锁竞争、调度延迟等实时性问题提供了深度追踪能力。
+  - **探测依据**：
+
+    ```bash
+    which perf && perf list
+    /usr/bin/perf [Hardware events listed]
+    ls -l /sys/kernel/debug/tracing/available_tracers
+    … available_tracers
+    ```
+
+**3. 实时系统与 NUMA 监控 (Real-time & NUMA Monitoring)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **增强任务管理**：`htop` 已安装。这是比 `top` 更直观的实时任务管理器，有利于在运行雷达程序时实时观察 CPU 亲和性（Affinity）是否正确绑定在 Node 1 (CPU 16-31) 上。
+      - **NUMA 内存分配**：`numastat -m` 显示 Node 0 和 Node 1 的物理内存总量和使用量**大致均衡**。当前没有明显的跨节点内存压力。
+      - **默认策略**：`numactl --show` 显示当前 shell 默认策略是 `policy: default`，且绑定到所有 CPU (0-31) 和所有 Node (0/1)。
+          - **重申风险**：这再次印证了为什么必须在启动 `main_app` 时使用 `numactl --cpunodebind=1 --membind=1` 强制覆盖默认策略。
+  - **探测依据**：
+
+    ```bash
+    which htop
+    /usr/bin/htop
+    numactl --show
+    policy: default
+    ```
diff --git a/系统基座文件/1/1.6/1.6.3 版本控制与数据基线管理 (Versioning & Data Baseline Management).md b/系统基座文件/1/1.6/1.6.3 版本控制与数据基线管理 (Versioning & Data Baseline Management).md
new file mode 100644
index 0000000..057918c
--- /dev/null
+++ b/系统基座文件/1/1.6/1.6.3 版本控制与数据基线管理 (Versioning & Data Baseline Management).md	
@@ -0,0 +1,50 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 8:38:01 晚上
+date modified: 星期三, 十一月 19日 2025, 8:40:07 晚上
+---
+
+# 1.6.3 版本控制与数据基线管理 (Versioning & Data Baseline Management)
+
+**审计综述**：
+系统具备稳固的版本控制基础，且已补齐了管理大型二进制文件所需的关键工具 **Git LFS**。Docker 的存在为构建标准化 CI/CD 流程提供了运行环境。
+
+**1. Git 版本状态 (Git Version Status)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **版本**：**Git 2.27.0**。该版本较为新近，支持所有现代 Git 功能（如稀疏检出、新版 Diff 算法）。
+      - **平台**：运行于 `linux arm64`。
+  - **探测依据**：
+
+    ```bash
+    git --version
+    git version 2.27.0
+    ```
+
+**2. 大文件存储支持 (Git LFS Support)**
+
+  - **关键性**：**P0**
+  - **信息解析**：
+      - **状态**：**Git LFS v2.10.0** 已安装，且已通过 `install --system` 进行全局初始化。
+      - **价值**：解决了雷达项目管理大文件（如校准系数、模型权重）的痛点，确保 Git 仓库体积不会过度膨胀。
+  - **探测依据**：
+
+    ```bash
+    which git-lfs && git lfs version
+    /usr/bin/git-lfs
+    git-lfs/2.10.0 (…)
+    ```
+
+**3. CI/CD 环境工具 (Automation Tools)**
+
+  - **关键性**：**P1**
+  - **信息解析**：
+      - **容器化**：**Docker** 运行时已安装 (`/usr/bin/docker`)。
+      - **价值**：这是将项目构建环境标准化（例如：将 GCC 7.3 和 Clang 18.1 封装在 Docker 镜像中）的关键，可确保 CI/CD 流程的构建结果具有高度可复现性。
+  - **探测依据**：
+
+    ```bash
+    which docker
+    /usr/bin/docker
+    ```
diff --git a/系统基座文件/2.1 工程基线总结报告_原始数据链路与采集协议.md b/系统基座文件/2.1 工程基线总结报告_原始数据链路与采集协议.md
new file mode 100644
index 0000000..0e96838
--- /dev/null
+++ b/系统基座文件/2.1 工程基线总结报告_原始数据链路与采集协议.md	
@@ -0,0 +1,16 @@
+### 2.1 原始数据链路与采集协议 - 工程基线总结报告
+
+| 编号 | 核心议题 | 确立的工程基线 (Baseline Established) | 关键系统配置与修正 (Action Items & Constraints) | 依据/影响 |
+| :--- | :--- | :--- | :--- | :--- |
+| **2.1.1/2.1.2** | **链路与协议** | **协议：** UDP/IPv4。<br>**MTU：** JUMBO Frame **9000 字节**。 | **P0 级约束：** 物理链路仍为 1GbE。此基线是软件上**压榨 1GbE 极限吞吐**的 P1 级优化。 | 最大化有效净载荷，并将 CPU 中断频率降低约 6 倍，保障实时性。 |
+| **2.1.3 (I)** | **NIC 队列深度** | **RX Ring Buffer：** 强制配置为硬件最大值 **8192** [ethtool output]。<br>**中断聚合：** 采取激进聚合策略（例如 `rx-usecs 100`），进一步减少 I/O 线程的 CPU 负载。 | **`ethtool` 配置：** `ethtool -G ens4f1 rx 8192`<br>`ethtool -C ens4f1 rx-usecs 100 rx-frames 256` | 提供了最长的瞬态延迟容忍度，是实现**数据包丢失率 \< 0.01%** KPI 的重要保障。 |
+| **2.1.3 (II)** | **CPU 亲和性** | **硬绑定：** 数据接收模块（I/O 线程和工作线程）必须强制绑定到 **NUMA Node 1** (CPU 16-31)。 | **P0 级修正：** 必须使用 `numactl --cpunodebind=1 --membind=1` 启动应用程序。 | 消除跨 NUMA 节点访问 GPU 页锁定内存 (`MemoryPool`) 导致的**高延迟和抖动**。 |
+| **2.1.3 (III)** | **内核内存修正** | **内核 Socket 缓冲区：** 必须提升内核参数 `net.core.rmem_max` 的硬上限。 | **P1 级修正：** 将 `net.core.rmem_max` 提升至至少 **64MB** (例如 `sysctl -w net.core.rmem_max=67108864`)，以确保能容纳 8192 个 MTU 9000 的巨型帧。 | 解决当前 2MB 内核限制导致的**静默丢包风险**。 |
+| **2.1.4** | **数据完整性** | **校验和标准：** 采用**应用层 CRC32** 校验，由雷达前端生成并由 `PacketProcessor` (ChecksumValidator) 验证。<br>**时序策略：** 乱序/丢失数据包采用 **立即丢弃并上报** 策略。 | 模块的 `StatsCollector` 实时监控错误率，并与配置阈值 (例如校验和错误率 $1\%$) 进行比对，超限触发 `MetricsUpdateEvent` 告警。 | CRC32 提供工业级鲁棒性。立即丢弃策略保障了 **P99 \< 1ms** 的低延迟 KPI。 |
+| **2.1.5** | **DMA 与零拷贝** | **基线方案 (A)：** 优化标准 I/O，使用 **`recvmmsg()` 批量接收**。<br>**零拷贝实现：** 从 `recvmmsg()` 接收数据直接写入**页锁定内存池** (`MemoryPool`)，并通过指针传递至下游。 | **备选方案 (B)：** **AF\_XDP** (内核零拷贝) 仅在**I/O线程 CPU 占用率** KPI 不达标时，才启动在 Kylin 4.19 平台上的兼容性验证。 | 批量接收和页锁定内存的组合，旨在以最高兼容性和最低的系统调用开销，实现数据从网卡到 GPU 内存的快速通道。 |
+
+-----
+
+**下一步行动**：
+
+我们已完成 **2.1 原始数据链路与采集协议** 的所有基线确立。接下来，我们将进入下一章节 **2.2 异构 DMA 与内存传输机制** 的讨论，重点将集中于 Host CPU 和 Device GPU 之间的数据移动策略。
\ No newline at end of file
diff --git a/系统基座文件/2.2 工程基线总结报告_异构 DMA 与内存传输机制.md b/系统基座文件/2.2 工程基线总结报告_异构 DMA 与内存传输机制.md
new file mode 100644
index 0000000..dae139d
--- /dev/null
+++ b/系统基座文件/2.2 工程基线总结报告_异构 DMA 与内存传输机制.md	
@@ -0,0 +1,90 @@
+---
+tags: 
+aliases:
+  - 2.2 异构 DMA 与内存传输机制 (Heterogeneous DMA & Memory Transfer Mechanism)
+date created: 星期四, 十一月 20日 2025, 11:23:39 晚上
+date modified: 星期四, 十一月 20日 2025, 11:23:49 晚上
+---
+
+# 2.2 异构 DMA 与内存传输机制 (Heterogeneous DMA & Memory Transfer Mechanism)
+
+  - **概要**: 本节定义 Host CPU 与 Device GPU (Iluvatar MR-V100) 之间的高速数据移动策略。鉴于物理链路为 **PCIe 4.0 x8 (降级)** 且存在 **NUMA 架构** 风险，本设计确立了以 **“锁页内存池 + 双流乒乓 + NUMA 本地化”** 为核心的传输基线，旨在最大化 PCIe 有效带宽并掩盖传输延迟。
+
+## 1\. 核心基线总览 (Baseline Matrix)
+
+| 决策领域 | 核心基线 (Baseline) | 关键技术/配置 (Key Specs) | 依据/收益 |
+| :--- | :--- | :--- | :--- |
+| **2.2.1 内存分配** | **锁页内存 + UVA 映射** | `cudaMallocHost` <br> Flags: `cudaHostAllocMapped` | 规避 OS 分页开销，启用 GPU 直接寻址能力。 |
+| **2.2.2 传输调度** | **双流乒乓 (Double Buffering)** | 2x `cudaStream_t` (NonBlocking) <br> 3-Stage Pipeline (H2D/Kernel/D2H) | 实现计算与通信的**完全重叠**，掩盖 PCIe 物理延迟。 |
+| **2.2.3 物理亲和性** | **NUMA Node 0 本地化** | 运维: `numactl --cpunodebind=0 --membind=0` <br> 代码: `pthread_setaffinity_np` | **P0 级修正**。消除跨 QPI 总线访问导致的 20-40% 延迟抖动。 |
+| **2.2.4 零拷贝策略** | **混合策略 (Hybrid)** | **控制流**: Zero-Copy (UVA + WriteCombined) <br> **数据流**: Explicit Async DMA | 兼顾小数据的低延迟与大数据的高吞吐，避免 TLB Thrashing。 |
+| **2.2.5 传输粒度** | **块级聚合 (Coarse-Grained)** | Min Size: **64KB** <br> Alignment: **256 Bytes** | 摊薄 PCIe TLP 协议头开销，提升有效载荷占比至 \>80%。 |
+| **2.2.6 显存布局** | **Range-Contiguous + Pitch** | Layout: `[Channel][Pulse][Range]` <br> Type: `float2` (Interleaved) | 适配 `cuFFT` 格式，满足 GPU 合并访问 (Coalesced Access) 要求。 |
+
+-----
+
+## 2\. 关键机制深度解析
+
+### 2.2.1 锁页内存管理与分配策略 (Page-Locked/Pinned Memory Management)
+
+  - **分配策略**: 严禁使用 `new/malloc`。必须在系统初始化阶段 (`initialize`) 使用 `cudaMallocHost` 预分配所有 H2D 缓冲区。
+  - **UVA 启用**: 必须设置 `cudaHostAllocMapped` 标志，使 CPU 内存映射到 GPU 统一地址空间，为零拷贝提供支持。
+  - **内存池管理**: 采用静态预分配策略。
+      - **Pool Size**: 默认为 **256MB**。
+      - **Block Size**: 固定为 **64KB**，与传输粒度对齐。
+
+### 2.2.2 异步流水线与计算通信重叠 (Asynchronous Pipelining)
+
+  - **架构模型**: **双流乒乓 (Ping-Pong)**。
+      - Stream 0 处理 Buffer A (Kernel 计算) 时，Stream 1 同时搬运 Buffer B (H2D 传输)。
+  - **API 规范**:
+      - 流创建: `cudaStreamCreateWithFlags(…, cudaStreamNonBlocking)`。
+      - 传输: `cudaMemcpyAsync(…, stream_id)`。
+      - 同步: 严禁使用 `cudaDeviceSynchronize()`，仅允许 `cudaStreamSynchronize()` 或 `cudaEventSynchronize()`。
+
+### 2.2.3 NUMA 感知的内存亲和性控制 (NUMA-Aware Affinity)
+
+  - **物理基线修正**: 假定服务器已按主板手册调整，GPU 物理挂载于 **Node 0**。
+  - **强制约束**:
+      - **进程级**: 启动脚本必须包含 `numactl --cpunodebind=0 --membind=0`。
+      - **线程级**: `ExecutionEngine` 的 I/O 线程和 Worker 线程必须显式绑定到 Node 0 的物理核心 (Core 0-15)。
+  - **First-Touch**: `cudaMallocHost` 的调用必须发生在已绑定亲和性的线程中，确保物理页分配在本地 DRAM。
+
+### 2.2.4 统一虚拟寻址与零拷贝技术 (UVA & Zero-Copy)
+
+  - **场景 A: 控制参数 (波控码/状态字)**
+      - **策略**: **Zero-Copy**。
+      - **配置**: `cudaHostAllocWriteCombined`。
+      - **行为**: CPU 写入 Write-Combine Buffer，GPU Kernel 直接通过 PCIe 读取 Host 内存，无 DMA 启动开销。
+  - **场景 B: 原始回波 (I/Q Data)**
+      - **策略**: **Explicit DMA**。
+      - **行为**: 维持 `cudaMemcpyAsync` 到 VRAM。避免 GPU Kernel 频繁跨 PCIe 访问导致计算单元饥饿。
+
+### 2.2.5 传输粒度与 TLP 效率优化 (TLP Efficiency)
+
+  - **最小粒度**: **64KB**。严禁单包 (9KB) 传输。
+  - **触发机制**:
+      - **空间触发**: 填满一个 64KB 内存块。
+      - **时间触发**: 超时 **200us** 未填满则强制推送。
+  - **对齐约束**: 传输的目标地址 (Device Pointer) 必须 **256 字节对齐**，适配 GPU 内存控制器的最佳访问步长。
+
+### 2.2.6 显存布局与对齐约束 (VRAM Layout)
+
+  - **数据类型**: `float2` (Interleaved Complex)，直接适配 `cuFFT`。
+  - **物理排列**: **Channel-Major, Pulse-Major, Range-Contiguous** (`[C][P][R]`)。
+      - **Range 维**作为最内层连续维度，确保 FFT 和脉冲压缩时的合并访问。
+  - **Padding 策略**: 使用 `cudaMallocPitch` 分配显存。确保每一行（即每个脉冲）的起始地址满足 256 字节对齐，消除换行时的非对齐访问惩罚。
+
+-----
+
+## 3\. 关键配置参数速查 (Configuration Cheat Sheet)
+
+| 参数名称 | 推荐值/设置 | 来源/约束 |
+| :--- | :--- | :--- |
+| `buffer.packet_block_size_kb` | **64** | |
+| `gpu_resources.stream_count` | **3** (Min 2) | 支持 H2D/Comp/D2H 三级流水 |
+| `gpu_resources.device_memory_mb`| **1024** | |
+| `Min Transfer Size` | **64KB** | 2.2.5 基线 |
+| `Alignment` | **256 Bytes** | 2.2.5 / 2.2.6 基线 |
+| `NUMA Node` | **0** | 2.2.3 基线 (修正后) |
+| `MTU` | **9000** | 2.1.2 基线 |
diff --git a/系统基座文件/2.3 工程基线总结报告_内部控制平面通信接口.md b/系统基座文件/2.3 工程基线总结报告_内部控制平面通信接口.md
new file mode 100644
index 0000000..845965a
--- /dev/null
+++ b/系统基座文件/2.3 工程基线总结报告_内部控制平面通信接口.md	
@@ -0,0 +1,85 @@
+---
+tags: 
+date created: 星期五, 十一月 21日 2025, 4:03:53 下午
+date modified: 星期五, 十一月 21日 2025, 4:04:09 下午
+---
+
+# 2.3 内部控制平面通信接口：总结评估与演进分析
+
+版本: v1.0
+
+状态: 基线已确立
+
+覆盖范围: 2.3.1 - 2.3.7
+
+## 1. 架构综述 (Executive Summary)
+
+本章节定义了系统的“神经中枢”。我们摒弃了传统的、强耦合的函数调用模式，构建了一套**全异步、事件驱动、全链路可观测**的进程内控制平面。
+
+该架构在设计上达成了一个微妙的平衡：
+
+1. **极速响应**：通过 **同步分发通道** 和 **RCU 无锁配置**，确保资源抢占和配置变更的微秒级响应。
+2. **极高吞吐**：通过 **TLS 遥测聚合**，确保每秒数万次的性能打点对业务线程零干扰。
+3. **极强韧性**：通过 **熔断器**、**四级热节流** 和 **两阶段提交**，确保系统在物理过载或配置错误时“降级而不崩溃”。
+
+## 2. 基线架构全景 (Baseline Architecture Overview)
+
+|**子系统**|**核心基线 (Established Baseline)**|**关键技术特征**|**设计目标**|
+|---|---|---|---|
+|**通信总线**|**混合双通道 (Sync/Async)**|泛型 Pub/Sub，读写锁保护|兼顾指令的实时性与状态上报的非阻塞。|
+|**链路追踪**|**TLS + 智能闭包捕获**|`TraceContextGuard`，RAII 自动恢复|消除异步调用导致的上下文断链，实现无感追踪。|
+|**生命周期**|**异步指令 + 超时闭环**|`Start` -> `Running`，看门狗定时器|防止单模块挂死拖垮整个启动/停止流程。|
+|**故障恢复**|**依赖感知四步法**|Pause -> Stop -> Restart -> Resume|确保恢复期间数据不积压、不溢出。|
+|**资源保护**|**四级热节流 + 迟滞控制**|温度触发，软件占空比 (`sleep`)|物理过载下的最后一道防线 (Last Resort)。|
+|**热更新**|**2PC + RCU**|投票 -> 提交，原子指针替换|确保配置变更的事务原子性，读侧零等待。|
+|**性能遥测**|**TLS 聚合 + 定期快照**|`Static Handle`，无锁热路径|实现高频打点的高性能与强隔离。|
+
+## 3. 深度评估与风险分析 (Evaluation & Risk Analysis)
+
+### 3.1 架构优势 (Strengths)
+
+- **解耦彻底**：模块之间仅通过 Event 结构体耦合，无直接指针引用。这极大降低了单元测试的难度（Mock EventBus 即可）和代码维护成本。
+- **观测性内建**：`TraceID` 的强制传递使得分布式追踪系统（如 Jaeger/Zipkin）的接入变得轻而易举，彻底解决了异步系统的调试难题。
+- **确定性保障**：通过“迟滞控制”和“2PC”，消除了控制面常见的震荡（Flapping）和脑裂（Split-brain）风险。
+
+### 3.2 实施难点与挑战 (Implementation Challenges)
+
+这是工程团队在落地时必须高度警惕的“深水区”：
+
+- **难点一：C++14 下的 RCU 正确性**
+    - **风险**：`std::atomic_store` 操作 `std::shared_ptr` 在 C++14 中是自由函数（Free Function），且非锁无关（Lock-free，通常底层有自旋锁）。
+    - **挑战**：必须小心处理旧配置对象的析构。如果旧配置析构耗时过长（例如释放大量内存），可能会阻塞写线程（ConfigManager）。
+- **难点二：异步异常边界**
+    - **风险**：异步任务（Lambda）在 `EventBus` 工作线程中执行。如果 Lambda 抛出未捕获异常，会导致 `EventBus` 线程退出，整个控制面瘫痪。
+    - **挑战**：必须在 `EventBus` 底层实现极其严密的 `try-catch` 兜底，并能够将异常上下文关联回原始的 `TraceID`。
+- **难点三：死锁陷阱**
+    - **风险**：同步通道 (`publishSync`) 是在调用者线程执行。如果模块 A 在回调中同步调用模块 B，而模块 B 又同步调用模块 A，将导致死锁。
+    - **对策**：代码审查时需严查 `publishSync` 的调用链，尽量限制其使用范围（仅限资源抢占等极少数场景）。
+
+## 4. 潜在升级点与演进路线 (Future Evolution)
+
+随着业务发展和硬件升级，2.3 节的设计有以下潜在升级空间：
+
+### 4.1 短期演进 (v3.x)
+
+- **结构化日志集成**：目前 TraceID 仅用于日志打印。未来可结合 `spdlog` 或 `fmt` 库，实现日志的二进制序列化，直接对接 ELK 或 ClickHouse。
+- **eBPF 探针埋点**：利用 Linux eBPF 技术，在不修改代码的情况下，从内核层观测 `EventBus` 的锁竞争情况和队列深度。
+
+### 4.2 长期演进 (v4.x - 分布式化)
+
+- **跨进程/跨节点总线**：
+    - **现状**：当前是进程内总线。
+    - **演进**：若系统扩展为多机分布式雷达（如阵列协同），需引入 **ZeroMQ**, **gRPC** 或 **DDS** 作为底层传输层。
+    - **设计预留**：当前的 `IEventBus` 接口设计已屏蔽了底层实现，未来只需新增一个 `NetworkEventBusAdapter` 即可平滑过渡。
+- **无锁队列升级**：
+    - **演进**：引入 **LMAX Disruptor** 模式的环形队列，替代当前的 `std::deque` 或 `ConcurrentQueue`，以达成微秒级的极低延迟抖动（针对超高频控制指令）。
+
+---
+
+### 结论
+
+2.3 节的设计已为雷达系统构建了一个**健壮的神经系统**。它不追求理论上的完美（如完全无锁），而是选择了最适合当前技术栈（C++14, Kylin V10）和业务场景（高可靠、实时性）的工程折中方案。
+
+下一阶段建议：
+
+随着控制面设计的完成，系统已经具备了“大脑”和“神经”。接下来，建议进入 2.4 外部目标数据分发协议，定义系统如何将计算成果（点迹/航迹）交付给外部世界（显控/指挥中心）。
diff --git a/系统基座文件/2.4 工程基线总结报告_外部目标数据分发协议.md b/系统基座文件/2.4 工程基线总结报告_外部目标数据分发协议.md
new file mode 100644
index 0000000..12c4603
--- /dev/null
+++ b/系统基座文件/2.4 工程基线总结报告_外部目标数据分发协议.md	
@@ -0,0 +1,75 @@
+---
+tags: []
+aliases:
+  - 2.4 外部目标数据分发协议 - 工程基线总结报告
+date created: 星期一, 十一月 24日 2025, 4:55:47 下午
+date modified: 星期一, 十一月 24日 2025, 11:04:03 晚上
+---
+
+# 2.4 外部目标数据分发协议 - 工程基线总结报告
+
+**适用范围**: 数据网关模块 (`DisplayController`) $\leftrightarrow$ 显控终端 (`ClientApp`)
+
+## 1. 核心架构基线 (Core Architecture Baselines)
+
+|**决策领域**|**核心基线 (Baseline Established)**|**关键技术与配置 (Key Specs)**|**设计意图/依据**|
+|---|---|---|---|
+|**2.4.1 传输拓扑**|**多源汇聚单播 (N-to-1 Unicast)**|**UDP** 直连。显控端绑定固定端口，通过 `StationID` 区分多路数据源。|摒弃组播（Multicast）的部署复杂性，适应分布式阵面组网需求。|
+|**2.4.1 IO 模型**|**全异步非阻塞 (Non-blocking)**|**Epoll Edge-Triggered (ET)** + **独立 IO 线程**。采用“写优先 (Write-First)”策略。|隔离网络抖动对计算核心的影响，最大化物理线速发送能力。|
+|**2.4.2 数据契约**|**原子批次 (Atomic Batch)**|**Protobuf v3**。一个数据包严格对应一个 CPI 处理周期。严禁微批次切分。|简化显控端逻辑，确保态势图更新的原子性与一致性。|
+|**2.4.3 时空基准**|**统一 UTC + WGS84**|时间戳：`timestamp_us` (总控授时 UTC)。坐标：经纬高或 ECEF。|解决分布式多站数据融合时的时空对齐难题。|
+|**2.4.4 热节流**|**混合降级 (Hybrid Degradation)**|**L1**: 内容剪裁 (Pruning)；**L2**: 频率抽稀 (Gap Insertion)。|在物理过载时主动卸载序列化与中断压力，优先保障核心航迹交付。|
+|**2.4.5 闭环遥测**|**带外 HTTP 上报**|客户端聚合 P99 延迟与丢包率，每 60s 通过 REST API 回传。|建立全链路性能监控闭环，量化“用户感知延迟”。|
+
+---
+
+## 2. 关键技术规范详解
+
+### 2.4.1 传输层实施规范
+
+- **Socket 配置**:
+    - **发送缓冲区 (`SO_SNDBUF`)**: 动态计算为 `Max_Burst * 4` (建议 **8MB+**)。作为最后的弹性气囊吸收脉冲式突发。
+    - **QoS 标记**: 设置 `IP_TOS` 为 **DSCP EF (0x2E)** 或 **CS6**，保障交换机转发优先级。
+    - **分片策略**: 开启 `IP_PMTUDISC_DO` 禁止 IP 分片，在应用层按 MTU (如 1472 字节) 进行切片。
+- **线程模型**: 采用 **SPSC 无锁队列** 连接业务线程（生产者）与 IO 线程（消费者），实现计算与传输的物理隔离。
+
+### 2.4.2 序列化与协议头规范
+
+- **Schema 定义**: 根对象 `TrackDataBatch` 必须包含：
+    - `station_id`: 站点标识 (uint32)。
+    - `batch_sequence_id`: 单调递增序列号 (uint64)，在**序列化时刻**生成。
+    - `timestamp_us`: 数据生成时的 UTC 时间 (uint64)。
+    - `throttle_level`: 当前节流等级反馈 (uint32)。
+    - `trace_id`: 全链路追踪 ID。
+- **完整性校验**: 采用 **CRC32c** 算法计算 Payload 校验和，填入协议头。
+
+### 2.4.3 接收端诊断规范
+
+- **丢包判决**: 基于 **滑动窗口统计**。仅当 `Current_Seq > Last_Seq + 1` 时判定丢包。乱序包 (`Current <= Last`) **立即丢弃**。
+- **断连判定**: 维护每个 Station 的心跳状态。超过 **2 秒** 无数据视为断连 (Disconnected)。
+- **延迟告警**: 实时计算 `Local_Time - Packet_Time`。若超过阈值 (如 200ms) 触发 "High Latency" 提示。
+
+### 2.4.4 流量整形策略 (Traffic Shaping)
+
+响应 `SetComputeThrottleEvent` 指令：
+
+- **Level 0 (全速)**: 发送 航迹 + 点迹 + 状态。
+- **Level 1 (轻微)**: **剪裁内容**。丢弃点迹 (Plots) 和调试信息，保留全量航迹。减少序列化 CPU 开销。
+- **Level 2 (严重)**: **频率抽稀**。每 2 帧丢弃 1 帧 (50% Rate)。减少网卡中断和总线功耗。
+    - _注意_：丢弃操作在序列号生成**之前**执行，确保发出的数据包序列号依然连续。
+
+### 2.4.5 遥测回传规范
+
+- **通道**: **HTTP POST** (非 UDP)。
+- **指标**: `station_id`, `latency_p99`, `packet_loss_rate`, `throughput_mbps`.
+- **行为**: 显控端后台线程每 60 秒聚合一次统计数据并上报，若上报失败 (超时/错误) 则丢弃本次报告，不重试。
+
+---
+
+## 3. 风险与应对 (Risk Mitigation)
+
+|**潜在风险**|**现象**|**应对/缓解措施**|
+|---|---|---|
+|**Bufferbloat**|无丢包但延迟持续升高 (>500ms)。|监控端到端延迟指标。若确认积压，需检查 2.4.4 节流阈值是否过高，或减小 `SO_SNDBUF` 迫使上游丢包（新鲜度优先）。|
+|**时钟漂移**|多站目标在显控端“跳变”。|依赖总控授时。显控端应显示“时间同步状态”图标，若检测到 `Timestamp > LocalTime` (未来时间) 则告警。|
+|**网络微突发**|偶发性成片丢包。|依赖 8MB+ Socket 缓冲区吸收。若仍丢包，需检查交换机端口缓存配置。|
diff --git a/系统基座文件/2.5 工程基线总结报告 - 数据结构定义与序列化规范.md b/系统基座文件/2.5 工程基线总结报告 - 数据结构定义与序列化规范.md
new file mode 100644
index 0000000..b06bbee
--- /dev/null
+++ b/系统基座文件/2.5 工程基线总结报告 - 数据结构定义与序列化规范.md	
@@ -0,0 +1,89 @@
+---
+tags: []
+aliases:
+  - 2.5 工程基线总结报告 - 数据结构定义与序列化规范
+  - 2.5 数据结构定义与序列化规范 - 工程基线总结报告
+date created: 星期一, 十一月 24日 2025, 11:32:07 晚上
+date modified: 星期一, 十一月 24日 2025, 11:32:24 晚上
+---
+
+# 2.5 工程基线总结报告 - 数据结构定义与序列化规范
+
+**适用范围**: 全系统（数据面 + 控制面）
+
+## 1. 核心架构基线 (Core Architecture Baselines)
+
+| 决策领域 | 核心基线 (Baseline Established) | 关键技术特征 (Key Specs) | 设计意图/依据 |
+| :--- | :--- | :--- | :--- |
+| **2.5.1 内部对象** | **高性能 POD (High-Perf POD)** | **Strict POD**, `alignas(32)`, **定长数组** (非 `std::vector`)。 | 适配 CPU 缓存行与 SIMD (AVX/NEON) 指令，最大化计算吞吐。 |
+| **2.5.2 内部事件** | **类型安全信令 (Type-Safe Signaling)** | 强制继承 `BaseEvent`，**强制携带 TraceID**，轻量级负载。 | 确保控制指令在进程内分发时的低延迟与全链路可追溯性。 |
+| **2.5.3 外部契约** | **Protobuf v3** | 语义化版本控制，**原子批次 (Atomic Batch)**，向后兼容设计。 | 提供跨语言/跨平台的稳定性，支持分布式多站标识 (`StationID`)。 |
+| **2.5.4 数据容器** | **仅移动语义 (Move-Only)** | `DataPacket<T>` 模板，`unique_ptr` 所有权管理，**禁止拷贝**。 | 利用 C++ 类型系统物理杜绝深拷贝，保障零拷贝架构的安全性。 |
+| **2.5.5 转换边界** | **显式映射 (Explicit Mapping)** | **静态转换器 (Converter)**，节流感知清洗，单向隔离。 | 隔离内部计算模型的变更对外部契约的影响，防止序列化开销污染计算核心。 |
+
+---
+
+## 2. 关键技术规范详解
+
+### 2.5.1 内部高性能业务对象 (Internal DTOs)
+
+- **点迹 (`DetectionResult`)**:
+    - **对齐**: `alignas(16)` (适配 128-bit 寄存器)。
+    - **布局**: AoS (Array of Structures)，显式 Padding 填充至 48 字节。
+- **航迹 (`TrackData`)**:
+    - **对齐**: `alignas(32)` (适配 256-bit 寄存器)。
+    - **容器**: 使用 **定长数组 (`float state[8]`)** 替代 `std::vector`，消除指针跳转与缓存未命中。
+- **集合**: 使用带对齐分配器的 `AlignedVector<T>`。
+
+### 2.5.2 内部控制事件 (Internal Events)
+
+- **根契约**: `BaseEvent` 包含 `uint64_t trace_id` 和 `uint64_t timestamp_us`。
+- **分类规范**:
+    - **生命周期类**: 携带 `ErrorCode` 和 `Snapshot` (用于故障现场还原)。
+    - **资源类**: 携带 `ThrottleLevel` (用于热保护)。
+    - **配置类**: 使用 `std::shared_ptr<ConfigPatch>` (用于 RCU 无锁更新)。
+    - **遥测类**: 使用 `FlatMap` 或预分配容器 (用于高频无锁上报)。
+
+### 2.5.3 外部数据交换契约 (External Contract)
+
+- **Schema 定义**:
+    - **根对象**: `TrackDataBatch` (对应一个 CPI)。
+    - **分布式支持**: 必须包含 `station_id` 和 `timestamp_us` (UTC)。
+- **演进法则**:
+    - **严禁修改 Tag**。
+    - 废弃字段必须使用 `reserved` 锁定。
+    - 接收端必须处理字段缺失（默认值）情况。
+
+### 2.5.4 零拷贝数据容器 (Data Container)
+
+- **结构**: `DataPacket<PayloadType>`。
+    - **Header**: 包含 `TraceID`, `SequenceID`, `SourceModule`。
+    - **Payload**:
+        - **Raw Data**: `unique_ptr` + `MemoryPoolDeleter` (自动归还页锁定内存)。
+        - **Struct Data**: `std::vector` (移动语义传递)。
+- **安全**: 拷贝构造函数 `= delete`，强制使用 `std::move`。
+
+### 2.5.5 序列化边界与映射 (Boundary & Mapping)
+
+- **合法边界**:
+    - **数据面**: `DisplayController` (C++ -> Protobuf)。
+    - **控制面**: `ApiCommandService` (Internal State -> JSON/Proto)。
+- **转换逻辑**:
+    - **单位统一**: 内部 SI 单位 (米/秒) -> 外部 SI 单位。
+    - **节流清洗**: 根据 `throttle_level` 动态丢弃低优先级字段（如点迹、协方差矩阵）。
+    - **脱敏**: 剔除内部使用的指针地址 (`void*`) 和临时 ID。
+
+---
+
+## 3. 风险与应对 (Risk Mitigation)
+
+| 潜在风险 | 现象 | 应对/缓解措施 |
+| :--- | :--- | :--- |
+| **ABI 兼容性** | 内部结构体变更导致内存错乱。 | 内部对象严禁跨进程传输。仅通过重新编译解决内部依赖，外部依赖完全隔离于 Protobuf 边界。 |
+| **缓存行伪共享** | 多线程写入 `DataPacket` Header 导致性能下降。 | Header 设计紧凑（<64B），且数据包在流转时通常由单线程独占访问（所有权转移），天然避免竞争。 |
+| **序列化开销** | Protobuf 编码占用过多 CPU。 | 在 `DisplayController` 独立 IO 线程中执行；利用 L2 级热节流主动减少编码对象数量。 |
+
+---
+
+**结论**：
+至此，**第二章：数据接口与通信协议** 的所有子章节（2.1 - 2.5）均已完成深度设计与基线确立。我们构建了一套从物理层到应用层、从内部内存到外部网络的完整数据治理体系。
diff --git a/系统基座文件/2.6 工程基线总结报告 - 时序同步与数据一致性.md b/系统基座文件/2.6 工程基线总结报告 - 时序同步与数据一致性.md
new file mode 100644
index 0000000..e4082fe
--- /dev/null
+++ b/系统基座文件/2.6 工程基线总结报告 - 时序同步与数据一致性.md	
@@ -0,0 +1,72 @@
+---
+tags: []
+date created: 星期三, 十一月 26日 2025, 11:02:01 晚上
+date modified: 星期三, 十一月 26日 2025, 11:03:40 晚上
+---
+
+# 2.6 工程基线总结报告 - 时序同步与数据一致性
+
+**适用范围**: 全系统（时钟源管理 + 数据流打点 + 算法时空对齐 + 延迟监控）
+
+## 1. 核心架构基线 (Core Architecture Baselines)
+
+本章节构建了一套从物理层到应用层、从硬件时钟到算法逻辑的严密时空治理体系。核心目标是确保分布式相控阵雷达在微秒级精度下的**时空一致性 (Spatiotemporal Coherence)**。
+
+| 决策领域 | 核心基线 (Baseline Established) | 关键技术特征 (Key Specs) | 设计意图/依据 |
+| :--- | :--- | :--- | :--- |
+| **2.6.1 时钟源** | **HW PTP + TSC 软时钟** | IEEE 1588v2 (真值) + CPU TSC (极速读取) + 动态校准回路。 | 解决“高精度”与“低开销”的矛盾，提供纳秒级读取速度与亚微秒级同步精度。 |
+| **2.6.2 打点策略** | **入站即决 (Ingress Timestamping)** | 优先硬件 TSU，兜底内核 `SO_TIMESTAMPNS`。**不可变出生时间戳**。 | 消除 OS 调度与应用层排队带来的不确定性抖动，确立全链路时间基准 (T0)。 |
+| **2.6.3 对齐机制** | **原地乱序重组 (In-Place Scatter)** | `Addr = Base + PulseIdx * Pitch`。双触发提交 (满额/超时)。 | 在 1GbE 受限网络环境下，以 O(1) 复杂度处理乱序与抖动，保障 FFT 相干性。 |
+| **2.6.4 融合策略** | **异步外推 (Extrapolate to Meas)** | $\Delta t = t_{meas} - t_{track}$。**丢弃乱序 (Drop OOSM)**。 | 尊重数据的物理生成时间，消除处理延迟对状态估计的污染，适配相控阵异步体制。 |
+| **2.6.5 延迟审计** | **逐级埋点 (Granular Checkpointing)** | 5 个关键检查点。**P99 & Jitter** 监控。触发热节流。 | 建立系统性能的“心电图”，实现从“定性感觉”到“定量观测”的转变。 |
+
+---
+
+## 2. 关键技术规范详解
+
+### 2.6.1 高精度统一时钟源 (Unified Clock)
+
+- **物理层**: 依赖 `linuxptp` (`ptp4l` + `phc2sys`) 将网卡 PHC 同步至 GPS/北斗主时钟。
+- **应用层**: 封装 `HighPrecisionClock` 类。
+    - **读取**: 使用 `rdtsc` 指令 (开销 < 20ns)。
+    - **校准**: 后台线程每秒运行，计算线性映射 $T = T_{base} + \alpha \cdot (TSC - TSC_{base})$，并执行**平滑 (Slewing)** 以保证单调性。
+
+### 2.6.2 多级打点策略 (Timestamping)
+
+- **生成**: 在 `DataReceiver` I/O 线程通过 `recvmmsg` 的辅助数据 (`CMSG`) 提取内核/硬件时间戳。
+- **流转**: 该时间戳写入 `RawDataPacket.header.timestamp_us`，在后续的信号处理、点迹提取、航迹关联中**全程透传**，严禁被“当前系统时间”覆盖。
+
+### 2.6.3 CPI 对齐机制 (Alignment)
+
+- **容器**: 预分配页锁定内存池 (`MemoryPool`)。
+- **写入**: 基于 UDP 包头的 `PulseIndex` 直接计算内存偏移量，**零拷贝**写入。
+- **容错**:
+    - **抖动窗**: 允许首包到达后 10% CPI 时长的等待。
+    - **丢包**: 丢包率 < 5% 时执行**零填充 (Zero Padding)** 并标记降级；> 5% 时整块丢弃。
+
+### 2.6.4 航迹关联与更新 (Association)
+
+- **核心算子**: `KalmanFilter::predict(dt)`。
+- **逻辑**: 始终将航迹状态（老）外推到量测时间（新）。
+- **防护**:
+    - **乱序保护**: 若 $t_{meas} < t_{track}$，直接丢弃量测，不执行回溯滤波。
+    - **跳变保护**: 若 $\Delta t > 10s$，触发时钟故障告警，执行强制重置。
+
+### 2.6.5 全链路审计 (Auditing)
+
+- **指标**:
+    - **Rx Latency**: $T_{Dispatch} - T_{Ingress}$ (组包耗时)
+    - **Queue Latency**: $T_{AlgoStart} - T_{Dispatch}$ (排队耗时 -> 核心拥塞指标)
+    - **Compute Latency**: $T_{AlgoEnd} - T_{AlgoStart}$ (算力耗时)
+    - **Total Residence**: $T_{Egress} - T_{Ingress}$ (全系统驻留时间)
+- **闭环**: `Queue Latency` P99 > 阈值 $\rightarrow$ 触发 `SystemOverloadEvent` $\rightarrow$ 启动流量整形。
+
+---
+
+## 3. 风险与应对 (Risk Mitigation)
+
+| 潜在风险 | 现象 | 应对/缓解措施 |
+| :--- | :--- | :--- |
+| **PTP 失锁** | `timestamp_us` 精度退化至毫秒级。 | 监控 `ptp4l` 的 RMS 误差。若失锁，数据包标记 `TIME_LOW_PRECISION`，显控端降级显示或告警。 |
+| **TSC 漂移** | 不同 CPU 核之间时间微弱不同步。 | 确认 CPU 支持 `constant_tsc` 和 `nonstop_tsc` 特性。在校准算法中引入异常值剔除。 |
+| **严重乱序** | 网络拥塞导致大量 OOSM 丢弃。 | 增大 2.6.3 的抖动等待窗口（牺牲延迟换取完整性）；检查交换机 QoS 配置。 |
diff --git a/系统基座文件/2.7 工程基线总结报告 - 链路鲁棒性与错误校检.md b/系统基座文件/2.7 工程基线总结报告 - 链路鲁棒性与错误校检.md
new file mode 100644
index 0000000..149c355
--- /dev/null
+++ b/系统基座文件/2.7 工程基线总结报告 - 链路鲁棒性与错误校检.md	
@@ -0,0 +1,75 @@
+---
+tags: []
+date created: 星期三, 十一月 26日 2025, 11:23:15 晚上
+date modified: 星期三, 十一月 26日 2025, 11:23:51 晚上
+---
+
+# 2.7 工程基线总结报告 - 链路鲁棒性与错误校检
+
+**适用范围**: 外部网络链路 (UDP) + 内部 IPC 通道 (EventBus/Queue)
+
+## 1\. 核心架构基线 (Core Architecture Baselines)
+
+本章节作为通信协议的“安全气囊”，确立了系统在面对物理链路劣化、网络拥塞及数据损坏时的防御机制。设计遵循 **“快速失败 (Fail Fast)”** 与 **“分级恢复 (Graded Recovery)”** 原则。
+
+| 决策领域 | 核心基线 (Baseline Established) | 关键技术特征 (Key Specs) | 设计意图/依据 |
+| :--- | :--- | :--- | :--- |
+| **2.7.1 完整性校验** | **应用层 CRC32c** | 算法：**CRC32c (Castagnoli)**<br>策略：**零容忍丢弃 (Zero Tolerance)** | 弥补 UDP 16-bit 校验和在高吞吐下的碰撞风险，利用 CPU 指令集加速，杜绝脏数据污染滤波状态。 |
+| **2.7.2 链路保活** | **双向高频心跳** | 频率：**10Hz** (空闲时)<br>超时：**2000ms** (静默判定断连) | 维持中间网络设备 NAT 映射，实现亚秒级的物理断连感知与告警。 |
+| **2.7.3 丢包恢复** | **业务感知差异化策略** | 数据流：**即时丢弃 (Fire-and-Forget)**<br>控制流：**ARQ 重传 (Stop-and-Wait)** | 在“实时性”与“可靠性”之间按需切换，防止雷达数据因重传导致队头阻塞 (HOL Blocking)。 |
+| **2.7.4 拥塞控制** | **背压与尾部丢弃** | 机制：**高水位线 (High Watermark)**<br>动作：**Tail Drop / Gap Insertion** | 防止内部无锁队列溢出导致 OOM，优先牺牲非关键数据以保全系统稳定性。 |
+
+-----
+
+## 2\. 关键技术规范详解
+
+### 2.7.1 应用层数据完整性校验 (Integrity Verification)
+
+  - **算法选型**：强制使用 **CRC32c (Castagnoli 多项式)**。
+      - *理由*：相比标准 IEEE 802.3 CRC32，CRC32c 在 iSCSI 等存储网络中被验证具有更强的检错能力，且现代 CPU (ARMv8/x86) 均提供硬件指令加速 (`crc32` / `_mm_crc32_u32`)，开销可忽略不计。
+  - **实施位置**：
+      - **生成端**：`DisplayController` 在序列化 `TrackDataBatch` 后计算，写入协议头。
+      - **校验端**：显控终端在解析 Payload 前校验。
+  - **处置策略**：校验失败的数据包视为**物理损坏**，执行**静默丢弃**并增加 `checksum_error_count` 计数，严禁尝试修复。
+
+### 2.7.2 链路健康监测 (Link Health)
+
+  - **心跳注入**：
+      - `DisplayController` 维护一个 `LastSendTime`。若当前时间距离上次发送超过 **100ms**，强制插入一个空的 `HeartbeatPacket`。
+  - **状态机流转**：
+      - **Connected**: `LastRecvTime < 2000ms`。
+      - **Disconnected**: `LastRecvTime >= 2000ms`。触发 `LinkDownEvent`，清空态势图，重置接收缓冲区。
+
+### 2.7.3 差异化丢包恢复 (Differentiated Recovery)
+
+  - **数据面 (Data Plane)**：雷达点迹/航迹。
+      - **策略**：**不重传**。
+      - *逻辑*：雷达数据具有强时效性，$T_k$ 时刻丢失的数据在 $T_{k+1}$ 时刻已失去价值。重传只会挤占 $T_{k+1}$ 的带宽。
+  - **控制面 (Control Plane)**：配置下发、启停指令。
+      - **策略**：**应用层 ARQ**。
+      - *逻辑*：发送端发出指令后启动定时器，等待接收端回传 `AckPacket`。若超时 (如 200ms) 未收到 ACK，则触发指数退避重传，直至成功或达到最大重试次数 (Max=3)。
+
+### 2.7.4 内部 IPC 背压机制 (Backpressure)
+
+  - **监控对象**：进程内 `SPSC` 队列（如 `DataReceiver` -\> `SignalProcessor`）。
+  - **水位控制**：
+      - **High Watermark (80%)**: 队列占用率超过 80% 时，消费者向生产者发送 `BackpressureSignal`。
+      - **Low Watermark (50%)**: 降至 50% 以下时，解除背压。
+  - **响应动作**：
+      - 生产者收到背压信号后，启动 **L1 级流量整形**（参见 2.4.4），主动丢弃低优先级数据（如原始回波切片），仅保留核心元数据入队，防止内存爆炸。
+
+-----
+
+## 3\. 风险与应对 (Risk Mitigation)
+
+| 潜在风险 | 现象 | 应对/缓解措施 |
+| :--- | :--- | :--- |
+| **背压死锁** | 生产者被阻塞等待队列空间，导致无法处理新的控制指令（如停止指令）。 | **队列分离**。数据流使用有界队列，控制流使用无界（或大容量）高优队列，确保控制指令永远能插队。 |
+| **CRC 碰撞** | 极小概率下脏数据通过校验。 | 在协议头增加 `Magic Number` 和 `Payload Length` 双重检查，进一步降低碰撞概率。 |
+| **心跳风暴** | 网络恢复瞬间大量心跳包涌入。 | 接收端实施**速率限制 (Rate Limiting)**，每秒最多处理 N 个心跳包，多余丢弃。 |
+
+-----
+
+**结论**：
+至此，**第二章：数据接口与通信协议** (2.1 - 2.7) 已全部完成。
+我们构建了一条从物理层 (1GbE/PCIe) 到应用层 (Protobuf)，从内部内存 (SHM) 到外部网络 (UDP)，兼顾**高性能** (Zero-Copy/JUMBO) 与**高可靠** (CRC32/Backpressure) 的数据高速公路。
diff --git a/系统基座文件/2/2.1/2.1.1 物理链路层与传输媒介 (Physical Link Layer & Transport Medium).md b/系统基座文件/2/2.1/2.1.1 物理链路层与传输媒介 (Physical Link Layer & Transport Medium).md
new file mode 100644
index 0000000..c19bb81
--- /dev/null
+++ b/系统基座文件/2/2.1/2.1.1 物理链路层与传输媒介 (Physical Link Layer & Transport Medium).md	
@@ -0,0 +1,35 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 9:34:40 晚上
+date modified: 星期三, 十一月 19日 2025, 9:35:26 晚上
+---
+
+# 2.1.1 物理链路层与传输媒介 (Physical Link Layer & Transport Medium)
+
+**审计综述**：
+系统在数据采集链路上存在**物理硬件阻断（P0 级）**。用于雷达数据采集的 NIC 接口 (`ens4f*`) 仅为 **1GbE 级别**，而非高吞吐雷达系统所需的 10GbE。此外，核心 GPU 的 PCIe 链路也存在降级。
+
+**1. 核心数据通路 (Host-to-Device/PCIe)**
+
+- **关键性**：**P0 (性能)**
+- **信息解析**：
+    - **GPU Link Status**：核心 GPU 链路能力为 PCIe 4.0 x16 (16GT/s Width x16)。
+    - **Negotiated Status**：实际运行状态为 x8 (Width x8 (downgraded))。
+    - **结论**：GPU 链路存在降级，物理带宽被限制在理论容量的 50%。这影响 Host-Device 内存传输（如 DMA 数据传输），但其降级后的带宽（x8）仍远高于网络采集链路。
+
+**2. 网络数据采集链路 (Data Acquisition Link)**
+
+- **关键性**：**P0 (功能阻断)**
+- **信息解析**：
+    - **网卡型号**：Beijing Wangxun Technology Co., Ltd. WX1860AL4 Gigabit Ethernet Controller。
+    - **物理极限**：网卡仅支持 **1000baseT/Full** (1Gb/s)。这**无法**满足高帧率、高分辨率雷达系统对 10GbE/40GbE 的带宽要求。
+    - **链路状态**：目前 `ens4f1` 接口处于连接中断状态 (`Link detected: no`)，且之前工作在 **100 Mb/s** 的极低速度。
+    - **辅助接口**：`ens2f7u1u2` 为 USB 2.0 接口，其最大理论吞吐低于 1Gb/s，不可用于数据采集。
+- **风险总结**：
+    - **硬件阻断**：系统当前无 10GbE 接口。
+    - **运维风险**：当前可用的 1GbE 链路仍存在不稳定的 100Mb/s 降级风险。
+
+**3. 结论与下一步**
+
+- **最终判定**：**系统硬件不满足雷达数据采集的最低带宽要求。**
+- **下一步行动**：在等待硬件升级（安装 10GbE 网卡）期间，我们将继续审计软件层面，重点检查如何在当前 1GbE 的极限下，通过配置 **JUMBO Frame** 等方式，将带宽压榨至最高。
diff --git a/系统基座文件/2/2.1/2.1.2 数据链路层协议与封装 (Data Link Layer Protocol & Encapsulation).md b/系统基座文件/2/2.1/2.1.2 数据链路层协议与封装 (Data Link Layer Protocol & Encapsulation).md
new file mode 100644
index 0000000..419eb88
--- /dev/null
+++ b/系统基座文件/2/2.1/2.1.2 数据链路层协议与封装 (Data Link Layer Protocol & Encapsulation).md	
@@ -0,0 +1,44 @@
+---
+tags: []
+date created: 星期三, 十一月 19日 2025, 10:14:33 晚上
+date modified: 星期三, 十一月 19日 2025, 10:14:46 晚上
+---
+
+### 2.1.2 数据链路层协议与封装 (Data Link Layer Protocol & Encapsulation)
+
+- **概要**: 本节旨在确立雷达数据采集链路的 L2/L3 层协议与最大传输单元 (MTU) 规格。鉴于系统存在 **P0 级 1GbE 硬件带宽瓶颈**，为最大化有效数据吞吐并保障实时性，协议基线选择标准 **UDP/IP**，并强制采用 **JUMBO Frame (MTU 9000)** 技术，以实现对网络性能的 P1 级优化。
+
+---
+
+#### 1. 协议基线与 MTU 确立
+
+| 基线元素 | 确立值 | 论证 |
+| :--- | :--- | :--- |
+| **传输协议** | UDP/IPv4 | 采用标准 UDP 协议，以满足雷达数据流对**无连接、低延迟**的传输特性要求，牺牲可靠性（由应用层序列号校验弥补）。 |
+| **MTU** | **9000 字节** (JUMBO Frame) | 旨在将**网络开销最小化**，并将 **CPU 中断频率降低 6 倍**，是当前 1GbE 链路下达成高吞吐 KPI 的关键优化手段。 |
+| **数据封装** | 定制雷达数据包头部 | 必须在 9000 字节 MTU 限制内，封装 **TraceID**、**序列号**和 **校验和** 字段。 |
+
+#### 2. 技术论证：JUMBO Frame 的核心价值
+
+MTU 9000 的选择并非只是带宽的简单放大，它在当前 **Kylin/Feiteng** 实时处理平台上提供了两大核心工程优势：
+
+##### 2.1. 实时性保障：消除 CPU 中断风暴
+
+- **问题描述**: 在 1GbE 链路满载且使用标准 MTU 1500 字节时，CPU 内核每秒需处理约 **81,000 个**数据包中断（不考虑中断聚合）。这种高频的中断会导致 CPU 资源大量消耗在**上下文切换**和**中断服务**上，严重破坏实时性。
+- **解决方案**: 将 MTU 提升至 9000 字节后，传输相同的数据量所需的中断次数降为原来的 **约 1/6**。这极大地减轻了内核压力，将 CPU 资源释放回用户态，有助于满足 **CPU 资源占用率 \< 5% (单核)** 的 KPI。
+
+##### 2.2. 吞吐效率：最小化协议开销
+
+- **问题描述**: 在 MTU 1500 下，每个数据包的协议头（约 42 字节）占据了约 3% 的有效带宽。
+- **解决方案**: JUMBO Frame 将协议头开销稀释至 **0.5% 以下**。这在 1GbE 这种物理瓶颈链路 上至关重要，它确保了链路能最大限度地传输**雷达净载荷**，为达到 **数据吞吐量 KPI** 提供软件保障。
+
+#### 3. 实施规范与系统依赖
+
+JUMBO Frame 的实现是一个**端到端**的配置基线，需要严格遵循以下规范：
+
+| 实施环节 | 规范操作 | 状态 |
+| :--- | :--- | :--- |
+| **Host NIC 配置** | 必须通过 `ethtool` 或 `ip link` 命令，将采集接口的 MTU 强制设定为 9000 字节。 | 已确认 |
+| **雷达前端配置** | 雷达阵面 DPU/ADC 的发送端 MTU 必须精确匹配 9000 字节。 | 外部依赖 |
+| **内核缓冲区** | 必须修正内核参数 `net.core.rmem_max`，使其容量足以承载 **8192** 个 MTU 9000 的数据包。当前需将 `rmem_max` 提升至至少 **64MB** 以消除丢包风险 [sysctl output]。 | P1 级修正 |
+| **NIC 环形缓冲区** | RX 队列深度必须配置为硬件最大值 **8192** [ethtool output]，以提供最长的瞬态延迟容忍度。 | P1 级配置 |
diff --git a/系统基座文件/2/2.2/2.2.1 锁页内存管理与分配策略 (Page-Locked&Pinned Memory Management).md b/系统基座文件/2/2.2/2.2.1 锁页内存管理与分配策略 (Page-Locked&Pinned Memory Management).md
new file mode 100644
index 0000000..ee76e2b
--- /dev/null
+++ b/系统基座文件/2/2.2/2.2.1 锁页内存管理与分配策略 (Page-Locked&Pinned Memory Management).md	
@@ -0,0 +1,90 @@
+---
+tags: []
+date created: 星期四, 十一月 20日 2025, 8:40:05 晚上
+date modified: 星期四, 十一月 20日 2025, 8:48:20 晚上
+---
+
+# 2.2.1 锁页内存管理与分配策略 (Page-Locked&Pinned Memory Management)
+
+### 一、 约束输入与对齐 (Constraints & Alignment)
+
+根据前序审计与设计文档，我们面临以下**硬性约束**：
+
+1. **OS 内存机制**: Kylin V10 (Linux) 使用虚拟内存分页。普通的 `malloc/new` 分配的是**可分页内存 (Pageable Memory)**。
+2. **DMA 物理限制**: GPU 的 DMA 引擎（Copy Engine）需要访问**物理地址**。如果使用可分页内存，驱动必须先隐式锁定页面（CPU 开销），再分块传输，导致带宽严重下降。
+3. **吞吐量目标**: 雷达接收模块要求 **\> 10,000 packets/sec**。频繁的系统调用（`malloc` / `free` / `cudaMallocHost`）是不可接受的。
+4. **硬件平台**: 智铠 MR-V100 的 SDK (CoreX) 兼容 CUDA 10.2 API。
+
+-----
+
+### 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+#### 议题 1：锁页内存申请 API (Allocation API)
+
+| 选项 | A. `cudaMallocHost` (推荐) | B. `malloc` + `cudaHostRegister` |
+| :--- | :--- | :--- |
+| **机制** | 直接由 GPU 驱动在内核态分配**物理连续**（尽可能）且**已锁定**的内存。 | 用户先申请普通内存，再通知驱动去锁定这些页面。 |
+| **DMA 性能** | **最高**。驱动对物理地址布局有完全控制权，TLB 命中率高。 | **中等/高**。取决于 OS 分配的物理页碎片化程度。 |
+| **UVA 适配性** | **完美**。配合 `cudaHostAllocMapped` 标志，可直接映射到 GPU 地址空间（为 2.2.4 铺路）。 | **较差**。虽然也支持 Mapped，但对齐要求严格，容易出错。 |
+| **CPU 开销** | 分配时开销极大（重系统调用），必须配合**内存池**使用。 | 注册/注销开销大，同样需要配合内存池。 |
+
+#### 议题 2：内存池架构 (Pool Architecture)
+
+| 选项 | A. 预分配固定块池 (Fixed-Block Pool) (推荐) | B. 动态堆内存池 (Dynamic Heap) |
+| :--- | :--- | :--- |
+| **机制** | 启动时申请一大块内存（如 512MB），切分为 N 个固定大小（如 64KB）的块。 | 像 OS 堆一样支持任意大小的 `alloc/free`。 |
+| **适配场景** | **雷达原始数据**。脉冲/包大小通常是固定的或有明确上限。 | 通用计算，大小不一的对象。 |
+| **性能** | **O(1) 极速分配**。无内存碎片。 | O(log n) 分配。存在外部碎片风险。 |
+| **设计一致性** | 符合 `01_数据接收模块设计.md` 中定义的 `packet_block_size_kb`。 | 增加不必要的复杂度。 |
+
+-----
+
+### 三、 基线确立与论证
+
+基于上述分析，针对 **2.2.1 锁页内存管理与分配策略**，确立以下工程基线：
+
+#### 1\. 分配 API 基线：`cudaMallocHost` + `cudaHostAllocMapped`
+
+  - **决策**：摒弃标准的 `new/malloc`，**强制**使用 GPU 运行时 API `cudaMallocHost` (在 CoreX SDK 中对应同名 API) 分配所有用于 H2D 传输的缓冲区。
+  - **标志位 (Critical)**：必须使用 **`cudaHostAllocMapped`** 标志。
+      - *论证*：这不仅锁定了页面，还将其映射到了 GPU 的统一地址空间（UVA）。这是实现后续 **2.2.4 零拷贝技术** 的先决条件。如果没有此标志，GPU 无法通过 PCIe 直接访问这块 CPU 内存。
+  - **对齐约束**：`cudaMallocHost` 自动保证了页面对齐（通常 4KB 或 64KB），满足 DMA 要求。
+
+#### 2\. 内存池策略：静态预分配 + 固定块管理
+
+  - **决策**：在系统初始化阶段（`initialize()`）一次性分配所有所需的锁页内存，**严禁**在 `start()` 后的运行时路径中调用 `cudaMallocHost`。
+  - **实现细节**：
+      - **池大小**：依据设计文档，预分配 **256MB**。
+      - **块大小**：**64KB**。这足以容纳 9000 字节的 JUMBO Frame，且对齐友好。
+      - **管理结构**：使用简单的 `std::stack<void*>` 或无锁队列 `SPSC` 管理空闲块指针，实现 O(1) 复杂度的获取与归还。
+
+#### 3\. 伪代码规范 (C++14 Standard)
+
+```cpp
+// 基线实现范式
+void* d_ptr; // Device pointer (mapped)
+void* h_ptr; // Host pointer
+
+// 1. 必须使用 Mapped 标志以启用 UVA (为 2.2.4 准备)
+// 2. 必须使用 Portable 标志以支持多 GPU 上下文 (尽管目前是单卡，但在异构设计中是好习惯)
+unsigned int flags = cudaHostAllocMapped | cudaHostAllocPortable;
+
+// 3. 分配 - 仅在初始化阶段执行
+cudaError_t err = cudaHostAlloc(&h_ptr, POOL_SIZE_BYTES, flags);
+if (err != cudaSuccess) {
+    // 触发 Fatal Error 事件
+}
+
+// 4. 获取对应的 Device 指针 (用于后续 2.2.4 Zero-Copy)
+cudaHostGetDevicePointer(&d_ptr, h_ptr, 0);
+
+// … 将 h_ptr 切分为 64KB 的块放入 free_list …
+```
+
+-----
+
+**下一步行动**：
+
+我们已确立了**如何分配**这块特殊的“高速内存”。接下来，我们需要讨论**如何调度**这块内存的传输，即 **2.2.2 异步流水线与计算通信重叠**，这将决定 GPU 的 Copy Engine 是否能被充分利用，从而掩盖 PCIe 带宽瓶颈。
+
+**提问**：您是否同意使用带有 `Mapped` 标志的 `cudaMallocHost` 作为分配基线？确认后我们将进入 2.2.2 讨论三级流水线设计。
diff --git a/系统基座文件/2/2.2/2.2.2 异步流水线与计算通信重叠 (Asynchronous Pipelining & Compute-Copy Overlap).md b/系统基座文件/2/2.2/2.2.2 异步流水线与计算通信重叠 (Asynchronous Pipelining & Compute-Copy Overlap).md
new file mode 100644
index 0000000..e89a2cc
--- /dev/null
+++ b/系统基座文件/2/2.2/2.2.2 异步流水线与计算通信重叠 (Asynchronous Pipelining & Compute-Copy Overlap).md	
@@ -0,0 +1,123 @@
+---
+tags: 
+date created: 星期四, 十一月 20日 2025, 9:50:03 晚上
+date modified: 星期四, 十一月 20日 2025, 9:50:24 晚上
+---
+
+# 2.2.2 异步流水线与计算通信重叠 (Asynchronous Pipelining & Compute-Copy Overlap)
+
+**覆盖范围**：定义如何利用智铠 GPU 的独立 Copy Engine (DMA 引擎) 与 Compute Engine (计算引擎) 的并行能力，通过 **CUDA Streams** 实现“传输 - 计算 - 传输”的三级流水线并行，从而掩盖 PCIe 总线的物理延迟。
+
+#### 一、 约束输入与对齐
+
+1. **硬件能力**：Iluvatar MR-V100 通常具备独立的 Copy Engine（用于 H2D/D2H）和 Compute Engine。这意味着 **数据拷贝** 和 **Kernel 执行** 在硬件上是物理隔离的，可以同时进行。
+2. **API 约束**：必须使用 **Async** 系列 API (如 `cudaMemcpyAsync`) 配合 **Non-Default Stream** 才能触发重叠。
+3. **业务逻辑**：雷达信号处理通常是流式的：`接收(H2D) -> 处理(Kernel) -> 输出(D2H)`。
+
+#### 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+我们主要在**流的设计模式**上进行权衡：
+
+| 选项 | A. 单流串行 (Serial Stream) | B. 多流乒乓/多缓冲 (Multi-Stream Ping-Pong) **(推荐)** | C. 细粒度多流 (Hyper-Q) |
+| :--- | :--- | :--- | :--- |
+| **机制** | 1 个流。H2D -\> Kernel -\> D2H 顺序执行。 | 2-3 个流。Stream A 做计算时，Stream B 做 H2D 拷贝。 | N 个流（N \>\> 3）。将任务切分为极小片。 |
+| **PCIe 利用率** | **低**。总线在 Kernel 计算期间闲置。 | **高**。总线和计算单元始终处于忙碌状态。 | **极高**，但调度开销大。 |
+| **延迟掩盖** | 无掩盖。总耗时 = T(copy) + T(compute)。 | **完全掩盖**。理想情况下总耗时 = max(T(copy), T(compute))。 | 同上，但可能引入调度抖动。 |
+| **实现复杂度** | 低。 | 中。需要管理多个 Buffer 的状态 (Ping-Pong)。 | 高。 |
+| **适用性** | 调试模式。 | **雷达实时处理标准范式。** | 超大规模并发任务。 |
+
+#### 三、 基线确立与实施规范
+
+为了最大化吞吐量，我们确立 **B. 多流乒乓 (Multi-Stream Ping-Pong)** 为设计基线。
+
+##### 1\. 流水线架构基线：三级流水线 + 双流 (Double Buffering)
+
+  - **核心逻辑**：创建 **2 个 CUDA Stream** (Stream 0, Stream 1) 和 **2 组页锁定内存 Buffer** (Buffer A, Buffer B)。
+  - **调度策略**：
+      - **时刻 T0**：Stream 0 开始传输 Buffer A (H2D)。
+      - **时刻 T1**：
+          - Stream 0 开始处理 Buffer A (Kernel)。
+          - **同时**，Stream 1 开始传输 Buffer B (H2D) —— **此处发生了 Copy 与 Compute 的重叠**。
+      - **时刻 T2**：
+          - Stream 0 开始回传 Buffer A 结果 (D2H)。
+          - Stream 1 开始处理 Buffer B (Kernel)。
+
+##### 2\. 关键 API 实施规范
+
+  - **流创建**：
+
+    ```cpp
+    cudaStream_t streams[2];
+    for(int i=0; i<2; i++) cudaStreamCreateWithFlags(&streams[i], cudaStreamNonBlocking);
+    ```
+
+      - *注意*：必须使用 `cudaStreamNonBlocking`，防止与默认流（Default Stream）发生隐式同步，导致流水线断流。
+  - **异步传输**：
+
+    ```cpp
+    // 必须使用 Async 版本，且指定 stream
+    cudaMemcpyAsync(d_ptr, h_ptr, size, cudaMemcpyHostToDevice, streams[i]);
+    ```
+
+  - **同步策略**：
+      - **严禁**使用 `cudaDeviceSynchronize()`（全卡同步）。
+      - **推荐**使用 `cudaStreamSynchronize(streams[i])` 或 `cudaEventRecord/Synchronize` 来精细控制单个 Buffer 的生命周期，确保 Host 端在复用 Buffer 前，GPU 已经操作完毕。
+
+##### 3\. 缓冲区管理状态机
+
+为了配合 `01_数据接收模块` 的 `MemoryPool`，我们需要一个简单的状态机来管理 Buffer 在 Host 和 Device 之间的流转：
+
+  - `HOST_OWNED` (I/O 线程填充数据)
+  - `DEVICE_OWNED_H2D` (正在上传)
+  - `DEVICE_OWNED_COMPUTE` (正在计算)
+  - `DEVICE_OWNED_D2H` (正在回传)
+  - `RELEASED` (回传完毕，归还 Pool)
+
+```mermaid
+stateDiagram-v2
+    %% 状态定义
+    state "HOST_OWNED<br/>(主机所有)" as HOST
+    state "DEVICE_OWNED_H2D<br/>(传输中: H->D)" as H2D
+    state "DEVICE_OWNED_COMPUTE<br/>(计算中: Kernel)" as COMPUTE
+    state "DEVICE_OWNED_D2H<br/>(传输中: D->H)" as D2H
+    state "RELEASED<br/>(待归还)" as RELEASED
+
+    %% 流程流转
+    [*] --> HOST : 从 MemoryPool 申请
+
+    HOST --> H2D : I/O线程填充数据\n并调用 cudaMemcpyAsync
+    note right of HOST
+        此时数据位于页锁定内存
+        CPU 写入完成
+    end note
+
+    H2D --> COMPUTE : 记录 H2D_Event\nStreamWaitEvent
+    note right of H2D
+        DMA 引擎正在搬运
+        CPU 不阻塞
+    end note
+
+    COMPUTE --> D2H : Kernel 执行完毕\n自动触发 D2H
+    note right of COMPUTE
+        GPU 核心正在计算
+        数据驻留显存
+    end note
+
+    D2H --> RELEASED : D2H 完成回调\n或 Event 同步
+    note right of D2H
+        结果已写回 Host
+    end note
+
+    RELEASED --> HOST : DataPacket 析构\n自动归还 Pool
+    
+    RELEASED --> [*]
+```
+
+-----
+
+**下一步行动**：
+
+我们已经定义了 **“怎么传”**（Pinned Memory）和 **“怎么调度”**（Async Streams）。
+接下来，我们需要解决 **“传给谁** 的问题，即 **2.2.3 NUMA 感知的内存亲和性控制**。考虑到飞腾 S5000C 的双路架构，如果数据传错了 CPU 节点，上述所有优化都会因为 QPI 总线瓶颈而大打折扣。
+
+**提问**：您是否同意将 **“双流乒乓 (Double Stream Ping-Pong)”** 作为异步流水线的基线？确认后我们进入 2.2.3 NUMA 亲和性的讨论。
diff --git a/系统基座文件/2/2.2/2.2.3 NUMA 感知的内存亲和性控制 (NUMA-Aware Memory Affinity Control).md b/系统基座文件/2/2.2/2.2.3 NUMA 感知的内存亲和性控制 (NUMA-Aware Memory Affinity Control).md
new file mode 100644
index 0000000..b5fd18c
--- /dev/null
+++ b/系统基座文件/2/2.2/2.2.3 NUMA 感知的内存亲和性控制 (NUMA-Aware Memory Affinity Control).md	
@@ -0,0 +1,93 @@
+---
+tags: []
+aliases:
+  - 2.2.3 NUMA 感知的内存亲和性控制 (NUMA-Aware Memory Affinity Control)
+date created: 星期四, 十一月 20日 2025, 10:14:01 晚上
+date modified: 星期四, 十一月 20日 2025, 10:14:41 晚上
+---
+
+# 2.2.3 NUMA 感知的内存亲和性控制 (NUMA-Aware Memory Affinity Control)
+
+### 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于第一章的审计报告，我们面临以下**硬性物理约束**：
+
+1. **CPU 拓扑**：
+      - **Node 0**: CPU 0-15
+      - **Node 1**: CPU 16-31
+2. **GPU 位置**：Iluvatar MR-V100 物理挂载在 **Node 1** 上。
+3. **OS 策略**：`numa_balancing` 已被禁用。这意味着我们不能指望操作系统自动把内存迁移到正确的节点，**必须**手动管理。
+4. **性能陷阱**：如果 Host 内存分配在 Node 0，而 DMA 引擎在 GPU (Node 1) 上，DMA 读取将必须穿过片间互联总线 (Inter-Chip Interconnect)，这通常只有本地内存带宽的一半甚至更低。
+
+-----
+
+### 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+#### 议题：如何强制内存与计算位于 Node 1？
+
+| 选项 | A. 仅依赖 `numactl` (进程级绑定) | B. 代码级硬亲和性 (线程级绑定) | C. `mbind` / `set_mempolicy` (API 级内存绑定) |
+| :--- | :--- | :--- | :--- |
+| **机制** | 在启动命令前加 `numactl --cpunodebind=1 --membind=1`。 | 在 C++ 代码中调用 `pthread_setaffinity_np` 将关键线程钉死在 Core 16-31。 | 在调用 `malloc` / `cudaMallocHost` 前设置内存分配策略。 |
+| **可靠性** | **高**。这是最稳健的保底方案，确保进程内所有内存页都在 Node 1。 | **极高**。可以精细控制哪个线程跑在哪个核（如 I/O 线程绑 Core 16, Worker 绑 Core 17-20）。 | **中**。`cudaMallocHost` 的行为可能受驱动实现影响，不如 `numactl` 强制有效。 |
+| **灵活性** | 低。整个进程被限制在半个 CPU 上。 | 高。允许非关键线程（如日志、监控）漂移到 Node 0。 | 高。允许精细控制每块内存的位置。 |
+| **实施成本** | 零代码修改。运维配置即可。 | 需要修改 `ExecutionEngine` 代码。 | 需要修改内存池代码。 |
+
+-----
+
+### 三、 基线确立与实施规范
+
+为了达成 **P0 级的性能稳定性**，我们采取 **“运维强制 + 代码辅助”** 的双重保险策略。
+
+#### 1\. 运维基线：全进程约束 (Process-Level)
+
+  - **决策**：所有雷达信号处理进程 **必须** 通过 `numactl` 启动。
+  - **命令规范**：
+
+    ```bash
+    # 强制 CPU 和 内存 都在 Node 1
+    numactl --cpunodebind=1 --membind=1 ./main_app
+    ```
+
+  - **论证**：这是最底层的安全网。即使代码写错了，OS 也不会把内存分配到 Node 0 去，只会报 OOM (Out of Memory)，这比“默默变慢”更容易排查。
+
+#### 2\. 代码基线：线程亲和性 (Thread-Level)
+
+  - **决策**：在 `ExecutionEngine` 中启动 I/O 线程和 Worker 线程时，**显式设置 CPU 亲和性**。
+  - **资源规划 (示例)**：
+      - **Core 16 (Node 1)**: `DataReceiver` 的 **I/O 线程** (独占，处理中断聚合后的高速包)。
+      - **Core 17-24 (Node 1)**: `SignalProcessor` 的 **计算/Worker 线程** (负责 CUDA API 调用和数据封包)。
+      - **Core 0-15 (Node 0)**: *非关键路径*（日志落盘、监控数据聚合、显控交互）。需要注意，虽然 `numactl` 限制了 `--cpunodebind=1`，但我们可以通过 `numactl --preferred=1` 或者在代码中用 `sched_setaffinity` 突破限制，将非实时任务扔回 Node 0（如果确实需要利用那 16 个核）。**但在 V1.0 阶段，建议简单化，全部限制在 Node 1。**
+  - **C++ 实现规范**：
+
+    ```cpp
+    void set_thread_affinity(int core_id) {
+        cpu_set_t cpuset;
+        CPU_ZERO(&cpuset);
+        CPU_SET(core_id, &cpuset);
+        // 必须检查返回值，确保绑定成功
+        if (pthread_setaffinity_np(pthread_self(), sizeof(cpu_set_t), &cpuset) != 0) {
+            // 记录致命错误，因为实时性无法保证
+        }
+    }
+    ```
+
+#### 3\. 内存分配时机：First-Touch 原则
+
+  - **决策**：鉴于我们使用了 `cudaMallocHost`，CUDA 驱动通常会在**调用分配函数的那个线程**所在的 NUMA 节点上分配物理内存（或者遵循进程的 `membind` 策略）。
+  - **规范**：**必须在 `initialize()` 阶段，且在已经绑定了 CPU 亲和性的线程中** 执行 `cudaMallocHost`。
+      - *错误做法*：在主线程（可能还没绑定核）分配内存池，然后传递给工作线程。
+      - *正确做法*：主线程先将自己绑定到 Node 1，或者通过 `numactl` 启动，然后再初始化 `MemoryPool`。
+
+-----
+
+### 总结与下一步行动
+
+我们已经确立了：
+
+1. **怎么分**：`cudaMallocHost` + Pinned + Mapped (2.2.1)
+2. **怎么传**：双流乒乓 + 重叠 (2.2.2)
+3. **在哪传**：**NUMA Node 1** (通过 `numactl` + 线程绑定) (2.2.3)
+
+现在，物理层和传输层的地基已经打牢。下一步，我们需要讨论 **2.2.4 统一虚拟寻址与零拷贝技术 (UVA & Zero-Copy)**。这将决定我们在某些特定场景下（如传输波控码或小批量参数），是否可以**完全省去** `cudaMemcpy`，直接让 GPU " 伸手 " 到 Host 内存里拿数据。
+
+**提问**：您是否确认 **“numactl 强制绑定 Node 1 + 关键线程显式钉核”** 的基线？确认后我们进入 2.2.4。
diff --git a/系统基座文件/2/2.2/2.2.4 统一虚拟寻址与零拷贝技术 (UVA & Zero-Copy).md b/系统基座文件/2/2.2/2.2.4 统一虚拟寻址与零拷贝技术 (UVA & Zero-Copy).md
new file mode 100644
index 0000000..b6754fd
--- /dev/null
+++ b/系统基座文件/2/2.2/2.2.4 统一虚拟寻址与零拷贝技术 (UVA & Zero-Copy).md	
@@ -0,0 +1,116 @@
+---
+tags: []
+aliases:
+  - 2.2.4 统一虚拟寻址与零拷贝技术 (UVA & Zero-Copy)
+date created: 星期四, 十一月 20日 2025, 10:24:28 晚上
+date modified: 星期四, 十一月 20日 2025, 10:25:20 晚上
+---
+
+# 2.2.4 统一虚拟寻址与零拷贝技术 (UVA & Zero-Copy)
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+根据审计结果与硬件特性，我们拥有以下有利条件：
+
+1. **驱动支持 (UVA Ready)**：审计显示 `iluvatar.ko` 模块参数 `itr_enable_vmm_va:Y`，说明智铠驱动已开启虚拟内存管理，支持 UVA。这意味着 Host 指针可以直接被 GPU Kernel 解引用，无需显式指针转换（`cudaHostGetDevicePointer` 仍建议调用以确保兼容性，但逻辑上地址空间是统一的）。
+2. **物理通道**：PCIe 4.0 x8 (或 x16 修复后)。带宽虽高，但\*\* 延迟（Latency）\*\* 仍远高于访问板载显存（VRAM）。
+3. **计算特性**：雷达信号处理（FFT、滤波）是**访存密集型**任务，同一个数据点会被多次读取（例如 FFT 的蝶形运算）。
+
+-----
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+我们将数据分为两类场景进行权衡：**“小数据/控制流”** 与 **“大数据/原始回波”**。
+
+### 场景 A：小数据传输（如波控码、雷达参数、状态字）
+
+  - **特征**：数据量小（\< 4KB），更新频率低，GPU 仅读取一次或极少次。
+
+| 选项 | 1. 显式拷贝 (`cudaMemcpyAsync`) | 2. 零拷贝直接访问 (Zero-Copy) **(推荐)** |
+| :--- | :--- | :--- |
+| **机制** | `Host -> PCIe -> VRAM -> Kernel` | `Kernel -> PCIe -> Host RAM` |
+| **启动开销** | **高**。API 调用开销 + DMA 启动开销（约 10-20us）。 | **零**。无 API 调用，Kernel 直接读取指针。 |
+| **总线效率** | 低。对于几十字节的数据，DMA 建立连接的成本远超传输本身。 | 中。虽然单次 PCIe 访问延迟高，但省去了 DMA 启动时间，总体更快。 |
+| **适用性** | 不推荐。“杀鸡用牛刀”。 | **最佳实践**。适合传递动态参数结构体。 |
+
+### 场景 B：大数据传输（原始回波 I/Q 数据）
+
+  - **特征**：数据量大（MB 级），吞吐要求高，Kernel 需**反复多次**读取同一块数据。
+
+| 选项 | 1. 显式拷贝 (`cudaMemcpyAsync`) **(推荐)** | 2. 零拷贝直接访问 (Zero-Copy) |
+| :--- | :--- | :--- |
+| **机制** | `Host -> DMA(Burst) -> VRAM -> Kernel` | `Kernel -> PCIe(TLP) -> Host RAM` |
+| **访存带宽** | **极高 (VRAM)**。HBM/GDDR 带宽（900GB/s+）。 | **极低 (PCIe)**。受限于 PCIe x8/x16（16-32GB/s）。 |
+| **TLB 风险** | 无。数据在 VRAM 中物理连续。 | **高 (TLB Miss)**。GPU 需频繁通过 IOMMU 查询 Host 页表，导致流水线停顿。 |
+| **计算影响** | 计算核心全速运行，无 IO 等待。 | **计算核心饥饿**。Kernel 算几步就要等几百个时钟周期的 PCIe 数据。 |
+
+-----
+
+## 三、 基线确立与实施规范
+
+基于上述分析，我们确立 **“小数据零拷贝，大数据显式拷贝”** 的混合策略基线。
+
+### 1\. 小数据基线：UVA 零拷贝 (Zero-Copy)
+
+针对雷达的**控制参数**（如 `DataContext` 中的元数据、当前波束指向信息），我们利用 UVA 特性实现零拷贝。
+
+  - **分配规范**：
+      - 继续使用 `cudaMallocHost`。
+      - **必须**添加 `cudaHostAllocMapped` | `cudaHostAllocWriteCombined` 标志。
+          - *注意*：`WriteCombined` (WC) 会禁止 CPU 缓存。这对 CPU 读取极慢，但对 CPU 顺序写入 +GPU 读取性能极佳。因为这些参数通常是 CPU 写一次、GPU 读一次，WC 是绝佳选择。
+  - **访问规范**：
+      - CPU 端：直接写入结构体成员。
+      - GPU 端：将 Host 指针直接传给 Kernel，Kernel 像访问普通显存一样解引用。
+
+### 2\. 大数据基线：显式异步 DMA (Explicit DMA)
+
+针对**原始回波数据**（即 `DataReceiver` 传递过来的 Payload），**严禁**使用零拷贝。
+
+  - **决策**：维持 2.2.2 确立的 `cudaMemcpyAsync` 三级流水线。
+  - **论证**：
+      - **带宽瓶颈**：雷达信号处理算法（如 FFT）的算术强度（Compute-to-Memory Ratio）通常较低，主要受限于显存带宽。如果让 Kernel 直接跨 PCIe 去读 Host 内存，带宽将从 \~900GB/s 骤降至 \~16GB/s，导致 GPU 算力闲置率高达 98%，这绝对是不可接受的。
+      - **TLB 抖动**：大数据量的随机访问（或大跨度访问，如转置）会打爆 IOMMU 的 TLB 缓存，引发严重的性能抖动。
+
+### 3\. 基线实施代码范式
+
+```cpp
+// 1. 小数据 (参数/配置): 使用 Zero-Copy + WriteCombined
+struct RadarParams {
+    float beam_azimuth;
+    float beam_elevation;
+    int   waveform_id;
+};
+
+RadarParams* h_params;
+// 分配时启用 Mapped (UVA) 和 WriteCombined (CPU写优化)
+cudaHostAlloc(&h_params, sizeof(RadarParams), 
+              cudaHostAllocMapped | cudaHostAllocWriteCombined);
+
+// CPU 写入 (极快，直接进 Write Combine Buffer)
+h_params->beam_azimuth = 45.0f;
+
+// GPU Kernel 启动 (直接传指针，无需 Memcpy)
+// d_params 可以通过 cudaHostGetDevicePointer 获取，或者在 UVA 下直接用 h_params
+process_kernel<<<…>>>(…, h_params); 
+
+
+// 2. 大数据 (回波): 使用 Explicit Async Copy
+// 维持之前确立的 MemoryPool (Pinned) + Stream Async Copy
+cudaMemcpyAsync(d_buffer, h_pinned_buffer, size, cudaMemcpyHostToDevice, stream);
+process_data_kernel<<<…>>>(…, d_buffer); // Kernel 访问的是高速 VRAM
+```
+
+-----
+
+## 总结与下一步行动
+
+我们确立了 **2.2.4 统一虚拟寻址与零拷贝技术** 的基线：
+
+1. **控制流**：启用 **Zero-Copy (UVA + WC)**，消除小数据的传输开销。
+2. **数据流**：坚守 **Explicit DMA (VRAM)**，保障计算吞吐量。
+
+现在，我们解决了“怎么传”、“传给谁”、“谁不用传”。只剩最后一个细节：**“传多大一块？”**
+
+这是 **2.2.5 传输粒度与 TLP 效率优化**。PCIe 总线传输 1 个字节和传输 128 字节的物理开销（TLP Header）是一样的。如果我们的 `DataPacket` 切分太碎，PCIe 有效带宽就会打折。我们需要结合您的 `01_数据接收模块设计.md` 中的 `packet_block_size_kb` (64KB) 来最后确认这一粒度。
+
+**提问**：您是否确认 **“控制流零拷贝，数据流显式拷贝”** 的混合基线？确认后我们进入 2.2.5。
diff --git a/系统基座文件/2/2.2/2.2.5 传输粒度与 TLP 效率优化 (Transfer Granularity & TLP Efficiency).md b/系统基座文件/2/2.2/2.2.5 传输粒度与 TLP 效率优化 (Transfer Granularity & TLP Efficiency).md
new file mode 100644
index 0000000..b888d04
--- /dev/null
+++ b/系统基座文件/2/2.2/2.2.5 传输粒度与 TLP 效率优化 (Transfer Granularity & TLP Efficiency).md	
@@ -0,0 +1,90 @@
+---
+tags: 
+aliases:
+  - 2.2.5 传输粒度与 TLP 效率优化 (Transfer Granularity & TLP Efficiency)
+date created: 星期四, 十一月 20日 2025, 11:17:17 晚上
+date modified: 星期四, 十一月 20日 2025, 11:17:43 晚上
+---
+
+# 2.2.5 传输粒度与 TLP 效率优化 (Transfer Granularity & TLP Efficiency)
+
+在确定了物理通道（Node 1）和传输机制（DMA Async）后，这一节解决的是**“一次搬运多少数据最划算”**的问题。这看似是细节，但在 PCIe 物理瓶颈下（x8 降级 + 小 MPS），错误的粒度会导致总线有效带宽暴跌。
+
+### 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于之前的审计结果和设计文档，我们面临两个严峻的物理与逻辑约束：
+
+1. **PCIe 物理瓶颈 (P0)**：
+    - **链路状态**：PCIe 4.0 x8 (Downgraded)。
+    - **MPS (Max Payload Size)**：审计发现部分设备仅为 **128 Bytes** 或 **256 Bytes**。
+        - *解读*：这是 PCIe 协议层的最大包长。这意味着无论您上层 DMA 发多大的数据块，到底层都会被切碎成 128 字节的小片。
+        - *代价*：PCIe TLP (Transaction Layer Packet) 头部开销约 12-16 字节。如果 MPS 只有 128 字节，**固定协议开销占比高达 ~10%**。这是物理层“税”，我们无法改变，只能通过上层策略来稀释**驱动层的启动开销**。
+
+2. **逻辑数据块定义**：
+    - **内存池块大小**：`01_数据接收模块设计.md` 中定义 `packet_block_size_kb` 默认为 **64KB**。
+    - **信号处理单位**：雷达处理通常基于 **CPI (Coherent Processing Interval)** 或 **脉冲 (Pulse)**，其数据量通常在 MB 级别。
+
+---
+
+### 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+我们需要在**实时性（低延迟）**和**总线吞吐率**EHOLDER}总线吞吐率**之间寻找平衡点。
+
+#### 议题：DMA 传输粒度 (Transfer Batch Size)
+
+| 选项 | A. 单包/单脉冲传输 (Fine-Grained) | B. 块/批次传输 (Coarse-Grained) **和** |
+| :--- | :--- | :--- |
+| **(推荐)** | 9KB (1 个 JUMBO Frame) 或 32KB (1 个脉冲) | **粒度示例** (多个脉冲或完整 CPI) |
+| **64KB - 2MB** | **驱动开销**。每次 DMA 启动都需要 CPU 陷入内核态写寄存器（约 5-10us）。如果每秒 10,000 包，CPU 光启动 DMA 就占满核心。 | **极高**。启动开销被大量数据摊薄。 |
+| **低** | **PCIe 效率**。频繁的小传输会导致 PCIe 链路在“空闲”和“忙碌”间切换，难以形成突发传输 (Burst)，无法填满 MPS 限制下的带宽。 | **低**。长传输能让 PCIe 控制器充分利用总线，连续发送 TLP，达到物理带宽极限。 |
+| **高** | 理论延迟最低，但容易受 CPU 抖动影响。 | 引入了 **延迟表现** (等待凑够一批数据)，但抖动更小，流水线更稳。 |
+
+---
+
+### 三、 基线确立与实施规范
+
+为了在 PCIe x8 和小 MPS 的双重限制下“榨干”带宽，我们必须采取 **“组包延迟”** 的策略。
+
+#### 1. 传输粒度基线：**“大块聚合”**
+
+- **≥ 64KB (对齐内存池块)**：确立 **决策** 为最小 DMA 传输单元（Minimum DMA Unit）。
+- **64KB**：
+    - 您的 `MemoryPool` 设计为 **论证** 一块，这恰好是一个平衡点。
+    - 在 PCIe 4.0 x8 上，传输 64KB 耗时约 4-5us。这足以掩盖 DMA 引擎的启动开销（Launch Overhead），使总线利用率进入“高效区”。
+    - **64KB**针对每个 9KB 的 UDP 包单独发起 `cudaMemcpyAsync`。这会引发 CPU 中断风暴并导致 GPU 指令队列溢出。
+
+#### 2. 动态批处理策略 (Adaptive Batching)
+
+考虑到雷达工作模式（搜索/跟踪）的脉冲重复频率（PRF）不同，建议在 `ExecutionEngine` 中实施动态策略：
+
+- **严禁**：
+    - **策略逻辑**：当 `DataReceiver` 填满一个 64KB 的 `MemoryBlock` 时，立即标记为就绪。
+    - **空间触发**：如果数据流较慢（如低重频模式），设定一个 **时间触发**。如果 200us 内没填满 64KB，强制推送当前已有数据。
+- **超时阈值 (e.g., 200us)**：防止在低数据率下，为了凑满 64KB 而导致首个数据包滞留过久，破坏 **目的** 的延迟 KPI。
+
+#### 3. 显存对齐与 TLP 优化
+
+- **P99 < 5ms**：DMA 的目标地址（GPU 显存）首地址必须 **决策**。
+- **256 字节对齐**：
+    - 虽然审计显示 MPS 可能是 128B，但为了适配可能的 256B MPS 设备及 GPU 内存控制器的合并访问需求（通常要求 128B/256B 对齐），**论证**是通用且安全的基线。
+    - **256B 对齐**：`cudaMalloc` 分配的内存天然是 256B 对齐的。关键在于如果我们在 Host 端把多个小包拼到一个大 Buffer 里，**实现**最好也是 128B/256B 的倍数。
+
+#### 4. TLP 效率的终极计算 (Reality Check)
+
+- **每个子块的偏移量**：MPS = 128 Bytes。
+- **现状**：每个 TLP 包 = 12-16B Header + 128B Data。
+- **理论极限**：$128 / (128 + 16) \approx 88.8\%$。
+- **最高有效率**：无论软件层如何优化，PCIe 层的物理开销决定了您**结论**。在评估带宽 KPI (`> 70% of theoretical max`) 时，必须扣除这 ~11% 的硬件损耗。**永远无法达到 100% 的理论带宽**。
+
+---
+
+### 总结与下一步行动
+
+我们确立了：
+1. **目标设定为理论值的 75%-80% 是合理的极限**：**粒度** (与内存池对齐)，严禁单包传输。
+2. **最小 64KB**：**策略** 双触发。
+3. **空间满 (64KB) 或 时间到 (200us)**：强制 **对齐**。
+
+至此，H2D (Host-to-Device) 的传输策略已完全定型。数据进入显存后，如何存放才能让 GPU 算得快？这是 **256 字节对齐** 的内容，涉及 SoA vs AoS 以及 Padding 策略，这直接影响 Kernel 的访存效率。
+
+**2.2.6 显存布局与对齐约束**：您是否确认 **提问** 的基线？确认后我们进入 2.2.6。
diff --git a/系统基座文件/2/2.2/2.2.6 显存布局与对齐约束 (VRAM Layout & Alignment Constraints).md b/系统基座文件/2/2.2/2.2.6 显存布局与对齐约束 (VRAM Layout & Alignment Constraints).md
new file mode 100644
index 0000000..91ecbda
--- /dev/null
+++ b/系统基座文件/2/2.2/2.2.6 显存布局与对齐约束 (VRAM Layout & Alignment Constraints).md	
@@ -0,0 +1,123 @@
+---
+tags: []
+date created: 星期四, 十一月 20日 2025, 11:20:35 晚上
+date modified: 星期四, 十一月 20日 2025, 11:21:14 晚上
+---
+
+# 2.2.6 显存布局与对齐约束 (VRAM Layout & Alignment Constraints)
+
+  - **覆盖范围**：定义雷达数据立方体（Radar Data Cube）在显存中的物理排列格式。重点解决 **SoA (结构数组)** vs **AoS (数组结构)** 的选择、**Padding (填充)** 策略，以及适配 `cuFFT` / `cuBLAS` 库要求的复数存储格式。
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于 `02_信号处理模块设计.md` 和 GPU 硬件特性，我们要对齐以下约束：
+
+1. **硬件合并访问 (Coalesced Access)**：GPU 读取显存的最佳模式是“一刀切”。同一个 Warp（32 个线程）必须访问一段**连续且对齐**的内存（通常是 128 字节）。如果数据是跳跃的（Strided），有效带宽会下降 80% 以上。
+2. **雷达数据立方体特性**：数据具有三个维度：`[通道 (Channel)]`、`[脉冲 (Pulse)]`、`[距离门 (Range)]`。
+3. **算法库约束**：
+      - **CoreX Math Libs (cuFFT)**：智铠重构版 `cuFFT` 通常要求输入数据为 **Interleaved Complex** (`float2` 或 `cuComplex`，即 `real, imag` 相邻) 或 **Split Complex** (`real[]`, `imag[]` 分离)。标准 CUDA 库倾向于 **Interleaved**。
+4. **并行维度**：
+      - **脉冲压缩**：在 **距离门** 维度并行。这意味着“距离”维必须是内存中最连续的维度（Stride = 1）。
+
+-----
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：复数数据格式 (Complex Number Format)
+
+| 选项 | A. 交织存储 (Interleaved / AoS) **(推荐)** | B. 分离存储 (Split / SoA) |
+| :--- | :--- | :--- |
+| **格式** | `R I R I R I …` (`struct {float r, i}`) | `R R R …` / `I I I …` |
+| **cuFFT 兼容性** | **原生支持**。`cufftExecC2C` 默认接受此格式。 | 需要使用 `cufftExecZ2Z` 并配置 stride，或者手动转换，稍显麻烦。 |
+| **访存效率** | **高**。读取一个复数只需一次 64-bit 加载指令（`LD.E`）。 | **中**。读取一个复数需要两次 32-bit 加载指令，且地址相隔很远，增加指令发射压力。 |
+| **结论** | **基线标准**。 | 不推荐，除非特定算法有强需求。 |
+
+### 议题 2：数据立方体排列 (Data Cube Layout)
+
+假设我们处理一个 `C` 通道、`P` 脉冲、`R` 距离门的数据块。
+
+| 选项 | A. `[Channel][Pulse][Range]` (推荐) | B. `[Range][Pulse][Channel]` |
+| :--- | :--- | :--- |
+| **最内层维度** | **Range (距离)**。内存中连续存放 `R0, R1, R2…`。 | **Channel (通道)**。内存中连续存放 `C0, C1, C2…`。 |
+| **脉冲压缩友好度** | **完美**。FFT 是针对 Range 做的，数据连续，读取效率 100%。 | **灾难**。FFT 需要读 Range 维，这里 Range 维跨度极大，导致严重的 TLB Miss 和非合并访问。 |
+| **波束合成友好度** | **差**。DBF 需要跨通道计算。但在脉压之后做一次**转置**即可解决。 | **好**。 |
+| **结论** | **基线标准**。符合“先脉压，后多普勒/DBF”的处理流。 | 仅适用于纯 DBF 前置的特殊雷达。 |
+
+### 议题 3：行对齐与 Pitch (Padding Strategy)
+
+显存是按“行”管理的。如果一行的字节数不是 256 字节的倍数，换行访问时就会错位，破坏对齐。
+
+| 选项 | A. 紧凑排列 (Packed) | B. 对齐填充 (Pitched / Padded) **(推荐)** |
+| :--- | :--- | :--- |
+| **机制** | 数据紧挨着放。`Row1_End` 紧接 `Row2_Start`。 | 在每行末尾填充垃圾数据，使得 `Row_Stride` 是 256B 的倍数。 |
+| **空间利用** | 100%。 | 略有浪费（\< 1%）。 |
+| **访问性能** | **不稳定**。如果 `R` 不是 64 的倍数，第二行的起始地址就未对齐，导致 Warp 访问分裂，性能下降。 | **极致稳定**。确保每一行的起始地址都是对齐的，所有 Kernel 都能全速运行。 |
+
+-----
+
+## 三、 基线确立与实施规范
+
+为了让 GPU 的吞吐量 KPI 达标，我们确立以下显存基线：
+
+### 1\. 数据结构基线：Interleaved Complex (`float2`)
+
+  - **决策**：所有 I/Q 信号在显存中统一存储为 **`float2`** 类型（对应 `std::complex<float>`）。
+  - **规范**：
+
+    ```cpp
+    // 严禁使用自定义结构体，直接用 CUDA 内置类型以确保编译器优化
+    using Complex = float2; 
+    // 实部: .x, 虚部: .y
+    ```
+
+### 2\. 物理布局基线：`[Channel][Pulse][Range]` + Padding
+
+  - **决策**：采用 **Channel-Major, Pulse-Major, Range-Contiguous** 的布局，并对 **Range** 维度实施 **Pitch 对齐**。
+  - **二维视图**：将三维立方体视为一个巨大的二维矩阵：
+      - **宽度 (Width)**：`Range * sizeof(Complex)`
+      - **高度 (Height)**：`Channel * Pulse`
+  - **分配规范**：**必须**使用 `cudaMallocPitch` 分配显存，而不是 `cudaMalloc`。
+      - *论证*：`cudaMallocPitch` 会自动计算最佳的 `pitch`（字节步长），确保每一行（即每一个脉冲）的起始地址都满足硬件（Iluvatar MR-V100）的 256 字节对齐要求。
+
+### 3\. 传输与访问规范
+
+  - **H2D 传输**：使用 `cudaMemcpy2DAsync`。
+      - 虽然数据源（Host Pinned Memory）可能是紧凑的，但目标（Device Memory）是有 Padding 的。`cudaMemcpy2D` 能自动处理这种“紧凑到对齐”的搬运。
+  - **Kernel 索引**：
+
+    ```cpp
+    // Kernel 代码范式
+    // pitch 是字节单位，需要转为 float2 单位
+    int stride = pitch / sizeof(float2); 
+    int p = blockIdx.y; // 脉冲索引 (或 C*P 的扁平索引)
+    int r = threadIdx.x + blockIdx.x * blockDim.x; // 距离门索引
+
+    if (r < Range) {
+        // 使用 stride 而不是 Range 来换行，跳过 Padding 区域
+        Complex data = input_data[p * stride + r]; 
+        // … 计算 …
+    }
+    ```
+
+## 总结：2.2 章节最终基线图谱
+
+至此，我们完成了 **2.2 异构 DMA 与内存传输机制** 的全链路设计。从 Host 内存分配到 PCIe 传输，再到显存落地，每一环都扣上了“高性能”的锁扣。
+
+| 环节 | 基线决策 | 关键配置/API |
+| :--- | :--- | :--- |
+| **2.2.1 内存分配** | **锁页内存 + UVA 映射** | `cudaMallocHost` + `cudaHostAllocMapped` |
+| **2.2.2 传输调度** | **双流乒乓 (Double Buffering)** | 2x `cudaStream_t`, `cudaMemcpyAsync` |
+| **2.2.3 物理位置** | **NUMA Node 1 本地化** | `numactl --cpunodebind=1 --membind=1` |
+| **2.2.4 零拷贝** | **控制流 Zero-Copy，数据流 Explicit** | `WC` 标志 (控制流) vs `Async Copy` (数据流) |
+| **2.2.5 传输粒度** | **≥ 64KB 块，256B 对齐** | 空间/时间双触发策略 |
+| **2.2.6 显存布局** | **`[C][P][R]` 布局 + Pitch 对齐** | `cudaMallocPitch`, `float2` (Interleaved) |
+
+-----
+
+**下一步行动**：
+
+2.2 章节已圆满完成。我们可以进入 **2.3 内部控制平面通信接口 (Internal Control Plane Interface - IPC)**。
+
+虽然数据流（Data Plane）的问题解决了，但 Host 端的**任务调度器**如何优雅地指挥**信号处理模块**？如何不通过锁竞争就能实现高频的控制指令下发？这将是 2.3 讨论的重点。
+
+**提问**：您是否确认 **2.2.6 的 Pitch 对齐与布局基线**？确认后我们结束 2.2 章节，进入 2.3。
diff --git a/系统基座文件/2/2.3/2.3 内部控制平面通信接口 (Internal Control Plane Interface - IPC).md b/系统基座文件/2/2.3/2.3 内部控制平面通信接口 (Internal Control Plane Interface - IPC).md
new file mode 100644
index 0000000..5366d4b
--- /dev/null
+++ b/系统基座文件/2/2.3/2.3 内部控制平面通信接口 (Internal Control Plane Interface - IPC).md	
@@ -0,0 +1,25 @@
+---
+tags: 
+aliases:
+  - 2.3 内部控制平面通信接口 (Internal Control Plane Interface - IPC)
+date created: 星期四, 十一月 20日 2025, 11:47:20 晚上
+date modified: 星期四, 十一月 20日 2025, 11:48:22 晚上
+---
+
+# 2.3 内部控制平面通信接口 (Internal Control Plane Interface - IPC)
+
+- **覆盖范围**：定义系统内部各功能模块（`IModule`）与核心管理组件（调度器、配置管理器）之间的**控制流交互机制**。该接口基于**进程内事件总线（In-Process EventBus）**架构，实现模块间的解耦、生命周期编排、资源仲裁及故障传递。**核心约束**：控制平面严禁传输任何业务数据块（如 I/Q 数据或点迹数组），仅允许传输元数据、状态码和控制指令。
+  - **2.3.1 事件总线架构与路由机制 (Event Bus Architecture & Routing Mechanism)**
+    - **核心指向**：定义系统控制流的中枢神经。采用**发布 - 订阅 (Pub/Sub)** 模式，实现 `IEventBus` 接口。支持**同步分发**（`publishSync`，用于高优先级指令的即时回调）与**异步分发**（`publishAsync`，用于状态上报的非阻塞入队）的混合路由策略，确保控制指令在微秒级内准确送达。
+  - **2.3.2 全链路追踪上下文传递 (Trace Context Propagation)**
+    - **核心指向**：定义控制指令的审计与追踪规范。强制要求所有控制事件（Event）必须携带全局唯一的 `TraceID`。涵盖在跨线程（如从 `API网关` 线程到 `SignalProcessor` 工作线程）传递事件时，利用 `TraceContextGuard` 或类似的 **RAII 机制**自动捕获、保存和恢复线程本地存储（TLS）中的追踪上下文，实现“无感”的链路追踪。
+  - **2.3.3 生命周期编排与状态同步协议 (Lifecycle Orchestration & State Synchronization)**
+    - **核心指向**：定义 `TaskScheduler` 与业务模块间的握手协议。涵盖标准化的生命周期指令事件（`StartModuleEvent`, `StopModuleEvent`, `PauseModuleEvent`）以及模块的状态变更回执（`ModuleRunningEvent`, `ModuleStoppedEvent`）。重点关注在系统启动/关闭时的**拓扑依赖顺序**控制逻辑，确保无“悬空”状态。
+  - **2.3.4 故障传播与恢复信令 (Fault Propagation & Recovery Signaling)**
+    - **核心指向**：定义异常情况下的通信契约。涵盖**致命错误上报**（`ModuleFailedEvent`，携带标准化 `ErrorCode` 和堆栈快照）的格式，以及调度器下发的**恢复指令流**（如 `PauseDataFlow` -> `RestartModule` -> `ResumeDataFlow`）的时序规范。集成**熔断器（Circuit Breaker）**状态广播，防止故障扩散。
+  - **2.3.5 资源仲裁与抢占式优先级控制 (Resource Arbitration & Preemptive Priority Control)**
+    - **核心指向**：针对 CPU/GPU 异构计算资源的动态协调接口。涵盖由 `ResourceCoordinator` 发出的强制性指令（如 `SetComputePriorityEvent(LOW/HIGH)`），以及业务模块在收到指令后切换 **CUDA 流优先级** 或执行 **任务分片（Task Slicing）** 避让的响应时限要求（如 < 10ms）。
+  - **2.3.6 两阶段配置热更新协议 (Two-Phase Configuration Hot-Reload Protocol)**
+    - **核心指向**：定义动态配置变更时的协商机制。涵盖 `ConfigManager` 发起的 **“验证询问”**（`ValidateConfigChangeEvent`，模块需在超时前反馈可行性）和 **“变更通知”**（`ConfigChangedEvent`，模块执行原子更新），确保在并发环境下配置更新的事务一致性。
+  - **2.3.7 性能指标遥测通道 (Performance Telemetry Channel)**
+    - **核心指向**：定义业务模块向 `MonitoringModule` 上报健康数据的单向通道。涵盖 `MetricsUpdateEvent` 的数据结构定义（键值对映射），以及采用 **线程本地缓存（Thread-Local Storage）** 结合 **MPSC（多生产单消费）队列** 的高吞吐、无锁上报策略，彻底消除监控逻辑对业务主线程的锁竞争干扰。
diff --git a/系统基座文件/2/2.3/2.3.1 事件总线架构与路由机制 (Event Bus Architecture & Routing Mechanism).md b/系统基座文件/2/2.3/2.3.1 事件总线架构与路由机制 (Event Bus Architecture & Routing Mechanism).md
new file mode 100644
index 0000000..789148c
--- /dev/null
+++ b/系统基座文件/2/2.3/2.3.1 事件总线架构与路由机制 (Event Bus Architecture & Routing Mechanism).md	
@@ -0,0 +1,120 @@
+---
+tags: []
+date created: 星期四, 十一月 20日 2025, 11:58:41 晚上
+date modified: 星期四, 十一月 20日 2025, 11:59:25 晚上
+---
+
+# 2.3.1 事件总线架构与路由机制 (Event Bus Architecture & Routing Mechanism)
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于您提供的设计文档（特别是 `05_任务调度器设计.md`）和系统环境，我们面临以下**硬性约束**：
+
+1. **进程内通信 (In-Process)**：本节讨论的是同一个进程（`main_app`）内部，不同 C++ 对象（模块）之间的交互。**严禁**引入 Socket、Pipe 或由 OS 调度的 IPC 机制（如 DBus/ZMQ），以避免微秒级的系统调用开销。
+2. **语言标准**：必须兼容 **C++14** (GCC 7.3)。
+3. **实时性要求**：控制指令（如 `StopModule`）必须在 **\< 1ms** 内到达目标模块。
+4. **全链路追踪**：事件总线是 `TraceID` 传递的关键载体，必须支持上下文的自动传播。
+
+-----
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：路由分发策略 (Dispatch Strategy)
+
+| 选项 | A. 纯同步直接调用 (Synchronous Direct) | B. 纯异步队列 (Asynchronous Queued) | C. 混合双通道 (Hybrid Dual-Channel) **(推荐)** |
+| :--- | :--- | :--- | :--- |
+| **机制** | `publish()` 时直接在**调用者线程**遍历并执行所有回调函数。 | `publish()` 将事件推入队列。后台线程池异步取出并执行回调。 | 提供 `publishSync`（高优指令）和 `publishAsync`（状态上报）两个接口。 |
+| **延迟** | **最低 (微秒级)**。无上下文切换，无排队。 | **较高**。受队列深度和调度器负载影响。 | **灵活**。关键指令零延迟，非关键消息不阻塞主业务。 |
+| **死锁风险** | **高**。如果回调函数里又发了新事件，容易导致递归死锁。 | **低**。解耦了生产者和消费者。 | **中**。需规范同步通道的使用场景。 |
+| **适用场景** | 紧急停止、资源抢占。 | 日志上报、非关键状态更新。 | **生产环境标准解**。 |
+
+### 议题 2：订阅者模型 (Subscriber Model)
+
+| 选项 | A. 泛型/模板回调 (Type-Erasure) **(推荐)** | B. 继承接口 (Inheritance) |
+| :--- | :--- | :--- |
+| **机制** | `bus->subscribe<MyEvent>(lambda)`。利用 `std::function` 和 `std::type_index`。 | 订阅者必须实现 `IEventHandler<MyEvent>` 接口。 |
+| **耦合度** | **极低**。模块不需要继承特定基类，只要函数签名对就行。 | **高**。侵入性强，增加类层级复杂度。 |
+| **灵活性** | **高**。支持 Lambda，便于捕获 `this` 指针或上下文。 | 低。 |
+| **性能** | 极高（现代编译器优化 `std::function` 很好）。 | 虚函数调用开销（微小）。 |
+
+-----
+
+## 三、 基线确立与实施规范
+
+为了兼顾雷达系统对**指令的即时响应**（如资源抢占）和**状态处理的高吞吐**（如海量模块状态变更），我们确立 **C. 混合双通道 + 泛型回调** 为设计基线。
+
+### 1\. 接口定义基线 (C++14)
+
+我们定义一个强类型的、支持 `TraceID` 注入的接口。
+
+```cpp
+class IEventBus {
+public:
+    virtual ~IEventBus() = default;
+
+    /**
+     * @brief 订阅特定类型的事件
+     * @tparam EventType 事件结构体类型
+     * @param handler 回调函数，接收 const EventType&
+     */
+    template <typename EventType>
+    void subscribe(std::function<void(const EventType&)> handler);
+
+    /**
+     * @brief 同步发布 (高优先级指令)
+     * @details 在当前线程立即执行所有订阅者。调用者会被阻塞直到所有处理完成。
+     * @param event 事件对象 (需继承自 BaseEvent 以携带 TraceID)
+     */
+    template <typename EventType>
+    void publishSync(const EventType& event);
+
+    /**
+     * @brief 异步发布 (状态上报/非关键消息)
+     * @details 将事件放入无锁队列，由 EventBus 内部的 Worker 线程稍后处理。立即返回。
+     * @param event 事件对象
+     */
+    template <typename EventType>
+    void publishAsync(const EventType& event);
+};
+```
+
+### 2\. 核心实现机制
+
+  - **同步通道 (`publishSync`)**：
+      - **实现**：直接查找 `std::unordered_map<std::type_index, std::vector<Handler>>`。
+      - **锁策略**：使用 `std::shared_timed_mutex` (读写锁)。发布时加**读锁**（允许多个事件同时发布，只要不修改订阅关系），订阅时加**写锁**。
+      - **死锁规避**：**严禁**在 `publishSync` 的回调中再次调用 `subscribe`（修改订阅表）。允许递归调用 `publish`，但需注意栈溢出风险。
+  - **异步通道 (`publishAsync`)**：
+      - **实现**：维护一个 `WorkQueue`。由于事件类型各异，队列元素需使用 `std::function<void()>` 包装器（Type Erasure）来存储“执行动作”，而不是存储原始事件数据。
+      - **并发模型**：
+          - **单分发线程 (默认)**：一个后台线程专门负责从队列取任务并执行。保证了同一事件的消费顺序。
+          - **队列选型**：**MoodyCamel `ConcurrentQueue`** (MPMC 无锁队列) 或 `boost::lockfree::queue`。鉴于麒麟系统库现状，若无第三方库，使用 `std::deque` + `std::mutex` + `std::condition_variable` 也是可接受的（吞吐量在控制面不是瓶颈）。
+
+### 3\. TraceID 的隐式传递 (2.3.2 预埋)
+
+  - **基线要求**：`IEventBus` 不仅仅是搬运工，它还是**上下文的管理者**。
+  - **同步发布时**：`TraceID` 自然随着线程栈传递。
+  - **异步发布时**：`publishAsync` 必须在**入队时**捕获当前线程的 `TraceID`，并将其打包到 Lambda 中。在**出队执行时**，先恢复该 `TraceID` 到线程本地存储 (TLS)，再执行回调。
+      - *这解决了异步调用导致追踪链断裂的经典难题。*
+
+### 4\. 异常安全边界
+
+  - **基线决策**：`EventBus` **必须捕获**订阅者抛出的所有异常。
+  - **论证**：一个模块的回调函数崩溃（throw exception）绝不能导致发消息的模块（如调度器）崩溃，也不能中断后续其他模块接收该事件。
+  - **行为**：`try-catch` 包裹每个 handler 的调用。捕获异常后，记录 `ERROR` 日志（包含 TraceID），然后继续执行下一个 handler。
+
+-----
+
+## 总结与下一步行动
+
+我们确立了 **2.3.1 事件总线** 的基线：
+
+1. **架构**：**混合双通道 (Sync/Async)**。
+2. **实现**：**泛型 Pub/Sub**，基于 C++14。
+3. **安全**：**异常隔离** + **读写锁保护**。
+
+有了这个“神经系统”，我们可以开始讨论在这上面跑什么“数据包”了。为了让全链路追踪真正生效，我们需要定义事件的“信封”格式。
+
+**下一步建议**：进入 **2.3.2 全链路追踪上下文传递 (Trace Context Propagation)**，详细定义 `BaseEvent` 结构和 `TraceContextGuard` 的实现机制。这是之前多次提到的 `TraceID` 落地的具体技术点。
+
+**提问**：您是否确认 **“混合双通道 + 泛型回调”** 的事件总线基线？确认后我们将深入 2.3.2。
diff --git a/系统基座文件/2/2.3/2.3.2 全链路追踪上下文传递 (Trace Context Propagation).md b/系统基座文件/2/2.3/2.3.2 全链路追踪上下文传递 (Trace Context Propagation).md
new file mode 100644
index 0000000..4cb33b8
--- /dev/null
+++ b/系统基座文件/2/2.3/2.3.2 全链路追踪上下文传递 (Trace Context Propagation).md	
@@ -0,0 +1,152 @@
+---
+tags: []
+date created: 星期五, 十一月 21日 2025, 12:00:13 凌晨
+date modified: 星期一, 十一月 24日 2025, 4:31:24 下午
+---
+
+# 2.3.2 全链路追踪上下文传递 (Trace Context Propagation)
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于设计文档和 C++14 环境，我们需要对齐以下硬性约束：
+
+1. **无侵入性 (Non-Intrusive)**：业务逻辑代码（如算法计算）不应到处传递 `trace_id` 参数。追踪上下文的获取应当是“隐式”的。
+2. **跨线程连续性 (Cross-Thread Continuity)**：系统大量使用异步队列（`EventBus::publishAsync`）和工作线程池。TraceID 必须能跨越线程边界，不能断链。
+3. **性能极其敏感**：追踪机制是**热路径 (Hot Path)**。获取当前 TraceID 的开销必须是纳秒级，严禁涉及锁竞争或复杂的哈希查找。
+4. **来源明确**：
+
+    - **数据面**：由 `DataReceiver` 在收到 UDP 包时生成。
+    - **控制面**：由 `TaskScheduler` 在定时任务或外部 API 调用时生成。
+
+---
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：上下文存储方式 (Storage Mechanism)
+
+|**选项**|**A. 显式参数传递 (Explicit Parameter)**|**B. 全局 Map 映射 (Global Map)**|**C. 线程本地存储 (Thread Local Storage - TLS) (推荐)**|
+|---|---|---|---|
+|**机制**|每个函数增加 `const TraceId& tid` 参数。|维护 `Map<ThreadID, TraceID>`。|使用 C++ `thread_local` 关键字。|
+|**侵入性**|**极高**。所有接口签名都要改，污染业务代码。|**低**。但在读写时需要加锁（或无锁 Map），有性能开销。|**零**。业务代码无感。|
+|**性能**|最佳。|差（锁竞争）。|**极佳**。直接的内存地址访问，无锁。|
+|**缺陷**|代码丑陋。|性能瓶颈。|**跨线程时会丢失**（需额外机制弥补）。|
+
+### 议题 2：跨线程传递策略 (Propagation Strategy)
+
+针对 TLS 跨线程丢失的问题：
+
+|**选项**|**A. 手动拷贝 (Manual Copy)**|**B. 智能闭包捕获 (Smart Closure Capture) (推荐)**|
+|---|---|---|
+|**机制**|在 `publishAsync` 前手动取出 ID，在回调里手动设置。|封装 `EventBus` 的任务包装器，**在入队瞬间自动捕获 TLS，在执行瞬间自动恢复 TLS**。|
+|**可靠性**|**低**。开发者容易忘，导致断链。|**高**。由基础设施层保证，业务无感。|
+|**复杂度**|低。|中。需要编写通用的任务包装模板。|
+
+---
+
+## 三、 基线确立与实施规范
+
+为了实现“高性能”与“全链路无感”，我们确立 **C. 线程本地存储 (TLS) + B. 智能闭包捕获** 为技术基线。
+
+### 1. 核心数据结构基线
+
+- **`TraceId` 类型**：使用 `uint64_t` 或 `uuid`（推荐 64 位整数配合 SnowFlake 算法，追求极致性能）。
+- **`BaseEvent` 接口**：所有控制面事件必须继承此基类。
+
+    ```cpp
+    struct BaseEvent {
+        uint64_t trace_id; // 事件携带的“信封”
+        uint64_t timestamp;
+
+        BaseEvent() {
+            // 构造时自动从当前线程 TLS 捕获 TraceID
+            // 如果当前是根源（无 ID），则保持 0 或生成新 ID（视策略而定）
+            trace_id = TraceContext::getCurrentId();
+            timestamp = CurrentTimeMillis();
+        }
+    };
+    ```
+
+### 2. 上下文管理基线 (RAII + TLS)
+
+我们定义一个静态辅助类 `TraceContext` 和一个 RAII 守卫 `TraceContextGuard`。
+
+- **`TraceContext` (TLS 管理)**
+
+    ```cpp
+    class TraceContext {
+    public:
+        static void set(uint64_t id) { current_trace_id_ = id; }
+        static uint64_t get() { return current_trace_id_; }
+        static void clear() { current_trace_id_ = 0; }
+
+        // 生成一个新的全局唯一 ID
+        static uint64_t generateNew();
+
+    private:
+        // 核心：每个线程独立一份，无锁，极速
+        static thread_local uint64_t current_trace_id_;
+    };
+    ```
+
+- **`TraceContextGuard` (RAII 自动恢复)**
+    - **作用**：在作用域结束时自动还原之前的 ID，支持嵌套调用。
+    - **场景**：用于事件处理函数入口，确保处理完事件后，线程状态复原，不污染后续逻辑。
+
+### 3. EventBus 集成规范 (跨线程核心)
+
+这是本节最关键的设计：**如何在 `publishAsync` 时“偷渡”上下文？**
+
+- **基线实现逻辑**：
+
+    1. **Publish 时 (线程 A)**：`publishAsync` 函数内部，获取当前线程 A 的 `TraceContext::get()`。
+    2. **入队时**：将取出的 `trace_id` 和用户的 `handler` 打包成一个 `WrappedTask`。
+    3. **Execute 时 (线程 B)**：`WrappedTask` 被执行。它首先使用 `TraceContextGuard` 将线程 B 的 TLS 设置为保存的 `trace_id`，然后执行用户 `handler`，最后 RAII 自动清理。
+
+- **伪代码范式**：
+
+    ```cpp
+    template <typename EventType>
+    void IEventBus::publishAsync(const EventType& event) {
+        // 1. 捕获上下文 (此时还在发送者线程)
+        uint64_t context_id = event.trace_id;
+
+        // 2. 包装任务 (Lambda Capture)
+        auto wrapped_task = [handler, event, context_id]() {
+            // 3. 恢复上下文 (此时已在接收者线程)
+            TraceContextGuard guard(context_id);
+
+            // 4. 执行业务逻辑 (此时日志库能读到正确的 TLS TraceID)
+            handler(event);
+        };
+
+        // 5. 推入队列
+        work_queue_.push(wrapped_task);
+    }
+    ```
+
+### 4. 日志集成规范
+
+- **基线要求**：所有日志宏（如 `RADAR_INFO`）必须自动读取 `TraceContext::get()` 并打印。
+- **格式**：`[Time][Level][ThreadID][TraceID] Message`。
+- **效果**：业务代码只需写 `RADAR_INFO("Processing data")`，日志文件里会自动出现 `… [TraceID: 12345] Processing data`。
+
+---
+
+## 总结：2.3.2 基线图谱
+
+|**维度**|**基线决策**|**关键技术点**|
+|---|---|---|
+|**存储**|**Thread Local Storage (TLS)**|`thread_local uint64_t`，无锁，纳秒级访问。|
+|**载体**|**`BaseEvent` 继承**|所有事件自动携带 `trace_id` 字段。|
+|**跨线程**|**智能闭包捕获 (Smart Capture)**|`EventBus` 在入队/出队时自动 Switch Context。|
+|**作用域**|**RAII Guard**|`TraceContextGuard` 保证作用域内的上下文一致性和退出后的还原。|
+
+---
+
+**下一步行动**：
+
+我们已经搞定了“大喇叭（总线）”和“条形码（TraceID）”。接下来要定的是“握手暗号” —— **2.3.3 生命周期编排与状态同步协议**。
+
+在这个系统中，模块启动不是简单的 `start()`，它涉及依赖检查、顺序控制和状态回执。比如，`SignalProcessor` 启动前必须确认 GPU 资源就绪，启动后必须告诉调度器“我好了”。
+
+**提问**：您是否确认 **“TLS + 智能闭包捕获”** 的上下文传递基线？确认后我们将进入 2.3.3。
diff --git a/系统基座文件/2/2.3/2.3.3 生命周期编排与状态同步协议 (Lifecycle Orchestration & State Synchronization).md b/系统基座文件/2/2.3/2.3.3 生命周期编排与状态同步协议 (Lifecycle Orchestration & State Synchronization).md
new file mode 100644
index 0000000..fac104c
--- /dev/null
+++ b/系统基座文件/2/2.3/2.3.3 生命周期编排与状态同步协议 (Lifecycle Orchestration & State Synchronization).md	
@@ -0,0 +1,102 @@
+---
+tags: []
+date created: 星期五, 十一月 21日 2025, 2:27:11 下午
+date modified: 星期五, 十一月 21日 2025, 2:52:14 下午
+---
+
+# 2.3.3 生命周期编排与状态同步协议 (Lifecycle Orchestration & State Synchronization)
+
+遵循三阶段模型，我们深入探讨 **2.3.3 生命周期编排与状态同步协议 (Lifecycle Orchestration & State Synchronization)**。
+
+这是控制平面的核心业务流程。如果说事件总线是“电话线”，那么本节我们要规定的是“通话规矩”：调度器（指挥官）如何下达开机命令，模块（士兵）如何反馈执行结果，以及如何确保全员步调一致。
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于 `05_任务调度器设计.md` 和前序基线，我们面临以下硬性约束：
+
+1. **决策权集中**：`TaskScheduler` 是唯一的生命周期决策者。模块严禁擅自启动或停止，必须响应调度器的指令。
+2. **异步闭环**：由于模块的初始化（如 GPU 上下文创建、网络绑定）可能耗时较长（> 10ms），**严禁**在事件回调中阻塞执行。协议必须是 **“异步指令 -> 后台执行 -> 异步回执”** 的闭环模式。
+3. **依赖有序**：启动必须遵循 `DependencyGraph` 的拓扑正序，停止遵循逆序。
+4. **可观测性**：所有生命周期事件必须携带 `TraceID`，以便追踪“是谁触发了这次启动”。
+
+---
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：指令交互模式 (Command Interaction Model)
+
+|**选项**|**A. 同步调用 (Direct Method Call)**|**B. 异步事件 + 超时机制 (Async Event + Timeout) (推荐)**|
+|---|---|---|
+|**机制**|调度器直接调用 `module->start()`。|调度器发布 `StartModuleEvent`，启动定时器，等待 `ModuleRunningEvent`。|
+|**阻塞性**|**高**。如果模块 `start()` 卡死，调度器也会卡死，导致整个控制面瘫痪。|**无**。调度器发完指令就去处理别的（如响应心跳），不会被卡住。|
+|**超时处理**|困难。需要多线程强杀。|**简单**。定时器触发后，如果没收到回执，直接判定启动失败并回滚。|
+|**适用场景**|简单的函数库调用。|**分布式/微服务架构的标准解**（即使是进程内）。|
+
+### 议题 2：状态同步与一致性 (State Consistency)
+
+|**选项**|**A. 乐观信任 (Trust Event)**|**B. 双重确认 (Event + Query) (推荐)**|
+|---|---|---|
+|**机制**|调度器只根据收到的 `ModuleRunningEvent` 更新内部状态表。|调度器收到 Event 更新状态，**同时**定期（如每 1 秒）调用 `module->getState()` 核对。|
+|**风险**|**状态漂移**。如果 Event 丢失（极少见但可能），调度器会以为模块还在运行，实际上它可能已崩溃。|**健壮**。能自动修复“幽灵状态”，确保监控视图的真实性。|
+|**开销**|零。|低（原子变量读取）。|
+
+---
+
+## 三、 基线确立与实施规范
+
+为了确保系统在无人值守环境下的绝对可靠性，我们确立 **B. 异步事件 + 超时机制** 和 **B. 双重确认** 为基线。
+
+### 1. 核心事件定义基线
+
+所有事件必须继承自 2.3.2 确立的 `BaseEvent` 以携带 `TraceID`。
+
+- **指令事件 (Commands)** - 由调度器发布，模块订阅：
+    - `StartModuleEvent { string module_name; Config config_patch; }`
+    - `StopModuleEvent { string module_name; bool force; }`
+    - `PauseModuleEvent { string module_name; }`
+- **回执事件 (Feedbacks)** - 由模块发布，调度器订阅：
+    - `ModuleRunningEvent { string module_name; }`
+    - `ModuleStoppedEvent { string module_name; }`
+    - `ModuleFailedEvent { string module_name; ErrorCode code; }`
+
+### 2. 握手协议时序基线 (Sequence Flow)
+
+这是“启动一个模块”的标准操作流程（SOP）：
+
+1. **指令下发**：调度器发布 `StartModuleEvent(Target="SignalProcessor")`，并将模块状态标记为 `STARTING`。同时，**启动一个 5 秒（可配置）的看门狗定时器**。
+2. **异步执行**：`SignalProcessor` 收到事件，**不应在回调中直接干活**，而是将“启动任务”提交给自己的工作线程（或 `std::thread`），立即返回。这保证了调度器线程不被阻塞。
+3. **任务执行**：`SignalProcessor` 的工作线程执行 `cudaFree(0)`、分配内存池等耗时操作。
+4. **回执上报**：
+    
+    - **成功**：发布 `ModuleRunningEvent`。
+    - **失败**：发布 `ModuleFailedEvent`。
+        
+5. **闭环确认**：
+    
+    - **正常**：调度器收到 `ModuleRunningEvent`，取消定时器，将状态标记为 `RUNNING`，并触发下一个依赖模块的启动。
+    - **超时**：定时器先触发。调度器判定启动失败，发布 `StopModuleEvent(force=true)` 进行清理，并进入故障恢复流程。
+
+### 3. 状态机一致性基线
+
+- **双重账本**：
+    - **账本 A (调度器侧)**：`ModuleRegistry` 中的状态表，用于决策。
+    - **账本 B (模块侧)**：模块内部的 `std::atomic<State>`，用于执行。
+- **同步规则**：
+    - **写操作**：必须通过“指令 - 回执”流程修改。
+    - **读操作**：调度器每秒执行一次 `SystemHealthCheck`，对比 账本 A 和 账本 B。如果发现不一致（如调度器认为 `RUNNING` 但模块是 `STOPPED`），触发 `StateMismatchEvent` 告警，并以**模块侧（真实世界）** 为准进行状态修正（Self-Healing）。
+
+---
+
+## 总结与下一步行动
+
+我们确立了 **2.3.3 生命周期编排与状态同步协议** 的基线：
+
+1. **协议**：**全异步 + 超时看门狗**。
+2. **一致性**：**事件驱动更新 + 定期主动核对**。
+3. **依赖**：严格遵循 DAG 拓扑序。
+
+下一步建议：
+
+模块启动之后，难免会遇到运行时错误。这就涉及到 2.3.4 故障传播与恢复信令 (Fault Propagation & Recovery Signaling)。我们需要定义：当一个模块“挂了”的时候，它怎么“优雅地”告诉调度器？调度器又如何指挥其他模块进行“无感恢复”？
+
+**提问**：您是否确认 **“异步指令 + 超时闭环”** 的生命周期协议基线？确认后我们将深入 2.3.4。
diff --git a/系统基座文件/2/2.3/2.3.4 故障传播与恢复信令 (Fault Propagation & Recovery Signaling).md b/系统基座文件/2/2.3/2.3.4 故障传播与恢复信令 (Fault Propagation & Recovery Signaling).md
new file mode 100644
index 0000000..5cdde47
--- /dev/null
+++ b/系统基座文件/2/2.3/2.3.4 故障传播与恢复信令 (Fault Propagation & Recovery Signaling).md	
@@ -0,0 +1,122 @@
+---
+tags: []
+date created: 星期五, 十一月 21日 2025, 3:14:02 下午
+date modified: 星期一, 十一月 24日 2025, 4:31:32 下午
+---
+
+# 2.3.4 故障传播与恢复信令 (Fault Propagation & Recovery Signaling)
+
+这是系统的“求救与自愈”机制。在 2.3.3 中，我们定义了正常的生老病死；而 2.3.4 则要定义当模块“意外暴毙”时，系统如何避免全面崩溃，并有序地重新站起来。
+
+特别需要注意的是，根据您的 **附件：生产环境架构加固指南**，我们引入了父进程 Watchdog。因此，本节的故障处理必须划清界限：**逻辑故障归调度器管，进程崩溃归 Watchdog 管**。
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于设计文档，我们需对齐以下硬性约束：
+
+1. **职责边界**：
+
+    - **模块职责**：严禁在内部无限重试致命错误（如 GPU ECC 错误），必须立即停止并上报。
+    - **调度器职责**：作为唯一决策者，负责编排恢复流程。
+    - **Watchdog 职责**：仅在整个进程 Segfault 或调度器死锁时介入。
+
+2. **依赖感知**：恢复不能只重启故障模块，必须先暂停其上游的数据流，防止积压导致 OOM（内存溢出）。
+3. **防风暴**：必须集成熔断机制，防止一个持续故障的模块引发系统无限重启循环。
+
+---
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：故障上报内容的标准化 (Fault Reporting Standard)
+
+|**选项**|**A. 仅错误码 (Error Code Only)**|**B. 丰富上下文 (Rich Context) (推荐)**|
+|---|---|---|
+|**机制**|`ModuleFailedEvent { int code; }`|`ModuleFailedEvent { ErrorCode code; string reason; Snapshot state; TraceID trace; }`|
+|**诊断能力**|**低**。日志里只能看到 "Error 1001"，无法知道当时 GPU 显存剩多少，或者正在处理哪一帧。|**高**。携带了案发现场的快照和 TraceID，能直接关联到导致崩溃的那条控制指令。|
+|**传输开销**|极低。|低（拷贝几个字符串和结构体）。|
+|**决策支持**|弱。调度器只能无脑重启。|**强**。调度器可根据 `reason` 决定是立即重启，还是降级运行。|
+
+### 议题 2：恢复编排策略 (Recovery Orchestration)
+
+|**选项**|**A. 激进重启 (Aggressive Restart)**|**B. 依赖感知流水线 (Dependency-Aware Pipeline) (推荐)**|
+|---|---|---|
+|**机制**|收到故障立即调用 `module->stop(); module->start();`。|`Pause Upstream` -> `Stop Faulty` -> `Start Faulty` -> `Resume Upstream`。|
+|**数据安全性**|**低**。上游模块还在疯狂推数据，故障模块重启期间，中间队列瞬间爆满，导致丢包或内存溢出。|**高**。先截断水源，再修水管，修好再放水。|
+|**复杂度**|低。|中。需要 `DependencyGraph` 支持。|
+
+---
+
+## 三、 基线确立与实施规范
+
+为了实现“不仅能活过来，而且不丢数据”的智能恢复，我们确立 **B. 丰富上下文** 和 **B. 依赖感知流水线** 为基线。
+
+### 1. 故障事件信封基线 (`ModuleFailedEvent`)
+
+我们定义一个标准化的故障事件结构，作为所有模块的“遗言”。
+
+```cpp
+struct ModuleFailedEvent : public BaseEvent {
+    std::string module_name;
+    ErrorCode error_code;
+    bool is_hardware_fault; // 提示调度器：硬件坏了重启也没用，不如报警
+    std::string debug_info; // 包含显存状态、队列深度等现场快照
+
+    // 构造时自动捕获 TraceID
+    ModuleFailedEvent(string name, ErrorCode code, string info)
+        : module_name(name), error_code(code), debug_info(info) {
+        is_hardware_fault = IsHardwareError(code);
+    }
+};
+```
+
+### 2. 恢复信令时序基线 (Recovery Signaling Sequence)
+
+这是调度器收到 `ModuleFailedEvent` 后的标准**四步走**恢复协议。以 `SignalProcessor` (信号处理) 崩溃为例，其上游是 `DataReceiver` (数据接收)。
+
+1. **止血 (Pause Upstream)**：
+
+    - 调度器发布 `PauseDataFlowEvent(target="DataReceiver")`。
+    - `DataReceiver` 响应：停止向中间队列 `push` 数据，暂时丢弃新数据或存入 RingBuffer，并回复 `DataFlowPausedEvent`。
+
+2. **清理 (Stop Faulty)**：
+
+    - 调度器发布 `StopModuleEvent(target="SignalProcessor", force=true)`。
+    - `SignalProcessor` 响应：尝试释放 GPU 资源，清理线程。回复 `ModuleStoppedEvent`。
+
+3. **重启 (Restart Faulty)**：
+
+    - 调度器发布 `StartModuleEvent(target="SignalProcessor")`。
+    - `SignalProcessor` 响应：重新初始化 CUDA 上下文，申请内存。回复 `ModuleRunningEvent`。
+
+4. **恢复 (Resume Upstream)**：
+
+    - 调度器发布 `ResumeDataFlowEvent(target="DataReceiver")`。
+    - `DataReceiver` 响应：恢复向中间队列推送数据。系统恢复正常。
+
+### 3. 熔断器集成基线 (Circuit Breaker)
+
+为了防止“垂死挣扎”引发日志爆炸和 CPU 满载，必须在调度器侧实施熔断。
+
+- **策略**：针对每个模块维护一个滑动窗口（如 60 秒）。
+- **阈值**：若窗口内收到 **3 次** `ModuleFailedEvent`。
+- **动作**：
+    - 标记该模块状态为 `BROKEN`。
+    - 不再执行上述恢复流程。
+    - 发布 `SystemDegradedEvent`（系统降级）或 `SystemFailedEvent`（全系统停机）。
+    - 记录一条 `FATAL` 日志，呼叫运维人员。
+
+---
+
+## 总结与下一步行动
+
+我们确立了 **2.3.4 故障传播与恢复信令** 的基线：
+
+1. **协议**：**丰富上下文上报**（带 TraceID 和现场快照）。
+2. **编排**：**依赖感知的四步恢复法**（Pause -> Stop -> Restart -> Resume）。
+3. **防护**：**三振出局**的熔断机制。
+
+下一步建议：
+
+系统能跑能修了，但在资源紧张（比如 GPU 满载）的时候，如何让重要任务（如显控界面渲染）优先运行？这就涉及到 2.3.5 资源仲裁与抢占式优先级控制。这是一个涉及“权力分配”的关键接口。
+
+**提问**：您是否确认 **“依赖感知四步恢复 + 熔断器”** 的故障处理基线？确认后我们将深入 2.3.5。
diff --git a/系统基座文件/2/2.3/2.3.5 系统负载保护与热节流控制 (System Load Protection & Thermal Throttling).md b/系统基座文件/2/2.3/2.3.5 系统负载保护与热节流控制 (System Load Protection & Thermal Throttling).md
new file mode 100644
index 0000000..3e5187a
--- /dev/null
+++ b/系统基座文件/2/2.3/2.3.5 系统负载保护与热节流控制 (System Load Protection & Thermal Throttling).md	
@@ -0,0 +1,130 @@
+---
+tags: []
+date created: 星期五, 十一月 21日 2025, 3:15:00 下午
+date modified: 星期一, 十一月 24日 2025, 4:31:51 下午
+---
+
+# 2.3.5 系统负载保护与热节流控制 (System Load Protection & Thermal Throttling)
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于变更后的架构目标，我们需对齐以下硬性约束：
+
+1. **触发源单一性**：仅响应**物理传感器告警**（温度、功耗）。显控 UI 操作不再作为触发源。
+2. **响应滞后性 (Hysteresis)**：热惯性是缓慢的。控制逻辑必须包含**迟滞（Hysteresis）**机制，防止在阈值附近频繁切换导致系统震荡（Flapping）。
+3. **执行确定性**：节流动作必须是**确定性的降速**（如每帧固定休眠），而非不确定的丢包。丢包应由上游的背压机制（Backpressure）自然处理，而不是由计算模块主动丢弃。
+
+---
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：降级执行策略 (Throttling Execution)
+
+|**选项**|**A. 丢弃任务 (Task Dropping)**|**B. 动态降频 (DVFS / Clock Gating)**|**C. 软件占空比控制 (Software Duty Cycle) (推荐)**|
+|---|---|---|---|
+|**机制**|直接丢弃输入的 `DataContext`，不进行计算。|调用驱动 API (`ixsmi`) 强制降低 GPU 时钟频率。|在主处理循环中插入 `sleep()`，人为制造流水线气泡。|
+|**热效应**|**极好**。GPU 完全空闲。|**好**。降低电压和频率。|**可控**。通过调整休眠时长精确控制负载率。|
+|**副作用**|**数据断层**。破坏目标跟踪的连续性。|**依赖驱动**。智铠 SDK 可能未开放用户态调频接口，且响应慢。|**延迟增加**。但数据流保持连续，仅吞吐下降。|
+|**适用性**|仅限 Level 3 (紧急停机)。|固件层保护（最后一道防线）。|**应用层首选**。通用、简单、不丢数据。|
+
+### 议题 2：控制回路设计 (Control Loop)
+
+|**选项**|**A. 简单阈值 (Simple Threshold)**|**B. 迟滞比较器 (Hysteresis Comparator) (推荐)**|
+|---|---|---|
+|**机制**|>90°C 降速，<90°C 恢复。|>90°C 降速 (Trigger)，<80°C 恢复 (Release)。|
+|**稳定性**|**差**。会在 90°C 附近反复震荡，导致风扇啸叫和电流波动。|**高**。确保系统冷却到安全区间后才恢复全速。|
+
+---
+
+## 三、 基线确立与实施规范
+
+为了在极端工况下保护硬件同时维持最低限度的业务连续性，我们确立 **C. 软件占空比控制** + **B. 迟滞比较器** 为基线。
+
+### 1. 交互协议基线 (Protocol)
+
+定义一套闭环的保护协议：
+
+- **告警事件 (Alert)** - 由 `MonitoringModule` 发布：
+    - `SystemOverloadEvent { Type: THERMAL | POWER; Level: WARNING | CRITICAL; Value: float; }`
+        - _WARNING_: 接近阈值（如 85°C）。
+        - _CRITICAL_: 超过阈值（如 95°C）。
+- **指令事件 (Command)** - 由 `ResourceCoordinator` 发布：
+    - `SetComputeThrottleEvent { ThrottleLevel level; TraceID trace_id; }`
+
+### 2. 节流分级定义 (Throttle Levels)
+
+|**等级**|**定义 (Level)**|**行为规范 (Behavior)**|**目标负载 (GPU Usage)**|**触发场景**|
+|---|---|---|---|---|
+|**L0**|**NO_THROTTLE**|全速运行，无额外休眠。|100% (Max)|温度 < 80°C|
+|**L1**|**LIGHT**|每帧处理后休眠 **5ms**。|~80%|80°C < 温度 < 90°C|
+|**L2**|**HEAVY**|每帧处理后休眠 **20ms**。|~50%|温度 > 90°C|
+|**L3**|**SUSPEND**|**暂停计算**。停止从队列取数据（触发背压）。|0% (Idle)|温度 > 95°C (濒临宕机)|
+
+### 3. 迟滞控制逻辑 (Hysteresis Logic)
+
+- **位置**：`TaskScheduler` 中的 `ResourceCoordinator` 组件。
+- **逻辑**：
+
+    ```cpp
+    // 伪代码：迟滞状态机
+    void onTemperatureUpdate(float temp) {
+        static State state = NORMAL;
+
+        switch (state) {
+            case NORMAL:
+                if (temp > 90.0) { state = THRORRLE_L2; publish(LEVEL_2); }
+                else if (temp > 85.0) { state = THRORRLE_L1; publish(LEVEL_1); }
+                break;
+            case THRORRLE_L1:
+                if (temp > 90.0) { state = THRORRLE_L2; publish(LEVEL_2); }
+                else if (temp < 75.0) { state = NORMAL; publish(LEVEL_0); } // 迟滞回落
+                break;
+            case THRORRLE_L2:
+                if (temp < 80.0) { state = THRORRLE_L1; publish(LEVEL_1); } // 迟滞回落
+                break;
+        }
+    }
+    ```
+
+### 4. 模块侧实现规范
+
+- **组件**：在 `SignalProcessor` 中新增 `ThrottleController` 类。
+- **侵入点**：`ExecutionEngine` 的主循环末尾。
+- **实现**：
+
+    ```cpp
+    void ExecutionEngine::run() {
+        while (running_) {
+            // 1. 获取数据 & 2. 提交计算 (…原逻辑…)
+
+            // 3. 节流控制点 (新增)
+            throttle_controller_.applyDelay();
+        }
+    }
+
+    void ThrottleController::applyDelay() {
+        // 读取原子变量，避免锁竞争
+        auto level = current_level_.load(std::memory_order_relaxed);
+        if (level == L1) std::this_thread::sleep_for(5ms);
+        else if (level == L2) std::this_thread::sleep_for(20ms);
+        else if (level == L3) std::this_thread::sleep_for(100ms); // 轮询等待
+    }
+    ```
+
+---
+
+## 总结与下一步行动
+
+我们确立了 **2.3.5 系统负载保护** 的基线：
+
+1. **机制**：**软件级休眠 (Duty Cycle)**，牺牲延迟换取降温。
+2. **策略**：**四级节流 + 迟滞控制**，防止系统震荡。
+3. **触发**：仅限 **物理过载**。
+
+下一步建议：
+
+控制面的“指挥”和“保护”都做好了。现在我们要解决最具挑战性的“动态调整”问题 —— 2.3.6 两阶段配置热更新协议。
+
+比如，如何在雷达正在运转时，安全地把 CFAR 检测阈值从 15dB 改为 13dB，或者切换波束扫描策略，而不需要重启整个进程？这需要一套严密的事务协议。
+
+**提问**：您是否确认 **“四级节流 + 迟滞控制”** 的保护基线？确认后我们将深入 2.3.6。
diff --git a/系统基座文件/2/2.3/2.3.6 两阶段配置热更新协议 (Two-Phase Configuration Hot-Reload Protocol).md b/系统基座文件/2/2.3/2.3.6 两阶段配置热更新协议 (Two-Phase Configuration Hot-Reload Protocol).md
new file mode 100644
index 0000000..3dc123d
--- /dev/null
+++ b/系统基座文件/2/2.3/2.3.6 两阶段配置热更新协议 (Two-Phase Configuration Hot-Reload Protocol).md	
@@ -0,0 +1,138 @@
+---
+tags: []
+date created: 星期五, 十一月 21日 2025, 3:40:21 下午
+date modified: 星期一, 十一月 24日 2025, 4:32:10 下午
+---
+
+# 2.3.6 两阶段配置热更新协议 (Two-Phase Configuration Hot-Reload Protocol)
+
+遵循三阶段模型，我们深入探讨 **2.3.6 两阶段配置热更新协议 (Two-Phase Configuration Hot-Reload Protocol)**。
+
+这是控制平面的“精细手术”机制。在雷达系统运行过程中，动态调整参数（如 CFAR 阈值、波束扫描范围）是一项高风险操作。如果配置变更导致某些模块崩溃，或者不同模块对同一参数的理解不一致，系统就会陷入“脑裂”或瘫痪。
+
+因此，我们必须引入类似数据库事务的 **两阶段提交 (2PC)** 机制，确保配置更新要么**全员成功**，要么**全员回滚**。
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于系统的高可靠性要求，我们需对齐以下硬性约束：
+
+1. **事务原子性 (Atomicity)**：配置变更必须是一个原子操作。严禁出现“模块 A 用了新参数，模块 B 还在用旧参数”的混合状态。
+2. **非阻塞验证 (Non-blocking Validation)**：验证阶段不能阻塞业务数据流。模块应在后台检查新配置的合法性（如内存是否足够、参数是否越界）。
+3. **无锁切换 (Lock-free Switch)**：配置生效的瞬间（Commit）必须极其迅速，不能让读取配置的业务线程（如 `SignalProcessor` 的 Worker）发生锁竞争。
+
+---
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：更新协议模型 (Update Protocol)
+
+|**选项**|**A. 单阶段通知 (Fire-and-Forget)**|**B. 两阶段提交 (2PC / Prepare-Commit) (推荐)**|
+|---|---|---|
+|**机制**|`ConfigManager` 直接发布 `ConfigChangedEvent`。模块收到即生效。|**Phase 1**: `ValidateRequest` -> 收集投票。<br><br>  <br><br>**Phase 2**: 全员通过 -> `CommitCommand`；否则 -> `Abort`。|
+|**风险**|**高**。如果新配置导致模块 A 崩溃，或者模块 B 拒绝接受（如参数越界），系统将处于部分更新的**不一致状态**，且无法自动回滚。|**低**。所有模块都有机会在生效前“一票否决”。确保了变更的安全性。|
+|**延迟**|低。|高（两轮 RTT）。但在控制面（秒级交互）完全可接受。|
+|**适用性**|日志级别调整等无关痛痒的配置。|**核心业务参数调整的标准解**。|
+
+### 议题 2：配置数据访问模型 (Access Model)
+
+|**选项**|**A. 互斥锁保护 (Mutex Lock)**|**B. 双缓冲/原子指针 (Double Buffering / RCU) (推荐)**|
+|---|---|---|
+|**机制**|业务线程每次读配置前加锁：`lock(); val = config.val; unlock();`|业务线程持有 `shared_ptr<Config>`。更新时，`ConfigManager` 原子替换全局指针指向新对象。|
+|**性能**|**差**。高频读取（如每秒 10k 数据包）会导致严重的锁竞争，甚至阻塞更新线程。|**极佳**。读取无锁（仅增加引用计数或直接解引用），写入原子替换。|
+|**一致性**|强一致。|**最终一致**。旧线程继续用旧配置跑完当前帧，新线程用新配置。天然隔离了事务。|
+
+---
+
+## 三、 基线确立与实施规范
+
+为了保障运行时变更的绝对安全，我们确立 **B. 两阶段提交** + **B. 原子指针 (RCU 风格)** 为基线。
+
+### 1. 交互协议时序基线 (Sequence)
+
+定义三个核心事件：
+
+- `ValidateConfigEvent { ConfigID id; ConfigPatch patch; TraceID trace_id; }`
+- `ConfigValidationResultEvent { ConfigID id; string module; bool success; string reason; }`
+- `CommitConfigEvent { ConfigID id; }`
+
+**时序流程**：
+
+1. **发起 (Prepare)**：`ConfigManager` 收到 API 网关的变更请求，发布 `ValidateConfigEvent`。
+2. **投票 (Vote)**：
+
+    - 各模块（`SignalProcessor`, `DataReceiver`）在后台校验新参数（例如：检查新 `threshold` 是否 > 0，检查显存是否够用）。
+    - 模块发布 `ConfigValidationResultEvent` 反馈结果（Yes/No）。
+
+3. **决策 (Decide)**：
+
+    - `ConfigManager` 收集回执。设定超时时间（如 1s）。
+    - **若全票通过**：发布 `CommitConfigEvent`。
+    - **若有反对或超时**：记录错误日志，向 API 网关返回失败，流程终止（不发布 Commit，系统保持原状）。
+
+4. **提交 (Commit)**：
+
+    - 模块收到 `CommitConfigEvent`，执行原子指针替换 (`std::atomic_store`)，新配置即刻生效。
+
+### 2. 模块侧实现规范 (C++14 RCU Pattern)
+
+这是实现“无锁热更新”的关键代码范式。
+
+- **配置持有**：
+
+    ```cpp
+    // 模块内部
+    std::shared_ptr<const ModuleConfig> current_config_;
+    std::mutex config_mutex_; // 仅用于保护指针的替换操作，不保护读取
+    ```
+
+- **业务读取 (Hot Path)**：
+
+    ```cpp
+    void processData() {
+        // 1. 获取当前配置的快照 (引用计数+1)
+        // 在这一帧处理期间，即使外部更新了，config_ptr 指向的内容也不会变，保证了单帧内的逻辑一致性
+        std::shared_ptr<const ModuleConfig> config_ptr = std::atomic_load(&current_config_);
+
+        // 2. 使用配置
+        float threshold = config_ptr->cfar_threshold;
+        // …
+    } // 3. config_ptr 析构，旧配置引用计数-1。如果归零，自动释放内存。
+    ```
+
+- **更新提交 (Cold Path)**：
+
+    ```cpp
+    void onCommitConfig(const CommitConfigEvent& event) {
+        // 1. 构建新配置对象
+        auto new_config = std::make_shared<ModuleConfig>(*current_config_);
+        new_config->applyPatch(event.patch);
+
+        // 2. 原子替换
+        std::atomic_store(&current_config_, new_config);
+
+        // 3. 完成。旧配置对象会随着所有持有它的业务线程结束而被动释放。
+    }
+    ```
+
+### 3. 异常处理基线
+
+- **超时机制**：`ConfigManager` 在发起 `Validate` 后必须启动定时器。如果超时未收到所有模块的回执，视为**验证失败**。
+- **版本对齐**：事件中必须携带 `ConfigID`（版本号或哈希）。模块在 Commit 时必须校验 ID 是否匹配，防止乱序到达的旧指令覆盖新指令。
+
+---
+
+## 总结与下一步行动
+
+我们确立了 **2.3.6 两阶段配置热更新** 的基线：
+
+1. **协议**：**投票 - 提交 (2PC)**，拒绝部分更新。
+2. **实现**：**RCU (Read-Copy-Update)** 模式，读侧无锁，写侧原子替换。
+3. **安全**：**超时自动回滚**。
+
+下一步建议：
+
+至此，控制指令的通道全部打通。最后，我们需要关注“只读”的数据流 —— 2.3.7 性能指标遥测通道。
+
+业务模块如何高频地（如每秒 100 次）上报性能指标（FPS、吞吐量），而完全不影响主业务线程的性能？
+
+**提问**：您是否确认 **“2PC + RCU 无锁替换”** 的热更新基线？确认后我们将完成 2.3 节的最后一个议题 2.3.7。
diff --git a/系统基座文件/2/2.3/2.3.7 性能指标遥测通道 (Performance Telemetry Channel).md b/系统基座文件/2/2.3/2.3.7 性能指标遥测通道 (Performance Telemetry Channel).md
new file mode 100644
index 0000000..e90dbce
--- /dev/null
+++ b/系统基座文件/2/2.3/2.3.7 性能指标遥测通道 (Performance Telemetry Channel).md	
@@ -0,0 +1,134 @@
+---
+tags: []
+date created: 星期五, 十一月 21日 2025, 3:54:54 下午
+date modified: 星期一, 十一月 24日 2025, 4:32:30 下午
+---
+
+# 2.3.7 性能指标遥测通道 (Performance Telemetry Channel)
+
+遵循三阶段模型，我们深入探讨 **2.3.7 性能指标遥测通道 (Performance Telemetry Channel)**。
+
+这是系统的“听诊器”。正如您所嘱咐，这个模块必须兼具**健壮性**（绝不因为发体检报告而把干活的人累死）和**丰富性**（体检报告不能只说“活着”，而要包含详细的心电图、血氧等指标）。
+
+在雷达每秒处理数万脉冲的高压环境下，简单的“打印日志”或“直接发事件”都会瞬间压垮 CPU。我们必须采用**工业级遥测架构**。
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于高频实时系统的特性，我们需对齐以下硬性约束：
+
+1. **零干扰 (Zero Interference)**：业务线程（如信号处理）更新指标时，必须是**无锁 (Lock-free)**、**无系统调用 (No Syscall)**、**无堆内存分配 (No Alloc)** 的。任何锁竞争都会导致处理抖动。
+2. **数据丰富性 (Richness)**：不仅需要简单的计数（Counter），还需要瞬时值（Gauge）和分布统计（Histogram，用于计算 P99 延迟）。
+3. **故障隔离 (Isolation)**：如果监控模块卡死或事件总线堵塞，业务线程必须能自动丢弃指标数据，绝不能被阻塞（Backpressure needs to be lossy for telemetry）。
+
+---
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：数据上报模型 (Reporting Model)
+
+|**选项**|**A. 立即推送 (Fire-and-Forget)**|**B. 线程本地聚合 + 定期刷新 (TLS Aggregation) (推荐)**|
+|---|---|---|
+|**机制**|每次 `counter++` 就 `publishAsync` 一个事件。|业务线程只更新本地变量 (`thread_local`)。后台定时器每秒收集一次并打包发送。|
+|**开销**|**极高**。每秒触发数万次事件总线入队操作，导致上下文切换风暴。|**极低**。热路径上仅是一次内存自增指令 (`INC`)。|
+|**实时性**|实时。|准实时（秒级延迟）。但在监控场景下完全可接受。|
+|**健壮性**|低。总线易过载。|**高**。将高频数据降频为低频快照。|
+
+### 议题 2：统计数据结构 (Metric Data Structure)
+
+|**选项**|**A. 简单原子变量 (Simple Atomic)**|**B. 多维带标签指标 (Tagged Multi-dimensional) (推荐)**|
+|---|---|---|
+|**机制**|全局 `std::atomic<int> g_packet_count;`|`Metrics::Counter("packet_recv", {{"channel", "1"}})->inc();`|
+|**丰富度**|**低**。只能看总数，无法区分通道、流或具体错误码。|**高**。支持维度下钻（Drill-down），能精确定位是哪个通道在丢包。|
+|**性能**|高。|需优化。若每次查找 Map 会慢，需结合 **句柄缓存 (Handle Caching)** 技术。|
+
+---
+
+## 三、 基线确立与实施规范
+
+为了达成“既要马儿跑，又要马儿不吃草”的效果，我们确立 **B. TLS 聚合** + **B. 多维指标体系** 为基线。
+
+### 1. 核心架构：双层缓冲遥测系统
+
+这是一个**读写分离**的设计：
+
+- **业务层 (Writer)**：只通过 `ThreadLocal` 句柄极速写入，无锁。
+- **收集层 (Collector)**：`MetricRegistry` 定期（如 1Hz）遍历所有线程的 TLS，执行原子快照（Snapshot），生成 `MetricsUpdateEvent`。
+
+### 2. 丰富指标类型定义 (Rich Metric Types)
+
+我们在 `TelemetryClient` 中提供三种核心原语：
+
+1. **Counter (计数器)**：
+
+    - _用途_：累计吞吐量、错误总数。
+    - _特性_：只增不减。
+    - _实现_：`std::atomic<uint64_t>`。
+
+2. **Gauge (仪表盘)**：
+
+    - _用途_：队列深度、内存占用、当前温度。
+    - _特性_：可增可减，只关心瞬时值。
+    - _实现_：`std::atomic<int64_t>` 或 `std::atomic<double>`。
+
+3. **Histogram (直方图)**：
+
+    - _用途_：**P99 延迟**、Kernel 执行耗时分布。
+    - _特性_：统计数据落入不同区间的次数。
+    - _实现_：**固定分桶 (Fixed Buckets)**。
+        - _健壮性设计_：严禁使用动态扩容的 `std::vector`。预分配一组原子计数器（如 `<1ms`, `1-5ms`, `5-10ms`, `>10ms`）。这避免了热路径上的内存分配。
+
+### 3. 无锁高性能实现规范 (Hot-Path Optimization)
+
+为了让业务代码写得爽且快，我们引入 **Static Handle** 模式。
+
+- **业务代码示例**：
+
+    ```cpp
+    void SignalProcessor::processFrame() {
+        // 1. 获取句柄 (仅第一次调用时有哈希查找开销，之后是极速指针访问)
+        static auto* latency_hist = Telemetry::GetHistogram("proc_latency_us", {{"module", "dsp"}});
+        static auto* packet_cnt = Telemetry::GetCounter("packets_processed");
+
+        auto start = Now();
+        // … 业务逻辑 …
+        auto duration = Now() - start;
+
+        // 2. 更新指标 (热路径：仅涉及原子操作，耗时 < 10ns)
+        packet_cnt->inc();
+        latency_hist->observe(duration);
+    }
+    ```
+
+### 4. 遥测协议与健壮性保障
+
+- **事件定义**：
+
+    ```cpp
+    struct MetricsUpdateEvent : public BaseEvent {
+        // 使用扁平化 Map 传输快照，减少序列化开销
+        // Key: "proc_latency_us{module=dsp,bucket=1-5ms}" -> Value: 1024
+        std::unordered_map<std::string, double> metrics_snapshot;
+    };
+    ```
+
+- **收集与发送 (Collector Thread)**：
+    - **频率**：默认 **1Hz**。
+    - **兜底策略 (健壮性核心)**：
+        - **TryLock**: 收集线程在抓取快照时，使用 `try_lock`。如果业务线程正在极其罕见地初始化指标（持有锁），收集线程**直接放弃本次采集**，而不是阻塞等待。宁可丢一个点，不可卡顿系统。
+        - **Backpressure**: 发送 `MetricsUpdateEvent` 时，使用 `EventBus::publishAsync`。如果事件总线队列已满（监控模块处理不过来），**直接丢弃该事件**。监控数据允许有损，业务数据不行。
+
+---
+
+## 总结：2.3 章节最终基线图谱
+
+至此，我们完成了 **2.3 内部控制平面通信接口** 的全方位设计。这套神经系统既有雷霆手段（同步抢占），又有细腻心思（全链路追踪），还有强健体魄（无锁遥测）。
+
+|**接口领域**|**核心基线**|**关键技术点**|
+|---|---|---|
+|**2.3.1 总线架构**|**混合双通道 (Sync/Async)**|`publishSync` (指令) vs `publishAsync` (状态)|
+|**2.3.2 追踪传递**|**TLS + 智能闭包捕获**|`TraceContextGuard`, 跨线程自动传递|
+|**2.3.3 生命周期**|**异步指令 + 超时闭环**|`StartModuleEvent` -> `ModuleRunningEvent`|
+|**2.3.4 故障恢复**|**依赖感知四步法**|Pause -> Stop -> Restart -> Resume|
+|**2.3.5 资源保护**|**四级热节流 + 迟滞控制**|温度触发，软件占空比 (`sleep`) 降温|
+|**2.3.6 热更新**|**2PC + RCU**|投票 -> 提交，原子指针替换配置|
+|**2.3.7 性能遥测**|**TLS 聚合 + 定期快照**|`Static Handle` 缓存，无锁热路径，有损发送|
diff --git a/系统基座文件/2/2.4/2.4 外部目标数据分发协议 (External Target Data Distribution Protocol).md b/系统基座文件/2/2.4/2.4 外部目标数据分发协议 (External Target Data Distribution Protocol).md
new file mode 100644
index 0000000..f8b668a
--- /dev/null
+++ b/系统基座文件/2/2.4/2.4 外部目标数据分发协议 (External Target Data Distribution Protocol).md	
@@ -0,0 +1,28 @@
+---
+tags: []
+aliases:
+  - 2.4 外部目标数据分发协议 (External Target Data Distribution Protocol)
+date created: 星期一, 十一月 24日 2025, 11:40:08 晚上
+date modified: 星期一, 十一月 24日 2025, 11:40:45 晚上
+---
+
+# 2.4 外部目标数据分发协议 (External Target Data Distribution Protocol)
+
+- **覆盖范围**：定义核心处理服务器（通过 `DisplayController`）向外部独立显控终端分发高实时性业务数据（如航迹、点迹）的**网络通信契约**。鉴于显控端采用轻量级 2D 渲染，本协议不再包含针对 UI 交互的流控逻辑，而是专注于**全速、单向、无阻塞**的数据推送，仅在接收到系统级热保护指令时执行被动节流。
+  - **2.4.1 传输层拓扑与套接字模型 (Transport Layer Topology & Socket Model)**
+    - **核心指向**：定义数据传输的物理载体。采用 **UDP 单播 (Unicast)** 模式，由服务器作为发送方，向单一客户端推送。强制使用 **非阻塞 (Non-blocking) Socket** 配合 `epoll` 边缘触发模式。鉴于已移除 UI 抢占逻辑，Socket 发送缓冲区 (`SO_SNDBUF`) 应配置为**最大可用值**（如 8MB+），以吸收网络抖动，确保在计算核心全速运转时网络层不成为瓶颈。
+  - **2.4.2 业务数据序列化规范 (Business Data Serialization Specification)**
+    - **核心指向**：定义跨网络二进制格式。继续强制使用 **Google Protobuf (v3)**。数据包根对象 `TrackDataBatch` 必须包含**全链路追踪 ID (`TraceID`)**。由于取消了任务切分，数据包的生成频率将与雷达脉冲处理周期（CPI）严格同步，不再出现因被抢占而导致的“微批次（Micro-batch）”碎片化数据包。
+  - **2.4.3 丢包检测与时序完整性机制 (Packet Loss Detection & Sequencing Integrity)**
+    - **核心指向**：定义数据一致性策略。协议头包含单调递增的 **`batch_sequence_id`**。客户端对于乱序包执行**立即丢弃**策略。由于后端不再因 UI 操作而暂停，客户端应预期收到**极其平稳**的数据流；任何超过 2 个周期的静默都应被客户端判定为“网络故障”而非“后端繁忙”，并触发重连告警。
+  - **2.4.4 热节流响应与流量整形 (Thermal Throttling Response & Traffic Shaping)**
+    - **核心指向**：**（基于 ECN 修正）** 定义在系统过热时的降级行为。当 `DisplayController` 收到 `SetComputeThrottleEvent`（热保护指令）时，必须在网络发送层执行**主动丢包**或**发送间隔插入（Gap Insertion）**，以减少网卡中断和总线功耗。例如，在 `Level 2` 节流状态下，仅发送关键航迹数据（Confirmed Tracks），丢弃所有点迹（Plots）和调试数据，从而降低系统整体热负荷。
+  - **2.4.5 端到端延迟遥测 (End-to-End Latency Telemetry)**
+    - **核心指向**：定义性能监控闭环。数据包必须携带 **“数据生成时间戳”**。客户端计算 **Glass-to-Glass Latency** 并回传。此指标现在主要用于监控网络链路质量和散热系统的有效性（即观察热节流是否导致了延迟显著增加），而非用于调节 UI 渲染优先级。
+
+---
+
+**变更说明 (基于 ECN-2025-001)：**
+1. **移除**：移除了所有关于“为了 UI 响应性而暂停数据发送”的描述。
+2. **新增**：**2.4.4 热节流响应**。这是新架构下唯一合法的“主动降速”场景。
+3. **调整**：在 **2.4.1** 中强调了 Socket 缓冲区配置为“最大值”，因为不再需要担心缓冲区积压影响 UI 线程（UI 线程已与计算/发送线程物理解耦且互不干扰）。
diff --git a/系统基座文件/2/2.4/2.4.1 传输层拓扑与套接字模型 (Transport Layer Topology & Socket Model).md b/系统基座文件/2/2.4/2.4.1 传输层拓扑与套接字模型 (Transport Layer Topology & Socket Model).md
new file mode 100644
index 0000000..7f43a18
--- /dev/null
+++ b/系统基座文件/2/2.4/2.4.1 传输层拓扑与套接字模型 (Transport Layer Topology & Socket Model).md	
@@ -0,0 +1,98 @@
+---
+tags: []
+date created: 星期一, 十一月 24日 2025, 4:14:06 下午
+date modified: 星期一, 十一月 24日 2025, 4:48:23 下午
+---
+
+# 2.4.1 传输层拓扑与套接字模型 (Transport Layer Topology & Socket Model)
+
+## 1. 传输拓扑：UDP 单播直连 (UDP Unicast Direct)
+
+- **基线决策**：采用 **UDP 单播 (Unicast)**，由 `DisplayController` 绑定本地网卡，直接向配置的显控终端 IP 发送数据。
+- **设计论证**：
+    - **去中心化**：避免了组播（Multicast）对交换机 IGMP Snooping 配置的依赖，降低部署复杂度。
+    - **无状态**：相比 TCP，UDP 无需维护连接状态（三次握手/四次挥手），消除 `TIME_WAIT` 资源占用，最适合“发后即忘（Fire-and-Forget）”的遥测场景。
+    - **隔离性**：点对点发送天然隔离了网络风暴，若存在多个显控终端，建议通过应用层复制分发（Application-Layer Fanout），而非网络层组播，以实现对不同终端的差异化流控（例如：给指挥屏发全量数据，给监控屏发降级数据）。
+
+## 2. 套接字模型：非阻塞 + 边缘触发 (Non-blocking + Epoll ET)
+
+为了支撑高频率（如 100Hz+）的数据刷新而不阻塞业务线程，必须采用全异步 I/O 模型。
+
+- **模式基线**：**Non-blocking Socket** + **Epoll Edge Triggered (ET)**。
+- **核心策略：“写优先，等其次” (Write-First, Wait-Later)**
+    - **传统误区**：很多设计是先 `epoll_wait` 等到 `EPOLLOUT` 再写。这在高吞吐场景下是低效的，因为 99% 的时间网络都是可写的，无谓的 `epoll_wait` 增加了系统调用开销。
+    - **基线逻辑**：
+
+        1. **直接发送**：业务线程或发送线程直接调用 `sendto()`。
+        2. **处理拥塞**：仅当 `sendto()` 返回 `EAGAIN` / `EWOULDBLOCK`（内核缓冲区满）时，才将 Socket 加入 `epoll` 监听 `EPOLLOUT` 事件。
+        3. **恢复发送**：当 `epoll` 通知可写时，继续发送剩余数据，并立即移除监听，回归“直接发送”模式。
+
+## 3. 关键配置参数深度解析 (Parameter Tuning)
+
+这里我们不硬定“8MB”，而是给出**基于场景的计算逻辑**。
+
+### 3.1 发送缓冲区 (`SO_SNDBUF`)：突发吸收器
+
+- **设计目标**：吸收 **微突发 (Micro-burst)**。雷达数据通常是脉冲式的，一个 CPI 处理完会瞬间产生大量点迹/航迹数据。Socket 缓冲区必须足够大，能完全容纳“最大可能的单次突发数据量”，让网卡以物理线速慢慢发出去，而不是让应用程序阻塞。
+- 计算公式：
+
+	$$
+		\text{Target Buffer} = \text{Max\_Burst\_Size} \times \text{Safety\_Factor}$$
+
+	- _Max_Burst_Size_：假设最大工况下，一帧（CPI）产生的点迹 + 航迹 + 回波切片总大小。例如：1000 个点迹 (x 64B) + 200 航迹 (x 128B) + 回波切片 (256KB) $\approx$ 350KB。
+	- _Safety_Factor_：考虑到 OS 调度抖动，可能连续积压 2-3 帧数据。取系数 4。
+	- _计算结果_：$350\text{KB} \times 4 \approx 1.4\text{MB}$。
+
+- **配置建议**：
+    - **基线值**：动态计算或设置为 **4MB - 8MB**（留有充足余量）。对于现代服务器内存而言，这个开销极低，但收益（零阻塞）巨大。
+    - **实施**：`setsockopt(fd, SOL_SOCKET, SO_SNDBUF, &size, …)`。注意 Linux 内核会将设置值翻倍以用于元数据，实际可用空间即为设定值。
+
+### 3.2 服务质量标记 (`IP_TOS` / DSCP)：网络特权
+
+- **设计目标**：告诉交换机和路由器，这股数据流是“VIP”，在网络拥塞时优先转发，最后丢弃。
+- **参数选择**：
+    - **DSCP (Differentiated Services Code Point)**：推荐使用 **EF (Expedited Forwarding, 0x2E)** 或 **CS6 (0x30)**。这是仅次于网络控制信令（CS7）的最高优先级，通常用于 VoIP 语音或实时控制数据。
+- **实施**：
+
+    ```cpp
+    int tos = 0xB8; // DSCP EF (101110) << 2
+    setsockopt(fd, IPPROTO_IP, IP_TOS, &tos, sizeof(tos));
+    ```
+
+### 3.3 路径 MTU 发现 (PMTU Discovery)：避免分片
+
+- **现状**：虽然采集链路用了 JUMBO Frame (9000)，但**显控链路通常经过普通交换机或公网，MTU 往往限制在 1500**。
+- **策略**：
+    - **强制禁止分片 (`IP_MTU_DISCOVER` = `IP_PMTUDISC_DO`)**：让内核在数据包超过 MTU 时直接报错 `EMSGSIZE`，而不是默默分片（IP 分片会严重降低 UDP 可靠性，一个分片丢失导致整个包作废）。
+    - **应用层分包**：`DisplayController` 必须根据实际 MTU（如 1472 字节 Payload）在应用层进行切片（Fragmentation）。这与我们后续 2.4.2 的“Atomic Batch”设计不冲突，一个 Batch 可以被切成多个 UDP 包发送，只要包含相同的 `BatchID` 和 `SequenceID` 即可。
+
+## 4. 高效线程模型 (The "Pumper" Thread)
+
+为了彻底隔离网络抖动对计算核心的影响，我们确立 **独立发送线程** 模型。
+
+- **架构**：
+    - **生产者**：`SignalProcessor` 计算完毕，将 `DetectionResult` 对象放入一个 **SPSC (单生产单消费) 无锁队列**。
+    - **消费者 (DisplayController IO Thread)**：
+        - 绑定到非关键 CPU 核心（如 Core 14）。
+        - 死循环从队列取数据。
+        - 执行 Protobuf 序列化。
+        - 执行 `sendto()`。
+        - 若 `EAGAIN`，则 `epoll_wait()`。
+- **收益**：
+    - **序列化卸载**：Protobuf 序列化是 CPU 密集型操作，将其移出信号处理主线程，保护了核心计算资源。
+    - **故障隔离**：即使网络断开、Socket 缓冲区塞满，影响的也只是这个 IO 线程（队列满后丢弃新数据），绝不会阻塞 FFT/CFAR 运算。
+
+---
+
+## 总结：2.4.1 基线图谱
+
+|**配置项**|**核心基线**|**设计意图**|
+|---|---|---|
+|**拓扑**|**UDP Unicast**|简单、高效、无状态。|
+|**I/O 模型**|**Non-blocking + Epoll ET**|" 写优先 " 策略，最大化吞吐，最小化系统调用。|
+|**发送缓冲**|**动态计算 (Max Burst x 4)**|约 4MB-8MB。吸收脉冲式突发，防止应用层阻塞。|
+|**QoS**|**DSCP EF / CS6**|确保在交换机侧的转发优先级。|
+|**分片策略**|**禁止 IP 分片 + 应用层切分**|避免 IP 分片重组风险，提升丢包恢复能力。|
+|**线程模型**|**独立 IO 线程 + SPSC 队列**|隔离网络抖动与序列化开销，保护计算核心。|
+
+**提问**：您是否确认 **“非阻塞 +Epoll ET”** 模型以及 **“独立线程序列化与发送”** 的架构基线？确认后我们将进入 **2.4.2 业务数据序列化规范**，讨论数据具体怎么“打包”。
diff --git a/系统基座文件/2/2.4/2.4.2 业务数据序列化规范 (Business Data Serialization Specification).md b/系统基座文件/2/2.4/2.4.2 业务数据序列化规范 (Business Data Serialization Specification).md
new file mode 100644
index 0000000..dd4683f
--- /dev/null
+++ b/系统基座文件/2/2.4/2.4.2 业务数据序列化规范 (Business Data Serialization Specification).md	
@@ -0,0 +1,142 @@
+---
+tags: []
+date created: 星期一, 十一月 24日 2025, 4:21:43 下午
+date modified: 星期一, 十一月 24日 2025, 4:38:46 下午
+---
+
+# 2.4.2 业务数据序列化规范 (Business Data Serialization Specification)
+
+## 1. 技术选型基线：Protocol Buffers V3
+
+- **基线决策**：继续沿用 **Google Protobuf v3**。
+- **论证**：Protobuf 提供的 **Schema Evolution（模式演进）** 能力对于雷达这种生命周期长达数年的系统至关重要。它允许我们在未来添加新的字段（如“目标分类置信度”或“干扰源类型”）而不破坏旧版显控软件的兼容性。
+
+## 2. 根消息结构定义 (Root Schema Definition)
+
+基于 **TDP-2.4-DIST**（分布式补丁）和 **ECN-2025-001**（显控扁平化），我们需要对 `04_序列化与网络协议.md` 中定义的 `TrackDataBatch` 进行**重大升级**。
+
+以下是最终确立的 `.proto` 契约：
+
+```Protocol Buffers
+syntax = "proto3";
+package radar.ipc;
+
+// 2.4.2 核心契约：原子业务数据批次
+message TrackDataBatch {
+    // --- 传输层元数据 ---
+
+    // [分布式核心] 站点/阵面唯一标识 (Station ID)
+    // 必须由配置管理模块注入，用于显控端区分数据源
+    uint32 station_id = 1;
+
+    // [丢包检测] 批次序列号 (单调递增)
+    // 仅在单个 Station 内连续。显控端需按 StationID 分别统计丢包率。
+    uint64 batch_sequence_id = 2;
+
+    // [完整性] 全链路校验和 (CRC32c)
+    // 覆盖除本字段外的所有数据。
+    uint32 checksum = 3;
+
+    // --- 业务层元数据 ---
+
+    // [时序基准] 数据生成时间戳 (UTC Microseconds)
+    // 必须基于总控授时校正后的软时钟，严禁使用本地 Uptime。
+    // 显控端据此进行多站数据的时空对齐。
+    uint64 timestamp_us = 4;
+
+    // [可观测性] 全链路追踪 ID
+    // 继承自处理该 CPI 数据的 TraceContext
+    uint64 trace_id = 5;
+
+    // [流控状态] 当前节流等级 (反馈给显控端)
+    // 0=全速, 1=轻微, 2=严重。显控端可据此提示用户"当前数据已降级"。
+    uint32 throttle_level = 6;
+
+    // --- 业务负载 (Atomic Payload) ---
+
+    // 确认航迹 (高价值，节流时优先保留)
+    repeated TrackMessage tracks = 7;
+
+    // 原始点迹 (低价值，量大，节流时优先丢弃)
+    repeated PlotMessage plots = 8;
+
+    // 系统状态/心跳信息 (可选，用于带外健康监测)
+    SystemStatusMessage system_status = 9;
+}
+
+// 单个航迹定义 (精简版，详细物理含义见 02_核心数据结构.md)
+message TrackMessage {
+    uint64 track_id = 1;
+    TrackStatus status = 2; // TENTATIVE, CONFIRMED, COAST, LOST
+
+    // 状态向量 (位置+速度)
+    // 建议统一使用 WGS84 (经纬高) 或 地心笛卡尔坐标 (ECEF)
+    // 以避免极坐标在分布式融合时的歧义
+    double pos_x = 3;
+    double pos_y = 4;
+    double pos_z = 5;
+    double vel_x = 6;
+    double vel_y = 7;
+    double vel_z = 8;
+
+    // 协方差矩阵 (可选，用于高级融合)
+    repeated float covariance = 9;
+}
+```
+
+## 3. 序列化策略：原子批次 (Atomic Batch) Vs 微批次 (Micro-batch)
+
+- **旧设计遗留问题**：在之前的设计讨论中（未实施），为了配合“抢占式调度”，曾考虑将一个 CPI 的数据切碎发送。
+- **新基线 (ECN-2025-001)**：
+    - **策略**：**原子批次 (Atomic Batch)**。
+    - **定义**：一个 Protobuf `TrackDataBatch` 消息 **严格对应一个雷达处理周期 (CPI)** 的所有产出物。
+    - **行为**：`DisplayController` 等待 `DataProcessor` 输出完整的航迹列表后，一次性打包。
+    - **收益**：显控端逻辑大幅简化。收到一个包，就是一帧完整的态势图，无需处理“半帧”数据或进行复杂的跨包重组。
+
+## 4. C++ 与 Protobuf 的映射效率优化
+
+虽然 Protobuf 很快，但从 C++ `struct TrackData` 到 Protobuf `message TrackMessage` 的转换仍然涉及内存拷贝和遍历。为了在 100Hz+ 的刷新率下不成为瓶颈：
+
+- **预分配 (Reserve)**：在构建 `TrackDataBatch` 时，根据 C++ `vector` 的大小，预先调用 Protobuf 的 `MutableRepeatedPtrField::Reserve()`，避免多次内存重分配。
+- **移动语义 (Move Semantics)**：Protobuf v3 在 C++ 中支持 `std::move`。如果序列化是在独立的 I/O 线程中进行（见 2.4.1），我们可以考虑直接接管数据所有权，但通常 Protobuf 生成的代码需要 Setter 拷贝。
+    - _优化技巧_：对于包含大量数据的字段（如点迹列表），如果在 C++ 端也使用了类似 Protobuf 的内存布局（连续内存），可以使用 `Arena Allocation` 或自定义反射来加速，但在本系统中，**简单的字段赋值配合编译器优化（-O3）通常已足够，不必过度优化**。
+
+## 5. 节流与数据剪裁 (Throttling & Pruning)
+
+基于 **2.3.5 热节流控制**，序列化模块必须实现**内容感知剪裁**：
+
+```cpp
+void DisplayController::serializeAndSend(const TrackDataPacket& packet) {
+    radar::ipc::TrackDataBatch pb_batch;
+
+    // 1. 填充元数据 (StationID, TraceID, Timestamp…)
+
+    // 2. 获取当前节流等级 (通过原子变量读取)
+    auto level = throttle_level_.load();
+    pb_batch.set_throttle_level(level);
+
+    // 3. 内容剪裁逻辑
+    if (level < 2) {
+        // Level 0/1: 发送全量数据
+        for (const auto& plot : packet.plots) { /* 转换点迹 */ }
+    }
+
+    // 始终发送航迹 (除非 Level 3 暂停)
+    for (const auto& track : packet.tracks) { /* 转换航迹 */ }
+
+    // 4. 序列化并发送
+    // …
+}
+```
+
+---
+
+# 总结：2.4.2 基线图谱
+
+| **规范项** | **核心基线**                | **变更说明 (vs 旧文档)**   |
+| ------- | ----------------------- | ------------------- |
+| **格式**  | **Protobuf v3**         | 保持不变。               |
+| **标识**  | **StationID + TraceID** | 新增 StationID 支持分布式。 |
+| **时序**  | **UTC Timestamp**       | 取代本地时间，支持总控同步。      |
+| **粒度**  | **Atomic CPI Batch**    | 废弃微批次，简化接收端逻辑。      |
+| **流控**  | **内容剪裁 (Pruning)**      | 根据节流等级动态丢弃 Plot 字段。 |
diff --git a/系统基座文件/2/2.4/2.4.3 丢包检测与时序完整性机制 (Packet Loss Detection & Sequencing Integrity).md b/系统基座文件/2/2.4/2.4.3 丢包检测与时序完整性机制 (Packet Loss Detection & Sequencing Integrity).md
new file mode 100644
index 0000000..2256318
--- /dev/null
+++ b/系统基座文件/2/2.4/2.4.3 丢包检测与时序完整性机制 (Packet Loss Detection & Sequencing Integrity).md	
@@ -0,0 +1,120 @@
+---
+tags: []
+date created: 星期一, 十一月 24日 2025, 4:25:06 下午
+date modified: 星期一, 十一月 24日 2025, 4:29:22 下午
+---
+
+# 2.4.3 丢包检测与时序完整性机制 (Packet Loss Detection & Sequencing Integrity)
+
+这是显控终端的“网络听诊器”。在单向 UDP 传输模式下，显控端不仅是被动的数据消费者，更是链路质量的唯一评判者。它需要利用 2.4.2 定义的协议头字段，实时诊断出“谁丢包了”、“延迟多少”、“服务器是否过热”，并将这些隐性故障转化为显性的运维指标。
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于 TDP-2.4-DIST（分布式补丁）和 ECN-2025-001（显控扁平化），我们需对齐以下硬性约束：
+
+1. **多源独立性**：丢包检测必须**按站点 (StationID) 隔离**。站点 A 的网络抖动绝不能触发站点 B 的告警。
+2. **时钟假设**：显控终端作为系统的一部分，假设已通过 NTP/PTP 与总控服务器同步。因此，`timestamp_us` 可用于计算绝对的端到端延迟（Glass-to-Glass Latency）。
+3. **处理策略**：显控端对于乱序包执行**立即丢弃**策略，以保证态势图的实时性。
+
+---
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：丢包判决逻辑 (Loss Judgment Logic)
+
+|**选项**|**A. 简单间隙检测 (Simple Gap)**|**B. 统计窗口平滑 (Sliding Window Stats) (推荐)**|
+|---|---|---|
+|**机制**|只要 `Seq != Last + 1` 就报警。|维护 1 秒滑动窗口。统计窗口内的丢包率 (PLR)。仅当 `PLR > 阈值` 时报警。|
+|**灵敏度**|**极高**。偶发的单个丢包也会导致界面闪烁告警，造成“狼来了”效应。|**适中**。过滤掉偶发的网络毛刺，关注持续性的链路质量恶化。|
+|**适用性**|调试模式。|**生产环境标准解**。|
+
+### 议题 2：时序异常处理 (Timing Anomaly)
+
+|**选项**|**A. 仅基于序列号 (Seq Only)**|**B. 序列号 + 时间戳双重校验 (Seq + Time) (推荐)**|
+|---|---|---|
+|**机制**|序列号递增即接收。|序列号递增 **且** `Timestamp > LastTimestamp`。|
+|**风险**|无法检测“服务器时钟回跳”或“重放攻击”。|**高健壮性**。防止因服务器端时钟故障导致的逻辑混乱。|
+
+---
+
+## 三、 基线确立与实施规范
+
+为了构建一个“可诊断”的显控终端，我们确立 **B. 统计窗口平滑** + **B. 双重校验** 为基线。
+
+### 1. 诊断上下文状态机 (Diagnostic Context)
+
+显控端必须为**每一个**检测到的 `station_id` 维护一个独立的诊断上下文：
+
+```cpp
+struct StationDiagnosticContext {
+    uint32_t station_id;
+
+    // 序列跟踪
+    uint64_t last_seq_id = 0;
+    uint64_t last_timestamp_us = 0;
+
+    // 统计窗口 (1s)
+    uint32_t expected_packets = 0;
+    uint32_t lost_packets = 0;
+
+    // 链路状态
+    bool connected = false;
+    uint64_t last_seen_local_us = 0; // 用于检测静默/断连
+};
+```
+
+### 2. 核心诊断逻辑基线
+
+显控端收到 `TrackDataBatch` 后的标准处理流水线：
+
+- **步骤 1：源识别**
+    - 读取 `station_id`。
+    - 在 Map 中查找对应的 `StationDiagnosticContext`。若无，则创建新上下文（视为新站点上线）。
+- **步骤 2：时序完整性检查 (Sequencing)**
+    - **乱序/重复**：`if (batch.seq <= ctx.last_seq)` -> **立即丢弃**。记录 `Out-of-Order` 计数。
+    - **丢包**：`if (batch.seq > ctx.last_seq + 1)` -> **判定为丢包**。
+        - 丢包数 `loss = batch.seq - ctx.last_seq - 1`。
+        - 更新统计：`ctx.lost_packets += loss`。
+    - **更新**：`ctx.last_seq = batch.seq`。
+- **步骤 3：端到端延迟遥测 (Latency Telemetry)**
+    - **计算**：`latency = Now() - batch.timestamp_us`。
+    - **诊断**：
+        - 若 `latency > 200ms`（典型阈值）：标记为 **"High Latency"**。
+        - 若 `latency < 0`：标记为 **"Clock Skew"**（时钟不同步警告）。
+- **步骤 4：服务器健康感知 (Server Health)**
+    - 读取 `throttle_level`。
+    - **可视化**：
+        - `Level 0`：绿色（正常）。
+        - `Level 1`：黄色（轻微发热）。显控端右上角显示小图标提示。
+        - `Level 2`：红色（严重过热）。显控端弹出 Toast 提示“数据已降级”。
+
+### 3. 断连判定机制 (Dead Link Detection)
+
+- **机制**：显控端需运行一个独立的 1Hz 定时器，遍历所有 `StationDiagnosticContext`。
+- **判据**：`if (Now() - ctx.last_seen_local_us > 2000ms)`。
+- **动作**：
+    - 将该 Station 标记为 **"Disconnected"**。
+    - 在态势图上灰置或清除该站点的所有目标。
+    - 触发声音告警。
+
+---
+
+## 总结：2.4.3 基线图谱
+
+|**诊断维度**|**字段来源**|**判定逻辑**|**显控端行为**|
+|---|---|---|---|
+|**丢包 (Loss)**|`batch_sequence_id`|`Current > Last + 1`|统计丢包率，不补发，仅告警。|
+|**乱序 (Reorder)**|`batch_sequence_id`|`Current <= Last`|**静默丢弃**，防止画面回跳。|
+|**延迟 (Latency)**|`timestamp_us`|`LocalTime - Timestamp`|超过阈值（如 200ms）提示“数据滞后”。|
+|**断连 (Dead)**|(本地接收时间)|`Silence > 2s`|标记站点离线，清空目标。|
+|**过热 (Thermal)**|`throttle_level`|`Level > 0`|UI 显性提示用户“服务器过热/数据降级”。|
+
+下一步行动：
+
+至此，我们已经完整定义了数据如何发（2.4.1/2.4.2）以及如何收（2.4.3）。2.4.4 热节流响应 在之前的讨论中已经涵盖（作为 Server 端行为），2.4.5 的核心也在本节的延迟遥测中定义了。
+
+**建议**：我们可以结束 **2.4 外部目标数据分发协议** 的讨论，进入 **2.5 数据结构定义与序列化规范**（虽然我们在 2.4.2 中已经定义了 Proto，但可能还需要补充 C++ 内部结构体定义），或者直接进入 **第三章：异构计算架构与资源调度**。
+
+鉴于我们在 2.4.2 中已经非常详细地定义了 `.proto`，且 `02_核心数据结构.md` 已经提供了 C++ 结构体定义，我建议**跳过 2.5**（除非您有特定结构体需要深究），直接进入 **第三章**，去解决最硬核的计算资源分配问题。
+
+**提问**：您是否确认 **2.4.3 的多站独立诊断基线**？确认后我们是否直接进入 **第三章**？
diff --git a/系统基座文件/2/2.4/2.4.4 热节流响应与流量整形 (Thermal Throttling Response & Traffic Shaping).md b/系统基座文件/2/2.4/2.4.4 热节流响应与流量整形 (Thermal Throttling Response & Traffic Shaping).md
new file mode 100644
index 0000000..9106144
--- /dev/null
+++ b/系统基座文件/2/2.4/2.4.4 热节流响应与流量整形 (Thermal Throttling Response & Traffic Shaping).md	
@@ -0,0 +1,121 @@
+---
+tags: []
+aliases:
+  - 2.4.4 热节流响应与流量整形 (Thermal Throttling Response & Traffic Shaping)
+date created: 星期一, 十一月 24日 2025, 4:33:19 下午
+date modified: 星期一, 十一月 24日 2025, 4:38:23 下午
+---
+
+# 2.4.4 热节流响应与流量整形 (Thermal Throttling Response & Traffic Shaping)
+
+这是数据网关的“被动防御机制”。不同于 2.3.5 中 `SignalProcessor` 的**主动降速**（通过 `sleep` 减少计算热量），`DisplayController` 在此处的任务是通过**减少数据发送量**和**降低发送频率**，来降低 CPU 的序列化开销、PCIe 总线功耗以及网卡的中断频率，从而辅助系统整体降温。
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于 ECN-2025-001 和之前的讨论，我们需对齐以下硬性约束：
+
+1. **被动执行**：`DisplayController` 不感知温度，只响应 `SetComputeThrottleEvent` 指令。
+2. **原子性保持**：即使在节流状态下，发送出去的 `TrackDataBatch` 仍然必须是**原子批次**。严禁将一个 CPI 的数据拆成两半发送（例如发一半航迹），这会破坏显控端的一致性。
+3. **优先级明确**：
+
+    - **P0 (保命)**：确认航迹 (Confirmed Tracks)。这是雷达存在的意义。
+    - **P1 (辅助)**：未确认航迹 (Tentative)、系统状态。
+    - **P2 (冗余)**：点迹 (Plots)、调试日志、原始回波切片。
+
+---
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题：流量整形策略 (Shaping Strategy)
+
+|**选项**|**A. 仅内容剪裁 (Content Pruning)**|**B. 仅频率抽稀 (Frame Skipping)**|**C. 混合降级 (Hybrid Degradation) (推荐)**|
+|---|---|---|---|
+|**机制**|保持 100Hz 发送频率，但把包里的点迹删掉，包变小了。|保持包内容完整，但每隔一帧发一帧（降为 50Hz）。|**轻度过热**时剪裁内容；**重度过热**时既剪裁内容又抽稀频率。|
+|**热收益**|**中**。减少了序列化开销和带宽，但网卡中断频率没变（依然是 100Hz）。|**高**。网卡中断减半，序列化开销减半。|**极高**。全方位降低负载。|
+|**显控体验**|**流畅但空洞**。画面依然丝滑，只是点迹没了。|**卡顿但丰富**。画面有顿挫感，但信息量全。|**平滑过渡**。优先保流畅，实在不行再保生存。|
+
+---
+
+## 三、 基线确立与实施规范
+
+为了在“保护硬件”和“维持态势感知”之间取得最佳平衡，我们确立 **C. 混合降级** 为基线。
+
+### 1. 节流等级映射表 (Throttling Mapping Table)
+
+我们定义各级节流状态下，`DisplayController` 的具体行为规范：
+
+|**节流等级 (Throttle Level)**|**发送频率 (Frequency)**|**内容策略 (Content Policy)**|**显控端表现**|
+|---|---|---|---|
+|**L0 (NO_THROTTLE)**|**100% (全速)**|**全量** (航迹 + 点迹 + 状态 + 调试)|正常显示。|
+|**L1 (LIGHT)**|**100% (全速)**|**剪裁 P2** (丢弃点迹、调试信息)。保留所有航迹。|画面流畅，但背景点迹消失。提示 "Data Pruned"。|
+|**L2 (HEAVY)**|**50% (二抽一)**|**剪裁 P1+P2** (仅保留**确认航迹**)。|画面帧率减半 (50Hz)，仅显示核心目标。提示 "Low Rate"。|
+|**L3 (SUSPEND)**|**0% (暂停)**|**停止发送** (仅发心跳包维持连接)。|画面静止/黑屏。提示 "Server Overheat"。|
+
+### 2. 实现规范：发送间隔插入 (Gap Insertion)
+
+为了实现 L2 级别的降频，我们不能依赖上游 `SignalProcessor` 的降速（虽然它也在降，但我们要在网络层做双重保险）。
+
+- **位置**：`DisplayController` 的独立 IO 线程循环中。
+- **逻辑**：维护一个 `frame_counter`。
+- **代码范式**：
+
+    ```cpp
+    void DisplayController::ioLoop() {
+        uint64_t frame_counter = 0;
+
+        while (running_) {
+            // 1. 从队列取数据
+            TrackDataPacket packet;
+            if (!queue_.pop(packet)) continue; // Non-blocking pop or wait
+
+            // 2. 获取当前节流等级 (原子读取，无锁)
+            auto level = current_throttle_level_.load(std::memory_order_relaxed);
+
+            // 3. L3 级熔断：直接丢弃，仅维持心跳
+            if (level == Level::SUSPEND) {
+                sendHeartbeat();
+                continue;
+            }
+
+            // 4. L2 级抽稀：Gap Insertion (每2帧丢1帧)
+            frame_counter++;
+            if (level == Level::HEAVY && (frame_counter % 2 != 0)) {
+                continue; // Drop this frame completely
+            }
+
+            // 5. L1/L2 级内容剪裁 (在序列化前执行，节省CPU)
+            if (level >= Level::LIGHT) {
+                packet.plots.clear(); // 丢弃点迹
+                packet.debug_info.clear();
+            }
+            if (level >= Level::HEAVY) {
+                // 仅保留确认航迹
+                packet.tracks.erase(
+                    std::remove_if(packet.tracks.begin(), packet.tracks.end(),
+                        [](const Track& t){ return t.status != CONFIRMED; }),
+                    packet.tracks.end());
+            }
+
+            // 6. 序列化并发送 (Protobuf Encode -> sendto)
+            serializeAndSend(packet);
+        }
+    }
+    ```
+
+### 3. 流量整形对丢包检测的影响 (2.4.3 联动)
+
+- **问题**：如果在 L2 级别主动抽稀（丢弃偶数帧），显控端会不会误判为“丢包”？
+- **解决方案**：
+    - **序列号连续性**：`batch_sequence_id` 是在**序列化步骤（第 6 步）**生成的。
+    - **结论**：被主动丢弃的帧（第 4 步）根本不会获得序列号。因此，发送出去的数据包序列号**依然是连续的**。显控端不会误报丢包，只会感知到数据刷新变慢（两次更新的时间间隔变大）。这是非常优雅的设计。
+
+---
+
+## 总结：2.4.4 基线图谱
+
+|**策略维度**|**核心基线**|**设计意图**|
+|---|---|---|
+|**响应模式**|**被动执行**|听从 `ResourceCoordinator` 指挥，不独立决策。|
+|**L1 策略**|**内容剪裁 (Pruning)**|牺牲次要数据，保流畅度，降序列化开销。|
+|**L2 策略**|**频率抽稀 (Skipping)**|牺牲刷新率，保核心数据，降中断和总线功耗。|
+|**序列号**|**后置生成**|确保主动丢弃不破坏传输层的序列连续性。|
diff --git a/系统基座文件/2/2.4/2.4.5 端到端延迟遥测 (End-to-End Latency Telemetry).md b/系统基座文件/2/2.4/2.4.5 端到端延迟遥测 (End-to-End Latency Telemetry).md
new file mode 100644
index 0000000..0921b51
--- /dev/null
+++ b/系统基座文件/2/2.4/2.4.5 端到端延迟遥测 (End-to-End Latency Telemetry).md	
@@ -0,0 +1,111 @@
+---
+tags: []
+aliases:
+  - 2.4.5 端到端延迟遥测 (End-to-End Latency Telemetry)
+date created: 星期一, 十一月 24日 2025, 4:49:40 下午
+date modified: 星期一, 十一月 24日 2025, 4:50:25 下午
+---
+
+# 2.4.5 端到端延迟遥测 (End-to-End Latency Telemetry)
+
+这是系统的“后视镜”。它不再用于实时的流控反馈（因为抢占逻辑已移除），而是作为核心的**运维监控指标 (Observability Metric)**。它回答了一个终极问题：“现在的网络和负载状况下，用户看到的数据到底是多久以前的？”
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于 TDP-2.4-DIST（分布式补丁）和之前确立的基线，我们需对齐以下硬性约束：
+
+1. **时钟基准 (Time Reference)**：所有计算必须基于**统一的 UTC 时间**。服务器（发送端）和显控（接收端）均已通过总控服务器授时（NTP/PTP），误差假设在可控范围内（如 < 10ms）。
+2. **闭环路径 (Feedback Path)**：显控端计算出的延迟数据，需要回传给服务器端的 `MonitoringModule`，以便在统一的监控大屏上展示。
+3. **统计意义 (Statistical Significance)**：单帧的延迟没有意义（可能是网络抖动），我们关注的是 **P99 延迟** 和 **平均延迟** 的趋势。
+
+---
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：回传通道选择 (Feedback Channel)
+
+|**选项**|**A. 双向 UDP (Bidirectional UDP)**|**B. 带外 TCP/HTTP (Out-of-Band HTTP) (推荐)**|
+|---|---|---|
+|**机制**|显控端通过 UDP 向服务器的特定端口发回 `Ack/Stats` 包。|显控端调用服务器提供的 REST API 上报统计数据。|
+|**实时性**|**高**。|**低**（秒级）。|
+|**耦合度**|**高**。需要在 `DisplayController` 中增加接收逻辑，破坏了其“单向数据泵”的纯粹性。|**低**。直接复用 `API Gateway` 和 `MonitoringModule` 的现有接口。|
+|**适用性**|实时流控（已废弃）。|**长周期监控与健康分析**。|
+
+### 议题 2：指标计算策略 (Calculation Strategy)
+
+|**选项**|**A. 瞬时值上报 (Instant Reporting)**|**B. 客户端聚合 (Client-Side Aggregation) (推荐)**|
+|---|---|---|
+|**机制**|每收到一包数据，就计算 `Now - Ts` 并上报。|客户端维护 1 分钟的 Histogram，计算 P99/Avg，定期上报汇总值。|
+|**带宽开销**|**高**。回传流量巨大，浪费网络。|**极低**。每分钟仅几百字节。|
+|**价值**|包含噪声，难以分析。|**高价值**。直接反映一段时间内的服务质量 (QoS)。|
+
+---
+
+## 三、 基线确立与实施规范
+
+为了构建一个闭环的监控体系，我们确立 **B. 带外 HTTP 回传** + **B. 客户端聚合** 为基线。
+
+### 1. 核心指标定义 (Metrics Definition)
+
+- **E2E Latency (Glass-to-Glass)**: $\text{Latency} = T_{Client\_Recv} - T_{Server\_Gen}$
+    - $T_{Server\_Gen}$: `TrackDataBatch.timestamp_us` (UTC)。
+    - $T_{Client\_Recv}$: 显控端收到 UDP 包时的本地系统时间 (UTC)。
+- **意义**：
+    - **正常范围**：< 50ms (局域网) / < 200ms (广域网)。
+    - **异常推断**：如果 Latency 突然飙升但没有丢包，说明发生了 **Bufferbloat (缓冲区膨胀)**，可能是 2.4.4 的节流机制介入过晚，或者网络设备队列堵塞。
+
+### 2. 显控端实现规范 (Client-Side Implementation)
+
+显控端应启动一个后台任务，负责统计和上报：
+
+```cpp
+// 伪代码：客户端遥测聚合器
+class TelemetryAggregator {
+    // 统计窗口数据 (1Hz 刷新)
+    std::vector<uint64_t> latency_samples;
+    uint64_t packet_loss_count = 0;
+
+public:
+    void onPacketReceived(const TrackDataBatch& batch) {
+        uint64_t now = GetUtcTimeUs();
+        int64_t latency = now - batch.timestamp_us;
+
+        // 过滤掉因为时钟不同步导致的负值
+        if (latency > 0) latency_samples.push_back(latency);
+    }
+
+    // 每 60 秒执行一次上报
+    void reportLoop() {
+        while (running) {
+            sleep(60);
+
+            // 1. 计算统计值
+            double avg = CalculateAvg(latency_samples);
+            double p99 = CalculateP99(latency_samples);
+
+            // 2. 构建 JSON 报告
+            json report = {
+                {"station_id", station_id},
+                {"latency_p99_ms", p99 / 1000.0},
+                {"latency_avg_ms", avg / 1000.0},
+                {"packet_loss_rate", CalculateLossRate()}
+            };
+
+            // 3. 调用 API 上报 (复用 05_数据完整性与可靠性.md 定义的接口)
+            HttpPost("http://server_ip:8080/api/v1/metrics/client", report);
+
+            // 4. 重置窗口
+            latency_samples.clear();
+        }
+    }
+};
+```
+
+### 3. 服务端处理基线
+
+- **接收者**：`API Gateway` 接收 HTTP POST 请求。
+- **路由**：转换为 `ClientMetricsUpdateEvent` 发布到事件总线。
+- **消费者**：`MonitoringModule` 订阅该事件，并将指标存储到时序数据库（如 Prometheus/InfluxDB），用于生成 Grafana 仪表盘。
+- **告警**：如果 `latency_p99 > 500ms` 持续 3 分钟，触发 **"Network Degradation"** 告警。
+
+---
diff --git a/系统基座文件/2/2.5/2.5 数据结构定义与序列化规范.md b/系统基座文件/2/2.5/2.5 数据结构定义与序列化规范.md
new file mode 100644
index 0000000..4451ad5
--- /dev/null
+++ b/系统基座文件/2/2.5/2.5 数据结构定义与序列化规范.md	
@@ -0,0 +1,29 @@
+---
+tags: []
+aliases:
+  - 2.5 数据结构定义与序列化规范 (Data Structure Definition & Serialization Specification)
+date created: 星期一, 十一月 24日 2025, 5:21:10 下午
+date modified: 星期一, 十一月 24日 2025, 5:21:21 下午
+---
+
+# 2.5 数据结构定义与序列化规范 (Data Structure Definition & Serialization Specification)
+
+- **覆盖范围**：定义系统内外部数据交互的**静态契约**。该规范严格区分 **“内部原生对象（In-Memory Native Objects）”** 与 **“外部传输契约（On-Wire Contracts）”**，并界定两者之间的**转换边界**。内部关注极致的计算性能（SIMD 对齐、零拷贝），外部关注跨语言/跨平台的互操作性（Protobuf）。
+    - **2.5.1 内部高性能业务对象模型 (Internal High-Performance Business Object Model)**
+        - **核心指向**：定义在 `DataReceiver` -> `SignalProcessor` -> `DataProcessor` 流水线中流转的 C++ 原生结构体（DTO）。涵盖 `DetectionResult`（点迹）和 `TrackData`（航迹）的内存布局设计，强制使用 **POD (Plain Old Data)** 类型，并应用 `alignas(16/32)` 以适配 **SIMD (AVX/NEON)** 向量化指令优化，严禁在核心计算路径上使用虚函数或复杂对象。
+    - **2.5.2 内部控制事件模式定义 (Internal Control Event Schema Definition)**
+        - **核心指向**：定义在 `EventBus` 上流转的控制信令结构。所有事件必须继承自 `BaseEvent`，并强制包含 **全链路追踪 ID (`TraceID`)** 和 **高精度时间戳**。事件负载（Payload）必须保持轻量（通常仅包含状态码、配置键值对或对象 ID），严禁携带大块业务数据（如 I/Q 波形），以保障控制平面的低延迟响应。
+    - **2.5.3 外部数据交换契约 (External Data Exchange Contract)**
+        - **核心指向**：定义系统向外部（显控终端、API 网关）输出数据的接口定义语言 (IDL)。强制选用 **Google Protobuf (v3)** 作为唯一标准。涵盖 `.proto` 文件的版本管理规范（语义化版本控制），以及字段的 **向前/向后兼容性** 设计原则（如使用 `optional` 字段，保留 `reserved` 标识符），确保前后端可独立演进。
+    - **2.5.4 零拷贝数据容器规范 (Zero-Copy Data Container Specification)**
+        - **核心指向**：定义承载内部业务对象的通用包装器 `DataPacket<T>`。涵盖其 **Header** 的标准化元数据（序列号、源模块、TraceID），以及 **Payload** 的所有权管理机制——必须使用 `std::unique_ptr` 配合 **自定义删除器 (Custom Deleter)**，以实现内存块在生命周期结束时的自动归还（回收到 `MemoryPool`），彻底消除内存泄漏风险。
+    - **2.5.5 序列化边界与映射策略 (Serialization Boundary & Mapping Strategy)**
+        - **核心指向**：定义“内部对象”转换为“外部格式”的**唯一合法位置**。明确规定 **仅在 `DisplayController`（数据网关）** 和 **`ApiCommandService`（API 响应）** 处进行序列化操作。涵盖从 C++ Struct 到 Protobuf Message 的字段映射逻辑（Mapping Logic），以及在边界处进行 **数据清洗与脱敏** 的安全规范。
+
+---
+
+**核心变更点解析：**
+
+1. **分离定义**：明确将 2.5.1 (内部高性能 C++) 与 2.5.3 (外部 Protobuf) 分开。旧设计可能在内部也混用了序列化对象，这是性能杀手，新设计予以纠正。
+2. **容器规范**：新增 2.5.4，将 `DataPacket<T>` 和智能指针管理提升为核心规范，这是“零拷贝”落地的关键载体。
+3. **边界管控**：新增 2.5.5，显式定义“序列化边界”。这是架构师视角的管控点，防止开发人员在内部模块（如信号处理）随意进行序列化导致性能劣化。
diff --git a/系统基座文件/2/2.5/2.5.1 内部高性能业务对象模型 (Internal High-Performance Business Object Model).md b/系统基座文件/2/2.5/2.5.1 内部高性能业务对象模型 (Internal High-Performance Business Object Model).md
new file mode 100644
index 0000000..38673b5
--- /dev/null
+++ b/系统基座文件/2/2.5/2.5.1 内部高性能业务对象模型 (Internal High-Performance Business Object Model).md	
@@ -0,0 +1,170 @@
+---
+tags: []
+date created: 星期一, 十一月 24日 2025, 5:32:36 下午
+date modified: 星期一, 十一月 24日 2025, 10:39:00 晚上
+---
+
+# 2.5.1 内部高性能业务对象模型 (Internal High-Performance Business Object Model)
+
+基线核心宗旨：“Hardware-First (硬件优先)”。
+
+内部数据对象的设计不再是为了“方便编程”，而是为了适配 CPU 缓存行 (Cache Line)、迎合 SIMD 指令集 (AVX/NEON) 以及 最小化内存带宽消耗。
+
+---
+
+## 1. 核心设计契约 (Design Contracts)
+
+在定义具体结构体之前，必须确立以下不可逾越的“红线”：
+
+1. **严格 POD (Plain Old Data)**：
+
+    - 所有业务对象必须是 **Trivial** 和 **Standard-Layout** 的。
+    - **禁止**：虚函数 (`virtual`)、智能指针成员 (`std::shared_ptr`)、堆内存容器成员 (`std::vector`, `std::string`)。
+    - **理由**：确保对象可以被 `memcpy` 直接拷贝（虽然我们用零拷贝，但在某些边界仍需落盘或调试），且在内存中是**连续**的，对 CPU 预取器（Prefetcher）友好。
+
+2. **强制对齐 (Forced Alignment)**：
+
+    - 利用 C++11 `alignas` 关键字，强制结构体大小为 **16 字节 (128-bit)** 或 **32 字节 (256-bit)** 的倍数。
+    - **理由**：适配 ARM NEON (128-bit) 和 x86 AVX2 (256-bit) 寄存器宽度，允许编译器生成向量化加载/存储指令 (`vld1q`, `vmovaps`)，而非逐个标量读写。
+
+---
+
+## 2. 业务对象定义基线
+
+### 2.1 点迹对象：`DetectionResult`
+
+这是信号处理流水线产出的最高频数据（每秒可能数万个），是 CPU（数据处理模块）的数据密集型计算对象。
+
+**C++ 结构体定义 (基线)**：
+
+```cpp
+/**
+ * @brief 单个检测点迹 (Plot/Detection)
+ * @note 强制 16 字节对齐，适配 SSE/NEON 128位寄存器
+ * @size 48 Bytes (3个 128-bit 块)
+ */
+struct alignas(16) DetectionResult {
+    // Block 0: 空间坐标 (16 Bytes) -> 可以直接加载到一个向量寄存器
+    float range;        // 距离 (m)
+    float azimuth;      // 方位角 (rad)
+    float elevation;    // 俯仰角 (rad)
+    float velocity;     // 径向速度 (m/s)
+
+    // Block 1: 信号质量与辅助信息 (16 Bytes)
+    float snr;          // 信噪比 (dB)
+    float power;        // 信号功率
+    float noise;        // 噪声底
+    uint32_t channel_id;// 通道/波束ID (用于区分多源)
+
+    // Block 2: 索引与标识 (16 Bytes)
+    uint32_t range_idx; // 距离门索引
+    uint32_t doppler_idx; // 多普勒索引
+    uint32_t batch_id;  // 所属的 CPI 批次 ID
+    uint32_t padding;   // [显式填充] 保持 16B 对齐
+};
+```
+
+**设计决策辩护**：
+
+- **Float vs Double**：选用 `float` (32-bit)。对于雷达点迹处理，单精度浮点数精度通常已足够，且相比 `double` 能让 SIMD 吞吐量翻倍（一个 AVX2 寄存器处理 8 个 float vs 4 个 double）。
+- **Block 0 布局**：将 `r, azi, ele, v` 紧凑排列，使得坐标转换算法（极坐标转笛卡尔坐标）可以一次加载 `Block 0` 并执行向量运算。
+- **Explicit Padding**：末尾增加 `padding` 字段，不仅为了凑齐 48 字节，更是为了防止隐式填充导致的内存脏数据风险。
+
+### 2.2 航迹对象：`TrackData`
+
+这是数据处理模块的核心状态对象，用于卡尔曼滤波等矩阵运算。此处的改动最大：**我们废弃了旧文档中 `std::vector` 的设计，改为定长数组**，以符合 POD 约束。
+
+**C++ 结构体定义 (基线)**：
+
+```cpp
+/**
+ * @brief 单个航迹状态 (Track)
+ * @note 强制 32 字节对齐，适配 AVX2 256位寄存器
+ * @note 假设使用 6维状态向量 (x, y, z, vx, vy, vz)
+ */
+struct alignas(32) TrackData {
+    // --- Header (32 Bytes) ---
+    uint64_t track_id;      // 全局唯一航迹 ID
+    uint64_t timestamp_us;  // 更新时间戳
+    uint32_t status;        // 状态枚举 (Tentative/Confirmed)
+    uint32_t hit_count;     // 关联次数
+    uint32_t miss_count;    // 丢失次数
+    uint32_t station_id;    // 源站 ID (分布式新增)
+
+    // --- State Vector (32 Bytes) ---
+    // 6维状态向量，最后补 2 个 float padding 凑齐 8 个 float (256-bit)
+    // 便于 AVX2 一次加载整个状态向量
+    float state[8];         // [x, y, z, vx, vy, vz, pad, pad]
+
+    // --- Covariance Matrix (Diagonal/Simplified) ---
+    // 这是一个设计折中。完整的 6x6 协方差矩阵需要 36*4 = 144 Bytes。
+    // 为了保持对象轻量，这里仅存储对角线元素 (方差)，
+    // 或者如果内存允许，展开存储下三角矩阵。
+    // 此处演示存储完整对角线 + 填充 (32 Bytes)
+    float covariance_diag[8]; // [var_x, var_y, var_z, …, pad, pad]
+
+    // --- Quality & Classification (32 Bytes) ---
+    float prob_target;      // 目标存在概率
+    float maneuver_indicator;// 机动指示器
+    uint32_t type_label;    // 分类标签
+    uint32_t _reserved[5];  // 预留空间，保持缓存行对齐
+};
+```
+
+**设计决策辩护**：
+
+- **定长数组 (`float state[8]`)**：替代 `std::vector`。
+    - **收益**：内存绝对连续。卡尔曼滤波预测步骤中，CPU 预取器可以直接将 `state` 和 `covariance` 拉入 L1 缓存，消除指针跳转（Pointer Chasing）开销。
+    - **对齐技巧**：6 维向量补齐到 8 维，完美契合 AVX2 (256-bit = 8 floats)。这意味着向量加减法只需一条指令。
+- **分块对齐**：每个数据块（Header, State, Covariance）都对齐到 32 字节。这确保了字段不会跨越缓存行（Cache Line Split），消除了跨行访问的惩罚。
+
+---
+
+## 3. 容器与内存管理策略
+
+定义了“原子”结构体后，还需要定义装载它们的“容器”。
+
+### 3.1 容器选型：`std::vector` + 对齐分配器
+
+在 `DataPacket<T>` 的 Payload 中，我们不存储单个对象，而是存储对象的数组。
+
+```cpp
+// 定义专属分配器，确保 vector 的底层内存首地址也是 32 字节对齐的
+template <typename T>
+using AlignedVector = std::vector<T, boost::alignment::aligned_allocator<T, 32>>;
+
+// 最终在 DataPacket 中的 Payload 类型
+using DetectionList = AlignedVector<DetectionResult>;
+using TrackList     = AlignedVector<TrackData>;
+```
+
+- 为什么需要 Aligned Allocator？
+
+    普通的 std::vector 只保证元素大小对齐，不保证数组首地址对齐（尽管现代 glibc 通常对齐到 16B）。为了让第一条 AVX 指令（vmovaps）安全执行，首地址必须严格对齐。
+
+### 3.2 内存布局图示 (AoS 布局)
+
+在内存中，一批点迹的物理视图如下。这种 **Array of Structures (AoS)** 布局对于“逐个点迹处理”的逻辑（如卡尔曼滤波的 Update 步骤）是非常缓存友好的。
+
+```plaintext
+| <--- Cache Line 64B ---> | <--- Cache Line 64B ---> |
+[ Det 0 (48B) ] [ Det 1 (48B) ] [ Det 2 (48B) ] [ … ]
+	^                ^                 ^
+ Align(16)        Align(16)         Align(16)
+```
+
+- **注意**：由于 48B 不是 64B 的约数，`Det 1` 会跨越缓存行边界。
+- **优化选项 (SoA)**：如果在某些极端性能场景下（如纯粹的坐标转换），我们可以考虑 **Structure of Arrays (SoA)**，即 `vector<float> range_list, azimuth_list…`。但考虑到代码复杂度和卡尔曼滤波的逻辑特性（通常需要同时访问一个点的所有属性），**AoS (上述结构体)** 是当前工程最佳平衡点。
+
+---
+
+## 总结
+
+**2.5.1 章节基线** 已确立为：
+
+1. **Strict POD**：摒弃 `std::vector` 成员，全面拥抱定长数组。
+2. **SIMD Alignment**：`DetectionResult` 16B 对齐，`TrackData` 32B 对齐。
+3. **Explicit Padding**：显式填充所有空隙，消除未定义行为。
+4. **Aligned Container**：使用带对齐分配器的 Vector 承载数据。
+
+这套模型直接服务于 **DataProcessor** 的 CPU 计算效率，确保数据进入算法时是“最可口”的形态。
diff --git a/系统基座文件/2/2.5/2.5.2 内部控制事件模式定义 (Internal Control Event Schema Definition).md b/系统基座文件/2/2.5/2.5.2 内部控制事件模式定义 (Internal Control Event Schema Definition).md
new file mode 100644
index 0000000..afc6a07
--- /dev/null
+++ b/系统基座文件/2/2.5/2.5.2 内部控制事件模式定义 (Internal Control Event Schema Definition).md	
@@ -0,0 +1,177 @@
+---
+tags: []
+aliases:
+  - 2.5.2 内部控制事件模式定义 (Internal Control Event Schema Definition)
+date created: 星期一, 十一月 24日 2025, 10:39:09 晚上
+date modified: 星期一, 十一月 24日 2025, 10:56:20 晚上
+---
+
+# 2.5.2 内部控制事件模式定义 (Internal Control Event Schema Definition)
+
+**基线核心宗旨**：**“Type-Safe & Traceable (类型安全与可追溯)”**。
+内部控制事件不跨越进程边界（不涉及 Protobuf 序列化），它们是纯粹的 C++ 运行时对象。设计重心在于利用 C++ 类型系统防止误用，并强制携带全链路追踪上下文。
+
+-----
+
+## 1\. 核心设计契约 (Design Contracts)
+
+1. **强制继承 (Mandatory Inheritance)**：
+
+      - 所有在 `EventBus` 上流转的事件 **必须** 继承自 `BaseEvent`。
+      - **理由**：确保所有事件天然携带 `TraceID` 和 `Timestamp`，实现无死角的审计与追踪。
+
+2. **轻量级负载 (Lightweight Payload)**：
+
+      - **禁止**：在事件对象中直接嵌入大块内存（如 `vector<float>` 原始波形数据）。
+      - **允许**：状态码、配置参数、资源句柄（智能指针）、元数据摘要。
+      - **理由**：控制平面应保持低延迟。大块数据应通过数据面（DataQueue）流转，控制面仅传递“指向数据的指针”或“操作指令”。
+
+3. **值语义与移动优化 (Value Semantics & Move Semantics)**：
+
+      - 事件对象默认按**值传递**（Copy/Move）。
+      - 必须支持移动构造（Move Constructor），以便高效地在 `EventBus` 的异步队列中转移。
+
+-----
+
+## 2\. 根模式定义 (Root Schema)
+
+这是所有控制信令的“父类契约”。
+
+```cpp
+/**
+ * @brief 所有内部控制事件的基类
+ * @note 即使是空事件，大小也至少为 16 字节 (TraceID + Timestamp)
+ */
+struct BaseEvent {
+    // --- 上下文核心 (Context Core) ---
+    
+    // 全链路追踪 ID (从 TraceContext 自动捕获或继承)
+    uint64_t trace_id;
+    
+    // 事件生成时的精确时间 (UTC Microseconds)
+    // 用于计算控制指令在队列中的排队延迟 (Queueing Latency)
+    uint64_t timestamp_us;
+
+    // --- 构造基线 ---
+    BaseEvent() {
+        // 自动注入上下文，确保业务代码无需手动填写
+        trace_id = TraceContext::getCurrentId(); 
+        timestamp_us = Clock::nowInUs();
+    }
+    
+    virtual ~BaseEvent() = default; // 允许作为基类指针传递（如果需要统一日志处理）
+};
+```
+
+-----
+
+## 3\. 核心事件分类定义 (Concrete Schemas)
+
+基于 **2.3 章节** 确立的各个控制子系统，我们定义以下四类核心事件。
+
+### 3.1 生命周期与编排类 (Lifecycle & Orchestration)
+
+服务于 **2.3.3** 和 **2.3.4**。这类事件对**可靠性**要求最高。
+
+```cpp
+// 指令：启动模块
+struct StartModuleEvent : public BaseEvent {
+    std::string target_module; // 目标模块名
+    // 可选：携带启动参数或配置覆盖
+    // std::map<string, string> overrides; 
+};
+
+// 回执：模块运行中
+struct ModuleRunningEvent : public BaseEvent {
+    std::string module_name;
+};
+
+// 告警：模块故障 (Rich Context from 2.3.4)
+struct ModuleFailedEvent : public BaseEvent {
+    std::string module_name;
+    ErrorCode error_code;      // 标准化错误码
+    bool is_hardware_fault;    // 是否硬件故障 (决定是否熔断)
+    std::string debug_info;    // 现场快照 (堆栈、显存状态等)
+};
+```
+
+### 3.2 资源保护与仲裁类 (Resource & Safety)
+
+服务于 **2.3.5**。这类事件对**响应速度**要求最高。
+
+```cpp
+// 告警：系统过载 (由监控模块发出)
+struct SystemOverloadEvent : public BaseEvent {
+    enum class Type { THERMAL, POWER, MEMORY };
+    enum class Level { WARNING, CRITICAL };
+    
+    Type type;
+    Level level;
+    float current_value; // e.g., 95.5 (Celsius)
+};
+
+// 指令：执行节流 (由调度器发出)
+struct SetComputeThrottleEvent : public BaseEvent {
+    enum class Level { NO_THROTTLE, LIGHT, HEAVY, SUSPEND };
+    Level level;
+    // 接收方收到后，需立即调整 sleep 策略或丢包策略
+};
+```
+
+### 3.3 配置热更新类 (Configuration Transaction)
+
+服务于 **2.3.6**。这类事件需要承载**复杂负载**（配置数据）。
+
+```cpp
+// 事务：配置变更补丁
+// 采用 RCU 模式，负载通过 shared_ptr 传递，避免深拷贝
+struct ValidateConfigEvent : public BaseEvent {
+    uint64_t config_version;
+    // 使用智能指针传递复杂的配置树，确保事件本身轻量
+    std::shared_ptr<const ConfigPatch> patch; 
+};
+
+// 提交：确认变更
+struct CommitConfigEvent : public BaseEvent {
+    uint64_t config_version; // 必须匹配 Validate 中的版本
+};
+```
+
+### 3.4 性能遥测类 (Telemetry)
+
+服务于 **2.3.7**。这类事件**吞吐量最大**，必须极致精简。
+
+```cpp
+// 遥测：指标快照
+struct MetricsUpdateEvent : public BaseEvent {
+    // 使用扁平化 Map 传输快照
+    // Key 命名规范: "metric_name{tag=val,…}"
+    std::unordered_map<std::string, double> metrics;
+    
+    // 优化建议：
+    // 如果 std::unordered_map 造成频繁 malloc，
+    // 可考虑使用预分配的 vector<MetricPair> 或类似 SmallVector 的优化容器
+};
+```
+
+-----
+
+## 4\. 模式设计自检 (Design Checklist)
+
+| 检查项 | 符合标准 | 设计意图 |
+| :--- | :--- | :--- |
+| **继承关系** | ✅ Yes | 所有事件均继承自 `BaseEvent`，保证 TraceID 存在。 |
+| **内存所有权** | ✅ Yes | 复杂对象（如 ConfigPatch）使用 `shared_ptr` 传递，避免总线拷贝大对象。 |
+| **类型安全** | ✅ Yes | 避免使用 `void*` 或 `EventId` 整数流，利用 C++ 类型系统进行分发。 |
+| **序列化无关** | ✅ Yes | 结构体中包含 `std::string` 等非 POD 类型，明确不直接用于网络传输（需经由 2.5.3 转换）。 |
+
+-----
+
+**总结**：
+**2.5.2** 确立了控制平面的“通用语言”。这套定义确保了控制指令在进程内传输时：
+
+1. **可追踪**（自带 TraceID）。
+2. **低延迟**（避免大内存拷贝）。
+3. **强类型**（编译期检查错误）。
+
+这为 2.3 节定义的所有控制逻辑提供了坚实的数据结构支撑。
diff --git a/系统基座文件/2/2.5/2.5.3 外部数据交换契约 (External Data Exchange Contract).md b/系统基座文件/2/2.5/2.5.3 外部数据交换契约 (External Data Exchange Contract).md
new file mode 100644
index 0000000..0db336f
--- /dev/null
+++ b/系统基座文件/2/2.5/2.5.3 外部数据交换契约 (External Data Exchange Contract).md	
@@ -0,0 +1,209 @@
+---
+tags: []
+date created: 星期一, 十一月 24日 2025, 11:09:27 晚上
+date modified: 星期一, 十一月 24日 2025, 11:09:40 晚上
+---
+
+# 2.5.3 外部数据交换契约 (External Data Exchange Contract)
+
+**基线核心宗旨**：**“Contract First, Backwards Compatible (契约优先，向后兼容)”**。
+外部接口定义语言 (IDL) 一旦发布，即视为法律条文，严禁随意修改。任何变更必须遵循严格的版本控制和兼容性法则，以确保服务器升级不会导致显控终端崩溃。
+
+-----
+
+## 1\. 核心设计契约 (Design Contracts)
+
+1. **唯一标准 (Single Standard)**：
+
+      - 强制使用 **Google Protocol Buffers v3 (proto3)**。
+      - **理由**：proto3 移除了 `required` 字段，天然支持向后兼容（缺失字段使用默认值），极其适合迭代快速的分布式系统。
+
+2. **包版本化 (Package Versioning)**：
+
+      - 所有 `.proto` 文件必须定义在带版本的包命名空间下，例如 `package radar.external.v1;`。
+      - **理由**：当发生破坏性变更（Breaking Change）时，可以通过引入 `v2` 包来实现并存，而不是破坏现有 `v1` 客户端。
+
+3. **显式类型 (Explicit Typing)**：
+
+      - 时间戳必须显式注明单位（后缀 `_us` / `_ms`）。
+      - 枚举值（Enum）的第一个字段必须是 `UNKNOWN` 或 `UNSPECIFIED`（值为 0），作为默认零值安全网。
+
+-----
+
+## 2\. 协议文件组织 (File Organization)
+
+为了规范管理，`.proto` 文件应按以下目录结构组织，并作为独立的构建目标（Target）：
+
+```text
+project_root/
+└── protos/
+    └── radar/
+        └── external/
+            └── v1/
+                ├── common.proto       # 共享基础类型 (Point, Vector3)
+                ├── track_data.proto   # 核心业务数据 (Track, Plot, Batch)
+                └── system_status.proto # 系统健康状态
+```
+
+-----
+
+## 3\. 核心模式定义基线 (Schema Baseline)
+
+基于 **2.4.2** 确立的逻辑结构，将其固化为工程级的 Protobuf 定义。
+
+### 3.1 基础类型定义 (`common.proto`)
+
+```protobuf
+syntax = "proto3";
+package radar.external.v1;
+
+// WGS84 地理坐标 (用于多站融合)
+message GeoPoint {
+    double latitude = 1;  // 纬度 (度)
+    double longitude = 2; // 经度 (度)
+    double altitude = 3;  // 海拔 (米)
+}
+
+// 笛卡尔状态向量 (用于高精度跟踪)
+message StateVector {
+    // ECEF 或 站心坐标系，具体由配置约定
+    double pos_x = 1; 
+    double pos_y = 2; 
+    double pos_z = 3;
+    double vel_x = 4; 
+    double vel_y = 5; 
+    double vel_z = 6;
+}
+```
+
+### 3.2 核心业务数据 (`track_data.proto`)
+
+```protobuf
+syntax = "proto3";
+package radar.external.v1;
+
+import "radar/external/v1/common.proto";
+import "radar/external/v1/system_status.proto";
+
+// 2.4.2 确立的原子批次
+message TrackDataBatch {
+    // --- Header ---
+    uint32 station_id = 1;          // 站台ID
+    uint64 batch_sequence_id = 2;   // 批次序号
+    uint32 checksum = 3;            // CRC32c 校验和
+    uint64 timestamp_us = 4;        // UTC 时间戳 (微秒)
+    uint64 trace_id = 5;            // 全链路追踪ID
+    uint32 throttle_level = 6;      // 当前热节流等级 (0-3)
+
+    // --- Payload ---
+    repeated TrackMessage tracks = 7; // 确认航迹
+    repeated PlotMessage plots = 8;   // 原始点迹 (可被剪裁)
+    
+    // 系统状态快照 (可选，通常低频发送或仅在变更时发送)
+    SystemStatusMessage system_status = 9; 
+}
+
+message TrackMessage {
+    uint64 track_id = 1;
+    
+    enum Status {
+        STATUS_UNSPECIFIED = 0;
+        STATUS_TENTATIVE = 1;
+        STATUS_CONFIRMED = 2;
+        STATUS_COAST = 3;
+        STATUS_LOST = 4;
+    }
+    Status status = 2;
+
+    StateVector state = 3;       // 运动状态
+    repeated float covariance = 4; // 协方差矩阵 (对角线或下三角)
+    
+    // 扩展属性
+    float probability = 5;       // 存在概率
+    int32 classification = 6;    // 目标分类 ID
+}
+
+message PlotMessage {
+    uint32 batch_id = 1;         // 关联的 CPI ID
+    uint32 range_idx = 2;
+    uint32 doppler_idx = 3;
+    float snr = 4;
+    float azimuth_rad = 5;
+    float range_m = 6;
+}
+```
+
+### 3.3 系统状态定义 (`system_status.proto`)
+
+这是显控端感知服务器“健康度”的依据。
+
+```protobuf
+syntax = "proto3";
+package radar.external.v1;
+
+message SystemStatusMessage {
+    enum HealthState {
+        HEALTH_UNKNOWN = 0;
+        HEALTH_OK = 1;
+        HEALTH_DEGRADED = 2; // 降级 (如热节流中)
+        HEALTH_CRITICAL = 3; // 严重故障 (部分模块离线)
+    }
+    HealthState overall_health = 1;
+
+    // 关键资源指标
+    float gpu_temp_celsius = 2;
+    float gpu_util_percent = 3;
+    float mem_usage_percent = 4;
+
+    // 模块级状态 (简报)
+    map<string, string> module_states = 5; // e.g. {"SignalProcessor": "RUNNING"}
+}
+```
+
+-----
+
+## 4\. 演进与兼容性法则 (Evolution Laws)
+
+在项目全生命周期中，**严禁**违反以下法则：
+
+1. **禁止修改 Tag (Never Change Tags)**：
+
+      - 一旦字段 `uint32 station_id = 1;` 发布，Tag `1` 永远属于 `station_id`。即使该字段被废弃，Tag `1` 也不能分配给新字段。
+
+2. **保留机制 (Reserved Strategy)**：
+
+      - 当删除字段时，必须使用 `reserved` 关键字锁定 Tag 和 Name，防止未来误用。
+      - *示例*：
+
+        ```protobuf
+        message TrackMessage {
+            // uint32 old_field = 5; // Deleted
+            reserved 5;
+            reserved "old_field";
+        }
+        ```
+
+3. **默认值假设 (Default Value Assumption)**：
+
+      - 接收端（显控）**不能**依赖字段的存在性（`has_field`），必须处理字段缺失（即值为 0/false/empty）的情况。
+      - *设计推论*：如果 `0` 具有特殊业务含义（如 `range = 0` 表示雷达正中心），则必须小心。通常建议业务值的有效范围避开 `0`，或者使用 `oneof` 包装以获得存在性检查能力（但这会增加开销，非必要不推荐）。
+
+-----
+
+## 5\. 构建集成规范 (Build Integration)
+
+  - **代码生成**：使用 CMake 的 `protobuf_generate_cpp` 命令，在构建时自动生成 `.pb.h` 和 `.pb.cc`。
+  - **不可修改**：生成的 C++ 代码严禁人工修改，且不应提交到 Git 仓库（应作为构建产物）。
+  - **库依赖**：对外发布 SDK 时，应提供编译好的 `.proto` 文件或预编译的静态库，而不是让第三方依赖具体的 Protobuf 版本（尽量减少 DLL Hell）。
+
+-----
+
+## 总结
+
+**2.5.3 章节基线** 已确立为：
+
+1. **Standard**: Protobuf v3, Semantic Versioning (`v1`).
+2. **Schema**: `TrackDataBatch` (Atomic), `GeoPoint` (WGS84).
+3. **Compatibility**: Strict `reserved` policy, Explicit Zero Values.
+
+这套契约不仅定义了数据格式，更定义了**团队协作的边界**——后端开发人员在修改 `.proto` 文件时，必须像修改法律条文一样谨慎。
diff --git a/系统基座文件/2/2.5/2.5.4 零拷贝数据容器规范 (Zero-Copy Data Container Specification).md b/系统基座文件/2/2.5/2.5.4 零拷贝数据容器规范 (Zero-Copy Data Container Specification).md
new file mode 100644
index 0000000..8dfc929
--- /dev/null
+++ b/系统基座文件/2/2.5/2.5.4 零拷贝数据容器规范 (Zero-Copy Data Container Specification).md	
@@ -0,0 +1,176 @@
+---
+tags: []
+date created: 星期一, 十一月 24日 2025, 11:19:42 晚上
+date modified: 星期一, 十一月 24日 2025, 11:20:43 晚上
+---
+
+# 2.5.4 零拷贝数据容器规范 (Zero-Copy Data Container Specification)
+
+**基线核心宗旨**：**“RAII for Ownership, Header for Context (RAII 管资产，Header 管上下文)”**。
+容器必须是 **Movable-Only (仅可移动)** 的，严禁拷贝。它利用 C++ 类型系统强制执行所有权的单一性，并通过标准化的 Header 确保全链路的可观测性。
+
+-----
+
+## 1\. 核心设计契约 (Design Contracts)
+
+1. **仅移动语义 (Move-Only Semantics)**：
+
+      - `DataPacket<T>` 的拷贝构造函数和拷贝赋值操作符必须被 **显式删除 (`= delete`)**。
+      - **理由**：防止开发者无意中触发深拷贝，破坏零拷贝原则；防止多个对象持有同一块物理内存的所有权，导致 Double Free。
+
+2. **统一元数据 (Unified Metadata)**：
+
+      - 所有流转的数据包，无论其负载是原始波形还是航迹，都必须携带相同的 Header 结构。
+      - **理由**：使得中间件（如调度器、监控探针）可以在不解析 Payload 的情况下读取 `TraceID` 和 `Timestamp`。
+
+3. **自动回收 (Self-Reclamation)**：
+
+      - 容器析构时，必须自动触发 Payload 的资源释放（归还内存池或释放堆内存）。
+      - **理由**：消除内存泄漏风险，简化模块内的错误处理逻辑（异常安全）。
+
+-----
+
+## 2\. 通用容器定义 (Generic Definition)
+
+```cpp
+/**
+ * @brief 通用零拷贝数据容器
+ * @tparam PayloadType 负载类型 (必须支持移动语义)
+ */
+template <typename PayloadType>
+struct DataPacket {
+    // --- 1. 标准化头部 (Fixed Header) ---
+    struct Header {
+        // 全链路追踪 ID (从 TraceContext 继承)
+        uint64_t trace_id;
+        
+        // 数据生成时间戳 (UTC Microseconds, 总控授时)
+        uint64_t timestamp_us;
+        
+        // 流水线序列号 (用于检测内部丢包/乱序)
+        uint64_t sequence_id;
+        
+        // 源模块标识 (用于调试拓扑)
+        uint32_t source_module_id;
+        
+        // 标志位 (e.g., END_OF_STREAM, CONFIG_UPDATE_BARRIER)
+        uint32_t flags;
+    } header;
+
+    // --- 2. 业务负载 (Flexible Payload) ---
+    PayloadType payload;
+
+    // --- 3. 构造与移动语义 ---
+    
+    // 默认构造
+    DataPacket() = default;
+    
+    // 显式移动构造
+    DataPacket(DataPacket&& other) noexcept 
+        : header(other.header), payload(std::move(other.payload)) {}
+
+    // 显式移动赋值
+    DataPacket& operator=(DataPacket&& other) noexcept {
+        if (this != &other) {
+            header = other.header;
+            payload = std::move(other.payload);
+        }
+        return *this;
+    }
+
+    // 严禁拷贝 !!!
+    DataPacket(const DataPacket&) = delete;
+    DataPacket& operator=(const DataPacket&) = delete;
+};
+```
+
+-----
+
+## 3\. 核心特化与所有权管理 (Specializations & Ownership)
+
+根据 **2.5.1** 定义的业务对象，我们需要针对两类不同性质的数据定义具体的容器行为。
+
+### 3.1 原始回波数据包 (`RawDataPacket`)
+
+  - **场景**：`DataReceiver` -\> `SignalProcessor`。数据量极大（MB 级），必须使用页锁定内存池。
+  - **Payload 类型**：`std::unique_ptr<DataObject, MemoryPoolDeleter>`。
+  - **所有权逻辑**：
+      - `RawDataPacket` 持有 `unique_ptr`。
+      - 当 Packet 在队列中移动时，`unique_ptr` 随之移动。
+      - 当 Packet 在消费端（`SignalProcessor`）析构时，`MemoryPoolDeleter` 被调用，将底层的 `void*` 归还给 `PinnedMemoryPool`。
+
+<!-- end list -->
+
+```cpp
+// 定义特定的删除器
+struct MemoryPoolDeleter {
+    IMemoryPool* pool;
+    void operator()(void* ptr) const {
+        if (pool && ptr) pool->release(ptr);
+    }
+};
+
+// 别名定义
+using RawPayload = std::unique_ptr<DataObject, MemoryPoolDeleter>;
+using RawDataPacket = DataPacket<RawPayload>;
+```
+
+### 3.2 结果数据包 (`DetectionPacket` / `TrackPacket`)
+
+  - **场景**：`SignalProcessor` -\> `DataProcessor` -\> `DisplayController`。数据量较小（KB 级），使用堆内存或对齐分配器。
+  - **Payload 类型**：`std::vector<DetectionResult>` (Aligned)。
+  - **所有权逻辑**：
+      - `std::vector` 本身就是 RAII 容器。
+      - `DataPacket` 的移动会自动触发 `vector` 的移动（仅交换内部指针 `begin/end/capacity`），成本极低（3 个指针大小）。
+      - **注意**：此处不需要自定义删除器，除非我们想引入“对象池”来复用 vector 的内存（对于 100Hz 的频率，`std::vector` 的默认分配器性能通常可以接受，暂不引入对象池以降低复杂度）。
+
+<!-- end list -->
+
+```cpp
+// 别名定义
+// 使用 2.5.1 定义的对齐容器
+using DetectionPayload = AlignedVector<DetectionResult>;
+using DetectionPacket = DataPacket<DetectionPayload>;
+
+using TrackPayload = AlignedVector<TrackData>;
+using TrackPacket = DataPacket<TrackPayload>;
+```
+
+-----
+
+## 4\. 辅助工厂方法 (Factory Helpers)
+
+为了简化 Header 的填充（防止开发者忘记填 TraceID），应提供工厂函数。
+
+```cpp
+template <typename T>
+DataPacket<T> MakePacket(T&& payload, uint64_t seq_id) {
+    DataPacket<T> packet;
+    
+    // 自动捕获当前上下文
+    packet.header.trace_id = TraceContext::getCurrentId();
+    packet.header.timestamp_us = Clock::nowInUs();
+    packet.header.sequence_id = seq_id;
+    packet.header.source_module_id = ModuleContext::getCurrentModuleId();
+    packet.header.flags = 0;
+    
+    // 移动负载
+    packet.payload = std::move(payload);
+    
+    return packet;
+}
+```
+
+-----
+
+## 总结
+
+**2.5.4 章节基线** 已确立为：
+
+1. **Generic Envelope**：统一的 `DataPacket<T>` 模板，强制包含 Header。
+2. **Move-Only**：通过删除拷贝构造函数，物理上杜绝深拷贝。
+3. **Hybrid Payload Strategy**：
+      - 大内存（Raw）：`unique_ptr` + `CustomDeleter` (Pool)。
+      - 小内存（Result）：`std::vector` (Move Semantics)。
+
+这一设计确保了数据在“集装箱”里流转时，既安全（不会泄露），又轻快（只有指针在动）。
diff --git a/系统基座文件/2/2.5/2.5.5 序列化边界与映射策略 (Serialization Boundary & Mapping Strategy).md b/系统基座文件/2/2.5/2.5.5 序列化边界与映射策略 (Serialization Boundary & Mapping Strategy).md
new file mode 100644
index 0000000..9a9e9b8
--- /dev/null
+++ b/系统基座文件/2/2.5/2.5.5 序列化边界与映射策略 (Serialization Boundary & Mapping Strategy).md	
@@ -0,0 +1,138 @@
+---
+tags: []
+date created: 星期一, 十一月 24日 2025, 11:25:58 晚上
+date modified: 星期一, 十一月 24日 2025, 11:28:29 晚上
+---
+
+# 2.5.5 序列化边界与映射策略 (Serialization Boundary & Mapping Strategy)
+
+**基线核心宗旨**：**“Strict Boundary, Explicit Mapping (严格边界，显式映射)”**。
+严禁在核心计算流水线（Signal/Data Processor）中引入 Protobuf 或 JSON。序列化是 IO 密集型和 CPU 密集型的结合体，必须被隔离在系统的边缘。
+
+-----
+
+## 1\. 边界定义契约 (Boundary Contracts)
+
+我们确立系统中仅有的两个**合法序列化边界 (Legal Serialization Boundaries)**：
+
+### 1.1 数据面边界：`DisplayController`
+
+  - **输入**：`TrackDataPacket` (C++ Aligned Vector)。
+  - **输出**：`TrackDataBatch` (Protobuf Binary)。
+  - **职责**：高频、批量、单向转换。
+  - **违规判定**：任何在 `SignalProcessor` 或 `DataProcessor` 中出现 `#include "track_data.pb.h"` 的代码均视为架构违规。
+
+### 1.2 控制面边界：`ApiCommandService`
+
+  - **输入**：内部状态（如 `SystemStateMachine::State`）或配置对象。
+  - **输出**：HTTP Response (JSON/Protobuf)。
+  - **职责**：低频、按需、双向转换。
+
+-----
+
+## 2\. 字段映射逻辑 (Mapping Logic)
+
+这是将 **2.5.1 (Internal POD)** 转换为 **2.5.3 (External Proto)** 的具体法则。由于内部使用定长数组 (`float state[8]`) 而外部使用语义化字段 (`pos_x, vel_x`)，这里需要显式的转换逻辑。
+
+### 2.1 映射表 (Mapping Table)
+
+| 内部字段 (C++ `TrackData`) | 外部字段 (Proto `TrackMessage`) | 转换逻辑 |
+| :--- | :--- | :--- |
+| `track_id` | `track_id` | 直接赋值 |
+| `status` | `status` | Enum 转换 (C++ Enum -\> Proto Enum) |
+| `state[0]` | `pos_x` | `state[0]` (单位转换：米 -\> 米) |
+| `state[1]` | `pos_y` | `state[1]` |
+| `state[2]` | `pos_z` | `state[2]` |
+| `state[3]` | `vel_x` | `state[3]` |
+| `state[4]` | `vel_y` | `state[4]` |
+| `state[5]` | `vel_z` | `state[5]` |
+| `state[6.]` (Padding) | **N/A** | **丢弃** (内部对齐填充不导出) |
+| `covariance_diag[8]` | `covariance` (repeated) | 遍历数组赋值，截断填充部分 |
+| `_reserved[5]` | **N/A** | **丢弃** (保留字段不导出) |
+
+### 2.2 实现范式：转换器模式 (Converter Pattern)
+
+建议实现一个静态的 `TypeConverter` 类，将转换逻辑集中管理，避免散落在 `DisplayController` 的业务逻辑中。
+
+```cpp
+// TypeConverter.h
+class TypeConverter {
+public:
+    // 单个对象转换：In-Place 填充以减少内存分配
+    static void ToProto(const TrackData& src, radar::ipc::TrackMessage* dst) {
+        dst->set_track_id(src.track_id);
+        dst->set_status(static_cast<radar::ipc::TrackMessage_Status>(src.status));
+        
+        // 展开定长数组
+        dst->set_pos_x(src.state[0]);
+        dst->set_pos_y(src.state[1]);
+        dst->set_pos_z(src.state[2]);
+        dst->set_vel_x(src.state[3]);
+        dst->set_vel_y(src.state[4]);
+        dst->set_vel_z(src.state[5]);
+        
+        // 协方差：仅拷贝有效数据
+        for (int i = 0; i < 6; ++i) {
+            dst->add_covariance(src.covariance_diag[i]);
+        }
+        
+        // 其他属性…
+    }
+
+    // 批量转换
+    static void ToProtoBatch(const std::vector<TrackData>& src_list, 
+                             radar::ipc::TrackDataBatch* dst_batch) {
+        // 预分配内存，避免 push_back 导致的扩容
+        dst_batch->mutable_tracks()->Reserve(src_list.size());
+        
+        for (const auto& track : src_list) {
+            ToProto(track, dst_batch->add_tracks());
+        }
+    }
+};
+```
+
+-----
+
+## 3\. 数据清洗与脱敏规范 (Sanitization & Scrubbing)
+
+并非所有内部数据都有资格通过“海关”。为了安全和带宽效率，必须执行清洗。
+
+### 3.1 敏感数据清洗
+
+  - **内存地址**：内部调试用的 `void* user_data` 或 `debug_ptr` **绝对禁止**序列化。
+  - **原始标识符**：如果内部使用了哈希表索引或临时 Slot ID，必须转换为全局唯一的 `UUID` 或 `TrackID`。
+
+### 3.2 精度截断 (Precision Truncation)
+
+  - **内部**：为了计算精度，内部可能使用 `double` 或高精度浮点。
+  - **外部**：若显控仅需显示到厘米级，且带宽紧张，可在转换时进行截断或转为 `float`（Protobuf 中 `double` 占 8 字节，`float` 占 4 字节）。
+      - *基线决策*：目前 2.5.3 定义为 `double`，暂不截断，保持精度。
+
+### 3.3 节流感知清洗 (Throttle-Aware Scrubbing)
+
+  - **机制**：结合 **2.4.4 热节流**，转换器应接受 `throttle_level` 参数。
+  - **逻辑**：
+
+    ```cpp
+    static void ToProtoBatch(…, int throttle_level) {
+        if (throttle_level >= 2) {
+            // Level 2: 仅导出确认航迹，且丢弃协方差矩阵以节省带宽
+            // 这是一个深度优化的例子：在序列化阶段就决定不拷贝某些字段
+        }
+    }
+    ```
+
+-----
+
+## 总结：2.5 章节整体基线图谱
+
+至此，**2.5 数据结构定义与序列化规范** 已全部完成。我们构建了一套“内外有别、边界清晰”的数据模型。
+
+| 领域 | 核心基线 | 关键技术点 |
+| :--- | :--- | :--- |
+| **2.5.1 内部对象** | **High-Perf POD** | `alignas(32)`, 定长数组，SIMD 友好。 |
+| **2.5.2 内部事件** | **BaseEvent 继承** | 强制 `TraceID`, 轻量级负载。 |
+| **2.5.3 外部契约** | **Protobuf v3** | 语义化版本，向后兼容，StationID 支持。 |
+| **2.5.4 数据容器** | **Move-Only Packet** | `DataPacket<T>`, `unique_ptr` 所有权管理。 |
+| **2.5.5 转换边界** | **Explicit Converter** | 静态映射类，节流感知，边界清洗。 |
diff --git a/系统基座文件/2/2.6/2.6 时序同步与数据一致性 (Timing Synchronization & Data Coherence).md b/系统基座文件/2/2.6/2.6 时序同步与数据一致性 (Timing Synchronization & Data Coherence).md
new file mode 100644
index 0000000..1ad1a48
--- /dev/null
+++ b/系统基座文件/2/2.6/2.6 时序同步与数据一致性 (Timing Synchronization & Data Coherence).md	
@@ -0,0 +1,21 @@
+---
+tags: 
+aliases:
+  - 2.6 时序同步与数据一致性 (Timing Synchronization & Data Coherence)
+date created: 星期一, 十一月 24日 2025, 11:50:10 晚上
+date modified: 星期一, 十一月 24日 2025, 11:50:24 晚上
+---
+
+# 2.6 时序同步与数据一致性 (Timing Synchronization & Data Coherence)
+
+- **覆盖范围**：定义系统的时间基准获取方式、数据流打点策略以及跨模块处理时的时间对齐逻辑。涵盖从硬件层面的 PTP/GPS 同步，到软件层面的 CPI（相干处理间隔）对齐，以及航迹预测中的时间外推算法，确保系统在微秒级精度下的时空一致性。
+  - **2.6.1 高精度统一时钟源架构 (High-Precision Unified Clock Architecture)**
+    - **核心指向**：定义系统时间的唯一真值来源。优先采用 **PTP (IEEE 1588v2)** 协议通过网口同步至 GPS/北斗授时服务器，实现亚微秒级的时间同步精度。涵盖在 PTP 不可用时的 **NTP 回退策略**，以及利用 CPU **TSC (Time Stamp Counter)** 寄存器作为高频计时源的校准逻辑，防止系统时间跳变（Time Jump）导致的逻辑错误。
+  - **2.6.2 多级数据打点策略 (Multi-Level Timestamping Strategy)**
+    - **核心指向**：定义数据包时间戳的生成位置与精度分级。首选网卡硬件 **TSU (Timestamp Unit)** 生成的入站时间戳（Ingress Timestamp），次选内核网络栈的 `SO_TIMESTAMP` 软件时间戳。在 `DataReceiver` 封装 `RawDataPacket` 时，强制将此硬件/内核时间戳固化为数据的 **“诞生时间” (Generation Time)**，并在后续全链路中保持不变。
+  - **2.6.3 相干处理间隔对齐机制 (CPI Alignment Mechanism)**
+    - **核心指向**：针对信号处理模块的特殊时序要求。定义如何根据雷达 **PRF (脉冲重复频率)** 和 **波位编码**，将连续到达的 UDP 数据包在内存池中重组为严格对齐的 **CPI 数据块**。涵盖处理网络抖动导致的脉冲到达时间波动（Jitter）的缓冲策略，确保 FFT 和多普勒处理时的数据在时间域上严格相干。
+  - **2.6.4 航迹外推与异步测量融合 (Track Extrapolation & Asynchronous Measurement Fusion)**
+    - **核心指向**：针对数据处理模块的时空一致性逻辑。定义在进行数据关联（Data Association）时，如何将上一时刻（$t_{k-1}$）的航迹状态，基于运动模型精确外推至当前测量时刻（$t_k$）。涵盖处理乱序到达（Out-of-Order）量测数据的**延迟关联**或**丢弃策略**，确保卡尔曼滤波的更新步基于单调递增的时间轴。
+  - **2.6.5 全链路延迟审计与抖动监控 (End-to-End Latency Auditing & Jitter Monitoring)**
+    - **核心指向**：定义系统实时性的度量标准。利用 `DataPacket` 头部携带的诞生时间戳，在流水线的每个关键节点（接收、信号处理完成、航迹更新完成、网关发送）计算 **驻留时间 (Residence Time)**。监控模块需实时统计各阶段的延迟分布，一旦发现处理抖动超过 CPI 周期的一定比例（如 10%），立即触发性能告警或热节流保护。
diff --git a/系统基座文件/2/2.6/2.6.1 高精度统一时钟源架构 (High-Precision Unified Clock Architecture).md b/系统基座文件/2/2.6/2.6.1 高精度统一时钟源架构 (High-Precision Unified Clock Architecture).md
new file mode 100644
index 0000000..f8bca15
--- /dev/null
+++ b/系统基座文件/2/2.6/2.6.1 高精度统一时钟源架构 (High-Precision Unified Clock Architecture).md	
@@ -0,0 +1,114 @@
+---
+tags: []
+date created: 星期三, 十一月 26日 2025, 9:41:51 晚上
+date modified: 星期三, 十一月 26日 2025, 9:54:07 晚上
+---
+
+# 2.6.1 高精度统一时钟源架构 (High-Precision Unified Clock Architecture)
+
+**基线核心宗旨**：**“Hardware PTP as Truth, Software TSC for Speed (硬件 PTP 为真值，软件 TSC 为速度)”**。
+我们构建一个分层的时间架构：底层依赖 **IEEE 1588v2 (PTP)** 锁定物理时钟，应用层利用 **CPU TSC** 实现零系统调用的纳秒级打点，并通过**动态校准回路**将两者对齐。
+
+-----
+
+## 1. 约束输入与对齐 (Constraints & Alignment)
+
+基于分布式雷达组网（TDP-2.4-DIST）和实时性要求，我们需对齐以下硬性约束：
+
+1. **同步精度 (P0)**：多站协同要求时间同步误差 **\< 1µs**。传统的 NTP（毫秒级）无法满足，必须使用硬件辅助的 PTP。
+2. **硬件依赖 (Hardware)**：
+      - **网卡**：必须支持 **Hardware Timestamping** (IEEE 1588 PHY)。(需确认您的网迅网卡或采集卡是否支持，若不支持需回退到软件 PTP，精度降至 10-100µs)。
+      - **交换机**：局域网交换机应支持 **PTP Transparent Clock (TC)** 或 **Boundary Clock (BC)** 模式，以消除排队抖动。
+3. **单调性 (Monotonicity)**：系统内部逻辑（如卡尔曼滤波 `dt` 计算）严禁出现“时光倒流”。即使外部时钟源发生跳变（Step），内部时钟也必须平滑过渡（Slew）。
+
+-----
+
+## 2. 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：同步协议栈选型
+
+| 选项 | A. NTP (Network Time Protocol) | B. Software PTP | C. Hardware PTP **(推荐)** |
+| :--- | :--- | :--- | :--- |
+| **机制** | 纯软件协议，通过统计学算法消除抖动。 | 使用 PTP 协议，但打点在驱动层/协议栈层。 | **PHY 芯片打点**。完全消除 OS 调度和协议栈延迟。 |
+| **精度** | 1ms - 10ms。 | 10µs - 100µs。 | **\< 1µs (亚微秒级)**。 |
+| **适用性** | 日志记录、非实时业务。 | 低成本组网。 | **相控阵雷达、高频交易、工业自动化**。 |
+
+### 议题 2：应用层计时源 (Application Timing Source)
+
+| 选项 | A. `clock_gettime` (vDSO) | B. `rdtsc` 指令 (TSC) **(推荐)** |
+| :--- | :--- | :--- |
+| **机制** | Linux 标准 API，读取内核维护的时间结构体。 | 直接读取 CPU 内部的 Time Stamp Counter 寄存器。 |
+| **开销** | **低 (\~20-50ns)**。vDSO 避免了陷入内核，但仍有内存访问开销。 | **极低 (\~5-10ns)**。纯寄存器操作，流水线几乎无停顿。 |
+| **缺陷** | 仍有微小开销，且受制于内核的时钟更新策略。 | **原生不支持绝对时间**。TSC 只是一个开机后的滴答计数，且不同 CPU 核之间可能微弱不同步（现代 CPU 已通过 `constant_tsc` 解决）。 |
+| **结论** | 通用场景首选。 | **高频热路径（如每秒百万次打点）首选**。需配合软件校准。 |
+
+-----
+
+## 3. 基线确立与实施规范
+
+为了达成亚微秒级同步并支持高频打点，我们确立 **Hardware PTP + TSC 软时钟** 为基线。
+
+### 3.1. 物理层同步架构 (PTP Topology)
+
+  - **Grandmaster (GM)**：总控服务器或专用的 GPS/北斗授时仪，作为 PTP 主时钟。
+  - **Slave Nodes**：雷达处理服务器（DataReceiver 所在节点）。
+  - **软件栈**：使用 Linux 标准工具集 **`linuxptp`**。
+      - **`ptp4l`**：负责将 **网卡 PHC (PTP Hardware Clock)** 同步到 GM。
+      - **`phc2sys`**：负责将 **系统时钟 (System Clock / CLOCK\_REALTIME)** 同步到 网卡 PHC。
+
+**运维配置基线 (`/etc/linuxptp/ptp4l.conf`)**:
+
+```txt
+[global]
+time_stamping         hardware
+delay_mechanism       E2E
+network_transport     UDPv4
+# 关键：在锁定前允许跳变，锁定后仅微调
+step_threshold        1.0
+first_step_threshold  0.00002
+```
+
+## 2. 应用层软时钟设计 (TSC-based Soft Clock)
+
+在 C++ 应用层，我们封装一个 `HighPrecisionClock` 类，利用 TSC 提供极速时间戳，同时后台线程负责将其“锚定”到 PTP 时间上。
+
+  - **核心原理**：
+
+    $$
+	T_{current} = T_{base} + \frac{(TSC_{current} - TSC_{base})}{Frequency}$$
+
+      * $T_{base}$ 和 $TSC_{base}$ 是最近一次校准时的基准对。
+      * $Frequency$ 是 CPU 主频（需通过校准测得精确值，而非标称值）。
+
+
+
+
+
+
+ * **校准线程 (Calibration Thread)**：
+      - **频率**：每 1 秒运行一次。
+      - **逻辑**：
+        1. 原子操作同时读取当前 `clock_gettime(REALTIME)` ($T_{new}$) 和 `rdtsc` ($TSC_{new}$)。
+        2. 更新全局原子变量 `BasePair` = {$T_{new}$, $TSC_{new}$}。
+        3. **平滑策略**：如果发现 PTP 时间发生了跳变（Step），不要立即更新 $T_{base}$ 导致时间倒流，而是调整 $Frequency$ 让时间“快跑”或“慢跑”以追赶（Slew），保证单调性。
+
+### 3. 异常处理与回退 (Fallback)
+
+  - **PTP 失锁检测**：监控模块需监听 `ptp4l` 的 `rms` (Root Mean Square) 偏差值。
+      - 若 `rms > 10µs` 持续 5 秒，标记 **"Time Sync Degraded"**。
+  - **NTP 回退**：如果 PTP 完全不可用（网卡不支持或链路故障），自动回退到 NTP。
+      - **实现**：`chronyd` 配置 `noselect`，仅当 PTP 服务停止时接管。
+      - **标记**：此时数据包中的 `timestamp_us` 精度下降，`TrackDataBatch` 的状态字段应置位 `TIME_PRECISION_LOW`。
+
+-----
+
+## 总结：2.6.1 基线图谱
+
+| 组件 | 核心基线 | 关键技术点 |
+| :--- | :--- | :--- |
+| **时间源 (Truth)** | **GPS/北斗 -\> PTP GM** | 绝对时间真值。 |
+| **同步协议** | **IEEE 1588v2 (Hardware)** | `ptp4l` + `phc2sys`，亚微秒精度。 |
+| **应用层 API** | **TSC Soft Clock** | `rdtsc` + 动态校准，纳秒级开销。 |
+| **单调性保障** | **软件平滑 (Slewing)** | 禁止时间倒流，通过频率微调消除偏差。 |
+
+**提问**：您是否确认 **“硬件 PTP 同步 + TSC 软时钟封装”** 的架构基线？如果确认，我们将进入 **2.6.2 多级数据打点策略**，定义这个高精度时间戳具体“打”在哪里。
diff --git a/系统基座文件/2/2.6/2.6.2 多级数据打点策略 (Multi-Level Timestamping Strategy).md b/系统基座文件/2/2.6/2.6.2 多级数据打点策略 (Multi-Level Timestamping Strategy).md
new file mode 100644
index 0000000..fcb9033
--- /dev/null
+++ b/系统基座文件/2/2.6/2.6.2 多级数据打点策略 (Multi-Level Timestamping Strategy).md	
@@ -0,0 +1,125 @@
+---
+tags: []
+date created: 星期三, 十一月 26日 2025, 9:49:46 晚上
+date modified: 星期三, 十一月 26日 2025, 10:06:18 晚上
+---
+
+# 2.6.2 多级数据打点策略 (Multi-Level Timestamping Strategy)
+
+**基线核心宗旨**：**“As Early As Possible (越早越好)”**。
+时间戳必须尽可能在物理层（PHY）或链路层（MAC）生成，以消除操作系统中断调度、驱动处理和协议栈拷贝带来的**不定长抖动（Jitter）**。
+
+-----
+
+## 1. 约束输入与对齐 (Constraints & Alignment)
+
+基于 2.1.1 审计结果（网迅 WX1860AL4 网卡）和 2.6.1 确立的时钟基线，我们需要对齐以下约束：
+
+1. **硬件能力 (Hardware Cap)**：
+      - **网迅 NIC**：需确认驱动是否支持 `SO_TIMESTAMPING` 接口读取硬件 RX 时间戳。通常企业级网卡（Intel X710/Mellanox）均支持，国产网卡需实测验证。若不支持，需回退到内核软打点。
+2. **协议支持 (Protocol)**：
+      - UDP 数据包本身不携带“发送时间”（除非应用层协议写了）。因此我们依赖的是**接收端打点 (Ingress Timestamping)**。
+3. **数据结构关联**：
+      - 生成的纳秒级时间戳必须填入 `RawDataPacket` 的 Header，并最终映射到 Protobuf 的 `timestamp_us`。
+
+-----
+
+## 2. 权衡分析与选项呈现 (Trade-off Matrix)
+
+我们按照“离物理线路的距离”定义三个打点层级：
+
+| 选项 | A. 用户态打点 (User-space) | B. 内核软打点 (Kernel SW) **(基线)** | C. 硬件硬打点 (Hardware HW) **(理想)** |
+| :--- | :--- | :--- | :--- |
+| **生成位置** | `recvmsg()` 返回后的应用层代码。 | 网卡驱动收到中断，SKB (Socket Buffer) 创建时刻。 | 网卡 PHY 芯片接收到前导码（Preamble）时刻。 |
+| **抖动来源** | **极大**。受 CPU 调度、软中断处理、内存拷贝影响，抖动可达 10-100µs。 | **中等**。受中断响应延迟影响，抖动约 1-10µs。 | **极小**。几乎无抖动 (\< 100ns)。 |
+| **PTP 依赖** | 依赖系统时钟 (`CLOCK_REALTIME`)。 | 依赖系统时钟。 | 依赖网卡 PHC (PTP Hardware Clock) 与系统时钟的同步 (`phc2sys`)。 |
+| **实现复杂度**| 低。调用 `Clock::now()` 即可。 | 中。需配置 Socket 选项并解析辅助数据 (`CMSG`)。 | 高。需硬件支持，且需处理 PHC 到 UTC 的转换。 |
+| **适用场景** | 功能调试、非实时业务。 | **当前国产环境最稳妥的基线**。 | 相控阵雷达、高频交易。 |
+
+-----
+
+## 3. 基线确立与实施规范
+
+考虑到国产网卡驱动的成熟度风险，我们确立 **“优先硬件，兜底内核，严禁用户态”** 的分级策略。
+
+### 3.1 策略分级定义 (Hierarchy Definition)
+
+  - **Priority 1 (HW)**: 尝试启用 **`SO_TIMESTAMPING_RX_HARDWARE`**。
+      - 如果网卡支持，这是绝对真值。
+      - *注意*：硬件时间戳通常是 PHC 时间（TAI），需在用户态根据 `ptp4l` 的 offset 转换为 UTC。
+  - **Priority 2 (SW)**: 回退到 **`SO_TIMESTAMPNS`** (内核接收时间)。
+      - 这是**工程基线**。它反映了数据包进入 Linux 网络栈的第一时间点，消除了应用程序调度的延迟。
+  - **Priority 3 (App)**: **严禁作为生产标准**。仅在上述两者皆失败时，使用 2.6.1 定义的 `HighPrecisionClock::now()` 补救，并标记数据质量为 `LOW_PRECISION`。
+
+### 3.2 实现规范：辅助数据解析 (CMSG Parsing)
+
+在 `DataReceiver` 的 I/O 线程中，必须改造 `recvmmsg` 的调用方式，以提取内核附带的时间戳元数据。
+
+  - **Socket 配置**：
+
+    ```cpp
+    int flags = SO_TIMESTAMPNS; // 请求内核软件时间戳 (纳秒级)
+    // 如果确认网卡支持硬件打点，则改为:
+    // int flags = SOF_TIMESTAMPING_RX_HARDWARE | SOF_TIMESTAMPING_RAW_HARDWARE;
+    setsockopt(sockfd, SOL_SOCKET, SO_TIMESTAMPING, &flags, sizeof(flags));
+    ```
+
+  - **接收逻辑 (核心代码范式)**：
+
+    ```cpp
+    void UdpReceiver::receiveLoop() {
+        struct mmsghdr msgs[BATCH_SIZE];
+        struct iovec iovecs[BATCH_SIZE];
+        char cmsg_buf[BATCH_SIZE][256]; // 存放辅助数据的缓冲区
+        
+        // … 初始化 msgs, iovecs, cmsg …
+
+        int n = recvmmsg(sockfd, msgs, BATCH_SIZE, 0, nullptr);
+        
+        for (int i = 0; i < n; ++i) {
+            uint64_t timestamp_ns = 0;
+            
+            // 解析辅助数据 (Control Message)
+            struct cmsghdr *cmsg;
+            for (cmsg = CMSG_FIRSTHDR(&msgs[i].msg_hdr); cmsg; cmsg = CMSG_NXTHDR(&msgs[i].msg_hdr, cmsg)) {
+                // 优先提取硬件时间戳，若无则提取软件时间戳
+                if (cmsg->cmsg_level == SOL_SOCKET && cmsg->cmsg_type == SCM_TIMESTAMPNS) {
+                    struct timespec *ts = (struct timespec *)CMSG_DATA(cmsg);
+                    timestamp_ns = ts->tv_sec * 1000000000ULL + ts->tv_nsec;
+                    break; 
+                }
+            }
+
+            // 兜底：如果内核没给时间戳，立刻用 TSC 软时钟打点
+            if (timestamp_ns == 0) {
+                timestamp_ns = HighPrecisionClock::now();
+            }
+
+            // 固化：写入 RawDataPacket Header
+            // 这一刻起，这个时间戳就是数据的"法定出生时间"
+            auto packet = MakePacket(std::move(payload), seq_id);
+            packet.header.timestamp_us = timestamp_ns / 1000; 
+            // … 推送队列 …
+        }
+    }
+    ```
+
+### 3.3 全链路时间戳传递 (Propagation)
+
+这个“出生时间戳” (`timestamp_us`) 必须在系统中神圣不可侵犯：
+
+  - **接收端 (`DataReceiver`)**：生成并写入 `RawDataPacket.header`。
+  - **处理端 (`SignalProcessor`)**：继承该时间戳。虽然 FFT 处理是在 5ms 后进行的，但数据的物理意义依然是“那个时刻的回波”。
+  - **输出端 (`DisplayController`)**：将该时间戳写入 Protobuf 的 `timestamp_us` 字段发送给显控。
+      - *注意*：显控端看到的延迟 = `Now() - timestamp_us`。这个延迟包含了：`内核排队 + 信号处理耗时 + 航迹关联耗时 + 序列化耗时 + 网络传输耗时`。这正是我们想要的**真实物理延迟**。
+
+-----
+
+## 总结：2.6.2 基线图谱
+
+| 维度 | 核心基线 | 技术细节 |
+| :--- | :--- | :--- |
+| **打点源** | **内核软打点 (`SO_TIMESTAMPNS`)** | 兼顾精度与兼容性，消除用户态抖动。 |
+| **理想源** | **硬件打点 (HW RX)** | 若网卡支持，优先升级至此 (需实测)。 |
+| **获取方式** | **`recvmmsg` + `CMSG`** | 从 Socket 辅助数据中提取，而非调用 `time()`。 |
+| **语义** | **生成时间 (Generation Time)** | 代表信号到达系统的物理时刻，全链路透传，禁止修改。 |
diff --git a/系统基座文件/2/2.6/2.6.3 相干处理间隔对齐机制 (CPI Alignment Mechanism).md b/系统基座文件/2/2.6/2.6.3 相干处理间隔对齐机制 (CPI Alignment Mechanism).md
new file mode 100644
index 0000000..cbcea1f
--- /dev/null
+++ b/系统基座文件/2/2.6/2.6.3 相干处理间隔对齐机制 (CPI Alignment Mechanism).md	
@@ -0,0 +1,146 @@
+---
+tags: []
+date created: 星期三, 十一月 26日 2025, 10:25:55 晚上
+date modified: 星期三, 十一月 26日 2025, 10:28:06 晚上
+---
+
+# 2.6.3 相干处理间隔对齐机制 (CPI Alignment Mechanism)
+
+-----
+
+## TL;DR
+
+本节确立了 **“原地乱序重组 (In-Place Scatter Assembly)”** 的基线策略。
+利用 **脉冲索引 (Pulse Index)** 直接计算内存偏移量，将网络包数据直接写入预分配的页锁定内存（Pinned Memory），实现**零拷贝组装**。配合 **“空间/时间双重触发”** 的提交机制和 **“有限零填充”** 的容错策略，在抗网络抖动与保障实时性之间取得平衡。
+
+-----
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于前序章节（2.1, 2.2, 2.6.2），我们面临以下硬性约束：
+
+1. **数据形态**：
+      - **输入**：UDP JUMBO Frame (9KB)。每个包可能包含 1 个或多个脉冲的回波数据，带有 `BatchID` (CPI ID) 和 `PulseIndex`。
+      - **输出**：符合 **2.2.6** 定义的显存布局 `[Channel][Pulse][Range]` (Padding 对齐)。
+2. **时序特性**：
+      - 网络抖动（Jitter）客观存在，数据包到达顺序不一定严格均等。
+      - 算法要求：多普勒处理（FFT）要求脉冲间隔（PRI）是均匀的。如果数据包晚到，我们不能“等”太久，否则会阻塞流水线；如果包丢了，矩阵就“穿孔”了。
+3. **内存模型**：必须在 **2.2.1** 确立的 `MemoryPool`（页锁定内存）中直接操作，避免额外的 `memcpy`。
+
+-----
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：组装策略 (Assembly Strategy)
+
+| 选项 | A. 顺序追加 + 排序 (Append & Sort) | B. 原地乱序重组 (In-Place Scatter) **(推荐)** |
+| :--- | :--- | :--- |
+| **机制** | 收到一个包就 push\_back 到 buffer，凑够数量后按 `PulseIndex` 排序整理内存。 | 根据包头的 `PulseIndex` 直接计算目标地址偏移 `offset`，写入最终位置。 |
+| **内存拷贝** | **2 次** (接收 -\>临时 Buf-\>排序后 Buf)。 | **1 次** (接收 -\>最终 Buf)。 |
+| **乱序容忍** | 好，但整理开销大。 | **极佳**。先到的包占坑，后到的包填坑，无视顺序。 |
+| **CPU 开销** | 高 (排序算法)。 | **极低** (O(1) 地址计算)。 |
+
+### 议题 2：CPI 提交触发机制 (Commit Trigger)
+
+| 选项 | A. 严格计数触发 (Strict Count) | B. 严格时间触发 (Strict Timer) | C. 混合双触发 (Hybrid) **(推荐)** |
+| :--- | :--- | :--- | :--- |
+| **机制** | 必须收齐 N 个脉冲才提交。少一个就死等。 | 无论收多少，每隔 T 毫秒强制提交一次。 | **收齐 N 个** OR **首包到达后超时 T\_max**，满足其一即提交。 |
+| **实时性** | **差**。一个包丢了会导致该 CPI 永远卡死，甚至阻塞后续 CPI。 | **中**。可能切断正在传输的完整 CPI。 | **高**。既保证了完整性，又防止了死锁。 |
+| **丢包处理** | 无法处理。 | 截断。 | **自适应**。超时未齐则标记为“残缺 CPI”。 |
+
+### 议题 3：残缺数据处理 (Incomplete Data Policy)
+
+当触发超时提交时，CPI 矩阵中会有“空洞”（丢包导致的缺失脉冲）。
+
+| 选项 | A. 整块丢弃 (Drop All) | B. 零填充 (Zero Padding) **(推荐)** |
+| :--- | :--- | :--- |
+| **机制** | 只要不完整，整个 CPI 扔掉。 | 缺失的脉冲位置填 0，强行送入 GPU。 |
+| **算法影响** | **断续**。航迹会中断，但没噪音。 | **信噪比下降**。FFT 旁瓣升高，可能产生假目标。 |
+| **工程价值** | 简单，适合严苛场景。 | **鲁棒**。偶尔丢 1-2 个包不影响大局，通过 CFAR 阈值抑制旁瓣。 |
+
+-----
+
+## 三、 基线确立与实施规范
+
+为了在 1GbE 的物理限制下榨干性能，我们确立 **B. 原地乱序重组** + **C. 混合双触发** 为基线。
+
+### 1\. 数据结构：智能 CPI 容器 (`AssemblyBuffer`)
+
+我们在 `DataReceiver` 中维护一个“正在组装”的 CPI 池。
+
+```cpp
+struct AssemblyBuffer {
+    // 基础元数据
+    uint64_t batch_id = 0;
+    uint64_t first_packet_time_us = 0; // 首包到达时间 (用于超时判定)
+    uint32_t packets_received = 0;     // 已收包计数
+    uint32_t total_packets_expected = 0; // 预期总包数 (由波位参数决定)
+
+    // 内存指针 (指向 MemoryPool 中的一块 Pinned Memory)
+    // 物理布局严格遵循 [Channel][Pulse][Range]
+    Complex* data_ptr = nullptr; 
+    
+    // 位图 (Bitmap)：用于快速标记哪些 Pulse 已经收到了
+    // 相比 vector<bool> 更快，且方便检查完整性
+    std::bitset<MAX_PULSES_PER_CPI> reception_mask;
+
+    // 状态
+    enum State { IDLE, ASSEMBLING, READY, DAMAGED };
+    State state = IDLE;
+};
+```
+
+### 2\. 原地重组逻辑 (In-Place Assembly Logic)
+
+这是 **I/O 线程** 的核心循环逻辑：
+
+1. **接收**：`recvmmsg` 收到一个 UDP 包。
+2. **解析**：读取包头，获取 `BatchID` (CPI ID) 和 `PulseIndex`。
+3. **寻址**：
+      - 若 `BatchID` 是新的，从 `MemoryPool` 申请一块新 `AssemblyBuffer`。
+      - 若 `BatchID` 已存在，命中缓存。
+4. **计算偏移 (关键)**：
+      - 利用 **2.2.6** 确定的 Pitch (行对齐步长)。
+      - `TargetAddr = BufferBase + (PulseIndex * Pitch_Bytes)`。
+5. **写入**：将 UDP Payload 直接 `memcpy` 到 `TargetAddr`。
+      - *注*：这是数据进入系统的**唯一一次拷贝**。
+6. **标记**：`reception_mask.set(PulseIndex)`；`packets_received++`。
+
+### 3\. 提交与超时策略 (Commit & Timeout)
+
+我们需要一个**低频**（如 1kHz）的检查器（可以在 I/O 线程的空闲间隙运行，或由定时器触发）：
+
+  - **完整性检查**：`if (packets_received == total_packets_expected)` -\> **立即提交** (Push to GPU Queue)。
+  - **超时检查**：`if (Now() - first_packet_time_us > MAX_JITTER_WINDOW_US)` -\> **强制提交**。
+      - *基线值*：`MAX_JITTER_WINDOW_US` 建议设为 **CPI 时长的 10%**（例如 CPI 为 5ms，则抖动容忍窗为 500us）。
+
+### 4\. 容错与填充规范
+
+当 **强制提交** 发生时（即丢包）：
+
+  - **丢包率判定**：
+      - 若 `LossRate < 5%` (如 128 个脉冲丢了 \< 6 个)：执行 **零填充 (Zero Padding)**。将 `reception_mask` 中为 0 的位置对应的内存置零（`memset`）。标记数据质量为 `DEGRADED`。
+      - 若 `LossRate >= 5%`：**整块丢弃**。FFT 在缺失大量数据时结果不可信。记录 `WARNING` 日志。
+
+-----
+
+## 四、 自我反驳与边界修正 (Self-Rebuttal)
+
+  - **反驳 1**：原地乱序重组需要预知 `PulseIndex`，如果 UDP 包头里没有这个字段怎么办？
+      - *修正*：协议层（2.1.2）必须强制要求 FPGA/DPU 打包时带上 `PulseIndex`。如果前端不可控，则必须在 `DataReceiver` 维护一个软件计数器，但这会失去抗乱序能力，属于**降级方案**。
+  - **反驳 2**：`memset` 清零操作在大内存（如 64MB）下也是耗时的。
+      - *修正*：我们使用了 `MemoryPool`。在归还 Block 时，是否需要清零？不，我们在**申请 Block 时不清零**，而是依赖**全覆盖写入**。因此，对于没收到的脉冲，**必须显式清零**，否则会残留上一个 CPI 的脏数据（鬼影目标）。
+      - *优化*：只对 `reception_mask` 为 0 的那些行（Pitch）做 `memset`，而不是整个 Buffer。
+
+-----
+
+## 总结：2.6.3 基线图谱
+
+| 维度 | 核心基线 | 关键技术点 |
+| :--- | :--- | :--- |
+| **组装模式** | **In-Place Scatter (原地乱序)** | `Addr = Base + PulseIdx * Pitch`，O(1) 复杂度。 |
+| **内存操作** | **Single Copy (单次拷贝)** | 从 UDP 接收缓冲区直接到 Pinned Memory。 |
+| **提交触发** | **Hybrid (满额即发 / 超时强发)** | 抖动窗口建议为 CPI 时长的 10%。 |
+| **容错策略** | **Conditional Padding (条件填充)** | 丢包 \< 5% 补零；\> 5% 丢弃。需显式清除脏数据。 |
+
+-----
diff --git a/系统基座文件/2/2.6/2.6.4 航迹外推与异步测量融合 (Track Extrapolation & Asynchronous Measurement Fusion).md b/系统基座文件/2/2.6/2.6.4 航迹外推与异步测量融合 (Track Extrapolation & Asynchronous Measurement Fusion).md
new file mode 100644
index 0000000..0e95c9d
--- /dev/null
+++ b/系统基座文件/2/2.6/2.6.4 航迹外推与异步测量融合 (Track Extrapolation & Asynchronous Measurement Fusion).md	
@@ -0,0 +1,164 @@
+---
+tags: []
+date created: 星期三, 十一月 26日 2025, 10:30:58 晚上
+date modified: 星期三, 十一月 26日 2025, 10:48:13 晚上
+---
+
+# 2.6.4 航迹外推与异步测量融合 (Track Extrapolation & Asynchronous Measurement Fusion)
+
+-----
+
+这是数据处理模块（DataProcessor）的**时空校准器**。
+在 2.6.2 中，我们给每个 CPI 数据打上了高精度的“出生时间戳” ($t_{meas}$)。
+在 2.6.3 中，我们完成了数据的物理拼装。
+现在，算法核心面临的问题是：**当前的航迹停留在 $t_{track}$ 时刻，而新来的量测数据产生于 $t_{meas}$ 时刻。两者在时间上不对齐，如何在空间上进行关联？**
+
+对于相控阵雷达，波束调度是灵活的，数据到达是异步的，传统的“按扫描周期（Scan-based）”更新逻辑已经失效，必须转向 **“按量测驱动（Measurement-Driven）”** 的异步滤波机制。
+
+-----
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于前序基线，我们面临以下硬性约束：
+
+1. **时间真值**：所有计算必须基于 **2.6.2** 确立的 `timestamp_us`（物理生成时间）。严禁使用 `Now()`（处理时间）进行滤波，否则会将“处理延迟”和“排队延迟”错误地耦合进运动模型，导致速度估计偏差。
+2. **数据单调性**：物理世界的时间是单调递增的。但网络传输可能导致 UDP 包乱序，使得 $t_{meas}$ 偶尔出现回退。
+3. **计算模型**：内部对象遵循 **2.5.1** 定义的 `TrackData` (POD, `float state[8]`)。
+
+-----
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：时间对齐策略 (Alignment Strategy)
+
+| 选项 | A. 统一同步到当前时刻 (Sync to Now) | B. 航迹外推到量测时刻 (Extrapolate to Meas) **(推荐)** |
+| :--- | :--- | :--- |
+| **机制** | 将所有航迹和新量测都外推到 `Now()` 或固定的 `T_tick`，在同一时间切片上做关联。 | 保持量测不动（因为它是真值），将航迹状态外推 $\Delta t = t_{meas} - t_{track}$，在 $t_{meas}$ 处做关联。 |
+| **精度** | **中**。引入了“处理延迟”的外推误差。 | **高**。利用了最原始的测量时间，物理意义最严谨。 |
+| **适用性** | 机械扫描雷达（整圈更新）。 | **相控阵雷达/异步多传感器融合**。 |
+| **副作用** | 航迹时间戳随系统时钟更新。 | 航迹时间戳随量测时间更新。 |
+
+### 议题 2：乱序量测处理 (OOSM - Out of Sequence Measurement)
+
+当 $t_{meas} < t_{track}$ 时（即新收到的数据比航迹当前状态还老）：
+
+| 选项 | A. 状态回溯滤波 (Retrodiction) | B. 缓冲重排 (Buffering) | C. 直接丢弃 (Drop) **(推荐)** |
+| :--- | :--- | :--- | :--- |
+| **机制** | 保存历史状态快照，回滚到 $t_{meas}$ 更新后再推回来。 | 在接收端设置缓冲窗（如 50ms），排序后再送入算法。 | **拒收**“来自过去”的数据。 |
+| **复杂度** | **极高**。内存和计算开销翻倍。 | **中**。增加系统整体延迟。 | **极低**。 |
+| **适用性** | 数据极稀疏的场景（如空管雷达）。 | 对延迟不敏感的离线系统。 | **高更新率雷达**。丢掉一帧数据对跟踪影响微乎其微。 |
+
+-----
+
+## 三、 基线确立与实施规范
+
+为了适配相控阵体制并保证微秒级一致性，我们确立 **B. 航迹外推到量测时刻** + **C. 直接丢弃乱序** 为基线。
+
+### 1\. 核心算法：异步外推更新 (Asynchronous Update)
+
+在关联阶段（Association），针对每一个待匹配的航迹 $Tr_i$，执行以下逻辑：
+
+1. **时间差计算 (Time Difference)**
+
+	计算量测时间 ($t_{meas}$) 与当前航迹时间 ($t_{track}$) 的偏差，转换为秒：
+
+$$
+\Delta t = (t_{meas} - t_{track}) \times 10^{-6}
+$$
+
+- $t_{meas}$: 新到达的量测数据时间戳 (单位: 微秒)
+- $t_{track}$: 航迹当前状态的时间戳 (单位: 微秒)
+
+2. **状态外推方程 (State Extrapolation)**
+
+	基于时间差 $\Delta t$ 将航迹状态向前推演：
+
+$$
+\hat{x}_{k|k-1} = F(\Delta t) \cdot \hat{x}_{k-1|k-1}
+$$
+
+- $\hat{x}_{k|k-1}$: 外推后的预测状态向量
+- $F(\Delta t)$: 状态转移矩阵 (如 CV/CA 模型，随 $\Delta t$ 变化)
+- $\hat{x}_{k-1|k-1}$: 上一时刻的更新状态
+
+3. **残差计算 (Innovation Calculation)**
+
+	计算实际量测值与预测观测值之间的差异：
+
+$$
+\tilde{y} = z_{meas} - H \cdot \hat{x}_{k|k-1}
+$$
+
+- $\tilde{y}$: 修正后的残差 (Innovation)
+- $z_{meas}$: 转换后的笛卡尔坐标量测值
+- $H$: 观测矩阵
+
+---
+
+### 3\. 代码实现范式 (C++ Optimized)
+
+利用 2.5.1 定义的定长数组和 SIMD 对齐特性：
+
+```cpp
+// 2.5.1 TrackData (State[8]: x, y, z, vx, vy, vz, pad, pad)
+// 2.5.1 DetectionResult (Block 0: r, azi, ele, v)
+
+void KalmanFilter::predictAndAssociate(TrackData& track, const DetectionResult& meas) {
+    // 1. 时间对齐 (使用 2.6.2 定义的硬件/内核时间戳)
+    int64_t dt_us = (int64_t)meas.timestamp_us - (int64_t)track.timestamp_us;
+    
+    // 2. OOSM 保护 (基线：丢弃乱序)
+    if (dt_us <= 0) return; 
+
+    float dt = dt_us * 1e-6f;
+
+    // 3. 状态外推 (CV 模型示例) - SIMD 友好
+    // x' = x + vx * dt
+    // vx' = vx
+    float predicted_state[8];
+    
+    // 手动展开循环或利用编译器自动向量化
+    predicted_state[0] = track.state[0] + track.state[3] * dt; // x
+    predicted_state[1] = track.state[1] + track.state[4] * dt; // y
+    predicted_state[2] = track.state[2] + track.state[5] * dt; // z
+    predicted_state[3] = track.state[3]; // vx
+    predicted_state[4] = track.state[4]; // vy
+    predicted_state[5] = track.state[5]; // vz
+    
+    // 4. 转换量测到笛卡尔坐标 (z_meas)
+    float z_x, z_y, z_z;
+    SphericalToCartesian(meas.range, meas.azimuth, meas.elevation, z_x, z_y, z_z);
+
+    // 5. 计算马氏距离 (关联判据)
+    float dist = CalculateMahalanobisDist(predicted_state, track.covariance_diag, z_x, z_y, z_z);
+    
+    if (dist < GATING_THRESHOLD) {
+        // 关联成功，准备 Update
+        // …
+    }
+}
+```
+
+### 4\. 时钟跳变防护 (Sanity Check)
+
+为了防止 2.6.1 中的 PTP/NTP 发生阶跃导致 $\Delta t$ 异常（例如突然跳变 100 年）：
+
+  - **基线策略**：设置物理合理性阈值。
+  - **判据**：若 `abs(dt) > 10.0f` (10 秒)，视为时钟故障。
+  - **动作**：
+      - 不更新航迹状态。
+      - 重置航迹的 `timestamp_us` 为 `meas.timestamp_us`（强制同步，但不外推状态）。
+      - 触发 `SystemClockJumpEvent` 告警。
+
+-----
+
+## 四、总结：2.6.4 基线图谱
+
+| 维度 | 核心基线 | 设计意图 |
+| :--- | :--- | :--- |
+| **对齐方向** | **Track Extrapolates to Measurement** | 尊重数据的物理生成时间，消除处理延迟对估计的影响。 |
+| **时间差计算** | **$\Delta t = t_{meas} - t_{track}$** | 基于绝对时间戳，而非处理间隔。 |
+| **乱序处理** | **Drop OOSM ($\Delta t < 0$)** | 牺牲个别数据点的利用率，换取算法的低复杂度和高吞吐。 |
+| **异常防护** | **Sanity Check (\> 10s)** | 防止时钟源故障导致航迹“飞”出地球。 |
+
+-----
diff --git a/系统基座文件/2/2.6/2.6.5 全链路延迟审计与抖动监控 (End-to-End Latency Auditing & Jitter Monitoring).md b/系统基座文件/2/2.6/2.6.5 全链路延迟审计与抖动监控 (End-to-End Latency Auditing & Jitter Monitoring).md
new file mode 100644
index 0000000..e4a9c9b
--- /dev/null
+++ b/系统基座文件/2/2.6/2.6.5 全链路延迟审计与抖动监控 (End-to-End Latency Auditing & Jitter Monitoring).md	
@@ -0,0 +1,134 @@
+---
+tags: []
+date created: 星期三, 十一月 26日 2025, 10:55:22 晚上
+date modified: 星期三, 十一月 26日 2025, 11:02:47 晚上
+---
+
+# 2.6.5 全链路延迟审计与抖动监控 (End-to-End Latency Auditing & Jitter Monitoring)
+
+如果说 2.6.4 是为了让算法“算得对”，那么 2.6.5 就是为了证明系统“跑得快”且“跑得稳”。这是系统性能的**心电图**，也是触发 **2.3.5 热节流** 和 **2.3.4 故障恢复** 的核心依据。
+
+-----
+
+## TL;DR
+
+本节确立了 **“关键节点埋点 (Checkpointing) + 驻留时间计算 (Residence Time)”** 的基线策略。
+利用数据包中携带的 **不可变时间戳 (Birth Timestamp)** 作为 T0，在流水线的每个交接点（Handoff Point）采集当前时间，计算 **阶段耗时** 与 **全系统驻留时间**。监控数据通过 **无锁直方图 (Lock-free Histogram)** 聚合，并实时计算 P99 延迟与抖动（Jitter），一旦超出 CPI 周期阈值，立即触发流控。
+
+-----
+
+## 一、 约束输入与对齐 (Constraints & Alignment)
+
+基于前序基线，我们面临以下硬性约束：
+
+1. **时间基准**：所有打点必须使用 **2.6.1** 确立的 `HighPrecisionClock` (TSC-based)，以保证纳秒级精度和极低开销（\< 20ns）。
+2. **零干扰**：监控逻辑严禁阻塞业务线程。严禁在热路径上进行文件 I/O（写日志）或复杂的锁操作。
+3. **关联性**：必须能够将延迟数据关联到具体的 `StationID` 和 `TraceID`，以便定位是哪个雷达阵面或哪一帧数据导致了卡顿。
+
+-----
+
+## 二、 权衡分析与选项呈现 (Trade-off Matrix)
+
+### 议题 1：埋点粒度 (Granularity)
+
+| 选项 | A. 仅首尾打点 (Black Box) | B. 细粒度逐级打点 (White Box) **(推荐)** |
+| :--- | :--- | :--- |
+| **机制** | 仅在 `DataReceiver` 入口和 `DisplayController` 出口记录。计算 $T_{out} - T_{in}$。 | 在每个模块的 Input/Output 队列处均打点：Rx, DSP\_Start, DSP\_End, Track, Tx… |
+| **开销** | 极低。 | 低（TSC 读取极快）。 |
+| **诊断能力** | **差**。只能知道系统慢了，不知道是 GPU 算慢了，还是 PCIe 堵了，还是调度器卡了。 | **强**。能精确绘制“火焰图”，定位瓶颈环节。 |
+| **结论** | 仅适用于最终用户 SLA。 | **研发与运维的标准解**。 |
+
+### 议题 2：数据聚合策略 (Aggregation Strategy)
+
+| 选项 | A. 全量日志 (Raw Logs) | B. 内存直方图聚合 (In-Memory Histogram) **(推荐)** |
+| :--- | :--- | :--- |
+| **机制** | `LOG(INFO) << "Packet " << id << " took " << lat << "us";` | 维护一组原子计数器桶（Buckets），如 `<1ms`, `1-5ms`… 仅统计次数。 |
+| **IO 压力** | **极大**。每秒 10k 包产生 10k 条日志，瞬间打爆磁盘 IOPS。 | **零**。仅涉及内存原子自增 (`fetch_add`)。 |
+| **实时性** | 延迟高（需等日志落盘分析）。 | **实时**。控制面可随时读取当前 P99 值。 |
+
+-----
+
+## 三、 基线确立与实施规范
+
+为了实现“显微镜级”的性能观测，我们确立 **B. 细粒度逐级打点** + **B. 内存直方图聚合** 为基线。
+
+### 1\. 关键路径检查点定义 (Checkpoint Definition)
+
+我们将数据包在系统中的生命周期划分为 5 个关键时刻（Timestamp）：
+
+  - **T0 (Birth/Ingress)**: `DataReceiver` 收到 UDP 包的时刻（硬件/内核打点，见 2.6.2）。
+      - *阶段 1：接收耗时 (Rx Latency)* = $T_1 - T_0$
+  - **T1 (Dispatch)**: `AssemblyBuffer` 组装完成，推入 GPU 输入队列的时刻。
+      - *阶段 2：排队与传输 (Queue & PCIe)* = $T_2 - T_1$
+  - **T2 (Algo Start)**: `SignalProcessor` 从队列取出数据，开始 CUDA Kernel 的时刻。
+      - *阶段 3：计算耗时 (Compute)* = $T_3 - T_2$
+  - **T3 (Algo End)**: 信号处理完成，生成点迹/航迹的时刻。
+      - *阶段 4：后处理与关联 (Post-Proc)* = $T_4 - T_3$
+  - **T4 (Egress)**: `DisplayController` 完成序列化并调用 `sendto` 的时刻。
+
+**全链路驻留时间 (Residence Time)** = $T_4 - T_0$。
+
+### 2\. 数据结构：伴随式遥测对象 (`TelemetryContext`)
+
+为了避免在 `DataPacket` 中增加过多字段（膨胀 Payload），我们采用 **“边车模式 (Sidecar)”** 或利用 `TraceContext`（如果支持携带额外数据）。考虑到 C++ 性能，建议直接在 `DataPacket::Header` 中扩展调试字段（仅在 Debug/Profile 模式下启用）或使用 **Thread Local 统计器**。
+
+**生产环境基线（高性能方案）**：
+不随包携带所有中间时间戳，而是 **即时聚合**。
+
+```cpp
+// 伪代码：各模块内的埋点逻辑
+void SignalProcessor::onData(DataPacket& pkt) {
+    uint64_t now = Clock::now();
+    
+    // 1. 计算上一阶段耗时 (排队延迟)
+    // Packet Header 中记录了上一个节点的离开时间 last_leav_time
+    uint64_t queue_latency = now - pkt.header.last_leave_time;
+    Metrics::Histogram("dsp_queue_latency")->observe(queue_latency);
+
+    // 2. 执行业务
+    process(pkt);
+
+    // 3. 计算本阶段耗时
+    uint64_t done = Clock::now();
+    uint64_t compute_latency = done - now;
+    Metrics::Histogram("dsp_compute_latency")->observe(compute_latency);
+
+    // 4. 更新 Header，传给下游
+    pkt.header.last_leave_time = done;
+}
+```
+
+### 3\. 抖动监控与告警阈值 (Jitter Monitor)
+
+单纯看平均耗时（Avg）会掩盖问题，我们必须监控 **P99 (99 分位)** 和 **抖动 (Jitter)**。
+
+  - **抖动定义**：$J_i = |(T4_i - T4_{i-1}) - (T0_i - T0_{i-1})|$
+      - 即：*输出间隔的变化量* 与 *输入间隔的变化量* 之差。
+      - 理想情况下，如果系统处理能力恒定，输入是 10ms 间隔，输出也应该是 10ms 间隔，抖动为 0。
+  - **阈值设定**：
+      - **Warning**: P99 Latency \> $0.8 \times \text{CPI\_Interval}$。
+      - **Critical**: P99 Latency \> $1.0 \times \text{CPI\_Interval}$（系统已无法实时处理，必然积压）。
+
+### 4\. 闭环反馈：触发热节流 (2.3.5 Linkage)
+
+这是 2.6.5 与 2.3.5 的联动点。热节流不仅仅由**温度**触发，也应由**性能拥塞**触发。
+
+  - **逻辑**：
+    `MonitoringModule` 每秒轮询一次延迟指标。
+      - 如果 `dsp_queue_latency` (排队延迟) 持续增长 -\> 说明 GPU 处理不过来。
+      - **动作**：发布 `SystemOverloadEvent(Type=COMPUTE_LAG)`。
+      - **响应**：调度器下发 `SetComputeThrottleEvent(Level=1)`，通过主动降级（如减少点迹提取数量）来恢复实时性。
+
+-----
+
+## 四、 总结：2.6 章节整体回顾
+
+至此，**2.6 时序同步与数据一致性** 已全部完成。我们构建了一套严密的时空治理体系：
+
+1. **2.6.1 时钟源**：Hardware PTP + TSC，确保尺子是准的。
+2. **2.6.2 打点**：Kernel/Hardware Ingress Timestamp，确保起点是真实的。
+3. **2.6.3 对齐**：原地乱序重组，确保数据在进入算法前是齐整的。
+4. **2.6.4 融合**：异步外推，确保航迹与量测在物理时间上是对齐的。
+5. **2.6.5 审计**：全链路耗时监控，确保系统没有因过载而失速。
+
+-----
diff --git a/系统基座文件/2/2.7/2.7 链路鲁棒性与错误校检 (Link Robustness & Error Checking).md b/系统基座文件/2/2.7/2.7 链路鲁棒性与错误校检 (Link Robustness & Error Checking).md
new file mode 100644
index 0000000..cea1887
--- /dev/null
+++ b/系统基座文件/2/2.7/2.7 链路鲁棒性与错误校检 (Link Robustness & Error Checking).md	
@@ -0,0 +1,17 @@
+---
+tags: []
+date created: 星期三, 十一月 26日 2025, 11:04:00 晚上
+date modified: 星期三, 十一月 26日 2025, 11:24:19 晚上
+---
+
+# 2.7 链路鲁棒性与错误校检 (Link Robustness & Error Checking)
+
+- **覆盖范围**：定义系统对通信链路故障的容错能力。涵盖在 UDP 链路中部署 CRC/Checksum 校验、丢包统计与报告机制、以及内部 IPC 异常时的超时和重试策略。
+    - **2.7.1 应用层数据完整性校验 (Application-Layer Data Integrity Verification)**
+        - **核心指向**：弥补 UDP 标准校验和（16-bit）在大数据量传输下的碰撞风险。确立 **CRC32c (Castagnoli)**（硬件指令加速）为标准算法，强制在所有 `TrackDataBatch` 和 `RawDataPacket` 的协议头中包含校验字段。定义校验失败时的**“零容忍”丢弃策略**，防止比特翻转（Bit Flip）导致的脏数据污染卡尔曼滤波状态。
+    - **2.7.2 链路健康度监测与心跳机制 (Link Health Monitoring & Heartbeat Mechanism)**
+        - **核心指向**：定义双向链路的保活协议。在数据静默期（无业务数据发送时）强制发送 **高频心跳包 (1Hz - 10Hz)**，以维持中间网络设备的 NAT 映射并快速检测物理断连。定义 **“静默超时” (Silence Timeout)** 阈值（如 2000ms），一旦触发即判定链路中断，自动触发告警并重置接收状态机。
+    - **2.7.3 差异化丢包恢复策略 (Differentiated Packet Loss Recovery Strategy)**
+        - **核心指向**：针对不同业务流性质定义恢复逻辑。对于 **实时雷达数据（Data Plane）**，采用 **“即时丢弃 (Drop-and-Forget)”** 策略，严禁重传以避免队头阻塞（Head-of-Line Blocking）；对于 **关键控制指令（Control Plane）**，采用 **“带确认重传 (ARQ / ACK-Retry)”** 机制，确保配置变更和启停指令的必达性。
+    - **2.7.4 内部 IPC 拥塞控制与背压 (Internal IPC Congestion Control & Backpressure)**
+        - **核心指向**：针对进程内 `SPSC`（无锁队列）的溢出保护。定义 **“有界队列 (Bounded Queue)”** 策略，当队列深度达到高水位（High Watermark，如 80%）时，对上游模块施加**背压 (Backpressure)**，强制执行 **“尾部丢弃 (Tail Drop)”** 或 **“间隔抽稀”**，优先保障系统主进程不发生 OOM（内存溢出）。
diff --git a/系统基座文件/3/3.1/3.1 异构协同模型与职责边界 (Heterogeneous Collaboration Model & Responsibility Boundary).md b/系统基座文件/3/3.1/3.1 异构协同模型与职责边界 (Heterogeneous Collaboration Model & Responsibility Boundary).md
new file mode 100644
index 0000000..94844eb
--- /dev/null
+++ b/系统基座文件/3/3.1/3.1 异构协同模型与职责边界 (Heterogeneous Collaboration Model & Responsibility Boundary).md	
@@ -0,0 +1,41 @@
+---
+tags: []
+date created: 星期四, 十一月 27日 2025, 11:54:57 中午
+date modified: 星期四, 十一月 27日 2025, 11:44:56 晚上
+---
+
+# 3.1 异构协同模型与职责边界 (Heterogeneous Collaboration Model & Responsibility Boundary)
+
+- **设计目标**：最大化利用国产异构硬件特性（Feiteng 的逻辑控制能力 + Iluvatar 的并行浮点能力），同时最小化 PCIe 总线上的交互频率。
+
+## 3.1.1 Device 侧驻留图谱：信号处理流水线 (Device-Resident Workload: Signal Processing Pipeline)
+
+- **核心指向**：定义必须**“死锁”在 GPU 显存**中运行的算法全集。严禁数据在中间步骤回流 CPU。
+- **算法栈与库选型**：
+    - **波束形成 (DBF)**：利用 **cuBLAS** (Vendor) 进行矩阵乘法加速。
+    - **脉冲压缩 & 多普勒处理**：利用 **cuFFT** (Vendor) 执行批量 FFT。
+    - **恒虚警检测 (CFAR)**：利用 **Thrust** (Open Source/Vendor SDK) 的 `transform` 和 `stencil` 算法实现并行滑窗检测，避免手写复杂 Kernel。
+- **边界法则**：**“GB 进，KB 出”**。输入是原始 I/Q (GB 级)，输出是点迹列表 (KB 级)。中间过程（如 RDM 矩阵）绝不离开显存。
+
+## 3.1.2 Host 侧驻留图谱：逻辑控制与后处理 (Host-Resident Workload: Logic & Post-Processing)
+
+- **核心指向**：定义由 CPU 负责的标量计算和状态管理任务。
+- **开源库集成**：
+    - **数据关联与滤波 (Tracking)**：利用 **Eigen3** (Open Source) 实现卡尔曼滤波（Kalman Filter）和概率数据互联（PDA）算法。Eigen 的向量化指令（NEON）能极好地适配飞腾 CPU。
+    - **全链路日志与审计**：集成 **spdlog** 或 **glog** (Open Source)，在控制路径上打点，记录任务调度延迟和状态变更，而非自己造日志轮子。
+    - **参数配置管理**：集成 **yaml-cpp** (Open Source) 解析雷达波位表和 CFAR 阈值参数。
+
+## 3.1.3 宏指令交互接口 (Macro-Instruction Interface)
+
+- **核心指向**：定义 Host 指挥 Device 的“语言”。摒弃微观的“启动这个 Kernel”式调用，转为 **“宏指令 (Macro-Op)”** 模式。
+- **指令结构**：定义 `RadarProcessingJob` 结构体。
+    - 包含：`BatchID`、`WaveformParams`（波形参数）、`AlgoConfig`（算法开关）。
+    - **机制**：CPU 只需下发一个 Job 对象，GPU 侧的 **“执行器 (Executor)”** 自动展开为数十个 Kernel 的调用序列。这极大减少了 Host 端的调度抖动。
+
+## 3.1.4 算力回流边界：CFAR 截断点 (The "CFAR Cutoff" Boundary)
+
+- **核心指向**：精确定义数据从 GPU 流回 CPU 的唯一物理与逻辑时刻。
+- **截断策略**：
+    - **物理点**：CFAR 检测完成后。此时数据量从“全图像素”坍缩为“稀疏点迹”。
+    - **数据转换**：在 GPU 上直接使用 **Thrust** 的 `copy_if` 算子，将满足阈值的点收集到连续内存块（`DetectionResult` 数组），然后一次性 DMA 回传。
+    - **反模式警示**：严禁将整个 2D 距离 - 多普勒图（Range-Doppler Map）传回 CPU 做检测，这会瞬间击穿 PCIe x8 带宽。
diff --git a/设计补丁/ECN_关于UI渲染与CUDA计算之间的资源竞争.md b/设计补丁/ECN_关于UI渲染与CUDA计算之间的资源竞争.md
new file mode 100644
index 0000000..b9c0def
--- /dev/null
+++ b/设计补丁/ECN_关于UI渲染与CUDA计算之间的资源竞争.md
@@ -0,0 +1,115 @@
+---
+tags: []
+aliases:
+  - 架构设计变更通知 (ECN)
+date created: 星期五, 十一月 21日 2025, 3:35:31 下午
+date modified: 星期五, 十一月 21日 2025, 3:36:41 下午
+---
+
+# 架构设计变更通知 (ECN)
+
+- 编号: ECN-2025-001
+- 主题: 显控架构扁平化调整与 GPU 资源仲裁策略简化
+- 适用范围: 2.3.5 章节及相关模块接口
+- 日期: 2025-11-21
+
+## 1. 变更背景与动因 (Motivation)
+
+- **原设计假设**: 显控终端采用 3D 实时渲染（如 OpenGL/Vulkan 绘制雷达波束体或复杂地形），会大量占用 GPU 渲染管线和显存带宽，需通过抢占式调度防止 TDR。
+- **修正后基线**: 显控终端确认为 **扁平化 2D 平面显示**（如 Qt/GDI 绘制 B-Scan/PPI 图像）。此类渲染对 GPU 资源消耗极低（< 1%），且主要由操作系统的桌面窗口管理器（DWM/X11）处理，**不与 CUDA 计算核心产生实质性竞争**。
+- **变更目标**: 移除为 UI 响应性服务的复杂抢占调度逻辑，释放被“任务切分”和“优先级切换”占用的系统开销，回归**计算吞吐量优先**的设计策略。
+
+## 2. 核心变更点 (Core Changes)
+
+|**变更项**|**原设计 (Deprecated)**|**新设计 (New Baseline)**|**收益**|
+|---|---|---|---|
+|**仲裁触发源**|显控终端发送 `RequestHighPriorityGpuAccess`。|**移除显控触发源**。保留“温度/功耗过载”作为唯一降级触发源。|消除 UI 交互对后台计算的非必要打断。|
+|**任务调度**|细粒度切分 (`ISegmentableTask`)，支持 <10ms 响应。|**粗粒度批处理**。移除强制切分要求，Kernel 允许长时运行。|减少 Kernel 启动开销，提升 GPU 流水线饱和度。|
+|**CUDA 流策略**|双优先级流（High/Low）动态切换。|**单一计算流池**。默认全速运行，仅在热保护时通过 `usleep` 或空闲插入进行节流。|简化流管理逻辑，降低上下文切换风险。|
+
+---
+
+## 3. 修订后的 2.3.5 章节规范
+
+该章节标题由“资源仲裁与抢占式优先级控制”变更为 **“2.3.5 系统负载保护与热节流控制”**。
+
+- 2.3.5 系统负载保护与热节流控制 (System Load Protection & Thermal Throttling)
+	- **核心指向**：鉴于显控架构的扁平化，控制平面的资源管理重心从“UI 响应性保障”转移至 **“系统物理安全保障”**。接口仅用于在极端工况（如机箱温度过高、GPU 功耗触顶）下，强制降低计算负载以保护硬件。
+
+## 3.1 交互协议变更
+
+- **废弃事件**:
+    - `RequestHighPriorityGpuAccessEvent` (已移除)
+    - `HighPriorityGpuAccessFinishedEvent` (已移除)
+- **保留并重定义事件**:
+    - `SystemOverloadEvent { Type: THERMAL | POWER, Level: WARNING | CRITICAL }`: 由 `MonitoringModule` 发布。
+    - `SetComputeThrottleEvent { ThrottleLevel level }`: 由 `ResourceCoordinator` 决策后发布。
+        - `Level 0`: 全速 (No Throttle)
+        - `Level 1`: 降速 20% (Insert Idle)
+        - `Level 2`: 降速 50% (Half Capacity)
+        - `Level 3`: 暂停 (Suspend)
+
+## 3.2 响应机制简化
+
+- **调度器侧 (`ResourceCoordinator`)**:
+    - 逻辑简化为**迟滞比较器 (Hysteresis Comparator)**。仅当温度传感器上报值持续超过阈值（如 85°C）时，下发节流指令；温度回落至安全线（如 75°C）以下时，解除节流。
+    - 不再处理毫秒级的 UI 交互请求。
+- **模块侧 (`SignalProcessor`)**:
+    - **移除** `PreemptiveStreamManager` 和双流切换逻辑。
+    - **新增** `ThrottleController`：在 `ExecutionEngine` 的主循环（每帧处理结束处）插入动态休眠逻辑。
+        - _实现逻辑_: `if (throttle_level > 0) std::this_thread::sleep_for(calc_delay(level));`
+    - **收益**: 算法 Kernel 再次回归到“大块连续执行”的最佳性能模式，无需为了响应中断而被人为切碎。
+
+## 3.3 修正后的时序图 (`sequenceDiagram`)
+
+代码段
+
+```bash
+sequenceDiagram
+    participant Monitor as 监控模块
+    participant EventBus as 事件总线
+    participant Scheduler as 任务调度器
+    participant SignalProc as 信号处理模块
+
+    Note over Monitor,SignalProc: 热保护节流流程 (不再涉及UI)
+
+    Monitor->>Monitor: 检测到 GPU 温度 > 90°C
+    Monitor->>+EventBus: 1. 发布 SystemOverloadEvent(THERMAL, CRITICAL)
+    
+    EventBus->>+Scheduler: 2. 路由告警
+
+    Scheduler->>Scheduler: 3. 决策: 必须降频保护
+    Scheduler->>+EventBus: 4. 广播 SetComputeThrottleEvent(Level=2)
+
+    EventBus->>+SignalProc: 5. 路由指令
+    SignalProc->>SignalProc: 6. 更新内部节流状态
+    
+    loop 每一帧处理循环
+        SignalProc->>SignalProc: 执行完整计算 (不切分)
+        SignalProc->>SignalProc: <b>主动休眠 10ms</b> (响应节流)
+    end
+```
+
+---
+
+## 4. 对关联文档的连带影响 (Impact Analysis)
+
+1. **对 `02_信号处理模块设计.md` 的影响**:
+    
+    - **删除** 4.3 节“抢占式 GPU 资源协调”。
+    - **删除** 4.3.3 节 `ISegmentableTask` 接口定义。算法策略不再需要实现 `segmentTask()` 方法，简化了 FFT/CFAR 等算法的封装难度。
+    - **简化** `GpuResourceManager`，移除多优先级流池。
+        
+2. **对 `05_任务调度器设计.md` 的影响**:
+    
+    - `ResourceCoordinator` 的职责缩减为仅负责系统健康相关的宏观调控，不再介入微观的任务调度。
+        
+3. **对 `99_模块集成策略.md` 的影响**:
+    
+    - 在集成测试阶段，移除针对“UI 拖拽卡顿”的压力测试用例，改为关注“长时间满载运行下的散热稳定性”。
+
+---
+
+结论:
+
+通过此补丁，我们移除了系统中最大的一个不确定性来源（异步抢占），使得信号处理流水线变得更加确定性和纯粹。这是对“奥卡姆剃刀原则”的一次成功实践——如无必要，勿增实体。
diff --git a/设计补丁/ECN_数据模型双态分离与序列化边界的强制隔离.md b/设计补丁/ECN_数据模型双态分离与序列化边界的强制隔离.md
new file mode 100644
index 0000000..428b540
--- /dev/null
+++ b/设计补丁/ECN_数据模型双态分离与序列化边界的强制隔离.md
@@ -0,0 +1,112 @@
+---
+tags: []
+aliases:
+  - 数据模型双态分离与序列化边界的强制隔离架构设计变更通知 (ECN)
+date created: 星期一, 十一月 24日 2025, 5:17:58 下午
+date modified: 星期一, 十一月 24日 2025, 5:20:20 下午
+---
+
+# 数据模型双态分离与序列化边界的强制隔离架构设计变更通知 (ECN)
+
+- **编号**: ECN-2025-002
+- **主题**: 数据模型双态分离与序列化边界的强制隔离
+- **适用范围**: 2.5 章节、02_ 核心数据结构、04_ 序列化与网络协议
+- **关联原则**: [00_ 数据架构总览与原则.md] 第一原则（零拷贝）、第五原则（面向性能布局）
+- **日期**: 2025-11-24
+
+---
+
+## 1. 变更背景与动因 (Background & Motivation)
+
+### 1.1 现状问题诊断
+
+在原有的设计文档中（如 `02_核心数据结构.md`），虽然定义了 `TrackData` 等 C++ 结构体，但在 `04_序列化与网络协议.md` 中又引入了 Protobuf 定义。由于缺乏明确的 **“使用边界”** 界定，开发过程中极易出现以下反模式：
+
+1. **性能杀手**：在计算密集型的内部模块（如 `SignalProcessor`）直接使用 Protobuf 生成的类（Generated Classes）作为数据载体。这会导致无法利用 SIMD 指令集（内存未对齐）、频繁的堆内存分配以及 getter/setter 的调用开销。
+2. **架构耦合**：内部业务逻辑与外部通信协议强绑定。一旦修改对外接口字段，必须重构内部核心算法代码。
+3. **零拷贝失效**：Protobuf 的序列化/反序列化本质上是深拷贝操作。如果在内部流水线中过早引入 Protobuf，将直接破坏 [03_ 内存管理与所有权.md] 中建立的零拷贝链路。
+
+### 1.2 变更目标
+
+建立 **“双态数据模型 (Dual-State Data Model)”** 架构，强制实施 **“序列化边界 (Serialization Boundary)”** 管控。确保内部数据流专注于**极致计算性能**，外部数据流专注于**互操作性**，两者仅在边界处进行转换。
+
+---
+
+## 2. 核心变更规范 (Core Specifications)
+
+### 2.1 确立“双态数据模型”
+
+系统中的数据将严格区分为两种互斥的形态：
+
+|**特征**|**内部原生态 (Internal Native State)**|**外部传输态 (External Wire State)**|
+|---|---|---|
+|**承载实体**|**C++ POD Structs** (e.g., `struct TrackData`)|**Protobuf Messages** (e.g., `message TrackDataMessage`)|
+|**内存布局**|**SIMD 友好** (`alignas(16/32)`，连续内存)|**紧凑编码** (Varint, Tag-Length-Value)|
+|**生命周期**|**智能指针管理** (`std::unique_ptr` + `MemoryPool`)|**栈上临时对象** 或 **发送缓冲区字节流**|
+|**适用范围**|`DataReceiver` -> `SignalProcessor` -> `DataProcessor`|`DisplayController` -> `Network` -> `ClientApp`|
+|**设计原则**|**性能优先** (Raw Performance)|**兼容性优先** (Compatibility)|
+
+### 2.2 定义“序列化边界” (The Boundary)
+
+**序列化边界**是指数据从“内部原生态”转换为“外部传输态”的唯一合法逻辑位置。
+
+- **边界位置**：**仅限于 `DisplayController` (数据网关模块)** 的 `ExecutionEngine` 中。
+- **流入**：`IDataQueue<DataPacket<std::vector<TrackData>>>` (C++ 对象指针)。
+- **流出**：`std::string` 或 `std::vector<uint8_t>` (Protobuf 序列化后的二进制流)。
+- **禁区**：`SignalProcessor` 和 `DataProcessor` **严禁** 引用 `*.pb.h` 头文件，严禁执行 `SerializeToString()` 操作。
+
+### 2.3 引入“数据映射层” (Data Mapping Layer)
+
+在边界处（`DisplayController`），引入专门的转换逻辑（Mapper/Adapter），负责将 C++ 结构体字段映射到 Protobuf 消息字段。
+
+```cpp
+// 伪代码示例：在边界处的转换逻辑
+void DisplayController::convertToWireFormat(const std::vector<TrackData>& native_tracks, radar::ipc::TrackDataBatch* proto_batch)
+{
+    for (const auto& track : native_tracks) {
+        auto* proto_track = proto_batch->add_tracks();
+
+        // 字段映射：从高性能 C++ 结构体 -> Protobuf 消息
+        proto_track->set_track_id(track.track_id);
+        // … 坐标转换、单位换算等 …
+
+        // 注意：此处发生了一次从"页锁定内存"到"网络发送缓冲区"的内存拷贝
+        // 这是为了网络传输格式化所必须付出的代价，但被严格限制在最后一步。
+    }
+}
+```
+
+---
+
+## 3. 对现有文档的修订指引 (Documentation Patch)
+
+### 3.1 对 `02_核心数据结构.md` 的修正
+
+- **新增声明**：在文档开头显著位置声明：“本文档定义的结构体为**内部原生态**对象，仅用于模块间的高性能内存交换。这些结构体**不是**网络传输协议。”
+- **强化定义**：确保 `DetectionResult` 和 `TrackData` 保持纯粹的 POD 特性，移除任何可能暗示序列化的辅助方法（如 `toJson()` 或 `toProto()`），这些方法应移至工具类中。
+
+### 3.2 对 `04_序列化与网络协议.md` 的修正
+
+- **明确角色**：明确指出 `.proto` 文件定义的是**外部契约**，而非内部实现。
+- **新增章节**：添加 **“4.4 序列化边界与映射策略”**，详细描述数据如何在 `DisplayController` 中从 C++ 结构体转换为 Protobuf 消息。
+
+### 3.3 对 `03_内存管理与所有权.md` 的补充
+
+- **补充说明**：在零拷贝流程的最后阶段（数据网关），明确说明“零拷贝”在序列化边界处**终止**。序列化过程不可避免地涉及内存读取和重新编码，这是将数据送入网络栈（Socket Buffer）的必要步骤。
+
+---
+
+## 4. 优势分析 (Benefits Analysis)
+
+通过实施此补丁，系统架构将获得以下显著收益：
+
+1. **计算性能最大化**：内部算法（如卡尔曼滤波、关联矩阵计算）直接操作内存对齐的 C++ 数组，能够充分利用 CPU 的 L1/L2 缓存和 SIMD 指令集，性能相比操作 Protobuf 对象提升 **5-10 倍**。
+2. **编译依赖解耦**：核心业务模块（`SignalProcessor` 等）不再依赖 Protobuf 库。如果未来更换序列化协议（如从 Protobuf 换为 FlatBuffers），只需修改 `DisplayController` 中的映射层，核心算法代码**零修改**。
+3. **内存安全屏障**：内部使用强类型的 C++ 结构体，配合 `std::unique_ptr` 管理所有权，消除了直接操作 Protobuf 原始指针可能带来的内存泄漏风险。
+4. **协议演进灵活性**：内部数据结构可以根据算法需求自由优化（例如添加用于调试的临时字段），而无需修改对外的 `.proto` 契约，只需在映射层忽略这些字段即可，实现了**内外解耦**。
+
+---
+
+## 5. 总结
+
+此 ECN 补丁修正了原设计中关于数据形态的模糊定义，建立了**“内部高性能、外部高兼容、边界严管控”**的数据架构范式。这是将雷达数据处理系统从“原型验证”推向“生产级高性能应用”的关键一步。
diff --git a/雷达前端模拟器 (SDR-FES MockDACS) 架构设计文档.md b/雷达前端模拟器 (SDR-FES MockDACS) 架构设计文档.md
new file mode 100644
index 0000000..e919172
--- /dev/null
+++ b/雷达前端模拟器 (SDR-FES MockDACS) 架构设计文档.md	
@@ -0,0 +1,167 @@
+---
+title: "**雷达前端模拟器 (SDR-FES / MockDACS) 架构设计文档**"
+---
+
+# **雷达前端模拟器 (SDR-FES / MockDACS) 架构设计文档**
+
+版本: v1.0
+日期: 2025-11-29
+适用范围: 软件定义雷达前端模拟器 (MockDACS) 的设计、开发与演进。
+
+## **1\. 架构愿景与设计哲学 (Vision & Philosophy)**
+
+本项目旨在构建一个 **高性能、云原生、配置驱动** 的雷达前端仿真平台。它不仅是一个简单的测试工具，更是一个可编排的 **"虚拟阵面"**。
+
+### **1.1 核心设计原则 (Design Principles)**
+
+- **确定性 (Determinism)**: 在故障注入模式下，给定相同的随机种子 (Seed) 和配置，必须产生完全一致的故障序列，确保测试的可重现性。
+- **极简主义 (Minimalism)**: 核心发送路径 (Hot Path) 零内存分配、零锁竞争、零系统调用（除 sendto 外）。
+- **配置即代码 (Configuration as Code)**: 所有行为（物理参数、网络拓扑、故障剧本）均通过 YAML 定义，支持动态热加载。
+- **可观测性 (Observability)**: 模拟器自身必须暴露详细的 Prometheus 指标，不仅要"发得快"，还要能自证"发得准"。
+
+### **1.2 关键性能指标 (KPIs)**
+
+- **吞吐量**: 单实例支持 **10 Gbps** 线速发送。
+- **时序精度**: 脉冲重复间隔 (PRI) 抖动 **\< 10 µs** (依赖 CPU 亲和性)。
+- **并发能力**: 单进程支持 **16+** 个虚拟站点并发模拟。
+
+## **2\. 系统逻辑架构 (Logical Architecture)**
+
+系统采用 **分层解耦 (Layered Decoupling)** 架构，自顶向下分为四个核心层级：
+
+| 层级 | 模块名称 | 职责描述 | 关键技术 |
+| :---- | :---- | :---- | :---- |
+| **L4** | **控制与编排层** (Control & Orchestration) | 解析 YAML 配置，管理生命周期，编排多站点的启动与停止。 | yaml-cpp, CLI11 |
+| **L3** | **业务逻辑层** (Business Logic) | **数据生成器**: 产生 I/Q 波形 (Synthetic/Replay)。 **协议封装器**: 组装 v2.1 协议帧。 | Strategy Pattern, Factory |
+| **L2** | **故障注入层** (Chaos Layer) | 拦截标准数据包，根据概率模型执行丢包、篡改、乱序、时跳。 | std::random, Middleware |
+| **L1** | **基础传输层** (Transport Layer) | **流量整形**: 自旋锁控制发送速率。 **I/O 发送**: 高性能 UDP 发送。 | BusyWait, sendto, Affinity |
+
+## **3\. 核心子系统详解 (Subsystem Detail)**
+
+### **3.1 物理仿真引擎 (Physics Engine)**
+
+负责生成"干净"的原始数据。设计为可插拔的 **策略模式 (Strategy Pattern)**。
+
+- **ISourceStrategy 接口**:
+  - generate(PulseIndex) \-\> ComplexBuffer
+- **实现类**:
+  - **SyntheticSource (合成源)**: 基于数学公式生成 LFM (线性调频)、单频脉冲、噪声背景。参数：带宽, 脉宽, 信噪比。
+  - **ReplaySource (回放源)**: \[Phase 6\] 读取 HDF5/PCAP 文件，按时间戳回放真实雷达采集数据。支持 循环播放 和 速率倍增。
+
+### **3.2 协议栈封装器 (Protocol Stack)**
+
+负责将原始 I/Q 数据封装为符合 **FES-SPS v2.1** 标准的 UDP 数据包。
+
+- **帧构建器 (PacketBuilder)**:
+  - 维护 RollingCounter (Sequence ID)。
+  - 执行 Endianness 转换 (Header: Big-Endian, Payload: Little-Endian)。
+  - 计算 **CRC32c** 校验和 (SSE4.2/NEON 硬件加速)。
+  - **优化**: 使用 **零拷贝内存池 (PacketPool)**，避免每次发送都 new/delete。
+
+### **3.3 故障注入中间件 (Chaos Middleware)**
+
+位于协议层与传输层之间的"拦截器"。
+
+- **ChaosPipeline**:
+  - 每个站点持有一个独立的 Pipeline。
+  - **DropFilter**: 随机丢弃。
+  - **CorruptFilter**: 翻转比特或修改 CRC。
+  - **ReorderFilter**: 维护一个单包或多包的 DelayBuffer，实现乱序发送。
+  - **TimeJumpInjector**: 修改包头时间戳，模拟时钟故障。
+
+### **3.4 高性能传输核心 (Transport Core)**
+
+系统的"引擎"，负责以精确的时序将比特流送入网线。
+
+- **TrafficShaper (流量整形器)**:
+  - 基于 rdtsc 或 std::chrono::steady\_clock 实现微秒级自旋锁。
+  - 算法：**令牌桶 (Token Bucket)** 或 **固定间隔 (Fixed Interval)**。当前基线为固定间隔。
+- **UdpTransmitter**:
+  - 配置 SO\_SNDBUF (\> 8MB)。
+  - 设置 IP\_TOS (DSCP=EF) 用于控制帧。
+  - 启用 IP\_MTU\_DISCOVER 支持 Jumbo Frame。
+  - **多线程模型**: 每个站点绑定一个独立的 std::thread，并强制绑定到独立的 CPU Core (pthread\_setaffinity\_np)。
+
+## **4\. 动态配置系统设计 (Configuration System)**
+
+采用 **YAML** 作为唯一配置源。
+
+```yaml
+\# mock\_config.yaml 示例结构  
+simulation:  
+  duration\_sec: 60  
+  global\_seed: 12345
+
+stations:  
+  \id: 1  
+    role: "DACS-1"  
+    target: "192.168.1.100:12345"  
+    cpu\_core: 1  
+    prf: 2000  
+    source:  
+      type: "synthetic"  
+      waveform: "LFM"  
+    chaos:  
+      drop\_rate: 0.0  
+        
+  \id: 2  
+    role: "DACS-2"  
+    target: "192.168.1.100:12345"  
+    cpu\_core: 2  
+    prf: 2000  
+    source:  
+      type: "synthetic"  
+    chaos:  
+      drop\_rate: 0.05  
+      corrupt\_rate: 0.01
+```
+
+- **热加载 (Hot-Reload)**:
+  - 监听文件系统事件 (inotify) 或通过 HTTP Admin 接口触发配置重载。
+  - 采用 **RCU (Read-Copy-Update)** 模式更新配置，确保发送线程无锁读取。
+
+## **5\. 目录结构规范 (Project Structure)**
+
+遵循现代 CMake C++ 工程标准。
+
+```txt
+RadarSimulator/
+├── CMakeLists.txt \# 根构建脚本
+├── common/ \# \[库\] 通用基础库 (Header-only or Static)
+│ ├── include/
+│ │   ├── protocol.h \# v2.1 协议定义
+│ │   ├── crc32.h \# 硬件校验算法
+│ │   ├── utils.h \# 计时、绑核工具
+│ │   └── chaos.h \# 故障注入引擎
+│ └── CMakeLists.txt
+├── core/ \# \[库\] 模拟器核心逻辑 (New\!)
+│ ├── include/
+│ │   ├── source/ \# 数据源策略 (Synthetic/Replay)
+│ │   ├── transport/ \# 发送与流控
+│ │   └── config/ \# 配置解析
+│ ├── src/
+│ └── CMakeLists.txt
+├── simulator/ \# \[应用\] 模拟器主程序 (CLI入口)
+│ ├── main.cpp
+│ └── CMakeLists.txt
+├── tools/ \# \[工具\] 接收验证器、日志分析器
+│ ├── receiver.cpp
+│ └── CMakeLists.txt
+├── configs/ \# 默认配置文件
+│ └── default.yaml
+├── docker/ \# 容器化相关
+│ ├── Dockerfile
+│ └── docker-compose.yml
+└── tests/ \# 单元测试 (GTest)
+```
+
+## **6\. 演进路线图 (Roadmap to v3.0)**
+
+- **v1.0 (Current)**: 硬编码参数，基础收发，基础故障注入。
+- **v2.0 (Next Step)**:
+  - 引入 yaml-cpp，实现全配置驱动。
+  - 重构代码结构，分离 core 库，应用策略模式。
+- **v3.0 (Future)**:
+  - 实现数据回放 (ReplaySource)。
+  - 提供 HTTP/gRPC 控制接口，支持 Web UI 实时调整参数。
+  - 集成 Prometheus Exporter。
\ No newline at end of file
diff --git a/项目交接文档：软件定义雷达前端模拟器 (SDR-FES).md b/项目交接文档：软件定义雷达前端模拟器 (SDR-FES).md
new file mode 100644
index 0000000..bf2e1a2
--- /dev/null
+++ b/项目交接文档：软件定义雷达前端模拟器 (SDR-FES).md	
@@ -0,0 +1,93 @@
+---
+tags: 
+title: 项目交接文档：软件定义雷达前端模拟器 (SDR-FES)
+date created: 星期六, 十一月 29日 2025, 10:14:41 晚上
+date modified: 星期四, 十二月 4日 2025, 8:30:07 晚上
+---
+
+这份文档经过了严格修订，完全聚焦于 **" 雷达前端模拟器 (MockDACS)"** 这一工具本身的构建与演进。它强调了工具的**通用性、可移植性**以及**现代软件工程标准**。
+
+请保存此文档，在新对话开始时直接发送。
+
+---
+
+# 项目交接文档：软件定义雷达前端模拟器 (SDR-FES)
+
+**Project Handover: Software-Defined Radar Front-End Simulator (MockDACS)**
+
+## 1. 项目目标 (Project Goal)
+
+构建一个**高可移植、高性能、容器化**的雷达前端模拟工具。
+
+该工具不依赖特定的硬件架构（如飞腾/天数），旨在通过 Docker 容器在任何支持 Linux 的环境（x86/ARM）中运行。它作为标准的**测试信号发生器**，用于向后端信号处理系统提供符合 **FES-SPS v2.1 协议** 的 10Gbps 线速数据流，验证后端系统的协议栈鲁棒性与吞吐能力。
+
+## 2. 当前进度状态 (Current Status)
+
+- **工程阶段**：
+    - **Phase 1-3 (完成)**：已实现基础 UDP 收发、多线程并发、CPU 亲和性绑定、自旋锁高精度控速。
+    - **Phase 4 (进行中)**：已集成故障注入引擎 (`ChaosEngine`)，正在验证 Docker 环境下的故障注入（丢包/误码/乱序）效果。
+- **部署状态**：已完成 Docker 化封装。验证了在容器内通过 `cpus: 2.0` 限制下，依然能跑满 2000Hz PRF，且多站多线程逻辑正常。
+
+## 3. 技术基线与需求快照 (Technical Baseline & Requirements)
+
+### A. 运行环境 (Environment - Portable)
+
+- **核心理念**：**Docker First**。无论是开发本机的 WSL/Mac，还是部署端的服务器，均通过容器抹平差异。
+- **架构支持**：`linux/amd64` (x86_64) & `linux/arm64` (aarch64)。
+- **网络依赖**：支持 Host 模式或 Bridge 模式下的 UDP 通信，依赖 **Jumbo Frame (MTU 9000)** 以实现最高性能。
+
+### B. 通信协议 (v2.1 Implementation)
+
+- **帧结构**：`Magic="RADR"` + Big-Endian Header + Little-Endian Payload + **CRC32c 校验**。
+- **时序**：**TAI 时间戳** + 16-bit 对齐载荷。
+- **策略**：数据流 Fire-and-Forget，控制流 K-Redundancy。
+
+### C. 模拟器架构 (Architecture)
+
+- **核心机制**：多线程 (Multi-thread) + 忙等待 (Busy Wait) + 零拷贝 (Zero-Copy)。
+- **设计原则 (新增)**：
+    - **现代化**：强制使用 **C++17/20** 标准。
+    - **模块化**：发送逻辑、协议封装、物理仿真、配置管理必须解耦。
+    - **配置驱动**：一切可变参数（IP/端口/速率/故障率）严禁硬编码。
+
+## 4. 新对话启动所需资料 (Materials Required)
+
+为了确保新会话能无缝接手代码开发，请提供以下**文件内容**或**目录结构**：
+
+1. **工程配置文件**:
+    - `CMakeLists.txt` (Root)
+    - `common/CMakeLists.txt`
+    - `simulator/CMakeLists.txt`
+    - `tools/CMakeLists.txt`
+    - `Dockerfile` & `docker-compose.yml`
+2. **核心源码**:
+    - `common/include/protocol.h` (v2.1 协议定义)
+    - `common/include/chaos.h` (故障注入引擎)
+    - `common/include/utils.h` (计时与绑核工具)
+    - `simulator/sender.cpp` (当前的发送端实现)
+    - `tools/receiver.cpp` (当前的接收验证端实现)
+3. **参考文档 (可选)**:
+    - `[非密]前端感知软件数据表V0.1.docx` (原始协议参考)
+    - `软件数据表评估报告生成.pdf` (协议升级依据)
+
+## 5. 下一步工作计划 (Next Steps - Simulator Focus)
+
+在接下来的对话中，我们将**仅聚焦于模拟器本身的完善与增强**：
+
+1. **Phase 4 收尾**：
+    - 检查 Docker 下 `receiver` 的日志，确认故障注入（DACS-2/3）的效果是否符合预期，完成鲁棒性验证闭环。
+2. **Phase 5：配置系统重构 (Configuration System)**：
+    - 引入 `yaml-cpp`。
+    - 实现**全动态配置**：通过 YAML 文件动态调节 PRF（速率）、目标 IP、波位参数、故障概率，无需重新编译。
+3. **Phase 6：数据回放功能 (Data Replay - 后期)**：
+    - 开发**数据库适配层**。
+    - 实现从实际雷达录制的数据库文件（如 HDF5/PCAP/Bin）中读取数据，并严格按照指定的时间戳间隔（Rate Control）发送，用于算法的高级回放测试。
+4. **架构重构 (Modernization)**：
+    - 应用**设计模式**（如策略模式 Strategy Pattern 用于切换数据源：`SyntheticSource` vs `ReplaySource`）。
+    - 确保代码具备极高的可读性与可扩展性。
+
+---
+
+**提示词 (Prompt) 建议：**
+
+> " 我是之前的用户。我们正在开发一个高可移植的 Docker 化雷达前端模拟器 (MockDACS)。目前已完成 v2.1 协议的基础实现和故障注入功能。请阅读我上传的 ' 交接文档 ' 和源码。接下来的任务是验证故障注入效果，并引入 YAML 配置系统来实现参数的动态调节。"