从零重构 AI 基础设施:信号场 SFA 与 Dalin Soma 五岳架构全解析

7 阅读7分钟

SFA(Signal Field Attention)  是单点突破的实验,Dalin Soma 是完整的 AI 基础设施。从注意力机制替代,到推理加速、参数微调、全新架构、蒸馏训练——五岳并立,零 Transformer 依赖。

开源地址:github.com/CN-QN1-dali…


一、一句话:我们做了什么

Transformer 统治 AI 领域已经 7 年了。但从 2017 年诞生起,它的核心组件——自注意力机制——就带着两个原生缺陷:

  • 计算复杂度 O(n²) :序列长度翻倍,计算量翻四倍
  • 内存复杂度 O(n) :64K 序列的 KV Cache 可达数百 MB

我们做的是:从零开始,用「信号场」替代 Transformer 的全部核心组件,构建一套完整的 AI 基础设施。

这套基础设施叫 Dalin Soma(太初五岳),灵感来自中国传统的五岳概念——五座山峰,五层能力,互为补充。


二、SFA 是什么:单点突破

Signal Field Attention(信号场注意力,SFA)  是整个项目的起点,也是「东岳」Soma Engine 的核心技术。

2.1 传统 Attention 的问题

标准的 Transformer 注意力计算:

code复制

A[i,j] = exp(q_i · k_j / √d) / Σ_l exp(q_i · k_l / √d)

所有 token 之间两两计算注意力,这意味着:

  • 序列长度为 n 时,计算量是 n²
  • KV Cache 随序列长度线性增长

2.2 SFA 的方案:双通道注意力

SFA 的核心思路很简单但有效:把注意力拆成两个通道

通道数据作用复杂度
近场Ring KV Buffer(最近 k 个 token)精确计算最新 token 的注意力O(k)
远场信号场状态向量 S全局压缩的历史信息O(1)

code复制

Attention = Attention_near(k=16) + α · Attention_far(S)
  • 近场用固定容量的环形缓冲区存储最近 k=16 个 token 的精确 KV
  • 远场用信号场状态向量 S 提供全局压缩信息,仅 8.1KB 参数

关键结果:

指标标准 AttentionSFA提升
7B 模型 64K 序列内存114 MB462 KB248x 压缩
单层解码加速1x4.16x4倍加速
参数开销8.1 KB仅需 2064 个参数
正确性误差0.00%与标准 Attention 完全一致

2.3 为什么能 0 误差?

SFA 的 prefill 阶段与标准 Attention 的 full_forward 使用完全相同的计算逻辑,只是通过 Ring KV Buffer 和 field_state 维护了增量状态。实测在序列长度 4~256 的范围内,最大差异为 0.00000000。

解码阶段的 O(1) 复杂度验证:在序列长度 128~65536 的范围内,每步解码延迟恒定在 0.52ms 左右,时间方差比仅 1.02x。


三、Dalin Soma 是什么:五岳并立

SFA 只是单点突破——验证了信号场注意力可以替代标准 Attention。但真正的目标是:构建从零开始的完整 AI 基础设施

这就是 Dalin Soma,五层能力,五座山峰:

3.1 东岳 · Soma Engine(信号场推理加速)

定位:  用 SFA 替代 Transformer 的自注意力机制

核心能力:

  • 双通道注意力(近场 Ring Buffer + 远场 Field State)
  • 单层解码最高 4.16x 加速
  • 内存压缩 248x(7B 模型 64K 序列仅需 462KB)
  • O(1) 解码复杂度,序列长度无关

适用场景:  长序列推理、边缘设备部署、实时对话系统

开源代码:  01_soma_engine/

3.2 南岳 · Soma LingYa(参数高效微调)

定位:  替代 LoRA 的微调方案

与 LoRA 的本质区别:

LoRA灵芽
数学原理低秩分解 ΔW = BA门控调制 Y = XW + λ·Gate(X)·X
推理开销需要同时加载 W + ΔW零开销(可融合)
参数效率0.1%-1% 原始参数<0.01%
表达能力受低秩假设限制灵活门控机制

核心指标:  比 LoRA 省 51% 参数,推理时零额外开销。

开源代码:  02_soma_lingya/

3.3 西岳 · Soma Native(全新神经网络架构)

定位:  从零设计的神经网络,完全基于信号场

与传统 Transformer 的对比:

组件TransformerSoma Native
信息交互多头自注意力 O(n²)信号场层 O(k·n)
知识存储前馈网络层 FFN灵芽块
归一化LayerNorm稳态调节(Homeostasis)
位置编码RoPE/绝对位置生长时序(GrowthTemporal)
整体复杂度O(n²)O(k·n)

已在 28 层 7B 规模验证。

开源代码:  03_soma_native/

3.4 北岳 · Soma Convergence(O(1) 增量推理)

定位:  用信号场谐振替代 KV Cache

核心创新:  使用 k 个谐振模式来表示历史信息:

code复制

S = {(A_m, φ_m, ω_m)}_{m=1}^{k}

其中 A_m 是谐振模式的振幅,φ_m 是相位,ω_m 是频率。

结果:

  • 内存复杂度 O(1) — 与序列长度无关
  • 解码复杂度 O(1) — 每步恒定 0.52ms
  • 增量更新 S_{t+1} = γ·S_t + (1-γ)·k_{t+1},可随时保存/恢复推理状态
  • 7B 模型 64K 序列压缩 248x,误差 0.00%

开源代码:  04_soma_convergence/

3.5 中岳 · Soma Heritage(蒸馏训练框架)

定位:  三层蒸馏训练框架,实现信号场机制在真实大模型中的迁移

三层蒸馏损失:

code复制

L_total = α·L_feature + β·L_logit + γ·L_consistency

渐进式替换策略:  从浅层到深层逐步替换 Attention 层,每替换一层即冻结训练。

核心结果(Qwen2.5-7B):

LayerBaseline PPLSFA PPL变化
Layer 0(浅层)22.37523.062+3.07%
Layer 11(中层)22.37522.255-0.57% (超越)
Layer 23(深层)22.37520.011-10.57% (大幅超越)

深层不仅没有退化,反而比原始模型性能更好。

开源代码:  05_soma_heritage/


四、SFA 与 Dalin Soma 的关系

这是很多人容易混淆的点。用一张图说明:

code复制

Dalin Soma(完整基础设施)
├── SFA(Signal Field Attention)← 技术基石
│   ├── 东岳 Soma Engine:SFA 的推理加速应用
│   └── 西岳 Soma Native:SFA 的架构级应用
├── 南岳 Soma LingYa:参数高效微调(独立,但可配合 SFA 使用)
├── 北岳 Soma Convergence:基于信号场谐振的 O(1) 推理(SFA 的增量推理态)
└── 中岳 Soma Heritage:蒸馏训练框架(将 SFA 注入大模型的方法论)

SFA 是单点突破的实验,侧重于注意力机制的替换验证和学术传播。

Dalin Soma 是完整的 AI 基础设施,从架构设计 → 推理加速 → 参数微调 → 蒸馏训练,形成闭环。

SFA 是 Dalin Soma 的技术投影,Dalin Soma 是 SFA 的完整形态。


五、技术总览

5.1 核心数据

模块加速比内存压缩误差复杂度
东岳 Engine4.16x248x0.00%O(k·n)
南岳 LingYa比 LoRA 省 51%
西岳 Native4000x(64K)TBDO(k·n)
北岳 Convergence4.16x248x0.00%O(1)
中岳 Heritage-10.57%三层蒸馏

5.2 与主流方案对比

方案计算复杂度内存复杂度64K 加速64K 压缩
AttentionO(n²)O(n)1x1x
FlashAttentionO(n²)O(n)<1x1x
Mamba SSMO(1)O(1)~1xN/A
Soma(全栈)O(k·n)  / O(1)O(k)  / O(1)4.16x248x

5.3 测试环境

  • Apple MacBook Pro M1 Pro, 16GB RAM
  • MLX 0.31.2, Python 3.14
  • 测试模型:Qwen2.5-0.5B / 7B / 14B

六、为什么开源

  1. AI 基础设施需要更多选择。Transformer 主导 7 年了,是时候看看别的可能了。
  2. 信号场理论值得验证。我们用实验证明:用信号场替代 Attention 是可行的,且性能表现优异。
  3. 零 Transformer 依赖的完整栈。从架构到推理到训练,全部开源,MIT 许可,可自由用于研究和商业。

开源协议:  MIT License 商业联系:  362118251@qq.com


七、快速开始

bash复制

pip install mlx transformers

# 克隆仓库
git clone https://github.com/CN-QN1-dalin/dalin-soma-.git
cd dalin-soma-

# 每个模块独立可运行
# 见各子目录 README

八、引用

如果你在研究中使用了 Dalin Soma 或 SFA,欢迎引用:

bibtex复制

@misc{soma2026,
  title={Dalin Soma: A Full-Stack AI Infrastructure Based on Signal Field Attention},
  author={Dalin Soma Team},
  year={2026},
  url={https://github.com/CN-QN1-dalin/dalin-soma-}
}

作者:大林 Dalin CN-石家庄 机构:SomaX Labs
日期:2026年6月