SFA(Signal Field Attention) 是单点突破的实验,Dalin Soma 是完整的 AI 基础设施。从注意力机制替代,到推理加速、参数微调、全新架构、蒸馏训练——五岳并立,零 Transformer 依赖。
一、一句话:我们做了什么
Transformer 统治 AI 领域已经 7 年了。但从 2017 年诞生起,它的核心组件——自注意力机制——就带着两个原生缺陷:
- 计算复杂度 O(n²) :序列长度翻倍,计算量翻四倍
- 内存复杂度 O(n) :64K 序列的 KV Cache 可达数百 MB
我们做的是:从零开始,用「信号场」替代 Transformer 的全部核心组件,构建一套完整的 AI 基础设施。
这套基础设施叫 Dalin Soma(太初五岳),灵感来自中国传统的五岳概念——五座山峰,五层能力,互为补充。
二、SFA 是什么:单点突破
Signal Field Attention(信号场注意力,SFA) 是整个项目的起点,也是「东岳」Soma Engine 的核心技术。
2.1 传统 Attention 的问题
标准的 Transformer 注意力计算:
code复制
A[i,j] = exp(q_i · k_j / √d) / Σ_l exp(q_i · k_l / √d)
所有 token 之间两两计算注意力,这意味着:
- 序列长度为 n 时,计算量是 n²
- KV Cache 随序列长度线性增长
2.2 SFA 的方案:双通道注意力
SFA 的核心思路很简单但有效:把注意力拆成两个通道。
| 通道 | 数据 | 作用 | 复杂度 |
|---|---|---|---|
| 近场 | Ring KV Buffer(最近 k 个 token) | 精确计算最新 token 的注意力 | O(k) |
| 远场 | 信号场状态向量 S | 全局压缩的历史信息 | O(1) |
code复制
Attention = Attention_near(k=16) + α · Attention_far(S)
- 近场用固定容量的环形缓冲区存储最近 k=16 个 token 的精确 KV
- 远场用信号场状态向量 S 提供全局压缩信息,仅 8.1KB 参数
关键结果:
| 指标 | 标准 Attention | SFA | 提升 |
|---|---|---|---|
| 7B 模型 64K 序列内存 | 114 MB | 462 KB | 248x 压缩 |
| 单层解码加速 | 1x | 4.16x | 4倍加速 |
| 参数开销 | — | 8.1 KB | 仅需 2064 个参数 |
| 正确性误差 | — | 0.00% | 与标准 Attention 完全一致 |
2.3 为什么能 0 误差?
SFA 的 prefill 阶段与标准 Attention 的 full_forward 使用完全相同的计算逻辑,只是通过 Ring KV Buffer 和 field_state 维护了增量状态。实测在序列长度 4~256 的范围内,最大差异为 0.00000000。
解码阶段的 O(1) 复杂度验证:在序列长度 128~65536 的范围内,每步解码延迟恒定在 0.52ms 左右,时间方差比仅 1.02x。
三、Dalin Soma 是什么:五岳并立
SFA 只是单点突破——验证了信号场注意力可以替代标准 Attention。但真正的目标是:构建从零开始的完整 AI 基础设施。
这就是 Dalin Soma,五层能力,五座山峰:
3.1 东岳 · Soma Engine(信号场推理加速)
定位: 用 SFA 替代 Transformer 的自注意力机制
核心能力:
- 双通道注意力(近场 Ring Buffer + 远场 Field State)
- 单层解码最高 4.16x 加速
- 内存压缩 248x(7B 模型 64K 序列仅需 462KB)
- O(1) 解码复杂度,序列长度无关
适用场景: 长序列推理、边缘设备部署、实时对话系统
开源代码: 01_soma_engine/
3.2 南岳 · Soma LingYa(参数高效微调)
定位: 替代 LoRA 的微调方案
与 LoRA 的本质区别:
| LoRA | 灵芽 | |
|---|---|---|
| 数学原理 | 低秩分解 ΔW = BA | 门控调制 Y = XW + λ·Gate(X)·X |
| 推理开销 | 需要同时加载 W + ΔW | 零开销(可融合) |
| 参数效率 | 0.1%-1% 原始参数 | <0.01% |
| 表达能力 | 受低秩假设限制 | 灵活门控机制 |
核心指标: 比 LoRA 省 51% 参数,推理时零额外开销。
开源代码: 02_soma_lingya/
3.3 西岳 · Soma Native(全新神经网络架构)
定位: 从零设计的神经网络,完全基于信号场
与传统 Transformer 的对比:
| 组件 | Transformer | Soma Native |
|---|---|---|
| 信息交互 | 多头自注意力 O(n²) | 信号场层 O(k·n) |
| 知识存储 | 前馈网络层 FFN | 灵芽块 |
| 归一化 | LayerNorm | 稳态调节(Homeostasis) |
| 位置编码 | RoPE/绝对位置 | 生长时序(GrowthTemporal) |
| 整体复杂度 | O(n²) | O(k·n) |
已在 28 层 7B 规模验证。
开源代码: 03_soma_native/
3.4 北岳 · Soma Convergence(O(1) 增量推理)
定位: 用信号场谐振替代 KV Cache
核心创新: 使用 k 个谐振模式来表示历史信息:
code复制
S = {(A_m, φ_m, ω_m)}_{m=1}^{k}
其中 A_m 是谐振模式的振幅,φ_m 是相位,ω_m 是频率。
结果:
- 内存复杂度 O(1) — 与序列长度无关
- 解码复杂度 O(1) — 每步恒定 0.52ms
- 增量更新 S_{t+1} = γ·S_t + (1-γ)·k_{t+1},可随时保存/恢复推理状态
- 7B 模型 64K 序列压缩 248x,误差 0.00%
开源代码: 04_soma_convergence/
3.5 中岳 · Soma Heritage(蒸馏训练框架)
定位: 三层蒸馏训练框架,实现信号场机制在真实大模型中的迁移
三层蒸馏损失:
code复制
L_total = α·L_feature + β·L_logit + γ·L_consistency
渐进式替换策略: 从浅层到深层逐步替换 Attention 层,每替换一层即冻结训练。
核心结果(Qwen2.5-7B):
| Layer | Baseline PPL | SFA PPL | 变化 |
|---|---|---|---|
| Layer 0(浅层) | 22.375 | 23.062 | +3.07% |
| Layer 11(中层) | 22.375 | 22.255 | -0.57% (超越) |
| Layer 23(深层) | 22.375 | 20.011 | -10.57% (大幅超越) |
深层不仅没有退化,反而比原始模型性能更好。
开源代码: 05_soma_heritage/
四、SFA 与 Dalin Soma 的关系
这是很多人容易混淆的点。用一张图说明:
code复制
Dalin Soma(完整基础设施)
├── SFA(Signal Field Attention)← 技术基石
│ ├── 东岳 Soma Engine:SFA 的推理加速应用
│ └── 西岳 Soma Native:SFA 的架构级应用
├── 南岳 Soma LingYa:参数高效微调(独立,但可配合 SFA 使用)
├── 北岳 Soma Convergence:基于信号场谐振的 O(1) 推理(SFA 的增量推理态)
└── 中岳 Soma Heritage:蒸馏训练框架(将 SFA 注入大模型的方法论)
SFA 是单点突破的实验,侧重于注意力机制的替换验证和学术传播。
Dalin Soma 是完整的 AI 基础设施,从架构设计 → 推理加速 → 参数微调 → 蒸馏训练,形成闭环。
SFA 是 Dalin Soma 的技术投影,Dalin Soma 是 SFA 的完整形态。
五、技术总览
5.1 核心数据
| 模块 | 加速比 | 内存压缩 | 误差 | 复杂度 |
|---|---|---|---|---|
| 东岳 Engine | 4.16x | 248x | 0.00% | O(k·n) |
| 南岳 LingYa | — | — | — | 比 LoRA 省 51% |
| 西岳 Native | — | 4000x(64K) | TBD | O(k·n) |
| 北岳 Convergence | 4.16x | 248x | 0.00% | O(1) |
| 中岳 Heritage | — | — | -10.57% | 三层蒸馏 |
5.2 与主流方案对比
| 方案 | 计算复杂度 | 内存复杂度 | 64K 加速 | 64K 压缩 |
|---|---|---|---|---|
| Attention | O(n²) | O(n) | 1x | 1x |
| FlashAttention | O(n²) | O(n) | <1x | 1x |
| Mamba SSM | O(1) | O(1) | ~1x | N/A |
| Soma(全栈) | O(k·n) / O(1) | O(k) / O(1) | 4.16x | 248x |
5.3 测试环境
- Apple MacBook Pro M1 Pro, 16GB RAM
- MLX 0.31.2, Python 3.14
- 测试模型:Qwen2.5-0.5B / 7B / 14B
六、为什么开源
- AI 基础设施需要更多选择。Transformer 主导 7 年了,是时候看看别的可能了。
- 信号场理论值得验证。我们用实验证明:用信号场替代 Attention 是可行的,且性能表现优异。
- 零 Transformer 依赖的完整栈。从架构到推理到训练,全部开源,MIT 许可,可自由用于研究和商业。
开源协议: MIT License 商业联系: 362118251@qq.com
七、快速开始
bash复制
pip install mlx transformers
# 克隆仓库
git clone https://github.com/CN-QN1-dalin/dalin-soma-.git
cd dalin-soma-
# 每个模块独立可运行
# 见各子目录 README
八、引用
如果你在研究中使用了 Dalin Soma 或 SFA,欢迎引用:
bibtex复制
@misc{soma2026,
title={Dalin Soma: A Full-Stack AI Infrastructure Based on Signal Field Attention},
author={Dalin Soma Team},
year={2026},
url={https://github.com/CN-QN1-dalin/dalin-soma-}
}
作者:大林 Dalin CN-石家庄
机构:SomaX Labs
日期:2026年6月