340MB/s！我用 Rust + Tauri v2 撸了一个 AI 时代本地脱敏神器，彻底解决日志“裸奔”AI 时代的

0. 缘起：AI 时代的“新隐私危机”

作为开发者，你一定有过这样的操作：

就在这“Ctrl+C / Ctrl+V”的一秒钟里，公司的生产环境 IP、数据库连接 URI、内部 API 密钥、甚至是员工个人手机号，正在跨越国境线传向云端。

为了解决这些痛点，我基于 Rust 2024 Edition 和 Tauri v2 开发了 SafeMask：一款追求极致吞吐量、100% 离线、且对 AI 极度友好的工业级脱敏控制台。

处理大文件（GB 级）时，频繁的系统调用（Syscall）和数据拷贝是性能杀手。SafeMask 采用了一套三阶段异步保序流水线架构。

SafeMask 放弃了传统的 std::io::Read，转而使用 memmap2。

为了榨干多核 CPU，我们实现了自研的 SplitLinesIterator：

智能宏分块：将 Mmap 流切割为固定 8MB 的 Chunk。
换行符对齐：切割时自动寻找最近的 \n，确保每个 Chunk 包含完整的行，避免正则跨块匹配失败。
背压机制：使用 crossbeam-channel 限制内存中“处理中”的块数（MAX_IN_FLIGHT = 32）。这确保了无论输入文件是 100MB 还是 100GB，SafeMask 的内存占用始终稳定在 300MB 左右。

并行处理会导致“快块先出”的问题。为了保证输出文件行序与原文 100% 一致，SafeMask 消费者端维护了一个 BTreeMap 缓冲区。只有当序号连续的块处理完时，才会触发 BufWriter 聚合写入，实现了真正的并发处理，顺序输出。

SafeMask 的匹配逻辑并非简单的正则遍历，而是采用了分类分级混合引擎。

针对固定词（项目名、敏感关键字），我们在预编译阶段检测模式是否包含正则元字符。如果是纯文本，则将其注入 AC 自动机。

复杂度：无论你有 10 条还是 10,000 条规则，AC 自动机都能在 $O(n)$ 时间内（仅需扫描一次原文）完成匹配，彻底规避了正则引擎随规则增加而产生的性能指数级波动。

我们直接基于 regex::bytes 在原生字节流 [u8] 上操作。

当多个规则产生冲突（例如 IPv4 匹配了 192.168.1.1，而 URL 匹配了整个 http://192.168.1.1）时，引擎执行：

传统的脱敏是“打码”，SafeMask 的脱敏是**“语义重塑”**。

输入原文：Connection failed for user: admin, host: 192.168.1.10, api_key: sk-proj-123456...
SafeMask 结果：Connection failed for user: <ADMIN_USER>, host: <INTERNAL_IP>, api_key: <OPENAI_KEY>

为什么这很重要？ 这种方式在抹除隐私的同时，通过标签（Tags）保留了上下文。AI 依然知道那里是一个 IP 或一个密钥，从而能给出精准的排查建议，而不是一脸懵逼地问你 *** 是什么。

SafeMask 不仅是一个脚本，它是一个具有“科技感”的生产力工具。

系统哨兵 (System Sentinel)：高性能异步轮询剪贴板（500ms），检测到敏感变化立即自动拦截，并写回脱敏后的安全副本。
Tauri v2 赋能：利用全新的 Capability 权限系统，实现了最小化权限访问。包体积仅几 MB，内存占用不到同类 Electron 产品的 1/10。
v1.1.0 重磅更新：
- 窗口置顶 (Always-on-Top)：新增悬浮控制，点击“图钉”按钮，SafeMask 立即化身“隐私监视器”，始终浮动在 IDE 边缘。
- 圆滑控制胶囊：重新设计的 Header UI，整合了“哨兵模式”开关，中文语境深度适配。

作为一款隐私工具，SafeMask 严守三条底线：

SafeMask 采用 Rust 2024 + Vue 3 + Tailwind CSS 打造，目前已在 GitHub 开源。

如果你厌倦了在处理日志时小心翼翼，或者正在寻找一个高性能的 Rust 桌面端实战案例，欢迎围观我的代码：

GitHub 仓库： github.com/AiToByte/Sa…

欢迎交流：

SafeMask - 让每一行数据，都能安全地拥抱 AI。 Developed with ❤️ by XiaoSheng