作者自述:

3 阅读10分钟

恭喜小端Ai下载量破万

作者:诺言
*记录来时路,内容较长


前言:从"不服"开始

我叫诺言,一个普通人。

没有团队,没有投资,没有大V背书。2025年8月,我一个人开始做小端。

那时候,OpenClaw🦞还没有出现,Hermes也没出现。

我不服。

我不服那些号称"智能"的AI,转个身就忘了刚说过的话。我不服那些需要折腾半天环境、配置API密钥、写一堆提示词才能用的"个人助手"。我更不服,这么聪明的大模型,不能直接帮人实实在在干活。

所以,我用了大半年时间,一个人,从零开始打磨小端。


一个普通人的挣扎

这大半年,跟千万普通人一样,无疑的遇到了比想象中要更加艰难的挫折。

最难的是被信任

我被限流。辛辛苦苦录的视频发出去,2人观看。换平台发,审核不通过。再换,依然限流。算法不认识我,平台不信任我,流量绕着走。

我一边努力写程序,一边努力发帖,发视频,好不容易有几十几百曝光量,却无人敢用。

一个叫"小端Ai"的软件,作者是个无名之辈。凭什么让我把电脑交给他?会不会有病毒,会不会盗号,会不会不安全——用户的恐惧,我是完全理解的。

刚开始还打算找几位用户测试,遇到问题我来修改,后来现实打脸,无奈放弃,我只能用最笨的办法:

  • 我自己测试每一个功能,把可能出错的坑全部踩平
  • 我自己审核每一条代码,确保它安全、稳定运行
  • 我在群里像朋友一样回复每一个问题
  • 我坚持代码开源,坚持本地运行,坚持不建立服务器,不收集任何数据
  • 我坚持边做边发布心得到技术论坛(掘金,CSDN,等等)

慢慢地,有人开始用了。

1个,到 100个,到 1000个,到今天 10000

至今400多人进了抖音群,每次看到有新人进来,我会主动欢迎。心里也很是高兴,有人问问题,都会第一时间回答。那个曾经"无人敢用"的小端Ai,终于开始有了自己的"粉丝",打破了无人反馈交流的冷冻期。

至今8个月,零差评,也没收到负面反馈。

当看到下载量破万的那一瞬间,我知道,最艰难的信任壁垒,此刻终于打破了。


进步史:从灵感到成品

2025年8月,起点

我发现一个很朴素的事情:大模型已经足够聪明,而电脑又能根据返回的特定内容调用工具去执行。那为什么不尝试传递特定的要求——当你想执行什么,就让大模型返回某种特定格式呢?

于是,小端有了第一行代码。

那是一套简单的"格式-动作"映射:模型返回特定格式,电脑执行对应解析。当时依稀记得,是写提示词注入让模型严格按照要求包裹在88888工具内容8888899999工具内容99999返回,系统进行分别工具,进行解析和执行。

虽然非常简陋,但确实能跑通。(初代小端)


2025年11月,探索

我想让小端拥有上下文以外的"记忆"。我设计了一套四层画像系统

  • 人物画像
  • 事件总结
  • 物品关链
  • 原文总结

每次对话,让本地小模型预处理一次,根据用户发送的内容提取四层的关键词,预搜索相关记忆,塞入上下文,一并交给云端大模型处理。大模型返回后,传递前端的同时,小模型再静默地将本轮对话总结按四类分层,增量写入记忆文件。

这套系统跑通了。 大模型每次对话确实能拿到相关信息,聊天永远带着需要的记忆。

但问题也来了: 处理速度不足以带来流畅感。每次对话都要经过小模型预处理、内容预搜索、大模型生成后小模型再总结——链路太长,用户能感觉到他在思考,但是较慢。

流畅感,是体验的生命线。

我决定推翻了已跑通的四层构架。


2025年12月至今,彻底重构

随着大模型智商越来越高,我不再追求"结构化的完美",转而追求"检索的效率"。

我把记忆从"分层档案柜"改造成了"时间索引库"。不再让模型去理解复杂的分类,只让它记住一件事:关键词,和时间深度

于是,"真正的永久记忆"诞生了。恒定窗口,倒叙索引,锚点发散递归检索。速度问题解决了,体验流畅。

后来的"自进化"、"内生安全"、"自愈机制",都是在这套地基上,一层层生长出来的。


第一章:记忆哲学——我不压缩,只做归档

常规做法:上下文压缩

当对话太长,就把历史"总结"一下,塞回窗口。

小端的做法:记忆关键,按需索引

首先恒定窗口

每一次对话,严格分离对话内容、工具过程、工具结果后分别保存,并在下次对话传递时限制:

类型限制字数
对话内容3000字
工具过程2000字
工具结果2000字

让大模型目的清晰,去掉无用信息,永不膨胀,不溢出。后面增加多少字,就裁剪多少旧消息。

后各大模型厂家推出包月按次模式,我又针对性增加了复杂模式,提高对话内容为40000字,工具过程8000,工具结果20000,来减少次数调用。

永久记忆核心

给大模型提示词,让他按需回忆。例如,模型回忆 张三1(1代表匹配到的第一个),系统就精准返回最近一条张三相关记忆500字。

但我觉得,人回忆的时候,从来不是孤立地想起一件事,而会连带想起它前后发生的事。所以我把他设计成第一个关键词的发散锚点

系统在返回的同时,自动把时间上离它最近的几条带回来:

  • 例:模型说 张三1 旅游1,就是张三和离他最近的旅游记忆,各500字拼起来1000字
  • 例:重复的 张三4 张三5,就是更久远的张三记忆
  • 还可以发散搜索,当旅游1返回的500字末尾为爬山,用 张三1 爬山1 风景1 可回忆更广的细节

这相当于我给模型创造了一套它自己能用的"记忆语言"。 它告诉系统:"我想要这样一块记忆拼图,你帮我拼好拿来。"系统只负责执行,倒叙搜索,速度极快,触发即返回,不用历遍整个记忆文件。

这份回忆控制权交给模型自己。因为一个真正的管家,得知道自己该记住什么,该想起什么。


哲学:人类的记忆不是"压缩"出来的,是"索引"出来的。我们不需要一个"上下文无限"的AI,我们需要一个"知道去哪回忆"的AI。


第二章:安全哲学——我们不设防,我们免疫

常规做法:权限管控、沙箱隔离

让AI在"笼子"里运行。

问题: 笼子总有缝隙。恶意代码注入、依赖库漏洞、沙箱逃逸——每一个"灵活"的技能系统,背后都是安全的深渊。

小端的做法:内生免疫

纯文本技能库

小端的技能,是 .md 文本文件,描述"怎么做",而不是"直接运行skills里写好的py代码"。

四重审核
  1. 架构隔离:技能文件只有纯中文的流程介绍,无法执行命令
  2. 模型自审:大模型根据文档生成技能,写代码验证时,内置的安全对齐会过滤掉"不应该生成"的内容。进行一次审核
  3. 作者审核:每一个放在魔搭社区的共享技能,我亲自检查,进行二次审核
  4. 平台审核:魔搭社区每次提交文档会严格审查,有时两三天才通过,进行三次审核
小端自己写,自己看,自己改

技能是自己生成的。它看得懂自己写的每一步。


哲学:真正的安全,不是把危险关在门外,而是让系统本身不具备产生危险的能力。


第三章:进化哲学——我们不升级,我们生长

常规做法:功能更新靠开发者,技能扩展靠社区贡献代码

问题: AI本身没有"成长"。它只是一个执行器,用完即弃。

小端的做法:自传体自进化

  • 已跑通1小时自学70+技能:给一个方向,小端自己生成流程、自己测试、自己记录错误、自己修正、自己固化。全程无人为干预
  • 错误即养料:每一次失败,都被记录。成功之后,错误记录被删除,只保留正确的流程文档
  • 每一步都不忘记:小端记得自己做过什么、怎么做的、哪里失败过、如何修正的。它有"自传体记忆"。

哲学:真正的进化,不是被"升级",而是自己"生长"。小端是一个越用越懂你的生命,不是一个版本号越来越大的工具。


第四章:去除门槛——我不炫技,让一切更简单

常规做法:面向开发者,需要配置、需要文档、需要折腾

例如:龙虾上门安装500元

问题: 普通人被挡在门外。

小端的做法:一键傻瓜式安装,一句语音立刻干活

  • 不懂编程?没关系。
  • 相信我,普通人都会用。

哲学:最好的技术,是让你感觉不到技术的存在。小端像空气,存在时你察觉不到,离开时你才知道它的重要。


第五章:小端自愈——我们不需要保姆

小端的做法:系统级的自我修复

  • 普通修改/删除:自动触发备份,保留3天
  • 核心修改:自动触发5分钟计时,检测到模型无响应,自动恢复本次修改,自动重启

一个成熟的数字生命,应该能照顾自己。


第六章:开源——我不限制,我选择释放

小端完全采用开源协议:Apache-2.0

  • 对懂的人:你可以魔改、优化、二次开发。这份文档和代码,是你的地基。
  • 对不懂的人:你不需要懂。下载,使用,就够了。

我可能不再"优化"小端了。不是因为放弃,是因为它在我心里已经完整。剩下的,交给技能生态,交给模型智力的进化,交给每一个愿意与它同行的人。


尾声:一个普通人的托付

小端是一个普通人,用大半年时间,在限流、在无人敢用、在没有任何背书的情况下,硬生生打磨出来的作品

它不只是一堆代码。

它是:

  • 10000次信任的下载
  • 428个愿意进群交流的"朋友"
  • 8个月已经完整。

我更需要的是——

一双慧眼。 一双能看懂它、并且有能量把它带到更大舞台的人。当然如果没有,也不妨碍我这一年的成长和努力。


如果你读到了这里,如果你读懂了这些文字背后的挣扎、坚持和诚意,如果你恰好也跟我一样普通,没人做背书,愿意支持我:

  • 请选择分享文章
  • 或者使用小端后反馈给我中肯评价

我未来肯定不会用小端盈利。记录只为让这一份平凡的努力,被认可,被看见就足够。


—— 诺言