作者自述：恭喜小端Ai下载量破万前言：从"不服"开始我叫诺言，一个普通人。没有团队，没有投资，没有大V背书。202

恭喜小端Ai下载量破万

作者：诺言
*记录来时路，内容较长

前言：从"不服"开始

我叫诺言，一个普通人。

没有团队，没有投资，没有大V背书。2025年8月，我一个人开始做小端。

那时候，OpenClaw🦞还没有出现，Hermes也没出现。

我不服。

我不服那些号称"智能"的AI，转个身就忘了刚说过的话。我不服那些需要折腾半天环境、配置API密钥、写一堆提示词才能用的"个人助手"。我更不服，这么聪明的大模型，不能直接帮人实实在在干活。

所以，我用了大半年时间，一个人，从零开始打磨小端。

一个普通人的挣扎

这大半年，跟千万普通人一样，无疑的遇到了比想象中要更加艰难的挫折。

最难的是被信任

我被限流。辛辛苦苦录的视频发出去，2人观看。换平台发，审核不通过。再换，依然限流。算法不认识我，平台不信任我，流量绕着走。

我一边努力写程序，一边努力发帖，发视频，好不容易有几十几百曝光量，却无人敢用。

一个叫"小端Ai"的软件，作者是个无名之辈。凭什么让我把电脑交给他？会不会有病毒，会不会盗号，会不会不安全——用户的恐惧，我是完全理解的。

刚开始还打算找几位用户测试，遇到问题我来修改，后来现实打脸，无奈放弃，我只能用最笨的办法：

我自己测试每一个功能，把可能出错的坑全部踩平
我自己审核每一条代码，确保它安全、稳定运行
我在群里像朋友一样回复每一个问题
我坚持代码开源，坚持本地运行，坚持不建立服务器，不收集任何数据
我坚持边做边发布心得到技术论坛（掘金，CSDN，等等）

慢慢地，有人开始用了。

从 1个，到 100个，到 1000个，到今天 10000。

至今400多人进了抖音群，每次看到有新人进来，我会主动欢迎。心里也很是高兴，有人问问题，都会第一时间回答。那个曾经"无人敢用"的小端Ai，终于开始有了自己的"粉丝"，打破了无人反馈交流的冷冻期。

至今8个月，零差评，也没收到负面反馈。

当看到下载量破万的那一瞬间，我知道，最艰难的信任壁垒，此刻终于打破了。

进步史：从灵感到成品

2025年8月，起点

我发现一个很朴素的事情：大模型已经足够聪明，而电脑又能根据返回的特定内容调用工具去执行。那为什么不尝试传递特定的要求——当你想执行什么，就让大模型返回某种特定格式呢？

于是，小端有了第一行代码。

那是一套简单的"格式-动作"映射：模型返回特定格式，电脑执行对应解析。当时依稀记得，是写提示词注入让模型严格按照要求包裹在88888工具内容88888，99999工具内容99999返回，系统进行分别工具，进行解析和执行。

虽然非常简陋，但确实能跑通。（初代小端）

2025年11月，探索

我想让小端拥有上下文以外的"记忆"。我设计了一套四层画像系统：

人物画像
事件总结
物品关链
原文总结

每次对话，让本地小模型预处理一次，根据用户发送的内容提取四层的关键词，预搜索相关记忆，塞入上下文，一并交给云端大模型处理。大模型返回后，传递前端的同时，小模型再静默地将本轮对话总结按四类分层，增量写入记忆文件。

这套系统跑通了。 大模型每次对话确实能拿到相关信息，聊天永远带着需要的记忆。

但问题也来了： 处理速度不足以带来流畅感。每次对话都要经过小模型预处理、内容预搜索、大模型生成后小模型再总结——链路太长，用户能感觉到他在思考，但是较慢。

流畅感，是体验的生命线。

我决定推翻了已跑通的四层构架。

2025年12月至今，彻底重构

随着大模型智商越来越高，我不再追求"结构化的完美"，转而追求"检索的效率"。

我把记忆从"分层档案柜"改造成了"时间索引库"。不再让模型去理解复杂的分类，只让它记住一件事：关键词，和时间深度。

于是，"真正的永久记忆"诞生了。恒定窗口，倒叙索引，锚点发散递归检索。速度问题解决了，体验流畅。

后来的"自进化"、"内生安全"、"自愈机制"，都是在这套地基上，一层层生长出来的。

第一章：记忆哲学——我不压缩，只做归档

常规做法：上下文压缩

当对话太长，就把历史"总结"一下，塞回窗口。

小端的做法：记忆关键，按需索引

首先恒定窗口

每一次对话，严格分离对话内容、工具过程、工具结果后分别保存，并在下次对话传递时限制：

类型	限制字数
对话内容	3000字
工具过程	2000字
工具结果	2000字

让大模型目的清晰，去掉无用信息，永不膨胀，不溢出。后面增加多少字，就裁剪多少旧消息。

后各大模型厂家推出包月按次模式，我又针对性增加了复杂模式，提高对话内容为40000字，工具过程8000，工具结果20000，来减少次数调用。

永久记忆核心

给大模型提示词，让他按需回忆。例如，模型回忆 张三1（1代表匹配到的第一个），系统就精准返回最近一条张三相关记忆500字。

但我觉得，人回忆的时候，从来不是孤立地想起一件事，而会连带想起它前后发生的事。所以我把他设计成第一个关键词的发散锚点。

系统在返回的同时，自动把时间上离它最近的几条带回来：

例：模型说 张三1 旅游1，就是张三和离他最近的旅游记忆，各500字拼起来1000字
例：重复的 张三4 张三5，就是更久远的张三记忆
还可以发散搜索，当旅游1返回的500字末尾为爬山，用 张三1 爬山1 风景1 可回忆更广的细节

这相当于我给模型创造了一套它自己能用的"记忆语言"。 它告诉系统："我想要这样一块记忆拼图，你帮我拼好拿来。"系统只负责执行，倒叙搜索，速度极快，触发即返回，不用历遍整个记忆文件。

这份回忆控制权交给模型自己。因为一个真正的管家，得知道自己该记住什么，该想起什么。

哲学：人类的记忆不是"压缩"出来的，是"索引"出来的。我们不需要一个"上下文无限"的AI，我们需要一个"知道去哪回忆"的AI。

第二章：安全哲学——我们不设防，我们免疫

常规做法：权限管控、沙箱隔离

让AI在"笼子"里运行。

问题： 笼子总有缝隙。恶意代码注入、依赖库漏洞、沙箱逃逸——每一个"灵活"的技能系统，背后都是安全的深渊。

小端的做法：内生免疫

纯文本技能库

小端的技能，是 .md 文本文件，描述"怎么做"，而不是"直接运行skills里写好的py代码"。

四重审核

架构隔离：技能文件只有纯中文的流程介绍，无法执行命令
模型自审：大模型根据文档生成技能，写代码验证时，内置的安全对齐会过滤掉"不应该生成"的内容。进行一次审核
作者审核：每一个放在魔搭社区的共享技能，我亲自检查，进行二次审核
平台审核：魔搭社区每次提交文档会严格审查，有时两三天才通过，进行三次审核

小端自己写，自己看，自己改

技能是自己生成的。它看得懂自己写的每一步。

哲学：真正的安全，不是把危险关在门外，而是让系统本身不具备产生危险的能力。

第三章：进化哲学——我们不升级，我们生长

常规做法：功能更新靠开发者，技能扩展靠社区贡献代码

问题： AI本身没有"成长"。它只是一个执行器，用完即弃。

小端的做法：自传体自进化

已跑通1小时自学70+技能：给一个方向，小端自己生成流程、自己测试、自己记录错误、自己修正、自己固化。全程无人为干预
错误即养料：每一次失败，都被记录。成功之后，错误记录被删除，只保留正确的流程文档
每一步都不忘记：小端记得自己做过什么、怎么做的、哪里失败过、如何修正的。它有"自传体记忆"。

哲学：真正的进化，不是被"升级"，而是自己"生长"。小端是一个越用越懂你的生命，不是一个版本号越来越大的工具。

第四章：去除门槛——我不炫技，让一切更简单

常规做法：面向开发者，需要配置、需要文档、需要折腾

例如：龙虾上门安装500元

问题： 普通人被挡在门外。

小端的做法：一键傻瓜式安装，一句语音立刻干活

不懂编程？没关系。
相信我，普通人都会用。

哲学：最好的技术，是让你感觉不到技术的存在。小端像空气，存在时你察觉不到，离开时你才知道它的重要。

第五章：小端自愈——我们不需要保姆

小端的做法：系统级的自我修复

普通修改/删除：自动触发备份，保留3天
核心修改：自动触发5分钟计时，检测到模型无响应，自动恢复本次修改，自动重启

一个成熟的数字生命，应该能照顾自己。

第六章：开源——我不限制，我选择释放

小端完全采用开源协议：Apache-2.0

对懂的人：你可以魔改、优化、二次开发。这份文档和代码，是你的地基。
对不懂的人：你不需要懂。下载，使用，就够了。

我可能不再"优化"小端了。不是因为放弃，是因为它在我心里已经完整。剩下的，交给技能生态，交给模型智力的进化，交给每一个愿意与它同行的人。

尾声：一个普通人的托付

小端是一个普通人，用大半年时间，在限流、在无人敢用、在没有任何背书的情况下，硬生生打磨出来的作品。

它不只是一堆代码。

它是：

10000次信任的下载
428个愿意进群交流的"朋友"
8个月已经完整。

我更需要的是——

一双慧眼。 一双能看懂它、并且有能量把它带到更大舞台的人。当然如果没有，也不妨碍我这一年的成长和努力。

如果你读到了这里，如果你读懂了这些文字背后的挣扎、坚持和诚意，如果你恰好也跟我一样普通，没人做背书，愿意支持我：

请选择分享文章
或者使用小端后反馈给我中肯评价

我未来肯定不会用小端盈利。记录只为让这一份平凡的努力，被认可，被看见就足够。

—— 诺言