2025最后一周

23 阅读3分钟

在2025年的最后一周,我系统地学习了一遍 Transformer 的底层结构。

在这之前,我对 Transformer 的认识其实很典型:知道它重要,知道 GPT、BERT 都是基于它,也知道“自注意力机制”这个词,但更多停留在“能用 API”的阶段。

这次我逼自己从头拆起,从最基础的数学表达式、矩阵运算,到数据在模型里的流动路径,一步一步去看。过程并不轻松,信息量很大,也经常需要反复回头确认自己是不是真的理解了。

真正开始推的时候,我才意识到:
它并不是某一个聪明点子,而是一整套环环相扣的设计。很多地方如果只停留在概念层面,很容易以为懂了。

这次学习对我最大的意义,不是记住了多少细节,而是让我意识到:当我真正理解底层结构时,对模型的判断会变得更踏实,而不是靠猜。

除了学习模型结构,我还重新设计了自己的个人网站。

之前的网站更像一个展示页,内容分散在各个平台,自己回头找起来也不方便。这次我给它定了一个很明确的目标:好检索、少维护。

为此我写了一个简单的 Agent,用来自动收集我在不同地方留下的文字内容,比如技术笔记和随手记录的想法,然后统一整理、同步到网站上。

它的功能不复杂,但对我来说很重要:
我不想把时间花在重复整理上,而是希望工具能帮我处理这些事情,让我专注于思考和实践本身。

作为对近期学习的一个小练习,我还写了一个程序,用电脑摄像头实时识别画面中的物体,并尝试用一句接近人类表达的方式告诉我:
这是什么,以及它可能是用来做什么的。

现在它能比较稳定地识别键盘、水杯、书本等常见物体,描述还算正常,但距离我理想中的那种自然、流畅的“视觉助手”还有明显差距。

尽管如此,这个小实验让我第一次比较直观地感受到:
计算机视觉和自然语言并不是两个割裂的领域,它们真的可以在一个很小的项目里结合起来。

这一周,我还翻出了一部初中用过的安卓手机。

与其让它继续躺在抽屉里,我更想看看它还能被用来做什么。我计划给它刷机,并尝试两个方向:

一个是把它和树莓派结合,做成一个简单的智能猫眼,用来查看门外情况;
另一个是让它作为一个轻量级的 Agent 终端,处理一些简单的自动化任务。

这些想法现在都还在尝试阶段,结果也未必理想,但我很享受这种“把旧东西重新用起来”的过程。

过去一年,我学了很多,也试了不少方向。有些事情没有得到结果,但它们并没有白费,反而让我更清楚自己适合往哪里走。

最近我越来越确定一件事:
与其追求什么都做,不如把一个小功能、一个具体场景做到足够好。哪怕范围不大,只要体验足够扎实,就会有人真正需要它。

同时,我也开始意识到,单纯写软件有时会让我有点“悬空”。新的一年,我希望更多地接触硬件,让代码不只停留在屏幕上,而是能在现实世界里产生变化。

这一周没有什么特别耀眼的成果,但我知道,我在慢慢把地基打稳。
这对我来说,比快速向前更重要。