非常重要的一周所有的还是还是先搞明白基础上周对我来说挺特别的。一半时间在现实世界里慢慢开车、陪家人；另一半时间在电

所有的还是还是先搞明白基础

上周对我来说挺特别的。

一半时间在现实世界里慢慢开车、陪家人；
另一半时间在电脑前，把一个一直“会用但没真懂”的东西，从头拆了一遍。

这两件事看起来完全不相关，但回头看，它们其实都在教我同一件事：
不要急，先把基础弄明白。

我刚拿到驾照不久，最想做的一件事，就是带爷爷奶奶坐一次我开的车。

他们从小看着我长大，却还没体验过“被我接送”。

真正坐进驾驶位、载着他们的时候，我才发现那种感觉和自己练车完全不一样。
兴奋是有的，但更多的是紧张——方向盘不只是我一个人的事了。

果然，新手还是会犯错。
在一个路口，我没注意到网格线不能停车，直接违章了。

第二天我调整好心态，又带他们在上海转了一圈。
从浦西的老街区，到浦东的高楼天际线，最后停在武康大楼附近。

看到他们抬头看建筑、讨论变化的时候，我突然意识到——
这趟路本身，比“去哪儿”更重要。

那一刻我不是在展示技术，而是在陪他们走一段时间。

上周另一件占了我很多时间的事，是系统地学了一遍 Transformer。

在这之前，我对 Transformer 的状态大概是：

知道它很重要，
知道 GPT、BERT 都是它的衍生，
但更多是“用过”，而不是“懂”。

这次我给自己定了一个目标：
不追求全记住，但一定要搞清楚它为什么这样设计。

我刻意没有只用一个渠道学习，而是混着来：

慢慢地我发现，Transformer 真正厉害的地方，并不是某一个“聪明点子”，
而是一整套能彼此配合、协同工作的结构。

很多地方如果不自己从头顺一遍，很容易停留在一种
“好像懂了，但其实说不清”的状态。

学到一定程度后，我其实动过一个念头：
要不要从头训练一个本地模型试试？

但冷静想了一下，我暂时放弃了这个计划。

不是因为不想折腾，而是意识到：
在算力和数据都有限的情况下，从零复刻一个接近 Llama 2 水平的模型，性价比并不高。

相比“重新造轮子”，现在对我来说更重要的，可能是：

这是一次挺重要的心态转变：
从“我能不能自己做一个”，变成“我能不能把现有的东西用对、用稳”。