非常重要的一周

18 阅读3分钟

所有的还是还是先搞明白基础

上周对我来说挺特别的。

一半时间在现实世界里慢慢开车、陪家人;
另一半时间在电脑前,把一个一直“会用但没真懂”的东西,从头拆了一遍。

这两件事看起来完全不相关,但回头看,它们其实都在教我同一件事:
不要急,先把基础弄明白。

第一次载着爷爷奶奶开车

fdf7ee5681fc753214028e9b3e991574.jpg

我刚拿到驾照不久,最想做的一件事,就是带爷爷奶奶坐一次我开的车。

他们从小看着我长大,却还没体验过“被我接送”。

真正坐进驾驶位、载着他们的时候,我才发现那种感觉和自己练车完全不一样。
兴奋是有的,但更多的是紧张——方向盘不只是我一个人的事了。

果然,新手还是会犯错。
在一个路口,我没注意到网格线不能停车,直接违章了。

第二天我调整好心态,又带他们在上海转了一圈。
从浦西的老街区,到浦东的高楼天际线,最后停在武康大楼附近。

62deb9058fad7660f800cb47a45bb3eb.jpg

看到他们抬头看建筑、讨论变化的时候,我突然意识到——
这趟路本身,比“去哪儿”更重要。

那一刻我不是在展示技术,而是在陪他们走一段时间。

把 Transformer 从“听过”拆到“懂一点”

上周另一件占了我很多时间的事,是系统地学了一遍 Transformer。

在这之前,我对 Transformer 的状态大概是:

知道它很重要,
知道 GPT、BERT 都是它的衍生,
但更多是“用过”,而不是“懂”。

这次我给自己定了一个目标:
不追求全记住,但一定要搞清楚它为什么这样设计。

我刻意没有只用一个渠道学习,而是混着来:

  • B 站的视频,帮我理解注意力机制到底是怎么算的
  • OpenAI 和一些官方资料,让我明白 GPT 为什么是 decoder-only
  • Hugging Face 上的项目,让我看到模型在真实代码里长什么样
  • YouTube 的一些讲解,则让我意识到它的局限和可能的改进方向

慢慢地我发现,Transformer 真正厉害的地方,并不是某一个“聪明点子”,
而是一整套能彼此配合、协同工作的结构。

image.png

很多地方如果不自己从头顺一遍,很容易停留在一种
“好像懂了,但其实说不清”的状态。

一个想法的改变:我不急着从零训练模型了

学到一定程度后,我其实动过一个念头:
要不要从头训练一个本地模型试试?

但冷静想了一下,我暂时放弃了这个计划。

不是因为不想折腾,而是意识到:
在算力和数据都有限的情况下,从零复刻一个接近 Llama 2 水平的模型,性价比并不高。

相比“重新造轮子”,现在对我来说更重要的,可能是:

  • 学会如何理解已有模型
  • 如何做微调
  • 如何在真实场景里把它们用好

这是一次挺重要的心态转变:
从“我能不能自己做一个”,变成“我能不能把现有的东西用对、用稳”。