所有的还是还是先搞明白基础
上周对我来说挺特别的。
一半时间在现实世界里慢慢开车、陪家人;
另一半时间在电脑前,把一个一直“会用但没真懂”的东西,从头拆了一遍。
这两件事看起来完全不相关,但回头看,它们其实都在教我同一件事:
不要急,先把基础弄明白。
第一次载着爷爷奶奶开车
我刚拿到驾照不久,最想做的一件事,就是带爷爷奶奶坐一次我开的车。
他们从小看着我长大,却还没体验过“被我接送”。
真正坐进驾驶位、载着他们的时候,我才发现那种感觉和自己练车完全不一样。
兴奋是有的,但更多的是紧张——方向盘不只是我一个人的事了。
果然,新手还是会犯错。
在一个路口,我没注意到网格线不能停车,直接违章了。
第二天我调整好心态,又带他们在上海转了一圈。
从浦西的老街区,到浦东的高楼天际线,最后停在武康大楼附近。
看到他们抬头看建筑、讨论变化的时候,我突然意识到——
这趟路本身,比“去哪儿”更重要。
那一刻我不是在展示技术,而是在陪他们走一段时间。
把 Transformer 从“听过”拆到“懂一点”
上周另一件占了我很多时间的事,是系统地学了一遍 Transformer。
在这之前,我对 Transformer 的状态大概是:
知道它很重要,
知道 GPT、BERT 都是它的衍生,
但更多是“用过”,而不是“懂”。
这次我给自己定了一个目标:
不追求全记住,但一定要搞清楚它为什么这样设计。
我刻意没有只用一个渠道学习,而是混着来:
- B 站的视频,帮我理解注意力机制到底是怎么算的
- OpenAI 和一些官方资料,让我明白 GPT 为什么是 decoder-only
- Hugging Face 上的项目,让我看到模型在真实代码里长什么样
- YouTube 的一些讲解,则让我意识到它的局限和可能的改进方向
慢慢地我发现,Transformer 真正厉害的地方,并不是某一个“聪明点子”,
而是一整套能彼此配合、协同工作的结构。
很多地方如果不自己从头顺一遍,很容易停留在一种
“好像懂了,但其实说不清”的状态。
一个想法的改变:我不急着从零训练模型了
学到一定程度后,我其实动过一个念头:
要不要从头训练一个本地模型试试?
但冷静想了一下,我暂时放弃了这个计划。
不是因为不想折腾,而是意识到:
在算力和数据都有限的情况下,从零复刻一个接近 Llama 2 水平的模型,性价比并不高。
相比“重新造轮子”,现在对我来说更重要的,可能是:
- 学会如何理解已有模型
- 如何做微调
- 如何在真实场景里把它们用好
这是一次挺重要的心态转变:
从“我能不能自己做一个”,变成“我能不能把现有的东西用对、用稳”。