最近两周因为自己开发的视频应用一直无法顺利发布内容,导致更新有所延迟。上周终于把文章发了出来,而这一周,科技领域又迎来了新的浪潮——clawdbot 的推出确实令人震撼,也再次印证了一个趋势:未来无疑是“智能体”的天下。
我目前还没有亲自尝试clawdbot,主要是出于对信息安全的考虑。即使是在虚拟环境中运行,我仍然觉得存在一定的风险。不过看了一些用户的演示视频,确实功能强大,令人印象深刻。
与此同时,我也终于把“模型训练”这件事情搞明白了。过去我一直以为训练模型就是从零开始构建,最近才发现原来有这么多不同的训练方式和路径。比如,我现在在尝试的是一种基于数据库自动抓取数据并进行分析的智能体,它可以自动从网络获取信息并生成结构化建议,完全不需要我手动干预。这让我对“智能体”的理解又深了一层。
在模型训练技术上,我也学到了不少新东西。比如 LoRA(Low-Rank Adaptation),这是一种高效微调大模型的技术。我之前一直以为微调也要重新训练整个模型,但 LoRA 只需要训练一小部分参数,就能让模型适配新任务,大大节省了计算资源和时间。另一种常用的是 SFT(Supervised Fine-Tuning),也就是监督微调,我现在主要在用这种方式。
不过训练过程还是挺耗时的。跑完三个 epoch 就要一个多小时,而我以前训练的小模型都是以“万”为单位的迭代次数。如果按这个速度去微调一个大模型,估计要跑上一百多个小时,差不多一周的时间。这也让我意识到,硬件和算力仍然是普通人玩转 AI 的一大门槛。
再上一周我还探索了一种颇为创新的工作模式——让我的两台Mac电脑实现内存共享,协同完成计算任务。这种尝试不仅提升了工作效率,更让我对Apple技术路线的精妙设计有了更深体会。
当然,我要学的还有很多。技术发展实在太快了,感觉自己每天都在追赶。clawdbot 我计划下周尝试一下,准备用本地部署的模型来交互,甚至尝试让它操控我的电脑,看看能不能实现自动化操作。关键可能还是模型本身是否足够强大和稳定。
除了技术,上周还和爷爷去了不少地方。一直以为上海已经逛遍了,结果发现还是有很多没去过的地方,比如世博园。以前经常路过,却一次都没进去过。这次终于进去转了转,感觉又打开了一个新的视角。