最近browser-use非常火,两个创始人,不满于996,直接裸辞,开始了一段独立开发者之旅,在这个过程中,两个人认识,并迅速确立了实现浏览器自动化这个方向,开始吭哧吭哧写代码,参加了YC的冬季项目,最后拿到不错的成绩。
言归正传,我试用了一下browser-use,没有跑通,几次都失败,但是我对于浏览器自动化比较感兴趣,因为近期在关注agent方面的比较多,也在github上开源过一个agent-thinking-process,里面有好几个版本,基本介绍了agent的核心思路,有兴趣可以看看。
browser-use这个库。核心特点在于用大语言模型,识别网页中可交互的元素,然后根据指令判断,去使用playwright与哪个元素进行交互。这基本就是他的核心思想。
基于这,我创建了nano-browseruse,一个用130行代码实现browser-use8000行代码的功能。
大家可以clone尝试,能跑通。