引言
最近在网上看到了一个很有意思的数据集,网址是:<huyenchip.com/llama-polic… 。这位大神统计了GitHub上和LLM有关的九百多个流行的项目,统计信息包括项目分类,星标数,变化趋势,贡献者情况等等。我下载了这个数据集,并使用ChatGPT的代码解释器进行了简单快速的分析,包括在各个类别上的分布,基于星标数量的最受欢迎项目,快速增长的项目,以及通过词云分析项目描述中用户最关注的主题和话题等。下面是ChatGPT分析整理之后的简单报告。
数据集概览
该数据集包含多个开源项目的详细信息,包括以下字段:
- repo: 仓库名称
- category: 项目类别
- subcat: 项目子类别
- stars: 仓库的星标数
- star_1d: 最近一天的星标数变化
- star_1d_pct: 最近一天的星标数变化百分比
- star_7d: 最近七天的星标数变化
- star_7d_pct: 最近七天的星标数变化百分比
- forks: 仓库的分叉数
- description: 项目描述
- top_devs: 顶级贡献者
- contributors: 贡献者数量
- created_at: 仓库创建日期
- updated_at: 仓库最近更新日期
- downloads: 下载次数
各类别仓库的累积数量随时间变化
各类别的仓库累积数量显示,自2020年以来,各个类别的仓库数量显著增加。其中,“AI Engineering”和“Applications”类别在最近几年中的增长尤为显著。尤其是2023年之后,增长速度猛然加快,这显然是收到了ChatGPT发布的提振。
各类别仓库的累积数量随时间变化
按类别划分的仓库分布
按类别划分的仓库分布揭示了以下主要类别:
- AI Engineering: 261 个项目
- Applications: 196 个项目
- Model Development: 187 个项目
- Model Repo: 176 个项目
- Infrastructure: 72 个项目
可以看出,AI Engineering和Applications是发展最快的领域,大模型竞争已然激烈,下半场就是落地应用的竞争了。
最近1天和7天星标数增长最快的项目
最近1天和7天星标数增长最快的项目有:
- Mintplex-Labs/anything-llm - Applications
- OpenBMB/MiniCPM - Model repo
- logspace-ai/langflow - AI engineering
- rasbt/LLMs-from-scratch - Tutorials
- jmorganca/ollama - AI engineering
这些项目在最近获得了显著的关注。这里既有教学类的项目,如LLMs-from-scratch,还有模型部署类的项目。
项目贡献者数量分布
项目贡献者数量分布显示,大多数项目的贡献者数量在0到20之间,其中0到10的贡献者数量最多。同时,也有相当一部分项目拥有“100+”的贡献者,表明这些项目的社区活动较为活跃。这说明LLM的发展即有大型的参与,也有小开发团队的一席之地,正因为有了LLM的加持,小型团队也可以做出非常流行的项目。
项目贡献者数量分布
按星标数量排名前20的仓库
下图展示了按星标数量排名前20的仓库,其中 tensorflow/tensorflow 和 Significant-Gravitas/AutoGPT 是星标数量最多的项目。我看了一眼这20个项目,很多项目都值得在日后给大家介绍分享一下,所以这里就先作为一个开始记录一下。
按星标数量排名前20的仓库
项目描述的词云分析
从项目描述生成的词云图显示了最常被提及的词汇。关键主题包括:
- Model, AI, LLM(大语言模型)
- Learning, Training
- Language, Data, Code, Framework
- Agent, ChatGPT
这些词汇反映了社区对AI模型、机器学习、自然语言处理等领域的强烈关注。我主要关注Agent的发展方向,所以之后对数据集中和Agent有关的项目也会进行进一步的梳理。
项目描述的词云
结论
本次分析简单探索了GitHub开源AI社区中流行的项目,项目类别、贡献者分布以及热点话题。抛砖引玉,之后我会针对一些有趣的项目进一步展开研究。
如对AI智能体相关信息感兴趣,或需进一步交流,请关注微信公众号【AI智能体研究】