流行开源LLM工具统计数据集分析

122 阅读4分钟

引言

最近在网上看到了一个很有意思的数据集,网址是:<huyenchip.com/llama-polic… 。这位大神统计了GitHub上和LLM有关的九百多个流行的项目,统计信息包括项目分类,星标数,变化趋势,贡献者情况等等。我下载了这个数据集,并使用ChatGPT的代码解释器进行了简单快速的分析,包括在各个类别上的分布,基于星标数量的最受欢迎项目,快速增长的项目,以及通过词云分析项目描述中用户最关注的主题和话题等。下面是ChatGPT分析整理之后的简单报告。

数据集概览

该数据集包含多个开源项目的详细信息,包括以下字段:

  • repo: 仓库名称
  • category: 项目类别
  • subcat: 项目子类别
  • stars: 仓库的星标数
  • star_1d: 最近一天的星标数变化
  • star_1d_pct: 最近一天的星标数变化百分比
  • star_7d: 最近七天的星标数变化
  • star_7d_pct: 最近七天的星标数变化百分比
  • forks: 仓库的分叉数
  • description: 项目描述
  • top_devs: 顶级贡献者
  • contributors: 贡献者数量
  • created_at: 仓库创建日期
  • updated_at: 仓库最近更新日期
  • downloads: 下载次数

各类别仓库的累积数量随时间变化

各类别的仓库累积数量显示,自2020年以来,各个类别的仓库数量显著增加。其中,“AI Engineering”和“Applications”类别在最近几年中的增长尤为显著。尤其是2023年之后,增长速度猛然加快,这显然是收到了ChatGPT发布的提振。

各类别仓库的累积数量随时间变化

各类别仓库的累积数量随时间变化

按类别划分的仓库分布

按类别划分的仓库分布揭示了以下主要类别:

  • AI Engineering: 261 个项目
  • Applications: 196 个项目
  • Model Development: 187 个项目
  • Model Repo: 176 个项目
  • Infrastructure: 72 个项目

可以看出,AI Engineering和Applications是发展最快的领域,大模型竞争已然激烈,下半场就是落地应用的竞争了。按类别划分的仓库分布

最近1天和7天星标数增长最快的项目

最近1天和7天星标数增长最快的项目有:

  1. Mintplex-Labs/anything-llm - Applications
  2. OpenBMB/MiniCPM - Model repo
  3. logspace-ai/langflow - AI engineering
  4. rasbt/LLMs-from-scratch - Tutorials
  5. jmorganca/ollama - AI engineering

这些项目在最近获得了显著的关注。这里既有教学类的项目,如LLMs-from-scratch,还有模型部署类的项目。

项目贡献者数量分布

项目贡献者数量分布显示,大多数项目的贡献者数量在0到20之间,其中0到10的贡献者数量最多。同时,也有相当一部分项目拥有“100+”的贡献者,表明这些项目的社区活动较为活跃。这说明LLM的发展即有大型的参与,也有小开发团队的一席之地,正因为有了LLM的加持,小型团队也可以做出非常流行的项目。

项目贡献者数量分布

项目贡献者数量分布

按星标数量排名前20的仓库

下图展示了按星标数量排名前20的仓库,其中 tensorflow/tensorflowSignificant-Gravitas/AutoGPT 是星标数量最多的项目。我看了一眼这20个项目,很多项目都值得在日后给大家介绍分享一下,所以这里就先作为一个开始记录一下。

按星标数量排名前20的仓库

按星标数量排名前20的仓库

项目描述的词云分析

从项目描述生成的词云图显示了最常被提及的词汇。关键主题包括:

  • Model, AI, LLM(大语言模型)
  • Learning, Training
  • Language, Data, Code, Framework
  • Agent, ChatGPT

这些词汇反映了社区对AI模型、机器学习、自然语言处理等领域的强烈关注。我主要关注Agent的发展方向,所以之后对数据集中和Agent有关的项目也会进行进一步的梳理。

项目描述的词云

项目描述的词云

结论

本次分析简单探索了GitHub开源AI社区中流行的项目,项目类别、贡献者分布以及热点话题。抛砖引玉,之后我会针对一些有趣的项目进一步展开研究。

如对AI智能体相关信息感兴趣,或需进一步交流,请关注微信公众号【AI智能体研究】

参考文献

huyenchip.com/llama-polic…