5 latest open-source LLMS

65 阅读2分钟

5 latest open-source LLMS

5 个流行的开源大型语言模型

BLOOMZ

BLOOMZ.jpg huggingface.co/bigscience/…

github.com/bigscience-…

OPT-IML

OPT-IML.jpg huggingface.co/facebook/op…

github.com/facebookres…

Pythia

Pythia.jpg huggingface.co/EleutherAI/…

github.com/EleutherAI/…

LLaMA

LLaMA.png huggingface.co/decapoda-re…

github.com/facebookres…

Vicuna

huggingface.co/eachadea/vi…

github.com/lm-sys/Fast…

Vicuna 和 Alpaca

Vicuna-vs-Alpaca.jpg Alpaca (斯坦福大学)Vicuna-13B (加州大学伯克利分校, 卡内基梅隆大学, 斯坦福大学, 加州大学圣地亚哥分校) 两者都基于 Meta 的 LLaMA(Large Language Model Meta AI)模型.

他们的优点是开源, 但缺点是使用条款不允许用户将其用于商业用途.

info.jpg

价格

  • Vicuna 7B 和 13B 的训练成本分别为 140 美元和 300 美元.
  • Alpaca 7B 需要 500 美元的数据成本, 以及 100 美元的训练成本.

两者的价格都不高

Codes

  • Vicuna 基于包含 70k 样本的用户共享对话进行训练.
  • Alpaca 利用来自 davinci-003 API 的自我学习, 包含 52k 样本.

两者的训练代码都可供公共使用.

GitHub

  • Vicuna 在 GitHub 上拥有 13.3k 颗星
  • Alpaca 拥有 20.2k 颗星.

两者的 GitHub 仓库里都包含了权重, 微调和数据生成代码.

模型评估

在发布 Vicuna 时, 研究人员使用 GPT-4 对其进行了评估. 而 Alpaca 则由一位作者进行了评估. 然而, 评估 AI 聊天机器人就像试图评判一条鱼攀爬树木的能力一样困难, 许多因素需要考虑, 如语言技能, 推理和对上下文的理解.

根据 GPT-4 的评估, 在写作方面, Alpaca 得分为 7/10, 而 Vicuna-13B 得分为 10/10. 原因是 Alpaca 提供了一篇旅行博客的文章概述, 但未按要求实际撰写博客文章, 因此得分较低. 而 Vicuna 撰写了一篇旅行博客的详细文章, 重点突出文化体验和必看景点, 完全满足了用户的要求, 因此得分较高.

尽管这两个模型的功能很强大, 但它们都有其局限性. 例如 Vicuna 特别容易受到训练数据的污染, 因此需要创建新的测试基准. 相比之下, Alpaca 的回答通常比 ChatGPT 更短, 由于 text-davinci-003 的短输出. 该模型还展示了常见的语言模型问题, 包括幻觉和刻板印象. 即使与 text-davinci-003 相比, Alpaca 的幻觉问题更严重. 例如, Alpaca 错误地表示 Tanzania 的首都是 Dar es Salaam, 而实际上在 1974 年已经被 Dodoma 取代. 同时, Alpaca 可能还存在与基础语言模型和指令调整数据相关的其它限制.

虽然 Vicuna 在 GPT4 评估中分数更好, 但 Alpaca 借助 davinci-003 API 进行自我训练的特点是一个优势.

总之, Vicuna 和 Alpaca 都有其优点和限制, 虽然使用条款可能限制商业化, 但它们的开源性是有价值的.