5 latest open-source LLMS
5 个流行的开源大型语言模型
BLOOMZ
OPT-IML
Pythia
LLaMA
Vicuna
Vicuna 和 Alpaca
Alpaca (斯坦福大学)Vicuna-13B (加州大学伯克利分校, 卡内基梅隆大学, 斯坦福大学, 加州大学圣地亚哥分校)
两者都基于 Meta 的 LLaMA(Large Language Model Meta AI)模型.
他们的优点是开源, 但缺点是使用条款不允许用户将其用于商业用途.
价格
- Vicuna 7B 和 13B 的训练成本分别为 140 美元和 300 美元.
- Alpaca 7B 需要 500 美元的数据成本, 以及 100 美元的训练成本.
两者的价格都不高
Codes
- Vicuna 基于包含 70k 样本的用户共享对话进行训练.
- Alpaca 利用来自 davinci-003 API 的自我学习, 包含 52k 样本.
两者的训练代码都可供公共使用.
GitHub
- Vicuna 在 GitHub 上拥有 13.3k 颗星
- Alpaca 拥有 20.2k 颗星.
两者的 GitHub 仓库里都包含了权重, 微调和数据生成代码.
模型评估
在发布 Vicuna 时, 研究人员使用 GPT-4 对其进行了评估. 而 Alpaca 则由一位作者进行了评估. 然而, 评估 AI 聊天机器人就像试图评判一条鱼攀爬树木的能力一样困难, 许多因素需要考虑, 如语言技能, 推理和对上下文的理解.
根据 GPT-4 的评估, 在写作方面, Alpaca 得分为 7/10, 而 Vicuna-13B 得分为 10/10. 原因是 Alpaca 提供了一篇旅行博客的文章概述, 但未按要求实际撰写博客文章, 因此得分较低. 而 Vicuna 撰写了一篇旅行博客的详细文章, 重点突出文化体验和必看景点, 完全满足了用户的要求, 因此得分较高.
尽管这两个模型的功能很强大, 但它们都有其局限性. 例如 Vicuna 特别容易受到训练数据的污染, 因此需要创建新的测试基准. 相比之下, Alpaca 的回答通常比 ChatGPT 更短, 由于 text-davinci-003 的短输出. 该模型还展示了常见的语言模型问题, 包括幻觉和刻板印象. 即使与 text-davinci-003 相比, Alpaca 的幻觉问题更严重. 例如, Alpaca 错误地表示 Tanzania 的首都是 Dar es Salaam, 而实际上在 1974 年已经被 Dodoma 取代. 同时, Alpaca 可能还存在与基础语言模型和指令调整数据相关的其它限制.
虽然 Vicuna 在 GPT4 评估中分数更好, 但 Alpaca 借助 davinci-003 API 进行自我训练的特点是一个优势.
总之, Vicuna 和 Alpaca 都有其优点和限制, 虽然使用条款可能限制商业化, 但它们的开源性是有价值的.