20240130 大模型快讯

111 阅读2分钟

//社区生态//

  1. 讯飞星火大模型v3.5发布。 讯飞发布了完全基于全国产算力平台“飞星一号”训练的星火大模型v3.5,同时开源深度适配国产算了的iFlyTekSpark-13B大模型。
  2. Code Llama 70B大模型发布。 Meta发布并开源了基于Llama 2的大模型Code Llama 70B,在HumanEval评估集击败GPT-4,成为SOTA代码生成大模型。

//行业落地//

  1. AI代码助手Fitten Code免费开放使用。 非十科技推出基于自研代码大模型的AI代码助手Fitten Code,对多款编辑器进行了适配,相较竞品具有更快响应速度。

//多模态大模型//

  1. 首个图像序列基准测试Mementos开源。 马里兰大学联合北卡罗来纳大学开源了针对多模态大模型的图像序列的基准测试,图像序列涵盖动漫图像序列、机器人图像序列和真实世界图像序列,GPT-4V和Gemini准确率均低于20%。
  2. LaVIT多模态大模型在数据层面统一图像和文字。 北大和快手联合攻关,将图像和文字视为同类,借鉴大语言模型的自回归预测方式,成功训练多模态大模型LaVIT。

//基础技术//

  1. 北冥坞发布解决大模型融合复用难题。 南大周志华团队推出基于“学件”概念的北冥坞平台,可存储各式机器学习模型和规约,实现模型之间的融合及复用难题。
  2. 大模型剪枝后效率更高。 由ETHz和微软设计的SliceGPT方法,删除大模型权重矩阵中的行和列以减少参数规模,在保持模型性能的同时,大大减少了计算消耗。
  3. 纯文本读懂视觉表征。 由MIT科学家研究,得出仅通过形容视觉表征的文本内容也可以训练大模型掌握视觉世界中例如形状、颜色等诸多概念。