2023年4月13日 2分钟阅读
作者 De Simone
浙江大学和微软亚洲研究院的研究人员最近发表的一篇论文探讨了使用大型语言模型(LLM)作为控制器来管理抱团取暖等社区中现有的AI模型。
该研究背后的关键想法是利用不同领域可用的现有人工智能模型,并利用大型语言模型(如ChatGPT)所显示的高级语言理解和生成能力将它们连接起来。
具体来说,使用ChatGPT在收到用户请求时进行任务规划,根据Hugging Face中提供的功能描述选择模型,用选定的人工智能模型执行每个子任务,并根据执行结果总结响应。
据研究人员称,他们的方法使得解决语言、视觉、语音和其他领域的复杂人工智能任务成为可能。
为了建立ChatGPT和Hugging Face模型之间的联系,HuggingGPT使用Hugging Face库中的模型描述,并将它们融合到ChatGPT的提示中。
该过程的第一阶段是任务规划,ChatGPT分析用户请求并将其分解为可使用库中模型解决的任务。第二阶段包括选择能够最好地解决计划任务的模型。下一个逻辑步骤是执行任务并将结果返回给ChatGPT。最后,ChatGPT通过整合所有模型的预测结果生成响应。
对于任务规划阶段,HuggingGPT使用任务规范和演示。一个任务规范包括四个槽,定义一个ID;任务类型,如视频、音频等;依赖关系,定义前提任务;和任务参数。演示将用户请求与任务规范的序列联系起来。例如,用户请求 "在图像/exp2.jpg中,动物是什么,它在做什么?"与四个任务的序列相关联:从图像到文本、图像分类、物体检测和最后的问题回答任务。
六位论文作者表示,他们将HuggingGPT用于一些实验,包括涉及多个子任务的简单和复杂任务。
HuggingGPT在Hugging Face上围绕ChatGPT整合了数百个模型,涵盖了24个任务,如文本分类、对象检测、语义分割、图像生成、问题回答、文本到语音以及文本到视频。实验结果证明了HuggingGPT在处理多模态信息和复杂人工智能任务方面的能力。
据他们的创始人说,HuggingGPT仍有一些局限性,包括效率和延迟,主要与每个阶段至少需要与一个大型语言模型互动一次有关;上下文长度限制,与一个LLM可以接受的最大标记数有关;以及系统稳定性,由于LLM可能偶尔不符合指令,以及由LLM控制的一个模型可能失败,这可能会降低稳定性。