DataWhale AI夏令营 :Task2 头脑风暴

67 阅读2分钟

0. 前言

在上一期初步确认了一个Idea之后,团队又对现有的Idea进行了拓展,的Idea以及目前已有Idea的进展

1.已经完成的任务:测试目前选用大模型的对话表现

这两天的工作主要集中在对于Idea的拓展,我们测试了大模型在未调优情况下对从玩家角度提问以及从游戏开发者角度提问的回答情况,整体上来说,给出的答案表现并不稳定,有的时候可以给出相对精确的答案,另外一些情况下给出的答案并无法解决问题。这里我们遇到了大模型幻觉 image.png

2.已经完成的任务:测试新模型表现以及新的UI界面

之前我们的模型主要是基于streamlit+源2.0来搭建的,我们又新测试了llama3.1(8b)的表现,同时更换了一个基于vue的AI 这么做的主要原因是streamlit虽然提供了简洁明了的界面,但是在对UI需要大量重新设计的情况下表现不如预期,而对于大模型的更换测试主要是为了了解不同模型在相同场景下的表现如何

这里需要简单介绍一下llama3.1模型(我们不如请它自我介绍一下?)

image.png

此处我们查看一下llama3.1的表现

image.png

同时我们引入了新的UI框架,其主要使用vue编写,同时具有较高的拓展性

image.png

3.未来需要完成的工作

拓展型任务

  • 前端优化(UI/交互体验)
  • 后端基础功能(登入/注册/后台管理系统/讨论版/.....)

优先任务

  • 模型调优-减少大模型幻觉
    • 优化prompt
    • 基于人类反馈的强化学习对齐
    • 知识库构建