面试官:你了解Prompt顺序影响大模型性能吗？本人大四，现在一边准备就业的笔试面试，一边赶毕业论文😭 我的毕设选题是

本人大四，现在一边准备就业的笔试面试，一边赶毕业论文😭

我的毕设选题是《Prompt顺序影响大模型性能研究》。

本来打算做个简单实验：对比问题前置和上下文前置以及提到材料就给上下文三种提示词形式，然后测试token总消耗量和回答准确率，但担心这样做毕设不够严谨，无法通过答辩，想求大佬们给点建议🙏

目前我想到了两个问题：

1. API缓存问题

调用大模型API时，服务商有缓存机制，如果问题相近，第二次提问会直接返回缓存答案，导致token消耗量和响应时间的数据不准，而为了实验尽量严谨，难免会多次测试相同数据求均值。我想到的解决办法是，每次给前置后置的请求都加一些无意义标识，破坏缓存匹配，但是响应时间如何测试呢？

2. 模型联网作弊问题

最开始我打算用简单的英语文章做测试材料，比如高考英语阅读，但担心agent会直接联网搜答案，根本不是自主推理。如果我在提示词里加强约束，明确让agent大模型禁止联网，这样是否可行？或者自制原创阅读题？但感觉挺耗费时间。

3. 作为本科论文是否有意义？

最后关于这个猜想也有可能是我不够了解大模型底层，可能现在也早有论文说明了大模型的一个思考方式，提示词理结构顺序怎样更合适，如果已经客观存在了这些东西，并且别人已经研究过了，那我这个猜想实验啥的感觉意义不大。

因为具体实验方案还没开始设计，肯定还有很多考虑不周的地方，所以也不确定这个选题思路到底行不行。另外时间比较紧迫，也不清楚做这类实验型论文大概需要多久。

还有个纠结的点：要不干脆简单写个毕设程序，围绕程序随便凑一篇论文水过去算了？