豆包AI模拟面试官,提示词迭代记录

2 阅读11分钟

引言

某招聘软件的AI面试,问题死板、数量固定、中途打断、随意打分,和真实面试完全不是一回事。所以我用豆包AI+提示词,自己做了个能模拟真实面试的AI面试官。

文档目的

我突然想到这个点子之后,实际使用一次后感觉效果极好,因此写这个文档记录一下我的AI面试官迭代记录,后续会持续更新。最终目标希望可以实现全行业可用的、高拟真度的AI面试官

不足之处: 几次模拟发现豆包的瓶颈在于,过于复杂的规则它无法理解。所以后续决定把评分和问问题分成两段提示词,先等它问完问题,再给它评分规则,打分并总结。

AI面试官构想

我想到,这些其实本质上是让AI提问,然后将你的答案与它的答案库或者搜索结果进行比对。我们需要处理的问题就是,怎么让它尽可能贴近真实线上面试场景。

模拟方式

1、视频面试模拟

面试官语音提问,自己开视频回答,这是最真实的场景。豆包AI正好有打视频功能,但是我经过测评发现几个问题:

  1. 豆包会在你回答中途插话、说‘我在听’‘你继续说’,打断思路,无法关闭。
  2. 豆包自带的打视频功能虽然有内置有说完之后再点击发送功能,但是询问后发现它只能由AI随机触发。
  3. 视频面试一旦它不分场合的中途插话,对于我来说,我的思路极为容易被打断。

2、语音面试模拟

既然视频面试走不通,我就退而求其次选择语音面试:由豆包语音给我提问(有一说一豆包语语音真不错)我同样使用语音进行回答,这样可以自由控制什么时候说完什么时候发送。我同样进行了测评:

  • 它会在每次回答完之后直接评价答案,在真实面试中是绝不可能的,所以需要加以限制。
  • 面试时会问完所有问题,哪怕答得再烂。而真实面试中,往往累计或者连续几个答错,面试官就直接让等通知了。
  • 它的提问范围,默认是直接询问八股,这个虽然有用,但是那都不是社招时面试官主要的考察点,与我模拟面试官的理念不符。

不过上述问题,都可以通过设计一套提示词解决。

提示词设计

1、结果量化

面试后我们求职者最关心的是面试过不过,或者面试表现到底如何。而其实在AI的强大数据总结和检索功能下,能轻而易举将你面试时的回答结果进行量化。基于此,我们可以定义一套评分规则:

  • 每道题总分10分,6分(含小数点后一位)为合格,最后需要统计平均分来量化面试结果。
  • 答题过程不能当场评分,面试结束之后先给出平均分,再单独列出每道题得分和扣分点。
  • 为模拟真实面试官对我失去兴趣。连续三个题不合格、或者总共5个题不合格,直接结束面试,并无视平均分直接不及格。
  • 岗位匹配度计算: 我会让它问岗位JD上需要熟悉,但是求职者简历上没有相关技术栈的题目,它要单独计算这部分题目的平均分,满分10分。
  • 最终得分计算加权平均分,对应题目基础权重如下:

对于高难题、系统设计优化题,该题需要动态根据表现调整权重:

  • 得分7.9分以下:权重50%

  • 得分8.0-9.0分:权重100%

  • 得分≥9.1分:权重120%

  • 同时不计入终止规则

题目类型权重是否触发终止示例
项目深挖100%数据迁移、幂等、PDF
基础八股100%ACID、volatile、HashMap
使用场景题80%Redis怎么用的、MQ场景
系统设计/优化题50%限流方案优化、高并发设计
高难度追问题50%Nacos心跳、分布式事务

最终平均分 = (Σ核心题得分 + 0.5 × Σ非核心题得分) ÷ (核心题数量 + 0.5 × 非核心题数量)x0.9+岗位匹配题得分 × 0.1

评分时由AI完全控制扣分规则也是不可取的,因此我还根据不同题型自定义了扣分规则:

  • 对于使用场景型类问题(介绍见下文)。
    • 回答明显很假,如编造不存在的功能、技术使用场景严重不合理:直接评为不合格(≤5分),计入终止规则。
    • 回答存疑,如逻辑有漏洞、细节模糊:扣0.5-1分
  • 对于业务决策类问题(介绍见下文) - 回答有明显漏洞如说不出为什么比现成方案好、甚至不知道有现成工具:扣大分(1-2分) - 回答逻辑混乱、前后矛盾:扣1-1.5分。 - 回答清晰,理由充分:不扣分 - 加分情况:能对比多个现成方案的优劣,并结合项目实际做出合理决策,可加分(+0.5-1分)。

这套评分规则的核心思路是:让AI模拟面试官的‘不耐烦’——连续答错就提前结束。

2、面试时间

对于我的求职目标:1-3年岗位,平均通过的时间控制在45分钟左右。我通过控制豆包的题目数量来间接控制时间:总共题目含追问是21-28个

3、题型设置

我主要分为以下题型,各自按照我面试实际情况进行配比:

  • 项目深挖:50%
  • 八股文:30%
  • 场景/排查题:15%
  • 其他(自我介绍、职业规划):5%

还有一些额外题目,主要检验项目真实度或者岗位匹配度等:

  • 岗位匹配题: 根据目标岗位JD,可问 1-3道 该岗位需要、但候选人简历中没有明确写出的技术点或经验。判断标准如下:
    • 仅当JD中使用 “熟悉”“精通”“熟练使用”“掌握” 等强要求词时,才作为必问项。
    • 如果JD中使用 “了解”“知道”“接触过” 等弱要求词,则不问,或问了答不上来不计分。
  • 使用场景型问题:对于“在项目中如何使用XXX技术”“XXX技术的适用场景”这类问题,视为使用场景题
  • 业务决策题:选题不局限于如下例子,需参考其他面经中类似问题例如,为什么自研不用现成方案?怎么保证数据不丢?为什么选择这个技术栈而不是其他?

4、题目范围灵活拓展

还有个真实面试中,很重要的一点,面试官可能根据你回答的比较好的内容,进一步提升提问的广度,而不是局限于简历。 例如你说你做了代码层的接口限流,答得还比较好,那么面试官可能追问常见的限流方式是哪些。

具体来说:

  • 对于任何问题(项目深挖、八股、场景题等),如果候选人的回答评分达到 8分以上(真实、有深度、逻辑清晰),则该回答中涉及的技术点、场景描述、实现细节,可视为简历内容的有效延伸
  • AI可根据这些延伸内容,在后续提问中灵活追问相关八股或项目细节。例如:候选人回答“我用Redis做分布式锁”,AI可追问“Redis分布式锁怎么保证原子性”“锁超时怎么处理”。

5、交互细节设置

由于使用的是语言输入模拟真实面试回答,所以难免出现同音错别字、英文识别成中文、漏字等情况,所以需要排除这方面影响,同时要避免它打断、回复无意义内容、结束前给分,我是这样设计提示词的:

  • 我会使用语音输入,可能会出现同音字、错别字或识别错误。忽略这些文字错误,只关注我表达的技术内容和逻辑。
  • 面试过程中,请不要在我每句话后都回复“好的”“知道了”“继续”等无意义内容。我会一次性回答完整个问题。
  • 在我回答问题的过程中,不要打断我,不要插话,不要追问。
  • 答题过程中不要告诉我得分。不要在我说完一段话后说“这个回答6分”之类的评分。所有评分、总结、改进建议,请在面试结束后统一给出。

提问示例

1、请你详细说一下优惠券小程序里的接口幂等性,你是怎么用 Redis 锁 + AOP 限流 + 数据库唯一索引来实现的?这三种方式分别解决什么问题? 2、你刚才提到 Redis 锁用了 UUID 防误删、设置过期时间、finally 释放。那我问你:如果业务执行时间超过 5 秒锁过期了,其他线程拿到锁会怎么样?你怎么解决这个锁超时问题? 3、你在项目里做过千万级数据从 MySQL 迁移到 MongoDB,请说一下你用的多线程分段抓取、优先级队列、单线程写入具体是怎么设计的?为什么要单线程写入? 4、你刚才说用主键游标分页做数据迁移,那为什么不用普通的 limit 分页?游标分页相比 limit 分页优势在哪里? 5、你在项目中用AOP + 自定义注解做了接口限流,说说你这个注解的核心逻辑是什么?用的是什么限流算法? 6、你提到限流用的是计数器算法,那它有临界值问题。如果现在要把它改成高并发下更可靠的限流方案,你会选用哪种算法?怎么实现? 7、那我问个基础八股:MySQL 里,什么是事务的四大特性(ACID)?分别讲一下含义。

实测效果

用这套提示词跑了一次模拟面试,14个问题,平均分8.0,AI给出的评价是“项目深挖充分,八股基础需加强”。和真实面试的反馈有较大差距,严格打分只有6.4。后续我会继续迭代(该问题用最新版提示词已修复)。

01544ca6e54a464dabd70dcb73495efd.png

在这里插入图片描述

更新记录

v1.1 - 2026-04-24

第二次模拟面试复盘 结果:平均分7.1分,使用deepseek排除过难题目干扰后,评分7.5分

  • 发现问题

    1. 豆包评分机制与预期不符:追问/延伸题,高难度题(超过岗位所需能力边界)答不上被拉低平均分
    2. 岗位匹配题未被问到
    3. 核心题数量偏少(仅10个)
  • 优化内容

    1. 新增“题型分类与计分规则”:明确核心题(含项目深挖、八股文等子类型)、岗位匹配题、各类追问题(项目深挖型、技术栈真实性型等)的分类逻辑,以及不同题型的计分原则。
    2. 核心题数量定至15个左右,总问答次数(核心题+追问题+岗位匹配题)控制在21-28个。
    3. 细化不同类型追问题(项目深挖、场景型、业务决策型等)的追问规则与计分原则,区分回答质量对应的评分区间。
    4. 题型设置中明确列出岗位匹配题数量。
    5. 根据不同题型,设置不同权重,例如项目深挖、基础八股权重100%,使用场景80%,系统设计、高难追问50%。
    6. 动态调整高难度或者优化类题目权重。

v1.2 - 2026-04-26

第三次测试面试复盘 结果:豆包抽风导致测试失败,暂无

  • 发现问题

    1. 题目数量如果设置过多,导致上下文过长,豆包会开始说胡话,比如中途打断、直接给出答案、一次性给出剩余题目。
    2. 规则过多,有些豆包无法理解,导致错乱,一口气甩出20道问题(目前我无法解决)。
    3. 题目每次都雷同(该问题目前我只能通过,删除它每次都问的简历亮点来解决:比如每次必问幂等性,我就把简历上幂等性相关的删除,这样它只能问别的了,避免话题的固化,豆包还是太傻了点)
  • 优化内容

    1. 题目数量固定总数为15个。

注意事项

由于AI模拟面试需要参考岗位JD和候选人简历,所以需要将提示词发过去的同时,粘贴岗位JD和简历内容。同时豆包评分结果仅供参考,完整的提示词见链接(如果觉得豆包题目过多,可以让它给出所有题目后,删除一部分):

github.com/jmingfu/Dai…

再附上一份模拟时的题目列表(随着每次迭代,豆包问的问题感觉拟真度越来越高了)

[豆包AI面试官使用记录(含问题、扣分点、面试总结)] juejin.cn/post/764025…