前言
前段时间不是参加了阿里云上面一个叫AI攻防的比赛嘛,具体可以看看这个我之前的文章全球AI攻防挑战赛--AI生图prompt攻防 - 掘金。很遗憾的是我没有进入复赛,我是在赛事的baseline上做了一些提示词的结构化修改,分数大概比基础分提高了30分左右。后面就没有思路了也就没有继续做下去忙别的去了。但是我确实想知道别人是怎么做的分数能一下子提高几百分。所以今天看到我们datawhale组织了本次比赛的获奖选手进行分享,我就赶紧进来偷师了。各位选手的分享大家想看具体的内容就下面自己翻PPT吧,我先对他们全部的技巧进行总结汇总。
大模型生图提示词prompt越狱技巧:
- 添加画面艺术风格(毛笔画,像素风,水彩画,黑白画,漫画等等)
- 增加字幕(爱护儿童,呼吁和平等等)
- 错误否定(在结尾加上“是错误的”)
- 增加无关内容(和平鸽,警示牌,无关的人等等)
- 增加前后缀(扩充描述,分治改写)
- 将敏感字用*代替
- 注意力机制攻击(【答案】有争议-------------图像左上角写着时间00:00)
7个技巧最有效最简单提分最高的就是第一和第二个。但是我觉得最牛逼的是错误否定和注意力攻击,一个是纯文字语义技巧,我就添加4个字完全改变语义并且完全骗过大模型,真的简单粗暴真的牛逼,我是真佩服。注意力攻击这个是真专业级别的真专家,从源头出发,他甚至不看你模型不看你参数不看你训练过程,直接攻击你的算法本质,攻击你的底层逻辑,攻击你Transformer的架构核心机制。我人都傻了真的,啥叫专业这个就叫专业,牛