ChatGPT集成Dall-E 3图像生成技术指南

3 阅读2分钟

某机构刚刚将其最新的图像生成器Dall-E 3集成到了ChatGPT中。该工具目前处于测试阶段,仅面向某机构每月20美元服务的ChatGPT Plus订阅用户。在启用Dall-E 3后,可以用日常语言向聊天机器人发出提示,生成独特的图像。

使用入门

  1. 订阅与启用:需要先成为ChatGPT Plus订阅用户。在ChatGPT的设置中,找到“Beta功能”选项,打开Dall-E 3的开关。
  2. 自然语言提示:与以往需要精确描述不同,现在可以用更自然的对话方式提出需求。例如:“画一只像宇航员的猫站在火星上”。
  3. 迭代优化:生成的图像可能不完美。可以通过继续对话提出修改意见,例如:“把宇航员头盔改成红色”。模型会根据上下文调整生成结果。
  4. 分辨率与格式:输出图像默认为1024×1024像素,支持PNG格式。目前不支持指定其他宽高比或更高分辨率。

技术特点与局限性

  • 上下文理解:得益于ChatGPT的对话能力,模型能记住之前讨论的细节,并在后续图像生成中保持一致的元素。
  • 文本渲染弱:在图像中生成清晰的文字(如标语、标签)仍然经常失败,会出现乱码或缺失字母。
  • 复杂场景受限:当提示要求同时生成多个独立对象(如“五个人分别做不同动作”)时,模型容易混淆或遗漏部分对象。
  • 内容安全限制:内置了内容过滤器,会拒绝生成暴力、色情或涉及特定公众人物的请求。

提示工程建议

  • 具体描述:避免“一只狗”这样过于宽泛的提示,改为“一只金毛犬坐在沙滩上看日落,旁边有一副墨镜”。
  • 风格指定:可以添加“数字艺术风格”、“水彩画风格”、“像皮克斯电影”等关键词来引导输出。
  • 迭代而非一步到位:先要求一个简单的构图,确认方向后再逐步增加细节,比一次性给出复杂描述效果更好。FINISHED