看到上面这上面这张图片是什么感觉?
有人一定认为这是一篇电商推文广告,如果这么想,那说明这张图片生成的太好了,AI 技术又取得了进步,AI 一年,人间十年。
我生成这张图片的时候也很惊讶,非常震惊。这是一张 AI 生成的图片,上面的海报背景、鞋子、文字宣传(双十二大促、立减 50、包邮)都是 AI 生成的,非人工。
看到这张图片的时候。我觉得这就是某宝、某多刀的一些电商海报首图。
不信你看下面的,都是来自 APP 商品图。
好了,回归正题。
今天的主题是 阿里的 AnyText, 多语言视觉文字生成与编辑工具。
目前来说,很多 AI 文生图的软件,顶级的 MidJourney、Stable Diffusion 这两个,生成图片的质量较比之前,好了不止一大截,最近 MidJourney 推出的 v6 版本,真实感、电影质感很强,看下面的两张图片,能感觉的到吧
但是有一个问题,当生成的图片中出现一些文字内容中,效果没那么好,大家在实践中的过程中,应该有这种感觉的。
不过最近 MidJourney 的 v6 版本出现了合成文字的描述,效果还是很不错的,看下面的一些图片,但是中午还是难搞定。
提示词: 电影海报上的“AI”字样,背景科技感十足,展示 AI 时代以来 --v 6
AnyText 的功能介绍
AnyText 就是针对中文的情况,做的一个多语言文字生成,效果也是很不错的,做的好,以后电商的 AI 商用又是一个可以落地的点。
文中首次看到的图片就是 AnyText 生成,可以支持中文、英语、日语、韩语等多语言的文字生成,还支持对输入图片中的文字内容进行编辑。
这个模型所涉及的文字生成技术为电商海报、Logo 设计、创意涂鸦、表情包等新型 AIGC 应用提供了可能性。
目前可以在魔塔社区体验。
AnyText 主要基于扩散(Diffusion)模型,包含两个核心模块:隐空间辅助模块(Auxiliary Latent Module)和文本嵌入模块(Text Embedding Module)。
其中,隐空间辅助模块对三类辅助信息(字形、文字位置和掩码图像)进行编码并构建隐空间特征图像,用来辅助视觉文字的生成;文本嵌入模块则将描述词中的语义部分与待生成文本的字形部分解耦,使用图像编码模块单独提取字形信息后再与语义信息做融合,既有助于文字的书写精度,也有利于提升文字与背景的一致性。
训练阶段,除了使用扩散模型常用的噪声预测损失,我们还增加了文本感知损失,在图像空间对每个生成文本区域进行像素级的监督,以进一步提升文字书写精度。
魔塔社区搭建的 AnyText
AnyText 有两种运行模式:文字生成和文字编辑,每种模式下提供了丰富的示例
文字生成
在 Prompt 中输入描述提示词(支持中英文),需要生成的每一行文字用双引号包裹,然后依次手绘指定每行文字的位置,生成图片。
文字位置的绘制对成图质量很关键, 请不要画的太随意或太小,位置的数量要与文字行数量一致,每个位置的尺寸要与对应的文字行的长短或宽高尽量匹配。
如果手绘(Manual-draw)不方便, 可以尝试拖框矩形(Manual-rect)或随机生成(Auto-rand)。
多行生成时,每个位置按照一定规则排序后与文字行做对应,Sort Position 选项用于确定排序时优先从上到下还是从左到右。 可以在参数设置中打开 Show Debug 选项,在结果图像中观察文字位置和字形图。也可以勾选 Revise Position 选项,这样会用渲染文字的外接矩形作为修正后的位置,不过偶尔发现这样生成的文字创造性略低。
文字编辑
上传一张待编辑的图片作为参考图(Ref),然后调整笔触大小后,在参考图上涂抹要编辑的位置,在 Prompt 中输入描述提示词和要修改的文字内容,生成图片。
参考图可以为任意分辨率,但内部处理时会限制长边不能超过 768,并且宽高都被缩放为 64 的整数倍。
参数设置
一些案例
看上面的一些案例,还是非常不错的效果,未来可期。
再来看看电商海报的图片怎么样
这里面一个很关键的在于文字的位置,以及手绘的大小,上面已经说了,提供三种方式。
还有一个文字编辑功能
上传一张待编辑的图片作为参考图(Ref),然后调整笔触大小后,在参考图上涂抹要编辑的位置,在Prompt中输入描述提示词和要修改的文字内容,生成图片
--- End ---
现在还没有集成到商用模型或者某些软件上面,但是还记得之前阿里研究院推出的 AI 动画项目“Animate Anyone”嘛,现在已经集成到通义千问 APP 上面了,最近各大平台刷到的兵马俑、马斯克跳科目三的视频,就是这个底层模型集成的。
这个 AnyText 可以去试试,这个如果能落地,电商可能会有很好的落地方向。
去试试吧,有问题来交流。
代码链接 🔗:github.com/tyxsspa/Any…
论文链接 🔗:arxiv.org/abs/2311.03…
魔塔链接 🔗:modelscope.cn/studios/dam…
我是大林,NLP 高级算法工程师,主要从事自然语言处理(NLP)、知识图谱、大模型领域的实际业务落地。持续关注 AIGC 趋势发展,和大家一起交流。加我微信(dalinvip2023),备注【公众号 AIGC】,进 AIGC 交流群一起交流(还有数字人、绘画、技术、AI 变现多方向。)
AIGC 知识库:szqxz4m7fs.feishu.cn/wiki/wikcnM…