体验完阿里推出的AnyText，效果确实不错，如果落地，AI加持下的电商会怎么样？看到上面这上面这张图片是什么感觉？有

看到上面这上面这张图片是什么感觉？

有人一定认为这是一篇电商推文广告，如果这么想，那说明这张图片生成的太好了，AI 技术又取得了进步，AI 一年，人间十年。

我生成这张图片的时候也很惊讶，非常震惊。这是一张 AI 生成的图片，上面的海报背景、鞋子、文字宣传(双十二大促、立减 50、包邮)都是 AI 生成的，非人工。

看到这张图片的时候。我觉得这就是某宝、某多刀的一些电商海报首图。

不信你看下面的，都是来自 APP 商品图。

好了，回归正题。

今天的主题是阿里的 AnyText, 多语言视觉文字生成与编辑工具。

目前来说，很多 AI 文生图的软件，顶级的 MidJourney、Stable Diffusion 这两个，生成图片的质量较比之前，好了不止一大截，最近 MidJourney 推出的 v6 版本，真实感、电影质感很强，看下面的两张图片，能感觉的到吧

但是有一个问题，当生成的图片中出现一些文字内容中，效果没那么好，大家在实践中的过程中，应该有这种感觉的。

不过最近 MidJourney 的 v6 版本出现了合成文字的描述，效果还是很不错的，看下面的一些图片，但是中午还是难搞定。

提示词: 电影海报上的“AI”字样，背景科技感十足，展示 AI 时代以来 --v 6

AnyText 的功能介绍

AnyText 就是针对中文的情况，做的一个多语言文字生成，效果也是很不错的，做的好，以后电商的 AI 商用又是一个可以落地的点。

文中首次看到的图片就是 AnyText 生成，可以支持中文、英语、日语、韩语等多语言的文字生成，还支持对输入图片中的文字内容进行编辑。

这个模型所涉及的文字生成技术为电商海报、Logo 设计、创意涂鸦、表情包等新型 AIGC 应用提供了可能性。

目前可以在魔塔社区体验。

AnyText 主要基于扩散（Diffusion）模型，包含两个核心模块：隐空间辅助模块（Auxiliary Latent Module）和文本嵌入模块（Text Embedding Module）。

其中，隐空间辅助模块对三类辅助信息（字形、文字位置和掩码图像）进行编码并构建隐空间特征图像，用来辅助视觉文字的生成；文本嵌入模块则将描述词中的语义部分与待生成文本的字形部分解耦，使用图像编码模块单独提取字形信息后再与语义信息做融合，既有助于文字的书写精度，也有利于提升文字与背景的一致性。

训练阶段，除了使用扩散模型常用的噪声预测损失，我们还增加了文本感知损失，在图像空间对每个生成文本区域进行像素级的监督，以进一步提升文字书写精度。

魔塔社区搭建的 AnyText

AnyText 有两种运行模式：文字生成和文字编辑，每种模式下提供了丰富的示例

文字生成

在 Prompt 中输入描述提示词（支持中英文），需要生成的每一行文字用双引号包裹，然后依次手绘指定每行文字的位置，生成图片。

文字位置的绘制对成图质量很关键, 请不要画的太随意或太小，位置的数量要与文字行数量一致，每个位置的尺寸要与对应的文字行的长短或宽高尽量匹配。

如果手绘（Manual-draw）不方便，可以尝试拖框矩形（Manual-rect）或随机生成（Auto-rand）。

多行生成时，每个位置按照一定规则排序后与文字行做对应，Sort Position 选项用于确定排序时优先从上到下还是从左到右。可以在参数设置中打开 Show Debug 选项，在结果图像中观察文字位置和字形图。也可以勾选 Revise Position 选项，这样会用渲染文字的外接矩形作为修正后的位置，不过偶尔发现这样生成的文字创造性略低。